Intelligenza artificiale, in 15 secondi replicherà una voce umana in ogni lingua

OpenAI, dopo ChatGPT e Sora arriva Voice Egine: promette di rivoluzionare il campo della sintesi vocale. Preoccupazioni etiche e di sicurezza legate all'uso improprio della tecnologia

30 marzo 2024 | 23.39

Redazione Adnkronos

LETTURA: 2 minuti

OpenAI ha svelato una nuova piattaforma denominata Voice Engine, che promette di rivoluzionare il campo della sintesi vocale. Questo strumento è in grado di generare una voce sintetica a partire da un breve campione audio di soli 15 secondi di una persona, offrendo la possibilità di leggere testi a comando nella lingua originale del campione o in altre lingue. Con l'obiettivo di valutare le applicazioni positive e le misure di sicurezza necessarie, OpenAI ha lanciato accessi limitati a questa tecnologia, collaborando con diverse aziende in vari settori.

Tra i partner che hanno già avuto modo di sperimentare Voice Engine figurano Age of Learning, un'azienda attiva nel settore dell'educazione tecnologica; HeyGen, una piattaforma di storytelling visivo; Dimagi, creatore di software per il settore sanitario di prima linea; Livox, sviluppatore di app di comunicazione AI; e il sistema sanitario Lifespan. Queste collaborazioni hanno permesso di esplorare applicazioni pratiche della tecnologia, come la creazione di contenuti vocali pre-sceneggiati e risposte personalizzate in tempo reale per gli studenti, redatte attraverso GPT-4.

Jeff Harris, membro del team di prodotto di OpenAI per Voice Engine, ha rivelato che lo sviluppo della piattaforma è iniziato alla fine del 2022. La tecnologia sfrutta dati licenziati e pubblicamente disponibili per alimentare le voci preimpostate dell'API di testo-parlato e la funzione Read Aloud di ChatGPT. Tuttavia, l'accesso a Voice Engine sarà limitato a circa dieci sviluppatori, evidenziando la cautela di OpenAI nell'introduzione di questa tecnologia.

Il campo della generazione di testo in audio, in particolare la clonazione vocale basata su intelligenza artificiale, sta vivendo una rapida evoluzione, con aziende come Podcastle ed ElevenLabs che si distinguono per le loro innovazioni. Questo interesse crescente si scontra però con le preoccupazioni etiche e di sicurezza legate all'uso improprio della tecnologia, come dimostrato dal recente bando della Federal Communications Commission statunitense alle chiamate automatizzate che utilizzano voci IA clonate senza consenso.

OpenAI ha imposto ai suoi partner di attenersi a rigide politiche d'uso, che includono il divieto di impersonare individui o organizzazioni senza il loro consenso, l'obbligo di ottenere il consenso esplicito e informato del parlante originale, e l'impegno a non permettere agli utenti di creare voci proprie. Inoltre, tutte le clip audio generate porteranno una watermark per facilitarne la tracciabilità e verrà monitorato attentamente l'utilizzo della voce sintetica. In risposta ai potenziali rischi, OpenAI propone varie misure preventive, come l'eliminazione dell'autenticazione vocale per l'accesso ai conti bancari, politiche per proteggere l'uso delle voci delle persone nell'IA, un maggiore impegno nell'educazione sui deepfake e lo sviluppo di sistemi di tracciamento dei contenuti IA.