Categories: News

Fake voice, real danger!

L’intelligenza artificiale sta facendo passi da gigante, tanto che tutte le più grandi aziende del settore IT hanno qualche progetto collegato a essa. L’ultimo annuncio in questo senso proviene da Microsoft che ha realizzato un modello di Machine Learning text-to-speech Synthesis (TTS) denominato VALL-E, capace di replicare la voce di una qualunque persona riproducendone il tono e addirittura anche lo stato emotivo. La cosa ancora più interessante è che per realizzare questa “duplicazione” non occorrono lunghe sedute di addestramento, ma basta soltanto una registrazione di soli tre secondi e poi la macchina sarà capace di riprodurre qualsiasi messaggio digitato dall’utente con la voce del soggetto registrato.

 

Ha imparato ascoltando audiolibri

Microsoft ha definito questo sistema basato sulla tecnologia EnCodec di Meta come modello linguistico con codec neurale. Per la sua realizzazione, nella fase di pre-training sono state fatte “digerire” al sistema ben 60.000 ore di parlato in inglese per un totale di 7.000 diversi oratori, un quantitativo che, almeno secondo Microsoft, è notevolmente più ampio di qualunque altro sistema simile finora realizzato. Il parlato è stato fornito da LibriLight, la libreria audio di Meta che raggruppa voci riprese soprattutto dagli audiolibri della piattaforma LibriVox. La particolarità di questo modello text-to-speech è che non vengono modulate delle forme d’onda pre-campionate per sintetizzate il parlato, ma è lo stesso VALL-E a generare dei codec audio personalizzati partendo dalla voce registrata da duplicare. Le informazioni acquisite durante la registrazione vengono scomposte in micro-token acustici che poi vengono a loro volta utilizzate dall’intelligenza artificiale per comprendere come quella voce possa pronunciare altre parole e sintetizzare i relativi suoni.

 

Ascoltare per credere

Collegandoci a questo sito è  possibile utilizzare la demo-site di VALL-E. Qui sono disponibili alcuni sample audio grazie ai quali è possibile confrontare il parlato originale con un parlato creato tramite una sintesi vocale realizzata con un modello TTS tradizionale e con il parlato realizzato con il TTS di VALL-E. il risultato è spettacolare, anche se non perfetto, visto che all’ascolto attento è possibile percepire qualche artefatto tipico delle macchine TTS, ma è niente, soprattutto se si considera che i testi sono stati ottenuti dopo aver “ascoltato” solo tre secondi di parlato.

 

VALL-E: potenzialmente un crack (anche per pericolosità)

Abbiamo già detto che modelli TTS capaci di replicare la voce umana ce n’è a bizzeffe. VALL-E di Microsoft però, eleva effettivamente a un livello più alto l’umanizzazione della voce sintetica facendo compiere un balzo in avanti alla qualità del machine speech. Immaginiamo adesso di unire un video deepfake con la sintesi vocale di VALL-E: chi sarebbe in grado di distinguere una dichiarazione reale fatta da un politico di alto rango o da un importante capitano d’industria da una falsa dichiarazione “costruita” al computer sfruttando l’IA e gli strumenti da essa offerti? Ma ovviamente la voce ricostruita potrebbe addirittura essere utilizzata per ingannare un sistema di riconoscimento biometrico basato sull’impronta vocale.  Per evitare utilizzi poco ortodossi, Microsoft non ha inteso rendere disponibile pubblicamente il codice di VALL-E.

hj_backdoor

Share
Published by
hj_backdoor

Recent Posts

Giornata mondiale della password

Check Point raccomanda l'uso di password forti per proteggere gli utenti dalle minacce informatiche

1 giorno ago

La tecnologia nelle tessere della metro

Le carte trasporto servono a ridurre lo spreco di carta, velocizzare il transito dei passeggeri…

3 giorni ago

Kaspersky presenta Thin Client 2.0

Kaspersky ha sviluppato una propria infrastruttura thin client basata su KasperskyOS per garantire una connessione…

5 giorni ago

C’è una backdoor in Linux!

 Un semplice ritardo di 600 ms ha portato alla scoperta di una delle più pericolose…

7 giorni ago

Password sicure… e in cassaforte!

Sono tante. Troppe. E ricordarle tutte e praticamente impossibile. Ecco perché sono nati i password…

1 settimana ago

Dati e identità protetti dall’IA

Microsoft ha presentato Copilot for Security, un “robocop” per chi si occupa di sicurezza

2 settimane ago

Abbonati ad Hackerjournal per un anno a 33,90 € con digitale in omaggio anziché 46,90 €!

CLICCA QUI PER ABBONARTI!