In drie seconden je stem nagebootst
I

Microsoft demonstreert VALL-E, een neuraal taalmodel dat bedoeld is voor tekst-naar-spraaksynthese. Het model getraind werd voor meer dan zestigduizend uur aan spraakopnames in de Engelse taal. Daardoor is het model nu al in staat om op basis van een opname van slechts drie seconden, iemands stem vrij realistisch te imiteren!

Afgezien van wat schoonheidsfoutjes is de vooruitgang van VALL-E indrukwekkend te noemen. De geproduceerde stemmen klinken over het algemeen zeer realistisch. Zo realistisch dat doemdenkers nu al van zich laten horen. Zo wordt er gevreesd dat technologieën zoals VALL-E kunnen worden ingezet in de verspreiding van misinformatie, omdat je zo nog makkelijker mensen woorden kan laten uitspreken die ze nooit gezegd hebben (red: inmiddels zijn daar genoeg voorbeelden van in de media verschenen).

ITDaily | VALL-E

Trending in deze nieuwscategorie

LAATSTE NIEUWS

SIDN pakt malafide houders aan

De Stichting Internet Domeinregistratie Nederland (SIDN), beëindigde eind vorig jaar 8.000 .nl-domeinnamen van malafide houders. In 2023 werden in totaal iets meer dan 10.000...