Mit nur rund drei Sekunden Audioinput erstellt die Microsoft-KI Vall-E eine professionelle Sprachsynthese. Doch die Entwickler*innen bei Microsoft sind sich auch der Risiken die mit diesen erstaunlichen Potenzialen kommen bewusst.
Erst kürzlich kündigte Microsoft ihr neues Text-to-Speech KI-Tool namens VALL-E an, welches die Stimme einer Person identisch simulieren kann und sowohl den emotionalen Ton als auch die weitere akustische Umgebung berücksichtigt.
Vielerlei neue, kreative und effiziente Möglichkeiten können sich in Zukunft gerade im Zusammenhang mit Marketing ergeben. VALL-E ist jedoch bei weitem nicht die erste Sprachsynthese, die auf realer, menschlicher Sprache basiert, neu daran ist jedoch der enorm kurze Audio-Input, der benötigt wird.
Die neuartige Software kann bestehende Sprachaufnahmen einer Person mit Hifle künstlicher Intelligenz analysieren und reproduzieren. Einen vorgegebenen Text kann die diese dann im Sprach- und Stimmstil der sprechenden Person nachsprechen. Dabei werden nicht nur Klang der stimme, sondern auch Sprachstil und die akustische Umgebung imitiert. Die Revolution hierbei, nur drei Sekunden gesprochener Text reichen für eine Stimmimitation aus.
Microsoft läutet mit der KI-Entwicklung von VALL-E eine neue Stufe ein: nicht zuletzt, nachdem bekannt wurde, dass der Konzern auch in das derzeit stark kommunizierte AI-Unternehmen ChatGPT investieren wolle.