Microsoft ha mostrado una inteligencia artificial capaz de imitar cualquier voz humana. Se llama VALL-E, al igual que el anterior algoritmo DALL-E. Si lo sabes, este último crea una imagen a partir de un texto.
VALL-E puede imitar el timbre y la forma de hablar al escuchar la voz de una persona real en solo tres segundos. Aunque el sonido suena un poco como la voz de un robot, el resultado sigue siendo impresionante.
Microsoft lo llamó un “modelo de lenguaje de códec neuronal”. VALL-E se construyó sobre la base de EnCodec (un códec de audio que utiliza técnicas de aprendizaje automático), desarrollado por Meta hace un año, en 2022.
Gizchina Noticias de la semana
VALL-E imita la voz de cualquiera
Otros métodos de conversión de texto a voz tienen en cuenta las formas de onda. Pero VALL-E genera códecs de audio separados de texto y audio. De hecho, analiza cómo suena una persona. Luego, divide esa información en partes separadas (llamadas “tokens”) a través de EnCodec. Y finalmente, utiliza los datos de entrenamiento para comparar lo que “sabe” sobre cómo sonaría esa voz si pronunciara otras oraciones fuera de la muestra de tres segundos.
VALL-E fue enseñado usando un especial biblioteca. Este último contiene 60.000 horas de discursos en inglés de más de 7.000 personas. Los desarrolladores sugieren que el método podría usarse para aplicaciones de texto a voz de alta calidad. Por ejemplo, puede usarlo para editar grabaciones de voz donde se permite editar el habla humana. Como resultado, puede crear contenido de audio (como voces en off para audiolibros) y más.
Por supuesto, tal tecnología también puede conllevar cierto peligro. Tarde o temprano, los usuarios “tuertos” lo convertirán en una herramienta de chantaje. Digamos que pueden usar la inteligencia artificial para demostrar que las personas famosas dijeron algo que no dijeron. Ya ha habido tales casos con deepfakes en formato de video.
Digamos que has visto el video con Elon Musk, que promete grandes ganancias por invertir en una criptomoneda sospechosa.