Las tecnologías de inteligencia artificial se están desarrollando a una velocidad increíble. Después de los modelos de IA que pueden crear imágenes a partir de tus palabras y conversar contigo, ahora Microsoft ha desarrollado VALL-E, una IA que puede imitar cualquier sonido que escuche en solo tres segundos. A diferencia de muchas herramientas de inteligencia artificial, VALL-E puede replicar las emociones y el tono de un orador, incluso mientras crea una grabación de palabras que el orador original nunca pronunció. Aquí están los detalles…
VALL-E: La herramienta de IA que puede replicar cualquier voz
Microsoft lanzó recientemente una herramienta de inteligencia artificial conocida como VALL-E que puede replicar las voces de las personas. La herramienta utiliza solo una grabación de 3 segundos de una voz específica como aviso para generar contenido y ha sido entrenada en 60,000 horas de datos de voz en inglés. El modelo de IA puede replicar las emociones y el tono de un hablante, incluso cuando crea una grabación de palabras que el hablante original nunca pronunció.
Este es un avance significativo en el habla generada por IA, ya que los modelos anteriores solo podían replicar la voz, pero no las emociones o el tono del hablante. Un artículo de la Universidad de Cornell usó VALL-E para sintetizar varias voces, y los ejemplos del trabajo están disponibles en GitHub. Si bien las muestras de voz compartidas por Microsoft varían en calidad, algunas suenan naturales, mientras que otras son claramente generadas por máquinas y suenan robóticas. Sin embargo, a medida que la tecnología de IA continúa mejorando, es probable que las grabaciones generadas se vuelvan más convincentes.
Sin embargo, existen preocupaciones sobre las implicaciones éticas de esta tecnología. A medida que la IA se vuelve más poderosa, las voces generadas por VALL-E y tecnologías similares se volverán más convincentes, lo que podría abrir la puerta a llamadas de spam realistas que replican las voces de personas reales que una víctima potencial conoce. También se podría suplantar a políticos y otras figuras públicas, lo que podría dar lugar a la difusión de información falsa en las redes sociales.
Además, hay problemas de seguridad. Algunos bancos usan tecnología de reconocimiento de voz para verificar la identidad de la persona que llama, pero a medida que las voces generadas por IA se vuelven más convincentes, puede volverse más difícil detectar si una persona que llama está usando una voz VALL-E. Además, la tecnología también podría afectar a los actores de voz, ya que es posible que sus servicios ya no sean necesarios si las voces generadas por IA se vuelven más realistas.
VALL-E es una impresionante herramienta de IA que tiene el potencial de revolucionar el campo de la síntesis de voz. Sin embargo, también plantea varias preocupaciones éticas y de seguridad. Será importante que empresas como Microsoft desarrollen medidas para regular el uso de VALL-E para garantizar que se use para siempre y no con fines maliciosos.
RELACIONADO:
(mediante)