Conoce a VALL-E, la aplicación de inteligencia artificial de Microsoft capaz de imitar cualquier voz a la perfección La empresa planea integrar soluciones de inteligencia artificial a sus principales productos; este modelo de texto a voz es una de ellas.
Por Eduardo Scheffler Zawadzki Editado por Eduardo Scheffler Zawadzki
El nombre del juego para este 2023 en Microsoft es inteligencia artificial (IA).
Tras haberse asociado con OpenAI en 2019, y haber inyectado $1,000 millones de dólares a la organización, Microsoft comienza a integrar diversas soluciones de IA a sus productos.
En octubre del año pasado la empresa incorporó la herramienta de creación de imágenes DALL-E 2 a su app Designer y hace unos días anunció la próxima integración del modelo de lenguaje de inteligencia ChatGPT-3 artificial a su buscador, Bing, para desafiar a Google y cambiar para siempre el modo en que funcionan los buscadores.
Ahora Microsoft ha anunciado una nueva aplicación llamada VALL-E (sí, nosotros tampoco pudimos evitar pensar en Wall-E) capaz de imitar cualquier voz a partir de tan solo tres segundos de grabación.
El modelo de voz no solo es capaz de imitar el timbre y entonación del material original, sino que puede captar las emociones contenidas en el audio para después replicarlas. Lo mismo sucede con la ambientación de la pieza original.
Lo único que el usuario tendría que hacer es introducir el texto que desea que la voz pronuncie al sistema.
En un documento en el que se detalla el funcionamiento de VALL-E, se explica que el modelo ha sido entrenado con más de 60,000 horas de audio en inglés y que las pruebas realizadas superan a otros modelos TTS (de texto a voz) en términos de naturalidad y similitud con el material original.
¿Para que servirá VALL-E?
La idea de Microsoft es que todas sus soluciones tengan integrada a la inteligencia artificial, así que VALL-E podría estar integrado a Chat GPT-3. Es decir que podría arrojar resultados a las búsquedas a las preguntas que hacemos con voces moldeables y customizables.
La herramienta podría ser utilizada para replicar la voz de alguien que ya no está (por ejemplo, algún actor, actriz o locutor) y facilitarles la vida a los creadores de contenido en sus locuciones.
Por supuesto que, como suele suceder con las soluciones de inteligencia artificial, existe preocupación porque se pudiera hacer mal uso de esta tecnología al atribuirle a alguien cosas que nunca dijo.