Esta tecnología se llama VASA-1 y tiene la capacidad de transformar imágenes estáticas en videos realistas animados utilizando simplemente una imagen y un clip de audio.

Este avance representa un paso significativo en el campo de la inteligencia artificial (IA), ya que permite que retratos aparentemente estáticos cobren vida de una manera sorprendentemente realista.

Según informa Quartz, VASA-1 no solo sincroniza los movimientos de los labios con el audio proporcionado, sino que también ajusta la mirada, las expresiones faciales y la orientación de la cabeza para reflejar emociones como la alegría o la sorpresa en tiempo real.

Microsoft publishes paper on VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time



VASA is capable of generating a large spectrum of expressive facial nuances and natural head motions



It can handle long-form audio and stably output seamless talking face videos: pic.twitter.com/FiBb11G1ru