Microsoft ha presentado recientemente una innovadora inteligencia artificial denominada VASA-1. Esta IA es capaz de generar avatares hiperrealistas a partir de una simple imagen y un archivo de voz. Imagina dar vida a tus fotografías, dotándolas de expresiones faciales sincronizadas con el sonido, creando así resultados sorprendentes que podrían transformar por completo nuestra interacción en el mundo digital.
¿Cómo funciona esta nueva tecnología de Microsoft?
VASA-1 es el resultado de un proceso minucioso de investigación y desarrollo. Los investigadores de Microsoft se propusieron capturar toda la gama de expresiones humanas, incluyendo movimientos naturales de la cabeza, para generar avatares parlantes increíblemente creíbles. Utilizando un enfoque 3D para capturar detalles faciales y movimientos en un espacio tridimensional, VASA-1 puede separar y controlar elementos como los rasgos faciales, la posición de la cabeza y las expresiones de manera individual. Esto permite un control detallado y la posibilidad de editar cada atributo por separado, logrando así un nivel de realismo sin precedentes en los avatares generados.
Lo que distingue a VASA-1 de otros modelos de IA es su capacidad para crear expresiones realistas con movimientos en un espacio definido. Mientras que otros sistemas simplemente sincronizan el movimiento de los labios con el audio, VASA-1 va más allá al considerar todas las dinámicas faciales posibles, como el movimiento de los labios, la expresión facial, la mirada y el parpadeo, como variables latentes. Este enfoque holístico en la modelación de la dinámica facial resulta en una generación de comportamientos de conversación emotivos y realistas.
¿Cuál es el proceso de entrenamiento de VASA-1?
Para entrenar a VASA-1, Microsoft utilizó una vasta colección de videos con personas hablando. El objetivo era que la IA comprendiera los rostros humanos y pudiera separar diferentes aspectos de ellos, como la identidad, la expresión y el movimiento de la cabeza. Mediante la asignación de códigos a cada uno de estos aspectos, VASA-1 puede crear rostros nuevos y cambiar expresiones en videos sin alterar la identidad de las personas representadas.
VASA-1 es capaz de producir videos de alta calidad en una resolución de 512 x 512 píxeles a 45 fotogramas por segundo. Además, destaca por su eficiencia, ya que puede ejecutarse en un ordenador con una GPU NVIDIA RTX 4090. Esto significa que la generación de avatares hiperrealistas está al alcance de un amplio espectro de usuarios.
¿Cuáles son las aplicaciones de VASA-1 más allá de las fotografías reales?
La versatilidad de VASA-1 va más allá de las fotografías reales y se extiende a ilustraciones o pinturas. Incluso se ha demostrado su capacidad para aplicarse en obras de arte icónicas, como hacer que la Mona Lisa cante «Paparazzi». Es importante destacar que todos los ejemplos presentados se construyeron a partir de fotografías generadas con tecnologías como DALL-E 3 y StyleGAN2.
¿Cuáles son los posibles riesgos asociados a esta IA?
Uno de los principales riesgos de esta tecnología es su potencial para la desinformación. Existe la posibilidad de que los avatares hiperrealistas generados por VASA-1 sean utilizados para engañar a los usuarios. Sin embargo, Microsoft ha declarado su compromiso de desarrollar la IA de manera responsable y de aplicar su tecnología para avanzar en la detección de falsificaciones.