Imagina un mundo donde cada video tiene una banda sonora perfectamente sincronizada, sin necesidad de intervención humana. ¿Intrigado? Sigue leyendo.
DeepMind y la Magia del Video-audio
Google DeepMind ha lanzado una herramienta revolucionaria que utiliza píxeles de video e indicaciones de texto para generar bandas sonoras. No se trata solo de poner música de fondo; esta herramienta es capaz de sincronizar sonidos con escenas específicas, creando una experiencia auditiva inmersiva y precisa.
La combinación de indicaciones de texto y el contenido del video permite a los usuarios crear escenas con una partitura dramática, efectos de sonido realistas, o diálogos que coincidan con los personajes y el tono del video. Ejemplos de estos resultados se pueden encontrar en el sitio web de DeepMind, y son realmente impresionantes.
Cómo Funciona la Herramienta de DeepMind
Para un video de un automóvil conduciendo por un paisaje urbano ciberpunk, Google utilizó la indicación: «coches patinando, motor de coche acelerando, música electrónica angelical» para generar el audio. Los sonidos del derrape coinciden perfectamente con el movimiento del coche. Otro ejemplo muestra un paisaje sonoro submarino con la indicación: «medusas pulsando bajo el agua, vida marina, océano».
La magia está en la simplicidad. Aunque los usuarios pueden incluir un mensaje de texto, DeepMind dice que es opcional. La herramienta puede generar un número ilimitado de bandas sonoras, ofreciendo una cantidad interminable de opciones de audio para videos.
Ventajas sobre Otras Herramientas
Esta capacidad de DeepMind podría hacerla sobresalir frente a otras herramientas de IA, como el generador de efectos de sonido de ElevenLabs, que también utiliza indicaciones de texto para crear audio. Además, facilita la sincronización de audio con video generado por IA de herramientas como Veo y Sora de DeepMind, con planes de incorporar audio eventualmente.
DeepMind entrenó su IA en video, audio y anotaciones que contienen descripciones detalladas de sonido y transcripciones de diálogos hablados. Esto permite al generador de video-audio combinar eventos de audio con escenas visuales de manera efectiva.
Limitaciones y Futuro de la Herramienta
La herramienta aún tiene algunas limitaciones. Por ejemplo, DeepMind está trabajando en mejorar la sincronización del movimiento de los labios con el diálogo, como se puede ver en un video de una familia de animación con plastilina. Además, la calidad del video influye en la del audio, lo que significa que videos granulados o distorsionados pueden provocar una caída notable en la calidad del audio.
Aunque aún no está disponible para el público general, esta herramienta tendrá que pasar por rigorosas evaluaciones y pruebas de seguridad. Cuando esté lista, su salida de audio incluirá la marca de agua SynthID de Google, indicando que ha sido generada por IA.
Conclusión: La Nueva Era del Audio en Video
La herramienta de DeepMind promete transformar la forma en que se crean las bandas sonoras para videos. Con su capacidad para sincronizar perfectamente el audio con las imágenes, los creadores de contenido podrán disfrutar de una nueva era de creatividad y precisión en la producción audiovisual. ¿Estás listo para ver (y escuchar) el futuro?
Mantente atento a más desarrollos mientras esta tecnología se prepara para cambiar el panorama del audio en video.