Ciencia y tecnología

VASA-1 de Microsoft puede simular una persona con una foto y una pista de audio

Published

4 semanas ago

abril 19, 2024

VASA-1 de Microsoft puede simular una persona con una foto y una pista de audio

Agrandar / Una imagen de muestra de Microsoft para «VASA-1: caras parlantes realistas impulsadas por audio generadas en tiempo real».

El martes, Microsoft Research Asia reveló VASA-1, un modelo de IA capaz de crear un vídeo animado sincronizado de una persona hablando o cantando a partir de una única foto y una pista de audio existente. En el futuro, podría impulsar avatares virtuales que se muestren localmente y no requieran una transmisión de video, o permitir que cualquier persona con herramientas similares tome una foto de alguien encontrado en línea y les dé la sensación de que dice lo que quiere.

«Esto allana el camino para interacciones en tiempo real con avatares realistas que imitan los comportamientos conversacionales humanos», se lee en el resumen del estudio. trabajo de investigación adjunto titulado «VASA-1: Caras parlantes realistas generadas por audio generadas en tiempo real». Es obra de Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong y Baining Guo.

El marco VASA (abreviatura de “Visual Affective Skills Animator”) utiliza el aprendizaje automático para analizar una imagen estática y un clip de audio de voz. Luego es capaz de generar un vídeo realista con expresiones faciales precisas, movimientos de cabeza y sincronización de labios con audio. No clona ni simula voces (como otras investigaciones de Microsoft), sino que se basa en una entrada de audio existente que puede grabarse o hablarse especialmente para un propósito particular.

Microsoft afirma que el modelo supera significativamente a los métodos anteriores de animación de voz en términos de realismo, expresividad y eficacia. A nosotros, esto nos parece una mejora con respecto a los modelos de animación de un solo cuadro anteriores.

READ Beeper Mini es una aplicación de iMessage para Android que no requiere ningún dispositivo Apple

Los esfuerzos de investigación de IA para animar una sola foto de una persona o personaje se remontan al menos a algunos años, pero más recientemente, los investigadores han trabajado para sincronizar automáticamente un video generado con una pista de audio. En febrero, un modelo de IA llamado EMO: Gesto de retrato viviente del grupo de investigación del Instituto de Computación Inteligente de Alibaba ha causado sensación con un enfoque similar al VASA-1 que puede sincronizar automáticamente una foto animada con una pista de audio proporcionada (lo llaman «Audio2Video»).

Capacitado en clips de YouTube.

Los investigadores de Microsoft entrenaron VASA-1 en el Conjunto de datos VoxCeleb2 creado en 2018 por tres investigadores de la Universidad de Oxford. Este conjunto de datos contiene “más de un millón de declaraciones de 6.112 celebridades”, según el sitio web VoxCeleb2, extraídas de vídeos subidos a YouTube. VASA-1 sería capaz de generar videos con una resolución de 512 x 512 píxeles a hasta 40 cuadros por segundo con una latencia mínima, lo que significa que podría usarse para aplicaciones en tiempo real como videoconferencias.

Para mostrar el modelo, Microsoft creó una página de investigación VASA-1 que muestra muchos ejemplos de vídeos de la herramienta en acción, incluidas personas cantando y hablando en sincronización con pistas de audio pregrabadas. Muestran cómo se puede controlar el modelo para expresar diferentes estados de ánimo o cambiar su apariencia. Los ejemplos también incluyen generaciones más elegantes, como Mona Lisa rapeando sobre una pista de audio de Anne Hathaway interpretando una Canción “Paparazzi” sobre Conan O'Brien.

READ Microsoft acelera el tiempo de arranque de Xbox Series X/S

Los investigadores dicen que, por razones de privacidad, cada fotografía de muestra en su página fue generada por IA. EstiloGAN2 o DALL-E 3 (aparte de la Mona Lisa). Pero está claro que la técnica también podría aplicarse a fotografías de personas reales, aunque es probable que funcione mejor si una persona parece una celebridad en el conjunto de datos de entrenamiento. Aún así, los investigadores dicen que su intención no es manipular a humanos reales.

«Exploramos la generación de habilidades visuales y afectivas para personajes virtuales e interactivos [sic], NO te hagas pasar por nadie en el mundo real. Esto es sólo una demostración de investigación y no hay planes de lanzamiento de productos ni API”, se lee en el sitio.

Si bien los investigadores de Microsoft promocionan posibles aplicaciones positivas, como mejorar la equidad educativa, mejorar la accesibilidad y brindar apoyo terapéutico, la tecnología también podría ser fácilmente utilizada indebidamente. Por ejemplo, podría permitir a las personas simular chats de vídeo, hacer que parezca que personas reales están diciendo cosas que en realidad nunca dijeron (especialmente cuando se combinan con una pista de voz clonada) o autorizar el acoso basado en una sola foto en las redes sociales.

En este momento, el video generado todavía parece imperfecto en algunos aspectos, pero podría ser bastante atractivo para algunas personas si no supieran qué esperar de la animación generada por IA. Los investigadores dicen que son conscientes de esto, razón por la cual no publican abiertamente el código que impulsa el modelo.

«Nos oponemos a cualquier comportamiento destinado a crear contenido engañoso o perjudicial para personas reales y nos gustaría aplicar nuestra técnica para avanzar en la detección de falsificaciones», escriben los investigadores. «Actualmente, los vídeos generados con este método todavía contienen artefactos identificables, y el análisis digital muestra que todavía hay una brecha para lograr la autenticidad de los vídeos reales».

READ Google celebra su 23 aniversario con hasta un 23% de descuento en determinadas tiendas de Google a nivel mundial

VASA-1 es sólo una demostración de investigación, pero Microsoft está lejos de ser el único grupo que desarrolla una tecnología similar. Si nos basamos en la historia reciente de la IA generativa, es potencialmente sólo cuestión de tiempo antes de que una tecnología similar se convierta en código abierto y esté disponible gratuitamente, y lo más probable es que su realismo siga mejorando con el tiempo.

Carlos Santander

Soy un profesional de gestión deportiva con conocimientos adecuados sobre la industria del deporte en España.
Tengo varias habilidades que me han ayudado a trabajar en diferentes sectores del deporte en España, incluyendo eventos deportivos, desarrollo de base para el deporte e infraestructura deportiva.

Ciencia y tecnología

Google organizó el Demo Slam I/O 2024 y abre un hackathon para empleados

Published

4 horas ago

mayo 17, 2024

Carlos Santander

Google organizó el Demo Slam I/O 2024 y abre un hackathon para empleados

En comparación con años anteriores, I/O 2024 se sintió mucho más como una conferencia de desarrolladores al durar dos días. En realidad, hubo un tercer día de I/O, y hoy Google organizó un nuevo evento “Demo Slam” exclusivo para empleados, durante el cual se anunció un hackathon interno de Gemini.

No hubo E/S en 2020, mientras que 2021 se transmitió a una audiencia en vivo muy limitada en Mountain View. Los asistentes fueron invitados a un día en 2022 y 2023. Después del discurso de apertura de 2024, Google organizó sesiones en vivo para los asistentes en persona, así como eventos sociales fuera del horario laboral.

I/O 2024 ya parecía un evento de tres días, ya que las sesiones en vivo pregrabadas se publicaron en YouTube el jueves por la mañana, pero en realidad hubo otro día de programación solo para los empleados de Google en el Shoreline Amphitheater.

En un correo electrónico interno que vimos esta tarde, el director ejecutivo Sundar Pichai, quien organizó el evento, dijo que miles de empleados de Google estaban allí, mientras que otros internamente podían transmitirlo. También compartió imágenes en LinkedIn:

El vicepresidente de ingeniería de Android, Dave Burke, y otros de Google DeepMind, Search y Labs presentaron lo que se anunció a principios de semana. Se volvió a hacer una demostración del Proyecto Astra y algunos de estos anuncios se pusieron posteriormente a disposición de los empleados de dogfood.

Mientras tanto, Pichai de I/O Demo Slam anunció un hackathon interno que anima a los empleados de Google a experimentar con Gemini.

READ Beeper Mini es una aplicación de iMessage para Android que no requiere ningún dispositivo Apple

Los empleados de Google pueden trabajar en equipos, y este proyecto pretende fomentar la experimentación con IA que podría conducir a nuevos productos. Los ejecutivos de Google seleccionarán a los finalistas que harán una demostración en una reunión de toda la empresa, y este hackathon también ofrecerá una recompensa monetaria a los equipos ganadores.

Pichai dijo que Google quiere «crear más oportunidades para que nos unamos como empresa con un espíritu de innovación y resolución de problemas, centrándonos en nuestras mayores oportunidades como la IA».

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Carlos Santander

Ciencia y tecnología

Aquí está la nueva barra inferior de Google Maps con menos pestañas

Published

12 horas ago

mayo 16, 2024

Carlos Santander

Aquí está la nueva barra inferior de Google Maps con menos pestañas

En marzo, el anuncio de Google sobre las últimas funciones de viaje de Maps incluyó una mención de cómo la aplicación estaba obteniendo una «pantalla de inicio más limpia». En I/O 2024, obtendremos una vista previa de la nueva barra inferior de Google Maps.

Google ha anunciado que llegará una «pantalla de inicio más limpia y con menos pestañas». Por el momento tenemos Explorar, Ir, Guardado, Contribuir y Actualizaciones.

Y justo a tiempo para las temperaturas más cálidas, comenzarás a ver nuevas actualizaciones de diseño que le dan a Maps una nueva apariencia, incluida una pantalla de inicio más limpia con menos pestañas y nuevos colores de marcador que facilitan la búsqueda de lugares en el mapa.

Durante «Lo último en diseño de hardwareEn I/O 2024, el equipo de Google Maps demostró cómo «envían funciones a producción utilizando Material for Compose». Vemos la nueva barra inferior de Google Maps en Android con tres pestañas: Explorar, Tú y Contribuir.

Explorar y Contribuir permanecen sin cambios, mientras que el primero permanece en la misma posición. Aprovecha el mismo icono que Guardado, pero ahora incluye el feed de notificaciones que se mostraba anteriormente en Actualizaciones. Ubicado en el centro, aquí es probablemente donde encontrará sus anuncios.

Go, que mostraba trampas frecuentes, ya no está en la barra inferior, que no utiliza un diseño alto para mostrar la mayor cantidad posible de contenido del mapa. No está claro cuándo comenzará a implementarse.

Google también presentó un nuevo diseño de tarjeta de llegada que el equipo continúa explorando. También se espera que Google Maps adopte el carrusel expresivo. Esto también se está explorando todavía, pero vemos que se utiliza para el “Descubrimiento a través de fotos”.

Obtenga más información sobre Google Maps:

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

READ Google celebra su 23 aniversario con hasta un 23% de descuento en determinadas tiendas de Google a nivel mundial

Carlos Santander

Ciencia y tecnología

El nuevo iPad Pro se desempeña bien en la prueba de flexión extrema y supera a la generación anterior

Published

20 horas ago

mayo 16, 2024

Carlos Santander

El nuevo iPad Pro se desempeña bien en la prueba de flexión extrema y supera a la generación anterior

EL nuevo iPad Pro Está aquí y las inevitables pruebas de estrés de YouTube ya están en línea. jerryrigall Y AppleTrack lanzado sus videos de prueba de flexión, y aparentemente ambos llegaron a la misma conclusión: el nuevo iPad Pro resiste bien una fuerza extrema y parece bastante resistente a la flexión durante el uso normal.

pista de manzana Repitió los mismos giros con el iPad Pro M2 y el nuevo iPad Pro M4 para comparar, y mientras que el iPad Pro M4 salió casi ileso, el iPad Pro M2 tenía una hebilla definida en la esquina cerca de las cámaras. JerryRigEverything elogió el dispositivo por sus «niveles mágicos negros de integridad estructural», al menos cuando está plegado horizontalmente.

El dispositivo cedió a la presión mucho más fácilmente con una curva vertical, probablemente debido a la fuerza que va contra el eje de la nueva estructura de refuerzo interna y las pequeñas aberturas de los puertos de carga en la parte inferior.

Mientras que los iPads se flexionan con casi cualquier fuerza, la tableta vuelve a su forma normal en casi cualquier circunstancia normal. Los probadores requirieron mucha más fuerza de la que se esperaría en la vida diaria normal para lograr una curvatura permanente.

Y quizás aún más impresionante, incluso después de experimentar niveles extremos de fuerza, todos los iPads continuaron funcionando, incluidas las cámaras y la capacidad de respuesta de la pantalla táctil, aunque con una superficie de vidrio muy curvada y rota.

Al menos según estas primeras impresiones, no parece que vayamos a tener una repetición del #BendGate de 2018. Esa controversia estalló cuando se lanzó el nuevo factor de forma iPad Pro 2018, y algunos clientes descubrieron que los dispositivos se doblaban incluso. Uso normal, a veces doblado nada más sacarlo de la caja.

READ El Realme 12 Pro+ es el primer dispositivo de gama media que cuenta con una cámara con zoom de periscopio 3x

Las revisiones posteriores, incluida esta última generación de 2024, realmente no presentan los mismos síntomas. Sin embargo, debes tener cuidado si guardas tu iPad en el bolso, por ejemplo debajo de muchos libros pesados.

Mire sus videos aquí para ver cómo se desempeña el iPad Pro M4 en términos de durabilidad en las pruebas de flexión: