Connect with us

Ciencia y tecnología

VASA-1 de Microsoft puede simular una persona con una foto y una pista de audio

Published

on

VASA-1 de Microsoft puede simular una persona con una foto y una pista de audio
Agrandar / Una imagen de muestra de Microsoft para «VASA-1: caras parlantes realistas impulsadas por audio generadas en tiempo real».

El martes, Microsoft Research Asia reveló VASA-1, un modelo de IA capaz de crear un vídeo animado sincronizado de una persona hablando o cantando a partir de una única foto y una pista de audio existente. En el futuro, podría impulsar avatares virtuales que se muestren localmente y no requieran una transmisión de video, o permitir que cualquier persona con herramientas similares tome una foto de alguien encontrado en línea y les dé la sensación de que dice lo que quiere.

«Esto allana el camino para interacciones en tiempo real con avatares realistas que imitan los comportamientos conversacionales humanos», se lee en el resumen del estudio. trabajo de investigación adjunto titulado «VASA-1: Caras parlantes realistas generadas por audio generadas en tiempo real». Es obra de Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong y Baining Guo.

El marco VASA (abreviatura de “Visual Affective Skills Animator”) utiliza el aprendizaje automático para analizar una imagen estática y un clip de audio de voz. Luego es capaz de generar un vídeo realista con expresiones faciales precisas, movimientos de cabeza y sincronización de labios con audio. No clona ni simula voces (como otras investigaciones de Microsoft), sino que se basa en una entrada de audio existente que puede grabarse o hablarse especialmente para un propósito particular.

Microsoft afirma que el modelo supera significativamente a los métodos anteriores de animación de voz en términos de realismo, expresividad y eficacia. A nosotros, esto nos parece una mejora con respecto a los modelos de animación de un solo cuadro anteriores.

READ  Emerge la primera revisión del procesador minorista Intel Core i9-13900K "Raptor Lake"

Los esfuerzos de investigación de IA para animar una sola foto de una persona o personaje se remontan al menos a algunos años, pero más recientemente, los investigadores han trabajado para sincronizar automáticamente un video generado con una pista de audio. En febrero, un modelo de IA llamado EMO: Gesto de retrato viviente del grupo de investigación del Instituto de Computación Inteligente de Alibaba ha causado sensación con un enfoque similar al VASA-1 que puede sincronizar automáticamente una foto animada con una pista de audio proporcionada (lo llaman «Audio2Video»).

Capacitado en clips de YouTube.

Los investigadores de Microsoft entrenaron VASA-1 en el Conjunto de datos VoxCeleb2 creado en 2018 por tres investigadores de la Universidad de Oxford. Este conjunto de datos contiene “más de un millón de declaraciones de 6.112 celebridades”, según el sitio web VoxCeleb2, extraídas de vídeos subidos a YouTube. VASA-1 sería capaz de generar videos con una resolución de 512 x 512 píxeles a hasta 40 cuadros por segundo con una latencia mínima, lo que significa que podría usarse para aplicaciones en tiempo real como videoconferencias.

Para mostrar el modelo, Microsoft creó una página de investigación VASA-1 que muestra muchos ejemplos de vídeos de la herramienta en acción, incluidas personas cantando y hablando en sincronización con pistas de audio pregrabadas. Muestran cómo se puede controlar el modelo para expresar diferentes estados de ánimo o cambiar su apariencia. Los ejemplos también incluyen generaciones más elegantes, como Mona Lisa rapeando sobre una pista de audio de Anne Hathaway interpretando una Canción “Paparazzi” sobre Conan O'Brien.

READ  Google quiere una sola aplicación de mensajería de video, fusionará Google Meet y Duo

Los investigadores dicen que, por razones de privacidad, cada fotografía de muestra en su página fue generada por IA. EstiloGAN2 o DALL-E 3 (aparte de la Mona Lisa). Pero está claro que la técnica también podría aplicarse a fotografías de personas reales, aunque es probable que funcione mejor si una persona parece una celebridad en el conjunto de datos de entrenamiento. Aún así, los investigadores dicen que su intención no es manipular a humanos reales.

«Exploramos la generación de habilidades visuales y afectivas para personajes virtuales e interactivos [sic], NO te hagas pasar por nadie en el mundo real. Esto es sólo una demostración de investigación y no hay planes de lanzamiento de productos ni API”, se lee en el sitio.

Si bien los investigadores de Microsoft promocionan posibles aplicaciones positivas, como mejorar la equidad educativa, mejorar la accesibilidad y brindar apoyo terapéutico, la tecnología también podría ser fácilmente utilizada indebidamente. Por ejemplo, podría permitir a las personas simular chats de vídeo, hacer que parezca que personas reales están diciendo cosas que en realidad nunca dijeron (especialmente cuando se combinan con una pista de voz clonada) o autorizar el acoso basado en una sola foto en las redes sociales.

En este momento, el video generado todavía parece imperfecto en algunos aspectos, pero podría ser bastante atractivo para algunas personas si no supieran qué esperar de la animación generada por IA. Los investigadores dicen que son conscientes de esto, razón por la cual no publican abiertamente el código que impulsa el modelo.

«Nos oponemos a cualquier comportamiento destinado a crear contenido engañoso o perjudicial para personas reales y nos gustaría aplicar nuestra técnica para avanzar en la detección de falsificaciones», escriben los investigadores. «Actualmente, los vídeos generados con este método todavía contienen artefactos identificables, y el análisis digital muestra que todavía hay una brecha para lograr la autenticidad de los vídeos reales».

READ  Desmontaje de Pixel 6a: extracción más fácil de la batería, respaldo de plástico

VASA-1 es sólo una demostración de investigación, pero Microsoft está lejos de ser el único grupo que desarrolla una tecnología similar. Si nos basamos en la historia reciente de la IA generativa, es potencialmente sólo cuestión de tiempo antes de que una tecnología similar se convierta en código abierto y esté disponible gratuitamente, y lo más probable es que su realismo siga mejorando con el tiempo.

Soy un profesional de gestión deportiva con conocimientos adecuados sobre la industria del deporte en España. Tengo varias habilidades que me han ayudado a trabajar en diferentes sectores del deporte en España, incluyendo eventos deportivos, desarrollo de base para el deporte e infraestructura deportiva.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Ciencia y tecnología

Un estudio de Apple revela fallas críticas en las capacidades de razonamiento lógico de la IA

Published

on

Un estudio de Apple revela fallas críticas en las capacidades de razonamiento lógico de la IA

Según un estudio recientemente publicado, el equipo de investigación de inteligencia artificial de Apple ha descubierto importantes debilidades en la capacidad de razonamiento de grandes modelos de lenguaje.


El estudio, publicado en arXivdescribe la evaluación de Apple de una variedad de modelos de lenguaje líderes, incluidos los de OpenAI, Meta y otros desarrolladores líderes, para determinar qué tan bien estos modelos podrían manejar tareas de razonamiento matemático. Los resultados revelan que incluso cambios leves en la redacción de las preguntas pueden causar desviaciones importantes en el rendimiento del modelo, afectando potencialmente su confiabilidad en escenarios que requieren coherencia lógica.

Apple está llamando la atención sobre un problema persistente en los modelos de lenguaje: su dependencia de la coincidencia de patrones en lugar del verdadero razonamiento lógico. En varias pruebas, los investigadores demostraron que agregar información irrelevante a una pregunta (detalles que no deberían afectar el resultado matemático) puede conducir a respuestas muy diferentes a las de los modelos.

Un ejemplo dado en el artículo involucra un simple problema matemático que pregunta cuántos kiwis recogió una persona durante varios días. Cuando se introdujeron detalles irrelevantes sobre el tamaño de algunos kiwis, modelos como el o1 de OpenAI y el Llama de Meta ajustaron incorrectamente el total final, aunque la información adicional no tuvo impacto en la solución.

No encontramos evidencia de razonamiento formal en los modelos de lenguaje. Su comportamiento se explica mejor mediante una sofisticada coincidencia de patrones, tan frágil, de hecho, que cambiar el nombre puede cambiar los resultados en aproximadamente un 10%.

Esta fragilidad del razonamiento ha llevado a los investigadores a concluir que los modelos no utilizan la lógica real para resolver problemas, sino que se basan en un sofisticado reconocimiento de patrones aprendido durante el entrenamiento. Descubrieron que “simplemente cambiar el nombre puede cambiar los resultados”, una señal potencialmente preocupante para el futuro de las aplicaciones de IA que requieren un razonamiento consistente y preciso en contextos del mundo real.

READ  Google quiere una sola aplicación de mensajería de video, fusionará Google Meet y Duo

Según el estudio, todos los modelos probados, desde versiones más pequeñas de código abierto como Llama hasta modelos propietarios como GPT-4o de OpenAI, mostraron una degradación significativa del rendimiento ante variaciones aparentemente intrascendentes en la entrada de datos. Apple sugiere que es posible que la IA necesite combinar redes neuronales con el razonamiento tradicional basado en símbolos llamado IA neurosimbólica para lograr capacidades más precisas en la toma de decisiones y la resolución de problemas.

Continue Reading

Ciencia y tecnología

Otra gran marca de Android lanzará sus teléfonos insignia este mes

Published

on

Otra gran marca de Android lanzará sus teléfonos insignia este mes

Robert Triggs / Autoridad de Android

TL;DR

  • El CEO de HONOR, George Zhao, anunció que los teléfonos de la serie HONOR Magic 7 se lanzarán el 30 de octubre.
  • Es probable que los teléfonos ofrezcan el chip Snapdragon 8 Gen 4 y baterías grandes.
  • La compañía también confirmó que Magic OS 9.0 se lanzará la próxima semana.

El HONOR Magic 6 Pro fue uno de los mejores teléfonos Android de 2024 en términos de hardware y ofrece muchas funciones de vanguardia. Ya sabemos que llegará la serie Magic 7 y un ejecutivo de la compañía ha publicado una fecha de lanzamiento.

CEO HONORARIO Jorge Zhao anunció en Weibo hoy (14 de octubre) que los teléfonos de la serie HONOR Magic 7 se lanzarán el 30 de octubre. El ejecutivo compartió un cartel para el evento; consulte la versión traducida automáticamente a continuación.

Fecha de lanzamiento de George Zhao Honor Magic 7 traducida

Zhao también dijo que su software Magic OS 9.0 se lanzará el 23 de octubre. Mantenemos los dedos cruzados para que este software esté disponible en dispositivos en los mercados globales antes de fin de año.

Pero, ¿qué deberíamos esperar de la serie Magic 7?

El procesador Snapdragon 8 Gen 4 está prácticamente garantizado porque estos teléfonos siempre han utilizado los últimos conjuntos de chips Snapdragon emblemáticos. HONOR también fue la primera marca importante en adoptar baterías de silicio-carbono en sus teléfonos, por lo que esperamos una batería grande al menos comparable a la capacidad de 5.600 mAh del Magic 6 Pro.

Es casi seguro que este lanzamiento del 30 de octubre será un asunto exclusivo de China. HONOR tiende a lanzar sus principales buques insignia Magic fuera de China en el primer trimestre de cada año, por lo que es posible que tengas que esperar unos meses si quieres tener oficialmente en tus manos la serie Magic 7.

También vale la pena señalar que la serie HONOR Magic 7 no será el primer buque insignia de Android de próxima generación que se lance. Vivo presentará su serie de teléfonos X200 hoy (14 de octubre), mientras que la serie OPPO Find X8 se lanzará el 24 de octubre. Sin embargo, los teléfonos OPPO y Vivo funcionarán con el chipset Dimensity 9400, por lo que los teléfonos HONOR podrían ser los primeros en lanzarse con el silicio Snapdragon 8 Gen 4 si Xiaomi no lo supera.

¿Tiene algún consejo? ¡Háblanos! Envíe un correo electrónico a nuestro personal a [email protected]. Puedes permanecer anónimo u obtener crédito por la información, es tu elección.

Continue Reading

Ciencia y tecnología

Gurman: las gafas inteligentes de Apple y los AirPods con cámara podrían lanzarse en 2027

Published

on

Gurman: las gafas inteligentes de Apple y los AirPods con cámara podrían lanzarse en 2027

Apple está preparando productos adicionales basados ​​en la visión, según Mark Gurman de Bloomberg. Esperamos gafas inteligentes, similares a la colaboración de Meta con Ray-Ban, así como AirPods con cámara. Estos productos no se lanzarán hasta al menos 2027, en todo caso.

Según el informe, Apple quiere recuperar parte de su inversión multimillonaria en I+D en la inteligencia visual de Apple Vision Pro integrando la tecnología en más productos. Ya hemos visto esto con el anuncio de Visual Intelligence junto con el control de la cámara del iPhone 16, y el siguiente paso de Apple sería llevarlo a un factor de forma de gafas.

Las gafas no serían gafas AR completas con pantalla, sino gafas inteligentes con cámaras, parlantes y micrófonos integrados, similares a las gafas Ray Ban de Meta, que se han vuelto muy populares. Meta vende estas gafas por tan solo $299, aunque puedes elegir monturas más caras.

Además de eso, la compañía todavía está planeando AirPods con cámaras, como ya se informó anteriormente. No está claro por qué este sería un producto atractivo en lugar de solo gafas, y parece que los AirPods serían un mal producto para las cámaras exteriores, pero Apple todavía está experimentando con el factor de forma para funciones de inteligencia visual.


¿Qué opinas de los posibles planes de Apple para productos Vision adicionales? Háganos saber en los comentarios.

Sigue a Michel: X/Twitter, Temas, Instagram

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Continue Reading

Trending