Connect with us

Ciencia y tecnología

VASA-1 de Microsoft puede simular una persona con una foto y una pista de audio

Published

on

VASA-1 de Microsoft puede simular una persona con una foto y una pista de audio
Agrandar / Una imagen de muestra de Microsoft para «VASA-1: caras parlantes realistas impulsadas por audio generadas en tiempo real».

El martes, Microsoft Research Asia reveló VASA-1, un modelo de IA capaz de crear un vídeo animado sincronizado de una persona hablando o cantando a partir de una única foto y una pista de audio existente. En el futuro, podría impulsar avatares virtuales que se muestren localmente y no requieran una transmisión de video, o permitir que cualquier persona con herramientas similares tome una foto de alguien encontrado en línea y les dé la sensación de que dice lo que quiere.

«Esto allana el camino para interacciones en tiempo real con avatares realistas que imitan los comportamientos conversacionales humanos», se lee en el resumen del estudio. trabajo de investigación adjunto titulado «VASA-1: Caras parlantes realistas generadas por audio generadas en tiempo real». Es obra de Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong y Baining Guo.

El marco VASA (abreviatura de “Visual Affective Skills Animator”) utiliza el aprendizaje automático para analizar una imagen estática y un clip de audio de voz. Luego es capaz de generar un vídeo realista con expresiones faciales precisas, movimientos de cabeza y sincronización de labios con audio. No clona ni simula voces (como otras investigaciones de Microsoft), sino que se basa en una entrada de audio existente que puede grabarse o hablarse especialmente para un propósito particular.

Microsoft afirma que el modelo supera significativamente a los métodos anteriores de animación de voz en términos de realismo, expresividad y eficacia. A nosotros, esto nos parece una mejora con respecto a los modelos de animación de un solo cuadro anteriores.

READ  Fugas profundas de la cámara Google Pixel 6 Pro

Los esfuerzos de investigación de IA para animar una sola foto de una persona o personaje se remontan al menos a algunos años, pero más recientemente, los investigadores han trabajado para sincronizar automáticamente un video generado con una pista de audio. En febrero, un modelo de IA llamado EMO: Gesto de retrato viviente del grupo de investigación del Instituto de Computación Inteligente de Alibaba ha causado sensación con un enfoque similar al VASA-1 que puede sincronizar automáticamente una foto animada con una pista de audio proporcionada (lo llaman «Audio2Video»).

Capacitado en clips de YouTube.

Los investigadores de Microsoft entrenaron VASA-1 en el Conjunto de datos VoxCeleb2 creado en 2018 por tres investigadores de la Universidad de Oxford. Este conjunto de datos contiene “más de un millón de declaraciones de 6.112 celebridades”, según el sitio web VoxCeleb2, extraídas de vídeos subidos a YouTube. VASA-1 sería capaz de generar videos con una resolución de 512 x 512 píxeles a hasta 40 cuadros por segundo con una latencia mínima, lo que significa que podría usarse para aplicaciones en tiempo real como videoconferencias.

Para mostrar el modelo, Microsoft creó una página de investigación VASA-1 que muestra muchos ejemplos de vídeos de la herramienta en acción, incluidas personas cantando y hablando en sincronización con pistas de audio pregrabadas. Muestran cómo se puede controlar el modelo para expresar diferentes estados de ánimo o cambiar su apariencia. Los ejemplos también incluyen generaciones más elegantes, como Mona Lisa rapeando sobre una pista de audio de Anne Hathaway interpretando una Canción “Paparazzi” sobre Conan O'Brien.

READ  Rumores sobre Metal Gear Solid, Silent Hill y Castlevania, una exclusiva de PS5

Los investigadores dicen que, por razones de privacidad, cada fotografía de muestra en su página fue generada por IA. EstiloGAN2 o DALL-E 3 (aparte de la Mona Lisa). Pero está claro que la técnica también podría aplicarse a fotografías de personas reales, aunque es probable que funcione mejor si una persona parece una celebridad en el conjunto de datos de entrenamiento. Aún así, los investigadores dicen que su intención no es manipular a humanos reales.

«Exploramos la generación de habilidades visuales y afectivas para personajes virtuales e interactivos [sic], NO te hagas pasar por nadie en el mundo real. Esto es sólo una demostración de investigación y no hay planes de lanzamiento de productos ni API”, se lee en el sitio.

Si bien los investigadores de Microsoft promocionan posibles aplicaciones positivas, como mejorar la equidad educativa, mejorar la accesibilidad y brindar apoyo terapéutico, la tecnología también podría ser fácilmente utilizada indebidamente. Por ejemplo, podría permitir a las personas simular chats de vídeo, hacer que parezca que personas reales están diciendo cosas que en realidad nunca dijeron (especialmente cuando se combinan con una pista de voz clonada) o autorizar el acoso basado en una sola foto en las redes sociales.

En este momento, el video generado todavía parece imperfecto en algunos aspectos, pero podría ser bastante atractivo para algunas personas si no supieran qué esperar de la animación generada por IA. Los investigadores dicen que son conscientes de esto, razón por la cual no publican abiertamente el código que impulsa el modelo.

«Nos oponemos a cualquier comportamiento destinado a crear contenido engañoso o perjudicial para personas reales y nos gustaría aplicar nuestra técnica para avanzar en la detección de falsificaciones», escriben los investigadores. «Actualmente, los vídeos generados con este método todavía contienen artefactos identificables, y el análisis digital muestra que todavía hay una brecha para lograr la autenticidad de los vídeos reales».

READ  El rediseño de Android Auto de pantalla dividida de Google se está implementando

VASA-1 es sólo una demostración de investigación, pero Microsoft está lejos de ser el único grupo que desarrolla una tecnología similar. Si nos basamos en la historia reciente de la IA generativa, es potencialmente sólo cuestión de tiempo antes de que una tecnología similar se convierta en código abierto y esté disponible gratuitamente, y lo más probable es que su realismo siga mejorando con el tiempo.

Soy un profesional de gestión deportiva con conocimientos adecuados sobre la industria del deporte en España. Tengo varias habilidades que me han ayudado a trabajar en diferentes sectores del deporte en España, incluyendo eventos deportivos, desarrollo de base para el deporte e infraestructura deportiva.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Ciencia y tecnología

Samsung podría dividir notificaciones y configuraciones rápidas en Android 15

Published

on

Samsung podría dividir notificaciones y configuraciones rápidas en Android 15

La actualización de Android 15 de Samsung está a la vuelta de la esquina y, por lo que parece, se perfila como una gran actualización. Según información filtrada, uno de los mayores cambios que Samsung hará en su versión de Android 15 será la división de notificaciones y configuraciones rápidas, un cambio que cada vez es más común en las skins de Android.

En 2014, en Android Lollipop, Google actualizó Android desde un diseño de configuración rápida de dos paneles a un solo menú. En ese momento, esto tomó la forma de notificaciones que aparecían primero, con Configuración rápida. otro barridoPoco después, Google los fusionó Para ir aún más lejos, coloque algunos botones de configuración rápida en el área de notificación y el resto se ocultará con un segundo deslizamiento. Aunque la apariencia general ha cambiado, este comportamiento se ha mantenido hasta el día de hoy.

Al menos este es el caso de Android en su forma más pura. En muchos casos, las máscaras OEM en Android cambiarán esto.

HyperOS de Xiaomi y MagicOS de Honor son dos ejemplos clave de este cambio. En ambos casos, las notificaciones y la configuración rápida se dividen en dos paneles de pantalla completa. Con ambos, puedes deslizar el dedo en ciertas partes de la pantalla para moverte entre los paneles, y también puedes deslizar el dedo (al menos en el caso de Honor) desde el lado derecho de la pantalla para abrir directamente la configuración rápida.

Al parecer Samsung está planeando algo similar.

Junto con un montón de otras filtraciones de la actualización One UI 7 de Samsung, el filtrador Chun Bhai citar fuentes Según información de la compañía, Samsung dividirá el panel de notificaciones y configuración rápida en dos paneles separados. El primer panel solo mostrará notificaciones, mientras que el segundo mostrará un diseño de Configuración rápida actualizado, que se dice que tiene un diseño «más redondeado». Al igual que Xiaomi y Honor, Samsung permitirá a los usuarios deslizarse entre paneles.

READ  Rumores sobre Metal Gear Solid, Silent Hill y Castlevania, una exclusiva de PS5

Esto también ha quedado parcialmente demostrado en algunas filtraciones más recientes.

Apple también utiliza un diseño de dos paneles para el «Centro de notificaciones» y el «Centro de control», aunque no puedes cambiar entre ellos. Dado que hay varios otros cambios inspirados en iOS en One UI 7, parece razonable suponer que al menos parte de la inspiración de Samsung aquí es hacer las cosas más familiares para los usuarios de Apple.

Se rumorea que Samsung lanzará su primera versión beta de One UI 7, que también viene con otras características inspiradas en Apple, la próxima semana.

Obtenga más información sobre Samsung:

Sigue a Ben: Gorjeo/X, HijoY Instagram

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Continue Reading

Ciencia y tecnología

Las fundas del Pixel 9 Pro de Google tienen fugas con una barra de protección de cámara en ángulo

Published

on

Las fundas del Pixel 9 Pro de Google tienen fugas con una barra de protección de cámara en ángulo

Dada la nueva forma, los diseños de carcasas de Google para Pixel 9 Pro y 9 Pro XL cambiarán de manera más significativa este año, y hoy una filtración revela el aspecto y los colores disponibles.

compartido por títulos de AndroidVemos cómo la carcasa del Pixel 9 Pro cubre completamente los rieles laterales propensos a las huellas dactilares. En particular, es continuo y cubre completamente la parte inferior en lugar de dejar una parte abierta para el acceso sin obstáculos al puerto USB-C. Esto es lo que hace Apple en algunas de sus cajas, pero Google se apega a sus funciones existentes.

La funda del Pixel 9 Pro parece estar hecha de un material de silicona que tendrá buen agarre. El interior está forrado con un material similar a una tela, mientras que el botón de encendido y el control de volumen están cubiertos.

Cabe destacar la fuerte pendiente utilizada para proteger la barra alta de la cámara. En lugar de una pared vertical que rodee los lados de la píldora, la carcasa tiene un ángulo hacia arriba para encontrarse con ella.

Según el informe de hoy, el estuche del Pixel 9 Pro viene en carbón, porcelana, avellana, rosa y aloe. Este último no coincide con ningún color de teléfono existente y es bastante vivo.

Sin embargo, parece haber dos tonos de conchas rosas, uno de los cuales no se menciona en el artículo. Según lo que está disponible para el 9 Pro XL, el color más claro a continuación es el rosa, pero el otro color tiene un tono más oscuro.

El Pixel 9 Pro XL solo está disponible en cuatro colores: carbón, porcelana, avellana y rosa.

Continue Reading

Ciencia y tecnología

Google podría continuar el legado de Chromecast con una caja 'TV Streamer'

Published

on

Google podría continuar el legado de Chromecast con una caja 'TV Streamer'

Que quieres saber

  • Un informe afirma que Google está abandonando el diseño del dongle y buscando una caja «TV Streamer» para continuar con el linaje Chromecast.
  • Las fotos filtradas muestran que la caja presenta un diseño en ángulo sobre un pequeño pedestal con un control remoto rediseñado que elimina el ícono del Asistente y mueve el control de volumen.
  • A principios de este año se rumoreaba que Google estaba trabajando en un sucesor del Chromecast 4K, lo que se relaciona con una foto remota filtrada en octubre.

Circulan muchos rumores sobre la «próxima generación de Chromecast», pero un nuevo informe afirma que Google no va por la ruta del dongle.

Algunas imágenes compartidas con 9to5Google Las fotos que se muestran aquí afirman ser de la nueva caja “Google TV Streamer”, que se supone que reemplazará el dongle Chromecast. Las fotos de estilo de vida sugieren que el estuche diseñado para colocarse sobre una mesa tendrá forma de pizarra. Este TV Streamer también parece mucho más ancho que alto. Se desconocen funciones adicionales además del streaming.

Continue Reading

Trending