Connect with us

Ciencia y tecnología

La nueva IA de Microsoft puede simular la voz de cualquiera con 3 segundos de audio

Published

on

La nueva IA de Microsoft puede simular la voz de cualquiera con 3 segundos de audio
Agrandar / Una imagen generada por IA de la silueta de una persona.

Ars-Technica

El jueves, los investigadores de Microsoft anunciaron un nuevo modelo de IA de texto a voz llamado VALLE-E que puede simular de cerca la voz de una persona cuando se le da una muestra de audio de tres segundos. Una vez que aprende una voz específica, VALL-E puede sintetizar el audio de esa persona diciendo cualquier cosa y hacerlo de una manera que intente preservar el tono emocional del hablante.

Sus creadores creen que VALL-E podría usarse para aplicaciones de texto a voz de alta calidad, edición de voz en la que la grabación de una persona podría editarse y modificarse a partir de una transcripción de texto (haciendo que diga algo que no dijo originalmente), y creación de contenido de audio cuando se combina con otros modelos generativos de IA como GPT-3.

Microsoft llama a VALL-E un «modelo de lenguaje de códec neuronal» y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de síntesis de voz que normalmente sintetizan el habla mediante la manipulación de formas de onda, VALL-E genera códigos de códec de audio discretos a partir de indicaciones textuales y acústicas. Esencialmente, analiza el sonido de una persona, divide esa información en componentes discretos (llamados «tokens») a través de EnCodec y utiliza datos de entrenamiento para comparar lo que «sabe» acerca de cómo sonaría esa voz si pronunciara cualquier otra oración además de la muestra de tres segundos. O, como dice Microsoft en el papel VAL-E:

Para sintetizar voz personalizada (por ejemplo, zero-shot TTS), VALL-E genera los tokens acústicos correspondientes condicionados por los tokens acústicos de la grabación inscrita de 3 segundos y el indicador de fonema, que restringen respectivamente al hablante y la información del contenido. Finalmente, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el decodificador de códec neuronal correspondiente.

Microsoft entrenó las capacidades de texto a voz de VALL-E en una biblioteca de audio, ensamblada por Meta, llamada LibriLuz. Contiene 60.000 horas de habla inglesa de más de 7.000 hablantes, en su mayoría extraídos de LibriVox audiolibros de dominio público. Para que VALL-E genere un buen resultado, la voz en la muestra de tres segundos debe coincidir estrechamente con una voz en los datos de entrenamiento.

READ  WhatsApp | Cómo cambiar la foto de perfil de un contacto | Aplicaciones | Aplicaciones | Truco | Tutorial | Perfil | Smartphone | Teléfonos celulares | Android | iOS | NNDA | NNNI | JUEGO DEPORTIVO

En el VAL-E sitio web de muestra, Microsoft proporciona docenas de ejemplos de audio del modelo de IA en acción. De las muestras, el «Speaker Prompt» es el audio de tres segundos proporcionado a VALL-E que debe imitar. La «Verdad básica» es una grabación preexistente de ese mismo orador pronunciando una frase en particular con fines de comparación (al igual que el «control» en el experimento). La «línea de base» es un ejemplo de síntesis proporcionada por un proceso de síntesis de texto a voz convencional, y la muestra «VALL-E» es el resultado del modelo VALL-E.

Un diagrama de bloques de VALL-E proporcionado por investigadores de Microsoft.
Agrandar / Un diagrama de bloques de VALL-E proporcionado por investigadores de Microsoft.

microsoft

Mientras usaban VALL-E para generar estos resultados, los investigadores ingresaron solo la muestra de «Indicador del hablante» de tres segundos y una cadena de texto (lo que querían que dijera la voz) en VALL-E. Así que compare la muestra «Ground Truth» con la muestra «VALL-E». En algunos casos, las dos muestras son muy cercanas. Algunos resultados de VALL-E parecen generados por computadora, pero otros podrían confundirse con el habla humana, que es el objetivo del modelo.

Además de preservar el timbre vocal y el tono emocional de un hablante, VALL-E también puede imitar el «ambiente acústico» de la muestra de audio. Por ejemplo, si la muestra es de una llamada telefónica, la salida de audio simulará las propiedades acústicas y de frecuencia de una llamada telefónica en su salida sintetizada (esta es una forma elegante de decir que también sonará como una llamada telefónica). Y el de Microsoft muestras (en la sección «Síntesis de diversidad») demuestran que VALL-E puede generar variaciones en el tono de voz modificando la semilla aleatoria utilizada en el proceso de generación.

READ  Roku desactiva televisores y dispositivos de transmisión hasta que los usuarios acepten nuevos términos

Tal vez debido a la capacidad de VALL-E de generar travesuras y engaños, Microsoft no proporcionó el código de VALL-E para que otros lo experimentaran, por lo que no pudimos probar las capacidades de VALL-E. Los investigadores parecen conscientes del daño social potencial que podría traer esta tecnología. Para la conclusión del artículo escriben:

“Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales de mal uso del modelo, como la suplantación de identidad de la voz o la suplantación de un hablante específico. Para mitigar estos riesgos, es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E. Principios de IA de Microsoft en la práctica durante el desarrollo posterior de los modelos».

Soy un profesional de gestión deportiva con conocimientos adecuados sobre la industria del deporte en España. Tengo varias habilidades que me han ayudado a trabajar en diferentes sectores del deporte en España, incluyendo eventos deportivos, desarrollo de base para el deporte e infraestructura deportiva.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Ciencia y tecnología

Google confirma que llegarán actualizaciones de Wear OS 5 y Android TV

Published

on

Google confirma que llegarán actualizaciones de Wear OS 5 y Android TV

Estamos a solo unas semanas de Google I/O 2024, y la compañía aparentemente ha revelado que se avecinan actualizaciones importantes en forma de Wear OS 5 y una nueva versión de Android TV.

El jueves, Google reveló una parte importante del calendario de I/O 2024, que (aparte de la serie habitual de sesiones centradas en los desarrolladores) incluye muchas pistas sobre los principales anuncios que se llevarán a cabo. Puede consultar nuestra cobertura más amplia para obtener más información sobre lo que hay en la tienda:

Sin embargo, dos sesiones llamaron especialmente nuestra atención. La primera se centra en «el futuro de Wear OS», y en la descripción, Google parece confirmar que «Wear OS 5» se anunciará en un futuro muy próximo.

En esta presentación, aprenderemos sobre las nuevas funciones de Wear OS 5. Esto incluye avances en el formato de la esfera del reloj y cómo diseñar y construir para la creciente gama de tamaños de dispositivos.

Ya hemos hablado de la próxima actualización de Wear OS 5, que se espera que se base en Android 14. Aquí, Google ha compartido el enfoque en el “Formato de esfera del reloj”, diseñado para hacer que las esferas del reloj sean más efectivas y dinámicas, y el diseño del reloj. aplicaciones para adaptarse a más «tamaños de dispositivos». Este último pilar tiene especial sentido a la luz de los rumores de que Google está preparando una variante más grande de 45 mm del Pixel Watch 3.

Entretiempo, otra sesión indica que pronto estará disponible una actualización a nivel del sistema operativo en dispositivos Android TV y Google TV.

Conozca las nuevas mejoras en la experiencia del usuario en Google TV y las últimas incorporaciones en la próxima actualización de la plataforma del sistema operativo Android TV. Descubra cómo las herramientas de desarrollo actualizadas en Compose para TV y Android Studio hacen que crear excelentes aplicaciones de TV sea más fácil que nunca.

La última actualización que recibimos en el frente de la televisión fue el verano pasado, cuando Google lanzó una versión beta de Android TV 14 y simultáneamente abandonó el trabajo en Android TV 13. Por ahora, la última versión del sistema operativo utilizada por los dispositivos Android TV es Android 12 de 2021. 5, esperamos que algunos dispositivos basados ​​en Android TV (incluido el próximo Chromecast con el sucesor de Google TV 4K) vean pronto una actualización actualizada a Android 14.

READ  Google.com prueba una página de inicio llena de noticias, al igual que Bing y Yahoo – Ars Technica

Hasta el momento, Google no ha dado ninguna pista sobre qué esperar de la «actualización de la plataforma del sistema operativo Android TV», aunque la sesión de E/S ofrecerá orientación actualizada a los desarrolladores de aplicaciones de TV.

¿Qué es lo que más esperas de las actualizaciones de Wear OS 5 y Android TV 14? Háganos saber en los comentarios a continuación.

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Continue Reading

Ciencia y tecnología

Tim Cook adelanta el próximo gran accesorio para iPad para el evento Let Loose

Published

on

Tim Cook adelanta el próximo gran accesorio para iPad para el evento Let Loose

Apple acaba de anunciar su próximo gran evento, al que la compañía ha llamado Let Loose, y todo apunta a que los nuevos modelos de iPad serán el principal anuncio de la feria del 7 de mayo. Pero Tim Cook se lanzó a la plataforma de redes sociales para provocar un nuevo accesorio para iPad: una nueva versión del Apple Pencil.

En su mensaje, el CEO de Apple nos pidió «¡designarnos para el 7 de mayo!». »con un emoji de lápiz después. También hay un vídeo que comienza con una mano sosteniendo un lápiz blanco. Luego pasa a varias interpretaciones artísticas del logo de Apple dibujado en lo que podría ser la pantalla de un iPad. Esto termina con el lápiz óptico volviendo a caer en la mano digital.

Continue Reading

Ciencia y tecnología

WhatsApp ahora está implementando soporte de contraseñas para usuarios de iPhone

Published

on

WhatsApp ahora está implementando soporte de contraseñas para usuarios de iPhone

WhatsApp ha estado probando internamente la compatibilidad con contraseñas en su aplicación para iPhone durante algún tiempo. Sin embargo, esta opción todavía no estaba disponible para la mayoría de los usuarios. Pero eso parece estar cambiando ahora, ya que Meta está implementando lentamente la opción de contraseña para los usuarios de WhatsApp en iPhone con la última versión de la aplicación.

Los usuarios de WhatsApp en iPhone ahora pueden habilitar el código de acceso

Como se ha señalado EngadgetMeta ahora ha confirmado que los usuarios de iPhone también tendrán la opción de habilitar un código de acceso para proteger su cuenta de WhatsApp. La función se presentó por primera vez a los usuarios de Android en octubre del año pasado. Según Meta, la función debería estar disponible para todos los usuarios de WhatsApp en las próximas semanas.

“La verificación de contraseña hará que volver a conectarse a WhatsApp sea más fácil y seguro. Estamos entusiasmados de lanzar esto en WhatsApp y brindar a los usuarios una capa adicional de seguridad”, dijo en un comunicado Alice Newton-Rex, jefa de producto de WhatsApp.

Para habilitar la contraseña en su cuenta de WhatsApp, siga estos pasos:

  1. Abrir WhatsApp
  2. Ir a configuraciones
  3. Grifo Cuenta
  4. Elegir Palabras clave
  5. Grifo crear una contraseña
  6. Confirmar con identificación facial O Identificación táctil

Más información sobre contraseñas

Passkey es una tecnología desarrollada por FIDO Alliance en colaboración con importantes empresas como Apple, Google y Microsoft. En lugar de las contraseñas tradicionales, permite a los usuarios iniciar sesión utilizando métodos seguros como el reconocimiento facial o la biometría, eliminando la necesidad de crear e ingresar una contraseña.

READ  AMD 2022-2024 GPU Roadmap confirma GPU RDNA 4 "Radeon RX 8000" de próxima generación y APU CDNA 3 "Instinct MI300" para 2024

Aunque Apple introdujo soporte para contraseñas con iOS 16, la integración con aplicaciones de terceros no se agregó hasta iOS 17. Se puede sincronizar una contraseña a través de iCloud Keychain o un administrador de contraseñas compatible como 1Password.

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Continue Reading

Trending