Connect with us

Ciencia y tecnología

La nueva IA de Microsoft puede simular la voz de cualquiera con 3 segundos de audio

Published

on

Agrandar / Una imagen generada por IA de la silueta de una persona.

Ars-Technica

El jueves, los investigadores de Microsoft anunciaron un nuevo modelo de IA de texto a voz llamado VALLE-E que puede simular de cerca la voz de una persona cuando se le da una muestra de audio de tres segundos. Una vez que aprende una voz específica, VALL-E puede sintetizar el audio de esa persona diciendo cualquier cosa y hacerlo de una manera que intente preservar el tono emocional del hablante.

Sus creadores creen que VALL-E podría usarse para aplicaciones de texto a voz de alta calidad, edición de voz en la que la grabación de una persona podría editarse y modificarse a partir de una transcripción de texto (haciendo que diga algo que no dijo originalmente), y creación de contenido de audio cuando se combina con otros modelos generativos de IA como GPT-3.

Microsoft llama a VALL-E un «modelo de lenguaje de códec neuronal» y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de síntesis de voz que normalmente sintetizan el habla mediante la manipulación de formas de onda, VALL-E genera códigos de códec de audio discretos a partir de indicaciones textuales y acústicas. Esencialmente, analiza el sonido de una persona, divide esa información en componentes discretos (llamados «tokens») a través de EnCodec y utiliza datos de entrenamiento para comparar lo que «sabe» acerca de cómo sonaría esa voz si pronunciara cualquier otra oración además de la muestra de tres segundos. O, como dice Microsoft en el papel VAL-E:

Para sintetizar voz personalizada (por ejemplo, zero-shot TTS), VALL-E genera los tokens acústicos correspondientes condicionados por los tokens acústicos de la grabación inscrita de 3 segundos y el indicador de fonema, que restringen respectivamente al hablante y la información del contenido. Finalmente, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el decodificador de códec neuronal correspondiente.

Microsoft entrenó las capacidades de texto a voz de VALL-E en una biblioteca de audio, ensamblada por Meta, llamada LibriLuz. Contiene 60.000 horas de habla inglesa de más de 7.000 hablantes, en su mayoría extraídos de LibriVox audiolibros de dominio público. Para que VALL-E genere un buen resultado, la voz en la muestra de tres segundos debe coincidir estrechamente con una voz en los datos de entrenamiento.

READ  La actualización N64 de Switch Online está activa (versión 2.6.0), esto es lo que incluye

En el VAL-E sitio web de muestra, Microsoft proporciona docenas de ejemplos de audio del modelo de IA en acción. De las muestras, el «Speaker Prompt» es el audio de tres segundos proporcionado a VALL-E que debe imitar. La «Verdad básica» es una grabación preexistente de ese mismo orador pronunciando una frase en particular con fines de comparación (al igual que el «control» en el experimento). La «línea de base» es un ejemplo de síntesis proporcionada por un proceso de síntesis de texto a voz convencional, y la muestra «VALL-E» es el resultado del modelo VALL-E.

Un diagrama de bloques de VALL-E proporcionado por investigadores de Microsoft.
Agrandar / Un diagrama de bloques de VALL-E proporcionado por investigadores de Microsoft.

microsoft

Mientras usaban VALL-E para generar estos resultados, los investigadores ingresaron solo la muestra de «Indicador del hablante» de tres segundos y una cadena de texto (lo que querían que dijera la voz) en VALL-E. Así que compare la muestra «Ground Truth» con la muestra «VALL-E». En algunos casos, las dos muestras son muy cercanas. Algunos resultados de VALL-E parecen generados por computadora, pero otros podrían confundirse con el habla humana, que es el objetivo del modelo.

Además de preservar el timbre vocal y el tono emocional de un hablante, VALL-E también puede imitar el «ambiente acústico» de la muestra de audio. Por ejemplo, si la muestra es de una llamada telefónica, la salida de audio simulará las propiedades acústicas y de frecuencia de una llamada telefónica en su salida sintetizada (esta es una forma elegante de decir que también sonará como una llamada telefónica). Y el de Microsoft muestras (en la sección «Síntesis de diversidad») demuestran que VALL-E puede generar variaciones en el tono de voz modificando la semilla aleatoria utilizada en el proceso de generación.

READ  Cómo ocultar su foto de perfil de WhatsApp a un solo contacto

Tal vez debido a la capacidad de VALL-E de generar travesuras y engaños, Microsoft no proporcionó el código de VALL-E para que otros lo experimentaran, por lo que no pudimos probar las capacidades de VALL-E. Los investigadores parecen conscientes del daño social potencial que podría traer esta tecnología. Para la conclusión del artículo escriben:

“Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales de mal uso del modelo, como la suplantación de identidad de la voz o la suplantación de un hablante específico. Para mitigar estos riesgos, es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E. Principios de IA de Microsoft en la práctica durante el desarrollo posterior de los modelos».

Soy un profesional de gestión deportiva con conocimientos adecuados sobre la industria del deporte en España. Tengo varias habilidades que me han ayudado a trabajar en diferentes sectores del deporte en España, incluyendo eventos deportivos, desarrollo de base para el deporte e infraestructura deportiva.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada.

Ciencia y tecnología

El video teaser del Mazda CX-90 muestra un interior premium y revela un nuevo color

Published

on

El nuevo Mazda CX-90 se dará a conocer en su totalidad el 31 de enero, pero la campaña teaser «sin caja» deja poco a la imaginación. El último video se enfoca en el diseño, y mientras aprendemos algunas cosas sobre el exterior del gran SUV, la estrella de este espectáculo es el interior.

Y parece una cabaña bastante elegante, por lo que vemos. A los fabricantes de automóviles les encanta lanzar la palabra emoción en cuanto a vehículos y mazda no es una excepción; la empresa utilizará una combinación de colores neutros con costuras japonesas tradicionales en el tablero para evocar esos sentimientos en el conductor y los pasajeros. Me gusta este en particular CX-90 se junta, vemos una muestra de gris claro, gris oscuro y blanco acentuado con molduras de cromo y madera en algunos lugares.

Vista previa del interior del Mazda CX-90

Sin embargo, no estamos seguros de si es madera real. La diseñadora de interiores Becki Owens hace una aparición en este video, discutiendo colores y texturas para interiores. Maneja una muestra de madera con una pegatina en la parte posterior etiquetada como Stoneform, que es un material alternativo para pisos de madera que ella diseñó. Más adelante en el video, vemos la consola central del CX-90 con lo que parece este material aplicado en la parte superior. No está claro si es madera real o Stoneform, pero se ve bastante bien en esta aplicación. Además, podemos ver que el robusto SUV de Mazda conserva una palanca de cambios para la transmisión junto con una gran cantidad de controles táctiles.

En cuanto a las señales de diseño en el exterior, se revela oficialmente un nuevo color llamado Artisan Red. Este es aparentemente el tono de rojo que vimos en otros adelantos del CX-90y nuevamente, Mazda está aprovechando el pozo de emoción en su descripción de la pintura. Más allá de eso, el video también ofrece una mirada a la carrocería del CX-90. El lenguaje de diseño de Mazda utiliza principalmente formas orgánicas redondeadas en lugar de bordes duros para maximizar la reflectividad de la pintura. En teoría, esto ayuda a los espectadores a crear una imagen más fuerte, lo adivinaste, emocional conexión con el CX-90.

READ  La actualización N64 de Switch Online está activa (versión 2.6.0), esto es lo que incluye

Con solo cinco días para la gran revelación, es difícil decir si veremos otro adelanto importante del CX-90. Ya sabemos que contará con el I6 turboalimentado de 3.3 litros de Mazda que generará 340 caballos de fuerza, y sabemos que Mazda ofrecerá un sistema de propulsión híbrido. Ya sea el seis cilindros o el cuatro cilindros de 2,5 litros del CX-60 es una pregunta que aún tenemos que responder, pero con la divulgación completa en menos de una semana, no tendremos que esperar mucho.

Continue Reading

Ciencia y tecnología

Se rumorea que el rediseño del Explorador de archivos de Windows está vinculado a OneDrive, Microsoft 365

Published

on

Agrandar / Una PC con Windows 11.

Microsoft está trabajando en un rediseño de la aplicación File Explorer en Windows 11, según un informe de Windows Central. El nuevo Explorer contará con una navegación rediseñada y más fácil de usar, una mejor visualización de fotos con vistas previas más grandes, etiquetas de colores y palabras clave para la organización de archivos, y una integración más estrecha con Microsoft 365 y OneDrive.

Una maqueta interna de la nueva interfaz muestra una nueva sección de archivos «recomendados» junto con las áreas existentes para archivos anclados y recientes, con grandes vistas previas de varios documentos e información de ubicación de archivos (se enumeran OneDrive, SharePoint y las carpetas de descargas locales) y sobre cambios recientes. El nuevo aspecto también vendrá con un «código más moderno» debajo del capó.

El informe dice que Microsoft quiere lanzar el nuevo Explorer antes de fin de año. Podría ser parte de la actualización anual de otoño de Windows de este año, pero Microsoft tomó una «tan pronto como estén listosenfoque para lanzar nuevas funciones de Windows en la era de Windows 11: podría lanzarse en cualquier momento o nunca.

Una supuesta maqueta interna del nuevo diseño de Windows 11 Explorer, con
Agrandar / Una supuesta maqueta interna del nuevo diseño del Explorador de Windows 11, con archivos «recomendados» en primer plano.

Explorer se ha actualizado varias veces desde el lanzamiento de Windows 11; microsoft Explorador actualizado con diseño con pestañas junto con un pequeño lote de otras adiciones poco después del lanzamiento de la actualización de Windows 11 2022. Y la aplicación también se actualizó para que coincida con el resto de la nueva apariencia de Windows 11 en la versión original del sistema operativoeliminando la antigua interfaz de usuario de la cinta de Windows 8.

READ  La transferencia de chat de WhatsApp iPhone a Android ahora está disponible en píxeles y teléfonos nuevos

Los esfuerzos de Microsoft para integrar y agrupar sus diversos servicios todavía atraen ocasionalmente la atención de los reguladores gubernamentales, décadas después de la Caso antimonopolio de Internet Explorer. Política informado a principios de esta semana que los reguladores de la UE están listos para lanzar una investigación antimonopolio en la empresa por la forma en que integró Microsoft Teams con el conjunto de aplicaciones de productividad antes llamado Office. Una versión de Explorer que también priorice y anuncie OneDrive y Microsoft 365 también podría provocar la ira de los reguladores.

Continue Reading

Ciencia y tecnología

El iPhone 15 debería tener Wi-Fi 6E como las últimas Mac y iPad Pro

Published

on

El iPhone 15 admitirá Wi-Fi 6E, según una nota de investigación compartida esta semana por los analistas de Barclays Blayne Curtis y Tom O’Malley. Los analistas no han dicho si la función estará disponible en todos los modelos o se limitará a los modelos Pro.


Hasta ahora, Apple ha agregado compatibilidad con Wi-Fi 6E a un puñado de dispositivos, incluido el último iPad Pro de 11 y 12,9 pulgadas, el MacBook Pro de 14 y 16 pulgadas y el Mac mini, mientras que todos los modelos de iPhone 14 permanecer limitado al Wi-Fi 6 estándar.

Wi-Fi 6 funciona en las bandas de 2,4 GHz y 5 GHz, mientras que Wi-Fi 6E también funciona en la banda de 6 GHz, lo que permite velocidades inalámbricas más rápidas, menor latencia y menos interferencia de la señal. Para disfrutar de estos beneficios, el dispositivo debe estar conectado a un enrutador Wi-Fi 6E, disponible de marcas como TP-Link, Asus y Netgear.

Wi-Fi 6E también se rumoreaba para los modelos iPhone 13 y iPhone 14 y no se materializó, pero ahora que Apple comenzó a implementar la compatibilidad con Wi-Fi -Fi 6E en sus últimos dispositivos, es más probable que el iPhone 15 lo haga. finalmente apoyar el estándar. .

Se espera que Apple presente el iPhone 15, iPhone 15 Plus, iPhone 15 Pro y iPhone 15 Pro Max en septiembre, como de costumbre. Los rumores sugieren que los cuatro modelos contarán con Dynamic Island y un puerto USB-C, mientras que se espera que los modelos Pro obtengan el último chip A17 Bionic de Apple, marco de titanio, botones de volumen y fuente de alimentación de estado sólido, etc.

READ  Cómo ocultar su foto de perfil de WhatsApp a un solo contacto

Apple tiene un pieza justificativa con más detalles sobre Wi-Fi 6E.

Continue Reading

Trending