Connect with us

Ciencia y tecnología

La nueva IA de Microsoft puede simular la voz de cualquiera con 3 segundos de audio

Published

on

La nueva IA de Microsoft puede simular la voz de cualquiera con 3 segundos de audio
Agrandar / Una imagen generada por IA de la silueta de una persona.

Ars-Technica

El jueves, los investigadores de Microsoft anunciaron un nuevo modelo de IA de texto a voz llamado VALLE-E que puede simular de cerca la voz de una persona cuando se le da una muestra de audio de tres segundos. Una vez que aprende una voz específica, VALL-E puede sintetizar el audio de esa persona diciendo cualquier cosa y hacerlo de una manera que intente preservar el tono emocional del hablante.

Sus creadores creen que VALL-E podría usarse para aplicaciones de texto a voz de alta calidad, edición de voz en la que la grabación de una persona podría editarse y modificarse a partir de una transcripción de texto (haciendo que diga algo que no dijo originalmente), y creación de contenido de audio cuando se combina con otros modelos generativos de IA como GPT-3.

Microsoft llama a VALL-E un «modelo de lenguaje de códec neuronal» y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de síntesis de voz que normalmente sintetizan el habla mediante la manipulación de formas de onda, VALL-E genera códigos de códec de audio discretos a partir de indicaciones textuales y acústicas. Esencialmente, analiza el sonido de una persona, divide esa información en componentes discretos (llamados «tokens») a través de EnCodec y utiliza datos de entrenamiento para comparar lo que «sabe» acerca de cómo sonaría esa voz si pronunciara cualquier otra oración además de la muestra de tres segundos. O, como dice Microsoft en el papel VAL-E:

Para sintetizar voz personalizada (por ejemplo, zero-shot TTS), VALL-E genera los tokens acústicos correspondientes condicionados por los tokens acústicos de la grabación inscrita de 3 segundos y el indicador de fonema, que restringen respectivamente al hablante y la información del contenido. Finalmente, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el decodificador de códec neuronal correspondiente.

Microsoft entrenó las capacidades de texto a voz de VALL-E en una biblioteca de audio, ensamblada por Meta, llamada LibriLuz. Contiene 60.000 horas de habla inglesa de más de 7.000 hablantes, en su mayoría extraídos de LibriVox audiolibros de dominio público. Para que VALL-E genere un buen resultado, la voz en la muestra de tres segundos debe coincidir estrechamente con una voz en los datos de entrenamiento.

READ  El Pixel Watch de Google acaba de recibir un desempaquetado anticipado

En el VAL-E sitio web de muestra, Microsoft proporciona docenas de ejemplos de audio del modelo de IA en acción. De las muestras, el «Speaker Prompt» es el audio de tres segundos proporcionado a VALL-E que debe imitar. La «Verdad básica» es una grabación preexistente de ese mismo orador pronunciando una frase en particular con fines de comparación (al igual que el «control» en el experimento). La «línea de base» es un ejemplo de síntesis proporcionada por un proceso de síntesis de texto a voz convencional, y la muestra «VALL-E» es el resultado del modelo VALL-E.

Un diagrama de bloques de VALL-E proporcionado por investigadores de Microsoft.
Agrandar / Un diagrama de bloques de VALL-E proporcionado por investigadores de Microsoft.

microsoft

Mientras usaban VALL-E para generar estos resultados, los investigadores ingresaron solo la muestra de «Indicador del hablante» de tres segundos y una cadena de texto (lo que querían que dijera la voz) en VALL-E. Así que compare la muestra «Ground Truth» con la muestra «VALL-E». En algunos casos, las dos muestras son muy cercanas. Algunos resultados de VALL-E parecen generados por computadora, pero otros podrían confundirse con el habla humana, que es el objetivo del modelo.

Además de preservar el timbre vocal y el tono emocional de un hablante, VALL-E también puede imitar el «ambiente acústico» de la muestra de audio. Por ejemplo, si la muestra es de una llamada telefónica, la salida de audio simulará las propiedades acústicas y de frecuencia de una llamada telefónica en su salida sintetizada (esta es una forma elegante de decir que también sonará como una llamada telefónica). Y el de Microsoft muestras (en la sección «Síntesis de diversidad») demuestran que VALL-E puede generar variaciones en el tono de voz modificando la semilla aleatoria utilizada en el proceso de generación.

READ  Los 10 televisores más geniales en IFA 2023, desde televisores conceptuales OLED hasta maravillas gigantes 4K

Tal vez debido a la capacidad de VALL-E de generar travesuras y engaños, Microsoft no proporcionó el código de VALL-E para que otros lo experimentaran, por lo que no pudimos probar las capacidades de VALL-E. Los investigadores parecen conscientes del daño social potencial que podría traer esta tecnología. Para la conclusión del artículo escriben:

“Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales de mal uso del modelo, como la suplantación de identidad de la voz o la suplantación de un hablante específico. Para mitigar estos riesgos, es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E. Principios de IA de Microsoft en la práctica durante el desarrollo posterior de los modelos».

Soy un profesional de gestión deportiva con conocimientos adecuados sobre la industria del deporte en España. Tengo varias habilidades que me han ayudado a trabajar en diferentes sectores del deporte en España, incluyendo eventos deportivos, desarrollo de base para el deporte e infraestructura deportiva.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Ciencia y tecnología

Los mejores servicios, o miniaplicaciones, para agregar a tu Mac

Published

on

Los mejores servicios, o miniaplicaciones, para agregar a tu Mac

Una de las funciones de Mac más subestimadas es el menú de servicios, que puedes encontrar haciendo clic derecho en casi cualquier cosa: texto resaltado, por ejemplo, o cualquier imagen. Pase el cursor sobre la sección «Servicios» y verá una serie de acciones rápidas. Puede encontrar esta misma colección en la barra de menú: simplemente haga clic en el nombre de la aplicación actualmente abierta y coloque el cursor sobre Prestaciones de servicio.


Crédito: Justin Pot

Hay todo tipo de opciones útiles aquí. Por ejemplo, puede buscar una palabra en el diccionario o agregar texto a su lista de tareas pendientes. Puedes abrir una URL usando IINA, un excelente reproductor de video para Mac. Ya entiendes la idea: puedes automatizar lo que se seleccione. Puedes controlar qué cosas aparecen o no abriendo Ajustes del sistema y hacia Teclado > Atajos de teclado > Prestaciones de servicio. Desde allí puede marcar o desmarcar elementos. También puede configurar atajos de teclado personalizados para estos servicios.

Abra Configuración del sistema en la subsección Servicios de la ventana Atajos de teclado.  Son visibles diferentes servicios: el usuario puede comprobar cuáles desea activar y también configurar atajos de teclado.


Crédito: Justin Pot

Pero donde las cosas realmente se ponen divertidas es cuando miras los servicios personalizados que puedes descargar. Estas son algunas de las mejores aplicaciones que pude encontrar y que agregan funciones interesantes al menú de servicios de tu Mac.

El dictador te lee el texto en voz alta.

El software Dictator muestra el texto: la palabra que se está leyendo actualmente está resaltada.  Una barra de herramientas permite al usuario pausar la reproducción o avanzar o retroceder.


Crédito: Justin Pot

La Mac viene con un servicio de lectura de texto incorporado, pero no me gusta mucho. Dictador, en mi experiencia, funciona mucho mejor. Con esta aplicación puedes resaltar cualquier texto, en cualquier aplicación, y leerlo en voz alta. Hay una ventana emergente con botones para reproducir y avanzar y retroceder, así como una ventana opcional que puedes abrir para ver el texto en la pantalla a medida que se lee. Puedes cambiar la voz utilizada en Ajustes del sistema > Accesibilidad > Contenido habladosi lo deseo, prefiero usar una de las voces de Siri de alta calidad.

READ  Philips Hue finalmente aborda una de sus mayores limitaciones

CalcService hace matemáticas

CalcService es un Descarga gratis que le permite hacer cálculos en cualquier campo de texto. Una vez instalada la aplicación, puedes resaltar cualquier fórmula matemática en cualquier aplicación, por ejemplo: (62*7)/4y obtenga una respuesta inmediata, como esta: (62*7)/4 = 108.5. Es mágico y aún mejor una vez que creas un atajo de teclado para la funcionalidad.

servicio de palabras

Una ventana emergente simple con estadísticas sobre el texto resaltado actualmente.  Hay 252 caracteres y 72 espacios para un total de 324. Hay 54 palabras y 20 líneas.


Crédito: Justin Pot

WordService se presenta como un Descarga gratis de Devon Technologies, la misma empresa que creó CalcService. Ofrece todo tipo de herramientas para trabajar con texto, la más útil de las cuales te permite obtener un recuento de palabras y caracteres para cualquier texto que resaltes. Esto es útil para todo tipo de cosas, desde escribir publicaciones en redes sociales hasta escritos extensos. Pero hay mucho más en qué profundizar aquí. Existen acciones para convertir texto en mayúsculas a minúsculas y viceversa. Hay acciones para insertar la hora actual o la fecha actual. Y hay acciones para agregar o eliminar comillas tipográficas de un bloque de texto. Si publicas material en línea con regularidad, esta es una buena colección de herramientas que debes tener a mano.

SearchLink encuentra rápidamente un enlace y lo agrega

Enlace de búsqueda Es un poco más difícil de explicar pero me encanta. Básicamente, puede resaltar cualquier texto, activar el servicio y la herramienta buscará automáticamente el término en la web y agregará un enlace en formato Markdown. Entonces, por ejemplo, aquí hay un documento de texto con mi nombre:

Un documento de texto con el nombre. "justin pote" Subrayados.


Crédito: Justin Pot

Si ejecuto SearchLink en el texto resaltado, que es mi nombre, el documento se ve así:

El enlace se agregó sin que tuviera que abrir un navegador. Esto puede ahorrarle mucho tiempo al escribir, suponiendo que escriba en rebajas. Y hay funciones más avanzadas que puede aprovechar, incluida una que completará todos los enlaces de un documento. Esta es una gran herramienta para tener a mano.

Los atajos también pueden funcionar de esta manera

El panel derecho de la aplicación Apple Shortcuts, con varias opciones para ese acceso directo específico.  EL "Úselo como acción rápida" la opción está marcada, al igual que "Menú de servicio".


Crédito: Justin Pot

¿No encontraste la aplicación que buscabas? Puedes intentar construir uno tú mismo. Cualquier acceso directo que cree en Apple Shortcuts puede funcionar como un servicio. Solo asegúrate Úselo como acción rápida Y Menú de servicio están resaltados en el Detalles del acceso directo ventana. Consulte nuestra lista de los atajos más útiles en macOS si necesita algunas ideas sobre cómo implementarlo.

Continue Reading

Ciencia y tecnología

Cierre de la API de Google Fit, la aplicación de Android se cierra inesperadamente

Published

on

Cierre de la API de Google Fit, la aplicación de Android se cierra inesperadamente

Desde el lanzamiento de Health Connect en 2022, Google canceló las API para desarrolladores de Google Fit. A principios de esta semanala compañía detalló en detalle cómo «las API de Google Fit han quedado obsoletas y serán compatibles hasta el 30 de junio de 2025».

Las aplicaciones de fitness y ejercicio que anteriormente usaban Google Fit tienen hasta junio de 2025 como fecha límite para pasar a Health Connect, y Google la llama ampliamente la «plataforma Android Health».

Aunque hemos dejado de usar la API de Google Fit para Android, planeamos desactivarla no antes del 30 de junio de 2025. Esto es para darles a los usuarios tiempo suficiente para realizar la transición a Health Connect y continuar con su servicio.

Google guía de migración para desarrolladores enumera a qué se supone que deben cambiar en los teléfonos Android y Wear OS. Sin embargo, no hay sustituto para la API Goals que permite a los usuarios de Google Fit establecer «la cantidad de pasos y puntos de frecuencia cardíaca que desean alcanzar cada día».

Google dice que «compartirá más detalles sobre el futuro de Android Health» en I/O a finales de este mes.

Desde este anuncio de cierre de API, Google no ha dicho nada sobre las aplicaciones de Google Fit en AndroidePortar el sistema operativo y iOS. Todavía trabajan para rastrear la actividad y albergar sus archivos completos.

Dicho esto, la aplicación no se ha actualizado a Material You y no ha visto ninguna característica nueva. La última gran actualización fue la compatibilidad con Health Connect en 2022, mientras que Google introdujo el seguimiento de la frecuencia cardíaca y la respiración con cámara en 2021.

READ  Desaparecido en 130 segundos: el nuevo truco de Tesla les da a los ladrones su propia clave personal

La aplicación de Fitbit obtuvo la capacidad de ver estadísticas de otros dispositivos y servicios de Health Connect, evitando aún más a Google Fit. También debes usarlo para la detección del sueño en el Nest Hub de segunda generación con radar Soli. Se espera que Google empiece a cobrar por esto este año.

A estas alturas, está claro que Google Fit no es el futuro. En Pixel Watch, Fitbit es el predeterminado, mientras que Samsung y otros fabricantes de Wear OS tienen sus propias soluciones de seguimiento de salud.

Si Google anunciara la obsolescencia de la aplicación Fit, tendría sentido que coincidiera con la fecha límite para desarrolladores de junio de 2025.

FTC: utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Continue Reading

Ciencia y tecnología

Hisense lanza CanvasTV para enfrentarse a “The Frame”

Published

on

Hisense lanza CanvasTV para enfrentarse a “The Frame”

Hisense ha anunciado su nueva línea de televisores, la serie CanvasTV. Esta serie se inspira en los televisores 'The Frame' existentes de Samsung y gira en torno a mostrar obras de arte en una pantalla que se adapta bien, sin dejar de brindar una excelente experiencia de visualización cuando la necesita a un costo menor.

El lienzoTV alberga una pantalla 4K QLED con tecnología Quantum Dot Color, que proporciona una base fantástica para ver películas y televisión. La pantalla también es capaz de llegar a los 144Hz, lo que lo posiciona como un buen televisor para conectar a videoconsolas.

De manera similar al enfoque de Samsung, el acabado de la pantalla es mate, lo que resulta ser una excelente base para exhibir obras de arte. Aunque la pantalla es digital, las pantallas mate tienen la capacidad de dar una apariencia similar al papel, lo que puede resultar engañoso si estás muy cerca.

Hisense equipa CanvasTV con Google TV, pero ejecutará un «modo artístico» patentado que puede cambiar entre diferentes obras de arte. Cuando esté en uso, actuará como una pantalla normal de Google TV y aparentemente funcionará tan bien como otros televisores Hisense.

Los clientes podrán elegir un diseño de marco para bordear el CanvasTV para que combine mejor con la pared. De forma predeterminada, cada televisor tendrá un marco de teca que se puede cambiar a blanco o nogal. Tampoco son permanentes. Se pueden apagar dependiendo de lo que funcione mejor para su pared. La idea es que Hisense CanvasTV sea esencialmente como una obra de arte estática, por lo que es esencial configurarlo para que luzca lo mejor posible en la pared.

READ  Desaparecido en 130 segundos: el nuevo truco de Tesla les da a los ladrones su propia clave personal

El Hisense CanvasTV estará disponible en una variante de 55 y 65 pulgadas a partir de $999, lo que socava completamente las opciones de Samsung que comienzan en alrededor de $1,500 para el tamaño de 55 pulgadas. Ambos modelos estarán disponibles a finales del verano de 2024.

FTC: utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Continue Reading

Trending