Connect with us

Ciencia y tecnología

El generador de texto a imagen de Google ‘Imagen’ es muy fotorrealista

Published

on

En las últimas semanas, el DALL-E 2 El generador de imágenes de IA ha estado causando sensación en Twitter. Google lanzó su propia versión esta noche titulada «Imageny combina un profundo nivel de comprensión del lenguaje con un «grado de fotorrealismo sin precedentes».

De acuerdo a Jeff Dean, jefe de IA en Google, dijo que los sistemas de IA como estos «pueden desatar la creatividad humana/informática conjunta», e Imagen es «una dirección [the company is] perseguir. El avance realizado por Google Research, Brain Team en su modelo de entrega de texto a imagen es el nivel de realismo. En general, DALL-E 2 es en su mayoría realista con su lanzamiento, pero una mirada más cercana podría revelar las licencias artísticas realizadas. (Para obtener más información, asegúrese de mira este video explicativo.)

Imagen se basa en el poder de los modelos de lenguaje de gran transformador para comprender el texto y se basa en la fuerza de los modelos de difusión para generar imágenes de alta fidelidad. Nuestro hallazgo clave es que los grandes modelos de lenguaje genérico (por ejemplo, T5), entrenados previamente en corpus de texto, son sorprendentemente eficientes en la codificación de texto para la síntesis de imágenes: aumentar el tamaño del modelo de lenguaje en Imagen mejora tanto la fidelidad de la muestra como la alineación de la imagen y el texto. . más que aumentar el tamaño del modelo de entrega de imágenes.

Para probar este avance, Google ha creado un punto de referencia para evaluar modelos de texto a imagen llamado Dibujar banco. Los evaluadores humanos prefirieron «Imagen sobre otros modelos en comparaciones lado a lado, tanto en términos de calidad de muestra como de alineación de imagen y texto». Se comparó con VQ-GAN+CLIP, modelos de difusión latente y DALL-E 2.

Mientras tanto, las métricas utilizadas para demostrar que Imagen es mejor para comprender las solicitudes de los usuarios incluyen relaciones espaciales, texto largo, palabras raras e indicaciones difíciles. Otro avance logrado es una nueva arquitectura Efficient U-Net que es «más eficiente desde el punto de vista computacional, más eficiente en memoria y converge más rápido».

Imagen logra un nuevo puntaje máximo de FID de 7.27 en el conjunto de datos COCO, nunca entrenando en COCO, y los evaluadores humanos encuentran que las muestras de Imagen están a la par con los propios datos COCO en la alineación de imagen y texto.

En el frente del impacto social, Google «ha decidido no publicar ningún código público o demostración» de Imagen en este momento dado el posible abuso. Además:

Imagen se basa en codificadores de texto entrenados en datos no curados a escala web y, por lo tanto, hereda los sesgos sociales y las limitaciones de los grandes modelos de lenguaje. Como tal, existe el riesgo de que Imagen haya codificado estereotipos y representaciones dañinas, lo que guía nuestra decisión de no publicar Imagen para uso público sin más salvaguardas.

Dicho esto, hay un demostración interactiva en el sitioy el el trabajo de investigación está disponible aquí.

READ  La aplicación le permite aumentar el brillo de la nueva MacBook Pro a más de 1,000 nits

Más información sobre la IA de Google:

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Después.


Consulte 9to5Google en YouTube para obtener más información:

Soy un profesional de gestión deportiva con conocimientos adecuados sobre la industria del deporte en España. Tengo varias habilidades que me han ayudado a trabajar en diferentes sectores del deporte en España, incluyendo eventos deportivos, desarrollo de base para el deporte e infraestructura deportiva.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada.

Ciencia y tecnología

Google comienza a implementar la generación de imágenes en Presentaciones

Published

on

Google amplía Workspace Labs con un trío de funciones nuevas en Gmail, Documentos y Presentaciones, incluida la generación de imágenes.

Como se anunció en I/O 2023 el mes pasado, Google está implementando la generación de imágenes en Presentaciones, lo que ayudará a los usuarios a crear fondos personalizados para las presentaciones. Habrá un panel lateral «Ayúdame a visualizar» para ingresar un aviso.

A continuación, puede elegir un estilo: fotografía, ilustración, diseño plano, fondo, imágenes prediseñadas o ninguno. Google generará de 6 a 8 diseños con la opción de «Ver más».

Google nos dice hoy que esto se está implementando gradualmente para los probadores de confianza en el programa Workspace Labs. Además, la compañía nos dice que esto funciona con los modelos de generación de imágenes de Google, que incluye Imagen.

Mientras tanto, en Gmail, «Ayúdame a escribir» se amplía con sugerencias de respuesta contextual que tienen en cuenta el hilo anterior. Google agregará detalles específicos a la respuesta que genera a partir de su mensaje, como el nombre de la persona a la que está respondiendo y las horas/fechas.

En Docs, Help Me Write agregará automáticamente viñetas inteligentes y otras variables a una respuesta generada para recordarle que debe agregar detalles, como el nombre de su empresa en una solicitud de empleo.

Puedes registrarte en Google Workspace Labs aquí.

Más información sobre Google Workspace:

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

READ  El nuevo monitor inteligente 4K de Samsung tiene una cámara web magnética inalámbrica
Continue Reading

Ciencia y tecnología

¿Por qué características de Google AI pagarías?

Published

on

9to5Google tiene un boletín reiniciado que destaca las historias más importantes de Google con comentarios adicionales y otras cositas. Regístrese para obtenerlo temprano en su bandeja de entrada, o continúe leyendo 9to5Google Cerrar sesión a continuación:

En este punto, las funciones de IA generativa de Google son gratuitas porque están en versión beta y porque estamos en la etapa en la que todas estas empresas quieren que las personas usen sus productos en lugar de los de sus competidores.

Más allá de eso, estoy seguro de que algunas de las características que tenemos hoy eventualmente darán sus frutos, aunque solo sea porque la IA es computacionalmente costosa.

En cuanto a lo que será gratuito, creo que la experiencia generativa de búsqueda (SGE) es el candidato más obvio, dado que los motores de búsqueda de pago no son viables y los anuncios pueden subvencionar el costo.

Creo que lo mismo será cierto para Bard, o cualquiera que sea su estado final, aunque la idea de los niveles de funciones existe, como se ve con ChatGPT.

[Tangent: Bard is officially referred to as “an AI experiment by Google.” That made a great deal of sense at launch, but I’m starting to wonder if it will be sticking around. I can very clearly see Google giving “Bard” a new name – maybe it’s rolled into Assistant, which gets a web presence in the process – but the underpinnings of what’s being built out, especially third-party integrations, seem too specific and product-like to just be thrown out.]

Con Magic Eraser ya disponible como una función paga en dispositivos que no son Pixel, Magic Editor está siguiendo el mismo camino, es muy obvio. Entonces alli esta Composición mágica en Mensajes de Google. Después de usarlo durante aproximadamente una semana, creo que es divertido pero no crítico. Lo mismo podría decirse de los fondos de pantalla AI de próxima generación en teléfonos Pixel. La razón de ser de ambos podría ser que es compatible con el producto subyacente: Magic Compose mejora RCS, al igual que los fondos de pantalla de IA mejoran los dispositivos Pixel.

READ  ChromeOS y Microsoft 365 comenzarán a jugar mejor juntos este año

Pasando a Workspace, creo que las funciones principales como «Ayúdame a escribir» en Gmail y Docs deberían ser competitivamente gratuitas. Sin embargo, la priorización podría aplicarse aquí al hacer que el panel Sidekick sea una función premium. Otras funciones generativas de IA, como la creación de tablas y la organización de datos en Hojas y la generación de imágenes en Diapositivas y Meet (para fondos), se pueden bloquear, dada su naturaleza más avanzada.

Independientemente del desglose, poner las funciones más premium detrás de Google One tiene más sentido. Si viene con Google One y almacenamiento adicional, una propuesta muy simple y obvia, simplemente se convierte en un valor agregado. Fuera de Workspace, no creo que Google tenga mucha suerte al agrupar funciones de inteligencia artificial como su propia suscripción o desbloqueo por aplicación.

De 9 a 5 Google

Práctico: Motorola Razr y Razr+ finalmente hacen realidad la visión de los teléfonos con tapa plegables

Ahora puede configurar la migración del Asistente de tareas de Google

Google Pixel 8 aparece temprano, no incluirá la actualización de carga inalámbrica Qi2

El futuro de Google Chat podría tener un nuevo logo y un rediseño del «Timeline»

Revisar: Motorola Edge+ no es la primera opción de nadie, pero tal vez debería serlo

Conveniente: La próxima función dashcam de Pixel es sólida pero requiere accesorios


Antes de Pixel Watch 2, Google explica cómo funciona el sensor de seguimiento de estrés cEDA de Fitbit

Google está implementando Fuchsia más ampliamente en Nest Hub de segunda generación

Wear OS obtiene nuevos mosaicos de Keep y Spotify, tarjetas de tránsito de Google Wallet

La aplicación de Google obtiene el widget de acciones «Finance Watchlist» en Android [Gallery]

READ  Kobo se enfrenta al Kindle Scribe con un lector electrónico Elipsa 2E de $ 400

La actualización de Nest Wifi Pro soluciona el problema de la prueba de velocidad y mejora el rendimiento

Google deja oficialmente de actualizar Chromecast de primera generación a partir de 2013

El nuevo Google Weather parece ser una aplicación independiente, se integra con Google Clock

Del resto de 9to5

9to5Mac: Concepto: diseño de auriculares Apple Reality Pro AR/VR basado en patentes, informes, etc.

Electrek: La última actualización OTA de Polestar 2 agrega YouTube, además de actualizaciones a Range Assist y Apple CarPlay

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Continue Reading

Ciencia y tecnología

watchOS 10 incluirá aplicaciones renovadas para aprovechar la pantalla más grande de Apple Watch Ultra

Published

on

watchOS 10 se perfila como una actualización importante para los usuarios de Apple Watch, que incluye un nuevo enfoque en los widgets como una forma de brindarles a los usuarios acceso a información visible. Ahora, Bloomberg informes que watchOS 10 también renovará «todas las aplicaciones principales» para aprovechar mejor los tamaños de pantalla más grandes de Apple Watch.

Nuevas características de watchOS 10

Este regalo en watchOS 10 a través de de Bloomberg Una mirada en profundidad a todo lo que se puede esperar en la WWDC 2023 la próxima semana. El informe también indica que Apple ha construido un área práctica especial dentro de Apple Park para demostraciones de los auriculares Reality Pro.

En cuanto a watchOS 10, el informe de hoy dice que uno de los objetivos de Apple es mejorar las aplicaciones básicas de watchOS para Apple Watch Ultra. «Apple está renovando todas las aplicaciones principales de Apple Watch con nuevos diseños para aprovechar las pantallas más grandes de Apple Watch Ultra y los relojes estándar más grandes», informa Mark Gurman.

Esta ha sido una queja común entre los usuarios de Apple Watch Ultra desde que se presentó el dispositivo el año pasado. EL Apple reloj ultra tiene la pantalla más grande en un Apple Watch, pero Apple aún tiene que actualizar la mayoría de las aplicaciones integradas y las carátulas del reloj para aprovechar al máximo esa pantalla más grande.

Como se mencionó anteriormente, watchOS 10 también incluirá un nuevo enfoque en los widgets. Puede encontrar el resumen completo de lo que puede esperar de watchOS 10 en nuestra guía detallada.

READ  Kobo se enfrenta al Kindle Scribe con un lector electrónico Elipsa 2E de $ 400

El discurso de apertura anual de la Conferencia Mundial de Desarrolladores de Apple tendrá lugar el lunes 5 de junio a las 10:00 a. m. PT/1:00 p. m. ET. Manténgalo bloqueado para 9to5Mac para una cobertura completa antes del evento. También estaremos disponibles para la WWDC 2023 durante toda la semana.

Seguir oportunidad: Gorjeo, instagramY Mastodonte

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Continue Reading

Trending