Google Gemini se actualiza con el modelo de IA Imagen 3 para generación de imágenes, disponible para todos los usuarios

20 October 2024

Google anunció el miércoles mejoras significativas en Gemini, su modelo de inteligencia artificial (IA). La compañía anunció que las capacidades de creación de imágenes del chatbot ahora serán manejadas por el modelo Imagen 3 AI para todos los usuarios. Imagen 3 es el modelo de creación de imágenes más reciente y más capaz del gigante tecnológico con sede en Mountain View. Además de las aplicaciones Gemini, esta función también se está ampliando a la versión API de Gemini para permitir a los desarrolladores crear aplicaciones y experiencias basadas en estas capacidades.

Los usuarios de Gemini obtienen acceso a los modelos de IA de Imagen 3

en un correo y agrega menos elementos no deseados a la imagen.

Los miembros del personal de Gadgets 360 pudieron verificar que la aplicación Gemini efectivamente usa Imagen 3 para generar imágenes. Para probar sus capacidades y compararlas con Meta AI, les dimos a ambos chatbots los mismos comandos. El mensaje era: “Dibuja un Golden Retriever sentado en el muelle de un tren, mirando los Alpes por la ventana. Este tren tiene el interior de madera y los asientos son de color verde. Todos los demás pasajeros del tren también son animales. Un revisor humano está revisando los billetes”.

Meta IA vs Géminis

La imagen resultante se puede ver arriba. Aunque ambos modelos de IA no incluyeron uno o más de los elementos instruidos en el comando, Gemini pudo incorporar más elementos. Además, mientras Meta AI produce imágenes con una resolución de 1280 x 1280, las imágenes de Imagen 3 se generan con una resolución de 2048 x 2048.

Imagen 3 puede producir imágenes en una variedad de estilos, como pinturas al óleo fotorrealistas, texturizadas y escenas de arcilla. Los usuarios también pueden solicitar que las imágenes aparezcan como si hubieran sido tomadas con cámaras específicas, como cámaras DSLR Nikon, estilo GoPro, lentes gran angular y más.

Google dice que el modelo de IA viene con protecciones integradas para reducir el riesgo de deepfakes. Cada imagen resultante también tiene una marca de agua con SynthID, una tecnología que agrega etiquetas de IA invisibles dentro de los píxeles de la imagen. No se puede recortar ni eliminar y está presente incluso en capturas de pantalla.

Fuente