Google I/O 2024: DeepMind muestra la interacción de IA basada en visión por computadora en tiempo real con el Proyecto Astra

La sesión magistral de Google I/O 2024 permitió a la empresa mostrar su impresionante variedad de modelos y herramientas de inteligencia artificial (IA) que ha estado desarrollando durante algún tiempo. La mayoría de las funciones introducidas estarán disponibles en versión preliminar pública en los próximos meses. Sin embargo, la tecnología más interesante presentada en el evento no estará aquí por un tiempo. Desarrollado por Google DeepMind, el nuevo asistente de IA se llama Proyecto Astra y muestra interacciones de IA basadas en visión por computadora en tiempo real.

Project Astra es un modelo de IA que puede realizar tareas muy avanzadas para chatbots existentes. Google sigue un sistema que utiliza sus modelos de IA más grandes y potentes para entrenar sus modelos listos para producción. Destacando un ejemplo de un modelo de IA actualmente en formación, el cofundador y director ejecutivo de Google DeepMind, Demis Hassabis, mostró el Proyecto Astra. Al presentar esto, dijo: “Hoy tenemos algunos avances nuevos e interesantes para compartir con respecto al futuro de los asistentes de IA que llamamos Proyecto Astra. Durante mucho tiempo hemos querido crear un agente de IA universal que sea realmente útil en la vida cotidiana”.

Hassabis también enumeró una serie de requisitos que la compañía ha fijado para el agente de IA. Necesitan comprender y responder a entornos complejos y dinámicos del mundo real, y necesitan recordar lo que ven para desarrollar el contexto y tomar medidas. Además, también debe ser personal y fácil de enseñar para que pueda aprender nuevas habilidades y mantener conversaciones sin demora.

Con esta descripción, el CEO de DeepMind mostró un vídeo de demostración donde se ve al usuario sosteniendo un teléfono inteligente con la aplicación de cámara abierta. El usuario habla con la IA y la IA responde inmediatamente, respondiendo varias preguntas basadas en la visión. La IA también puede utilizar información visual para contextualizar y responder preguntas relacionadas que requieren capacidades generativas. Por ejemplo, un usuario le muestra a una IA algunos crayones y le pide que los describa con aliteración. Sin pausa, el chatbot dijo: “Crayones creativos de colores alegres. Ciertamente crean creaciones coloridas”.

Pero eso no es todo. Más adelante en el vídeo, el usuario señala hacia una ventana, a través de la cual se pueden ver varios edificios y una calle. Cuando se le preguntó sobre el entorno circundante, AI inmediatamente dio la respuesta correcta. Esto muestra las capacidades de procesamiento de visión por computadora de los modelos de IA y los grandes conjuntos de datos visuales necesarios para entrenarlos. Pero quizás la demostración más interesante fue cuando se le preguntó a la IA sobre las gafas de sus usuarios. Aparecen brevemente en la pantalla durante unos segundos y ya abandonan la pantalla. Sin embargo, la IA puede recordar su posición y guiar a los usuarios hasta allí.

Project Astra no está disponible en versión preliminar pública o privada. Google todavía está trabajando en el modelo y tiene que descubrir casos de uso para la función de IA y decidir cómo ponerla a disposición de los usuarios. Esta demostración puede ser la hazaña más ridícula de la IA hasta el momento, pero el evento de actualización de primavera de OpenAI hace un día disipó algo de eso. En el evento, OpenAI presentó GPT-4o, que mostró capacidades similares y una voz emotiva que hace que la IA suene más humana.

Fuente