La IA de código más abierto hasta el momento podría superar a los agentes de IA

El modelo de IA de código abierto más abierto con capacidades de visión hasta el momento cuenta con muchos desarrolladores, investigadores y nuevas empresas que desarrollan agentes de IA que pueden realizar tareas críticas por usted en sus computadoras.

Publicado hoy por el Instituto Allen de IA (Ai2), el Modelo de lenguaje abierto multimodalo Molmo, puede interpretar imágenes y comunicarse en un estilo conversacional. Esto significa que se puede escuchar en la pantalla de una computadora, lo que puede ayudar a un agente de IA a realizar tareas como navegar por la web, navegar por directorios de archivos y escribir documentos.

“Con este lanzamiento, más personas podrán utilizar el modelo multimodal”, dice. Ali FarhadiDirector ejecutivo de Ai2, una organización de investigación con sede en Seattle, Washington, e informático de la Universidad de Washington. “Debería ser una herramienta de hardware de próxima generación”.

Los llamados agentes de IA están siendo promocionados como la próxima gran novedad en IA, y OpenAI, Google y otros compiten para desarrollarlos. Agentes se ha convertido en una palabra de moda recientemente, pero lo ideal es que la IA vaya más allá de la conversación y tome acciones complejas y sofisticadas dentro de las computadoras cuando se le dé una orden. Esta habilidad nunca se ha realizado de ninguna manera.

Algunos modelos de IA potentes ya tienen capacidades de visualización, incluidos GPT-4 de OpenAI, Claude de Anthropic y Gemini de Google DeepMind. Estos modelos se pueden utilizar para impulsar agentes de IA experimentales, pero están ocultos a la vista y solo están disponibles a través de una interfaz de programación paga o API.

Meta ha lanzado una familia de modelos de IA llamada Llama bajo una licencia que restringe su uso comercial, pero aún debe ofrecer a los desarrolladores una versión multimodal. Se espera que Meta anuncie varios productos nuevos, posiblemente incluidos nuevos modelos Llama AI, en su evento Connect de hoy.

Al ser un modelo multimodal de código abierto, cualquier principiante o investigador con una idea puede probarlo. Acerca del clicPostdoctorado en la Universidad de Princeton trabajando en agentes de IA.

Press dice que el hecho de que Molmo sea de código abierto significa que los desarrolladores podrán programar fácilmente sus agentes para tareas específicas, como trabajar con hojas de cálculo, proporcionando información de capacitación adicional. Los modelos como GPT-4 solo se pueden ajustar de forma limitada a través de sus API, mientras que un modelo completamente abierto se puede modificar en gran medida. “Cuando tienes un modelo de código abierto como este, tienes muchas más opciones”, afirma Press.

Ai2 está lanzando hoy varios tamaños de Molmo, incluido un modelo de 70 mil millones de parámetros y un modelo de mil millones de parámetros lo suficientemente pequeño como para ejecutarse en un dispositivo móvil. La cantidad de parámetros de un modelo se refiere a la cantidad de características que tiene para almacenar y administrar datos y corresponde aproximadamente a sus capacidades.

Ai2 dice que Molmo es capaz de combinar modelos de negocios grandes y pequeños porque fue entrenado cuidadosamente con datos de alta calidad. El nuevo modelo también es totalmente de código abierto en el sentido de que, a diferencia de Meta’s Llama, no hay restricciones en su uso. Ai2 también está publicando los datos de entrenamiento utilizados para construir el modelo, brindando a los investigadores más información sobre su desempeño.

Lanzar modelos fuertes no está exento de riesgos. Estos modelos pueden modificarse fácilmente para obtener resultados negativos; Por ejemplo, algún día podremos ver la aparición de agentes maliciosos de IA diseñados para destruir sistemas informáticos.

Farhadi de Ai2 sostiene que la eficiencia y portabilidad de Molmo permitirán a los desarrolladores crear software más potente que se ejecute de forma nativa en teléfonos inteligentes y otros dispositivos portátiles. “El modelo de mil millones de parámetros ahora funciona al nivel o dentro de la liga de modelos que son al menos 10 veces más grandes”, afirma.

Sin embargo, la creación de agentes de IA eficaces puede depender de algo más que un modelo funcional multimodal. El principal desafío es hacer que los modelos funcionen de manera más confiable. Esto puede requerir un mayor desarrollo de las capacidades de razonamiento de la IA, algo que OpenAI ha tratado de abordar con su último prototipo o1, que demuestra habilidades de razonamiento paso a paso. El próximo paso puede ser proporcionar modelos multimodales con tales capacidades de razonamiento.

Ahora, el lanzamiento de Molmo significa que los agentes de IA están más cerca que nunca y pronto podrían ser útiles incluso fuera de los gigantes que gobiernan el mundo de la IA.

Fuente