Mistral anuncia el modelo de IA multimodal Pixtral 12B con función de ‘visión por computadora’

Mistral lanzó el miércoles su primer modelo de inteligencia artificial (IA) multimodal denominado Pixtral 12B. La compañía de inteligencia artificial, conocida por sus modelos de lenguaje grande (LLM) de código abierto, también ha puesto a disposición de los usuarios sus últimos modelos de inteligencia artificial en GitHub y Hugging Face para que los usuarios los descarguen y prueben. En particular, a pesar de ser multimodal, Pixtral sólo puede procesar imágenes utilizando tecnología de visión por computadora y responder preguntas sobre esas imágenes. Se han agregado dos codificadores dedicados para esta función. No puede generar imágenes como el modelo de Difusión Estable o la Red Generativa Adversaria (GAN) de Midjourney.

Mistral lanza Pixtral 12B

Ganándose reputación por sus anuncios minimalistas, el Mistral oficial en correo compartiendo el enlace magnético. El tamaño total del archivo del Pixtral 12B es de 24 GB y requiere una PC compatible con NPU o una PC con una GPU potente para ejecutar el modelo.

Pixtral 12B viene con 12 mil millones de parámetros y está construido utilizando modelos de IA Nemo 12B existentes. Mistral destaca que los usuarios también necesitan una unidad lineal de error gaussiano (GeLU) como adaptador de visión y una incrustación de posición rotativa 2D (RoPE) como codificador de visión.

Específicamente, los usuarios pueden cargar archivos de imágenes o URL en Pixtral 12B y deberían poder responder preguntas sobre la imagen, como identificar objetos, contar la cantidad de objetos y compartir información adicional. Debido a que está construido sobre Nemo, este modelo también será experto en completar todas las tareas típicas basadas en texto.

Un usuario de Reddit al corriente una imagen de los puntajes de evaluación comparativa del Pixtral 12B, y parece que el LLM supera al Claude-3 Haiku y al Phi-3 Vision en capacidades multimodales en el banco ChartQA. También superó a ambos modelos de IA rivales en comprensión masiva del lenguaje multitarea (MMLU) en conocimiento y razonamiento multimodal.

Citando a un portavoz de la empresa, TechCrunch informe que los modelos Mistral AI se pueden personalizar y utilizar bajo la licencia Apache 2.0. Esto significa que el resultado del modelo se puede utilizar para uso personal o comercial sin restricciones. Además, Sophia Yang, jefa de relaciones con desarrolladores de Mistral, explica en un correo que Pixtral 12B estará disponible pronto en Le Chat y Le Platforme.

Por ahora, los usuarios pueden descargar directamente el modelo de IA mediante un enlace magnético proporcionado por la empresa. Como alternativa, también existen pesos modelo. alojado en Hugging Face y GitHub lista.

Fuente