Un estudio de Apple revela importantes fallos de IA en OpenAI, Google y Meta LLM

Los modelos de lenguajes grandes (LLM) pueden no ser tan inteligentes como parecen, según un estudio Estudiar de los investigadores de Apple.

Los LLM de OpenAI, Google, Meta y otros son promocionados por sus impresionantes habilidades de razonamiento. Pero las investigaciones sugieren que su inteligencia puede parecerse más a una “coincidencia de patrones sofisticados” que a un “verdadero razonamiento lógico”. Sí, incluso el modelo de razonamiento avanzado o1 de OpenAI.

El punto de referencia más común para las habilidades de razonamiento es una prueba llamada GSM8K, pero debido a que es tan popular, existe el riesgo de contaminación de los datos. Eso significa que los LLM probablemente sepan las respuestas a esas pruebas porque fueron entrenados en esas respuestas, no por su inteligencia innata.

VER TAMBIÉN:

La ronda de financiación de OpenAI valora a la empresa en 157.000 millones de dólares

Para probar esto, esta investigación desarrolló un nuevo benchmark llamado GSM-Symbolic que mantiene la esencia del asunto, pero cambia variables, como nombres, números, complejidad y agrega información irrelevante. Lo que encontraron fue una sorprendente “fragilidad” en el desempeño del LLM. El estudio probó más de 20 modelos, incluidos o1 y GPT-4o de OpenAI, Gemma 2 de Google y Llama 3 de Meta. En cada modelo, el rendimiento del modelo disminuye cuando se cambian las variables.

La precisión disminuye en varios puntos porcentuales cuando se cambian los nombres y las variables. Y como señalan los investigadores, los modelos OpenAI funcionan mejor que otros modelos de código abierto. Sin embargo, la variación se considera “no despreciable”, lo que significa que la variación real no debería ocurrir. Sin embargo, las cosas se pusieron realmente interesantes cuando los investigadores agregaron “declaraciones aparentemente relevantes pero en última instancia sin importancia” a la declaración.

Velocidad destructible de la luz

VER TAMBIÉN:

Una actualización gratuita de Apple Intelligence podría llegar pronto, según una filtración

Para probar la hipótesis de que LLM se basa más en la coincidencia de patrones que en el razonamiento real, el estudio agregó frases redundantes a los problemas matemáticos para ver cómo reaccionaría el modelo. Por ejemplo, “Oliver recogió 44 kiwis el viernes. Luego recogió 58 kiwis el sábado. El domingo, recogió el doble de kiwis que recogió el viernes. pero cinco de ellos son ligeramente más pequeños que el promedio. ¿Cuántos kiwis tiene Oliver?

El resultado es una disminución significativa en el rendimiento general. La vista previa o1 de OpenAI tuvo el mejor rendimiento, con una disminución del 17,5 por ciento en la precisión. Eso sigue siendo bastante malo, pero no tanto como el modelo Phi 3 de Microsoft, que tuvo un rendimiento un 65 por ciento peor.

VER TAMBIÉN:

ChatGPT-4, Gemini, MistralAI y otros se unen a esta herramienta personal de IA

En el ejemplo del kiwi, el estudio dice que los LLM tienden a restar los cinco kiwis más pequeños de la ecuación sin entender que el tamaño del kiwi es irrelevante para el problema. Esto sugiere que “el modelo tiende a convertir declaraciones en operaciones sin comprender realmente su significado”, lo que valida la hipótesis del investigador de que los LLM buscan patrones en el razonamiento de problemas, en lugar de comprender conceptos de forma innata.

Este estudio no se anda con rodeos acerca de sus hallazgos. Probar el modelo en puntos de referencia que incluían información irrelevante “reveló debilidades críticas en la capacidad del LLM para comprender verdaderamente conceptos matemáticos y distinguir información que es relevante para la resolución de problemas”. Sin embargo, vale la pena mencionar que los autores de este estudio trabajan para Apple, que es claramente un importante competidor de Google, Meta e incluso OpenAI; aunque Apple y OpenAI tienen una asociación, Apple también está trabajando en sus propios modelos de IA.

No obstante, no se puede ignorar la falta de habilidades de razonamiento formal de los LLM. En última instancia, este es un buen recordatorio para moderar el entusiasmo por la IA con una buena dosis de escepticismo.

Tema
Inteligencia artificial de Apple



Fuente