Los ingenieros de Apple muestran cuán endeble puede ser el ‘razonamiento’ de la IA

Desde hace un tiempo, empresas como OpenAI y Google existen para promover habilidades avanzadas de “razonamiento”. como el siguiente gran paso en sus últimas formas de inteligencia artificial. Sin embargo, un nuevo estudio realizado por seis ingenieros de Apple muestra que las “razones” matemáticas producidas por los principales modelos de lenguaje pueden ser muy débiles y poco confiables ante cambios triviales en problemas de referencia comunes.

Las debilidades resaltadas en estos nuevos resultados ayudan a respaldar investigaciones anteriores que sugieren que el uso del LLM de coincidencia de modelos probabilísticos carece de la comprensión básica necesaria para una capacidad de razonamiento matemático confiable. “Los LLM actuales no son capaces de hacer un razonamiento real”, piensan los investigadores basándose en estos resultados. “En cambio, intentan imitar los pasos de razonamiento observados en su material de formación”.

Combinar

En “GSM-Simbólico: Comprensión de las deficiencias del razonamiento matemático en los principales sistemas lingüísticos”, disponible ahora como papel preimpreso-seis investigadores de Apple comenzando con Conjunto estándar de GSM8K de más de 8000 problemas matemáticos para matemáticas escolares.eso es A menudo se utiliza como indicador. para el poder de razonamiento del LLM de hoy. Ahora adoptan un nuevo enfoque para cambiar esa parte de la prueba para reemplazar algunos nombres y números con nuevos valores, por lo que la pregunta de si Sophie obtiene 31 bloques de construcción para su sobrino en GSM8K puede convertirse en una pregunta sobre cómo Bill obtendrá 19. bloques de construcción. hermano en el nuevo análisis GSM-Simbólico.

Este enfoque ayuda a evitar la “contaminación de datos” que puede resultar de consultas estáticas GSM8K alimentadas directamente en los datos de entrenamiento del modelo de IA. Al mismo tiempo, estos cambios repentinos no cambian en absoluto el problema de razonamiento real, lo que significa que los modelos deberían funcionar bien cuando se prueban en GSM-Symbolic como GSM8K.

En cambio, cuando los investigadores probaron más de 20 LLM de buena calidad en GSM-Symbolic, encontraron que la precisión promedio se redujo en todos los ámbitos en comparación con GSM8K, con una caída en el rendimiento de entre 0,3 y 9,2 por ciento, según el modelo. Los resultados también muestran diferencias significativas en 50 ejecuciones GSM-Symbolic separadas con diferentes nombres y valores. Las brechas de precisión de hasta el 15 por ciento entre las mejores y peores ejecuciones eran comunes dentro de un solo modelo y, por alguna razón, cambiar los números tendía a resultar en una peor precisión que cambiar el nombre.

Este tipo de diferencia, tanto dentro de los diferentes sistemas GSM-Symbolic como en comparación con los resultados de GSM8K, es más que sorprendente ya que, como señalan los investigadores, “los pasos de razonamiento general necesarios para resolver la cuestión siguen siendo los mismos”. El hecho de que cambios tan pequeños conduzcan a resultados tan diferentes sugiere a los investigadores que estos modelos no son “razonamientos” sino “esfuerzos”.[ing] hacer un modelo del flujo del flujo, conectar las preguntas dadas y los pasos de la solución con los mismos que se ven en los datos de entrenamiento. “

No te desperdicies

Sin embargo, las diferencias generales mostradas para las pruebas GSM-Simbólicas fueron en general relativamente pequeñas en el gran esquema de las cosas. ChatGPT-4o de OpenAI, por ejemplo, cayó del 95,2% de precisión en GSM8K a un todavía impresionante 94,9 por ciento en GSM-Symbolic. Esa es una alta tasa de éxito usando el punto de referencia, independientemente de si el modelo en sí usa razonamiento “sistemático” detrás de escena (aunque la precisión absoluta para la mayoría de los modelos disminuyó significativamente cuando los investigadores agregaron uno o dos pasos más obvios al problema).

Sin embargo, a los LLM evaluados les fue aún peor cuando los investigadores de Apple modificaron el punto de referencia GSM-Symbolic agregando “declaraciones aparentemente importantes pero en última instancia sin sentido” a las preguntas. Para este punto de referencia “GSM-NoOp” (abreviatura de “sin operación”), la pregunta de cuántos kiwis recoge una persona la mayoría de los días se puede modificar para incluir datos aleatorios de “cinco de ellos”. [the kiwis] eran más pequeños que el promedio.”

La adición de estas pistas falsas condujo a lo que los investigadores llamaron una “disminución en el rendimiento en caso de colisión” en comparación con GSM8K, del 17,5 por ciento al 65,7 por ciento, según el modelo que se ha probado. Estas grandes caídas en la precisión resaltan las limitaciones inherentes al uso de coincidencias de patrones simples para “convertir oraciones en acciones sin comprender su significado”, escriben los investigadores.

Fuente