Según un estudio recientemente publicado, el equipo de investigación de inteligencia artificial de Apple ha descubierto importantes debilidades en la capacidad de razonamiento de grandes modelos de lenguaje.
El estudio, publicado en arXivdescribe la evaluación de Apple de una variedad de modelos de lenguaje líderes, incluidos los de OpenAI, Meta y otros desarrolladores líderes, para determinar qué tan bien estos modelos podrían manejar tareas de razonamiento matemático. Los resultados revelan que incluso cambios leves en la redacción de las preguntas pueden causar desviaciones importantes en el rendimiento del modelo, afectando potencialmente su confiabilidad en escenarios que requieren coherencia lógica.
Apple está llamando la atención sobre un problema persistente en los modelos de lenguaje: su dependencia de la coincidencia de patrones en lugar del verdadero razonamiento lógico. En varias pruebas, los investigadores demostraron que agregar información irrelevante a una pregunta (detalles que no deberían afectar el resultado matemático) puede conducir a respuestas muy diferentes a las de los modelos.
Un ejemplo dado en el artículo involucra un simple problema matemático que pregunta cuántos kiwis recogió una persona durante varios días. Cuando se introdujeron detalles irrelevantes sobre el tamaño de algunos kiwis, modelos como el o1 de OpenAI y el Llama de Meta ajustaron incorrectamente el total final, aunque la información adicional no tuvo impacto en la solución.
No encontramos evidencia de razonamiento formal en los modelos de lenguaje. Su comportamiento se explica mejor mediante una sofisticada coincidencia de patrones, tan frágil, de hecho, que cambiar el nombre puede cambiar los resultados en aproximadamente un 10%.
Esta fragilidad del razonamiento ha llevado a los investigadores a concluir que los modelos no utilizan la lógica real para resolver problemas, sino que se basan en un sofisticado reconocimiento de patrones aprendido durante el entrenamiento. Descubrieron que “simplemente cambiar el nombre puede cambiar los resultados”, una señal potencialmente preocupante para el futuro de las aplicaciones de IA que requieren un razonamiento consistente y preciso en contextos del mundo real.
Según el estudio, todos los modelos probados, desde versiones más pequeñas de código abierto como Llama hasta modelos propietarios como GPT-4o de OpenAI, mostraron una degradación significativa del rendimiento ante variaciones aparentemente intrascendentes en la entrada de datos. Apple sugiere que es posible que la IA necesite combinar redes neuronales con el razonamiento tradicional basado en símbolos llamado IA neurosimbólica para lograr capacidades más precisas en la toma de decisiones y la resolución de problemas.