TL;DR (Puntos clave)

ARC-AGI-2 es una nueva prueba de inteligencia diseñada para evaluar la capacidad de los modelos de IA para razonar como los seres humanos.
La prueba consiste en rompecabezas de patrones visuales que requieren un pensamiento flexible y abstracto.
Los humanos resolvieron aproximadamente el 60 % de las tareas con un esfuerzo mínimo. La mayoría de los modelos de IA obtuvieron una puntuación del 1 % o menos.
Incluso los modelos de IA más avanzados (por ejemplo, los sucesores de GPT-4) fallaron en la mayoría de las tareas.
Las IA tienen dificultades con:
- Comprender el significado simbólico y el contexto
- Combinación de múltiples reglas de razonamiento a la vez
- Adaptarse a situaciones nuevas o cambiantes
Esto demuestra que la IA actual aún está lejos de alcanzar el nivel de inteligencia general (AGI) de los seres humanos.
Destaca las limitaciones de los sistemas actuales de IA y la necesidad de nuevas arquitecturas para alcanzar verdaderas capacidades de razonamiento.
Implicaciones en el mundo real: la IA puede fallar cuando se le pide que resuelva problemas nuevos o desconocidos, mientras que los seres humanos pueden adaptarse rápidamente.

Una nueva prueba de inteligencia para la IA, denominada ARC-AGI-2, revela una sorprendente brecha entre el razonamiento humano y el de las máquinas. Desarrollada por la ARC Prize Foundation (cofundada por el investigador en IA François Chollet), esta prueba de referencia presenta acertijos visuales que cualquier persona normal puede resolver, pero que dejan perplejos incluso a los modelos de IA más avanzados. Los resultados son una prueba de realidad sobre las capacidades de la IA: los humanos superan significativamente a los últimos sistemas de IA en estas tareas, lo que pone de relieve el amplio margen de mejora que existe en la inteligencia similar a la humana.

¿Qué es ARC-AGI-2?

ARC-AGI-2 es esencialmente una «prueba de CI» para la IA. Consiste en tareas similares a rompecabezas que utilizan cuadrículas de cuadrados de colores, en las que la IA (o el ser humano) debe inferir un patrón o regla oculta y producir el resultado correcto. Cada tarea proporciona algunos ejemplos de pares de entrada-salida (como mini rompecabezas de antes y después) y luego pide al solucionador que genere la respuesta que falta para una nueva entrada. La trampa: los rompecabezas son novedosos y no son cosas que la IA haya visto durante el entrenamiento, sino que están diseñados para poner a prueba el razonamiento adaptativo en lugar del conocimiento memorizado. Los humanos encontramos estos rompecabezas bastante intuitivos (basándonos en nuestras habilidades generales de reconocimiento de patrones y razonamiento), pero para los modelos de IA suponen un serio desafío.

Ejemplo de un rompecabezas ARC-AGI-2. A la IA se le muestran algunos ejemplos de transformaciones de cuadrículas de colores (izquierda) y debe averiguar la regla para producir el resultado correcto para una nueva entrada (derecha, con el signo de interrogación). Los seres humanos pueden razonar a través de rompecabezas como este, pero las IA actuales tienen dificultades para generalizar el patrón.

Humanos frente a IA: rendimiento en la resolución de rompecabezas

En las evaluaciones, las personas superaron ampliamente a los modelos de IA en ARC-AGI-2. En una prueba controlada con más de 400 participantes, la persona promedio resolvió correctamente alrededor del 60 % de los acertijos. Todas las tareas de la prueba de referencia pudieron ser resueltas por humanos; de hecho, cada acertijo fue resuelto por al menos dos personas en un par de intentos. Esto confirma que los desafíos no son «imposibles», sino que están alineados con las capacidades de razonamiento humano.

Por el contrario, los modelos de IA apenas tuvieron impacto en la prueba. La mayoría de los modelos avanzados solo acertaron alrededor del 1 % de las preguntas. Incluso los sistemas de IA más sofisticados, incluidos los de los principales laboratorios de IA, fallaron en casi todas las tareas. Por ejemplo, el modelo de razonamiento «O3» de OpenAI (un prototipo avanzado que utiliza el razonamiento y la búsqueda paso a paso) obtuvo una puntuación aproximada del 4 % en ARC-AGI-2. Este mismo modelo había alcanzado alrededor del 75 % en la prueba ARC anterior (ARC-AGI-1) utilizando una enorme potencia de cálculo, pero la nueva ARC-AGI-2 rompió su estrategia, reduciendo su rendimiento a un solo dígito. De hecho, muchos sistemas de IA conocidos, incluidos potentes modelos de lenguaje grandes como los sucesores de GPT-4 y Gemini de Google, fracasaron prácticamente por completo, y las IA basadas exclusivamente en texto obtuvieron una puntuación del 0-1 % en estos rompecabezas.

En pocas palabras, ninguna IA actual se acerca al rendimiento humano en este punto de referencia. Un adulto medio puede resolver muchos más problemas que incluso la mejor IA, incluso cuando esta última puede realizar múltiples intentos. Un detalle llamativo: la IA con mejor rendimiento tuvo que utilizar una potencia computacional estimada en 200 dólares por tarea y, aun así, solo acertó un pequeño porcentaje. En comparación, el cerebro humano resuelve el 60 % de ellos con café y aperitivos. Esto pone de relieve lo ineficaz y frágil que puede ser el razonamiento de la IA en comparación con la cognición humana.

¿Por qué las IA tienen dificultades con estas tareas?

Si estos rompecabezas son «fáciles» para los humanos (al menos para algunas personas), ¿por qué los modelos de IA tienen dificultades? Resulta que las tareas requieren un tipo de pensamiento flexible y abstracción en el que las máquinas aún no son buenas. Los investigadores observaron varios desafíos específicos de razonamiento en ARC-AGI-2 en los que la IA se queda corta:

Comprender los símbolos en su contexto: los sistemas de IA a menudo no logran comprender que una forma o un color pueden representar algo más que un simple patrón. Por ejemplo, un rompecabezas puede requerir reconocer que una configuración de bloques significa «árbol» y debe tratarse de manera diferente a la simple combinación de colores. Los modelos actuales de IA tienden a ver solo patrones básicos (simetrías, rotaciones, etc.) y pasan por alto el significado más profundo que los seres humanos asignan instantáneamente.
Combinación de múltiples reglas: los seres humanos estamos acostumbrados a manejar varias reglas o condiciones a la vez («si es rojo y grande, muévelo a la izquierda, a menos que haya un cuadrado azul, entonces haz X»). Los rompecabezas ARC-AGI-2 suelen tener más de una regla que interactúa, lo que es una pesadilla para el razonamiento actual de la IA. Los modelos de IA funcionan bien cuando solo hay una regla simple, pero cuando un rompecabezas requiere aplicar dos o tres reglas juntas, se confunden o solo aplican una de ellas correctamente.
Adaptación a los cambios de contexto: muchos rompecabezas requieren utilizar una regla en una situación y otra diferente en otra, dependiendo del contexto. Por ejemplo, un rompecabezas puede decir «en la cuadrícula pequeña, haz X, pero en la cuadrícula grande, haz Y». Los seres humanos nos damos cuenta del cambio de contexto y ajustamos nuestro enfoque. Sin embargo, los sistemas de IA tienden a fijarse en un patrón que han detectado y lo aplican ciegamente en todas partes.

En resumen, ARC-AGI-2 explora deliberadamente estos aspectos del razonamiento. Los rompecabezas exigen al solucionador comprender y adaptarse verdaderamente: ver el «porqué» detrás de un patrón, gestionar varias partes móviles y saber cuándo flexibilizar una regla. Estas son cosas que los seres humanos aprendemos en la infancia y utilizamos sin esfuerzo en situaciones novedosas. Por otro lado, la IA actual aprende principalmente a partir de toneladas de datos y patrones estadísticos; le cuesta razonar sobre la marcha cuando no ha sido programada previamente o no ha visto algo durante su entrenamiento.

Es posible que la IA siga estando por detrás de los humanos en los rompecabezas de razonamiento, pero modelos como Claude AI están evolucionando con rasgos centrados en el ser humano para lograr una mejor alineación. Eso es un avance.

¿Qué nos dicen estos resultados sobre la IA frente a la inteligencia humana?

El contundente resultado de ARC-AGI-2 envía un mensaje claro: la IA actual aún está muy lejos de alcanzar una inteligencia general similar a la humana. Sí, la IA ha logrado avances increíbles: puede traducir idiomas, escribir código, reconocer imágenes e incluso vencer a campeones mundiales en juegos como el Go. En muchos ámbitos específicos y limitados, los sistemas de IA son sobrehumanos (por ejemplo, calculan más rápido, memorizan más y nunca se cansan). Sin embargo, esos éxitos son habilidades especializadas. No equivalen al tipo de inteligencia versátil y adaptable que tienen los seres humanos.

La «brecha entre humanos e IA» ARC-AGI-2 pone de relieve lo que falta: la capacidad de aprender nuevos problemas de forma rápida y eficiente. En otras palabras, una IA puede ser un genio en una cosa y no tener ni idea fuera de su zona de confort, mientras que los humanos suelen ser capaces de aprender nuevas tareas o cambiar de contexto con pocas instrucciones.

Fundamentalmente, estos hallazgos abordan el término de moda «AGI» (inteligencia artificial general), la idea de una IA capaz de comprender o aprender cualquier tarea intelectual que pueda realizar un ser humano. El benchmark ARC-AGI-2 se diseñó como una prueba de realidad para las afirmaciones sobre la AGI. El hecho de que haya muchos problemas en ARC-AGI-2 que son triviales para los humanos pero que desconciertan a las mejores IA es una prueba contundente de que aún no disponemos de una IA similar a la humana. Como dice el equipo del ARC Prize, mientras podamos encontrar fácilmente tareas que cualquier persona de la calle puede resolver pero que ni siquiera la IA más inteligente puede resolver, no se habrá logrado la verdadera inteligencia general.

Aunque la IA todavía tiene dificultades con tareas de razonamiento complejo, sus puntos fuertes brillan en ámbitos especializados, como la transformación de las comunicaciones corporativas y la toma de decisiones. Un ejemplo destacado es cómo la IA está remodelando las relaciones con los inversores con Libertify IR.

Más allá del laboratorio: implicaciones y retos del mundo real

¿Por qué es importante esto más allá de un conjunto específico de rompecabezas de píxeles? Es importante porque afecta a la confianza y la capacidad de la IA en el mundo real. En la vida y en los negocios, a menudo nos enfrentamos a problemas nuevos, que no se parecen exactamente a nada que hayamos visto antes. Los seres humanos lidiamos con este tipo de situaciones novedosas constantemente, adaptando nuestros conocimientos previos. Los resultados del ARC-AGI-2 sugieren que, si una IA se enfrenta a un problema realmente desconocido o a un escenario que no figura en sus datos de entrenamiento, puede tener dificultades o fracasar donde una persona tendría éxito.

En aplicaciones críticas para la seguridad, como los coches autónomos o el diagnóstico médico, la incapacidad de gestionar casos extremos —situaciones inusuales e inesperadas— es un motivo de gran preocupación. ARC-AGI-2 es, en esencia, una recopilación de «casos extremos» para el razonamiento de la IA, y los modelos actuales están suspendiendo en este aspecto.

El punto de referencia también nos enseña cómo medir el progreso en IA. No se trata solo de obtener una puntuación alta en alguna prueba, sino de cómo se ha obtenido esa puntuación. Forzar una solución con una enorme capacidad de cálculo o tener suerte con ejemplos conocidos no es lo mismo que comprender realmente el problema de manera eficiente. La inteligencia, como destaca el equipo de ARC, incluye un elemento de eficiencia: hacer mucho con poco, como hace nuestro cerebro.

El hecho de que un ser humano pueda resolver muchos de estos rompecabezas con un esfuerzo relativamente mínimo, mientras que una IA necesita miles de millones de operaciones y aún así fracasa, nos indica que existe una diferencia cualitativa entre nuestra forma de razonar y la forma en que «piensan» actualmente las IA. También pone de relieve una limitación: el simple hecho de ampliar los modelos de IA (más datos, más parámetros, más capacidad de cálculo) podría no ser suficiente para salvar automáticamente esta brecha. Es posible que se necesiten nuevas estrategias y arquitecturas para que la IA se acerque a la flexibilidad cognitiva humana.

En una nota esperanzadora, los puntos de referencia como ARC-AGI-2 guían a los investigadores hacia esas piezas que faltan. Al identificar dónde falla la IA (por ejemplo, en la comprensión del contexto o en la combinación de reglas), los científicos e ingenieros pueden centrarse en desarrollar nuevas técnicas para superar estas barreras. Es un recordatorio de que, a pesar del bombo publicitario, la IA aún no es un cerebro todopoderoso que sustituya al humano, pero también una invitación a innovar.

Aunque los seres humanos siguen teniendo ventaja en las pruebas de razonamiento, la IA sigue demostrando su valor en todos los sectores en situaciones prácticas y de gran impacto. Puede explorar algunos de los casos de uso reales de Libertify para ver cómo las organizaciones ya se están beneficiando .

Conclusión

ARC-AGI-2 ofrece un informe sobre la IA centrado en el ser humano que resulta refrescante. En estos rompecabezas de razonamiento abstracto que la mayoría de las personas resuelven con sentido común y un poco de creatividad, los sistemas de IA actuales siguen fallando casi por completo. Este contraste en el rendimiento cognitivo (los seres humanos obtienen un 60 % frente al 1 % de las IA) pone de relieve que aún no hemos logrado replicar en las máquinas la capacidad general de resolución de problemas de la mente humana.

Nos recuerda que la inteligencia humana es más que solo procesamiento de datos: es adaptable, consciente del contexto y eficiente de maneras que las máquinas aún no han logrado. Para el público en general, la conclusión es tranquilizadora y motivadora. Tranquilizar, porque significa que la IA no está cerca de igualar toda la amplitud del intelecto humano: tu capacidad para razonar sobre nuevos problemas sigue siendo exclusivamente tuya. Motivador, porque muestra dónde se encuentra la frontera de la investigación en IA.

A medida que la IA siga avanzando, pruebas como ARC-AGI-2 nos permitirán ser sinceros sobre lo que estos sistemas pueden hacer realmente y impulsarán el desarrollo de una IA que no solo sea capaz de procesar información, sino también de razonar sobre ella como lo haría un ser humano.

Fuentes: El equipo del ARC Prize detalla el punto de referencia ARC-AGI-2 y sus resultados, con un análisis de las dificultades de la IA (por ejemplo, la interpretación de símbolos, el razonamiento multirregla y la comprensión contextual). Varios medios de comunicación han informado sobre cómo los seres humanos superan a la IA en estas tareas (los seres humanos ~60 % frente a los mejores modelos ~1-4 %), haciendo hincapié en que esta diferencia indica que aún estamos lejos de alcanzar una IA general al nivel humano.
Autor: Steve Rosenblum