En bref (Points clés à retenir)

ARC-AGI-2 est un nouveau test d'intelligence conçu pour évaluer la capacité des modèles d'IA à raisonner comme des humains.
Le test consiste en des puzzles de motifs visuels qui nécessitent une pensée flexible et abstraite.
Les humains ont résolu environ 60 % des tâches avec un effort minimal. La plupart des modèles d'IA ont obtenu 1 % ou moins.
Même les modèles d'IA les plus avancés (par exemple, les successeurs de GPT-4) ont échoué à la majorité des tâches.
Les IA ont des difficultés avec :
- Comprendre la signification symbolique et le contexte
- Combiner plusieurs règles de raisonnement à la fois
- S'adapter à des situations nouvelles ou changeantes
Cela montre que l'IA actuelle est encore loin d'atteindre une intelligence générale de niveau humain (AGI).
Cela met en évidence les limites des systèmes d'IA actuels et la nécessité de nouvelles architectures pour atteindre de véritables capacités de raisonnement.
Implication concrète : L'IA peut échouer lorsqu'elle est confrontée à des problèmes nouveaux ou inconnus, tandis que les humains peuvent s'adapter rapidement.

Un nouveau test d'intelligence pour l'IA – appelé ARC-AGI-2 – révèle un écart frappant entre le raisonnement humain et celui des machines. Développé par la Fondation ARC Prize (cofondée par le chercheur en IA François Chollet), ce benchmark présente des puzzles visuels que toute personne ordinaire peut résoudre, mais qui déroutent même les modèles d'IA les plus avancés. Les résultats remettent en perspective les capacités de l'IA : les humains surpassent significativement les derniers systèmes d'IA sur ces tâches, soulignant l'ampleur des progrès à réaliser en matière d'intelligence de type humain.

Qu'est-ce que l'ARC-AGI-2 ?

ARC-AGI-2 est essentiellement un « test de QI » pour l'IA. Il consiste en des tâches de type puzzle utilisant des grilles de carrés colorés, où l'IA (ou l'humain) doit déduire un motif ou une règle cachée et produire le bon résultat. Chaque tâche fournit quelques exemples de paires entrée-sortie (comme des mini-puzzles avant-après) et demande ensuite au solveur de générer la réponse manquante pour une nouvelle entrée. Le piège : les puzzles sont inédits et ne sont pas des choses que l'IA aurait vues pendant l'entraînement – ils sont conçus pour tester le raisonnement adaptatif plutôt que la connaissance mémorisée. Les humains trouvent ces puzzles assez intuitifs (s'appuyant sur nos compétences générales de reconnaissance de formes et de raisonnement), mais pour les modèles d'IA, ils représentent un défi sérieux.

Exemple d'un puzzle ARC-AGI-2. L'IA se voit présenter quelques exemples de transformations de grilles colorées (à gauche) et doit déduire la règle pour produire le résultat correct pour une nouvelle entrée (à droite, avec le point d'interrogation). Les humains peuvent résoudre des énigmes de ce type, mais les IA actuelles ont du mal à généraliser le modèle.

Humain vs IA : Performance en résolution d'énigmes

Lors des évaluations, les humains ont largement surpassé les modèles d'IA sur ARC-AGI-2. Lors d'un test contrôlé avec plus de 400 participants, la personne moyenne a résolu environ 60 % des énigmes correctement. Chaque tâche de l'évaluation était soluble par des humains – en fait, chaque énigme a été résolue par au moins deux personnes en quelques tentatives. Cela confirme que les défis ne sont pas « impossibles » – ils sont alignés sur les capacités de raisonnement humain.

En revanche, les modèles d'IA ont à peine réussi le test. Les modèles les plus avancés n'ont répondu correctement qu'à environ 1 % des questions. Même les systèmes d'IA les plus sophistiqués, y compris ceux des meilleurs laboratoires d'IA, ont échoué à la quasi-totalité des tâches. Par exemple, le modèle de raisonnement "O3" d'OpenAI (un prototype avancé qui utilise le raisonnement et la recherche étape par étape) a obtenu un score d'environ 4 % à l'ARC-AGI-2. Ce même modèle avait obtenu environ 75 % au test ARC précédent (ARC-AGI-1) en utilisant une puissance de calcul massive, mais le nouveau test ARC-AGI-2 a brisé sa stratégie, le faisant chuter à une performance à un chiffre. En fait, de nombreux systèmes d'IA bien connus - y compris de puissants modèles de langage comme les successeurs de GPT-4 et Gemini de Google - ont pratiquement échoué, les IA purement textuelles obtenant un score de 0 à 1 % sur ces puzzles.

En termes simples, aucune IA actuelle n'atteint les performances humaines sur ce critère. Un adulte moyen peut résoudre bien plus de ces problèmes que la meilleure IA, même lorsque l'IA dispose de plusieurs tentatives. Un détail frappant : l'IA la plus performante a dû utiliser une puissance de calcul estimée à 200 $ par tâche et n'a obtenu que quelques pour cent de bonnes réponses. Le cerveau humain, en comparaison, en résout 60 % avec du café et des en-cas. Cela souligne à quel point le raisonnement de l'IA peut être inefficace et fragile par rapport à la cognition humaine.

Pourquoi les IA ont-elles du mal avec ces tâches ?

Si ces énigmes sont « faciles » pour les humains (du moins pour certains), pourquoi les modèles d'IA échouent-ils ? Il s'avère que ces tâches exigent une forme de pensée flexible et d'abstraction que les machines ne maîtrisent pas encore. Les chercheurs ont identifié plusieurs défis de raisonnement spécifiques dans ARC-AGI-2 où l'IA montre ses limites :

Comprendre les symboles en contexte : Les systèmes d'IA ne parviennent souvent pas à saisir qu'une forme ou une couleur peut représenter quelque chose au-delà d'un simple motif. Par exemple, un puzzle pourrait exiger de reconnaître qu'une configuration de blocs signifie « arbre » et doit être traitée différemment d'une simple correspondance de couleurs. Les modèles d'IA actuels ont tendance à ne voir que des motifs bruts (symétries, rotations, etc.) et à manquer le sens plus profond que les humains attribuent instantanément.
Combinaison de plusieurs règles : Les humains sont habitués à jongler avec plusieurs règles ou conditions à la fois (« si c'est rouge et grand, déplacez-le à gauche, à moins qu'il n'y ait un carré bleu, alors faites X »). Les puzzles ARC-AGI-2 impliquent souvent l'interaction de plusieurs règles, ce qui est un cauchemar pour le raisonnement actuel de l'IA. Les modèles d'IA s'en sortent bien lorsqu'il n'y a qu'une seule règle simple, mais lorsqu'un puzzle nécessite d'appliquer deux ou trois règles simultanément, ils se perdent ou n'en appliquent qu'une seule correctement.
Adaptation aux changements de contexte : De nombreux casse-têtes exigent l'application d'une règle dans une situation et d'une règle différente dans une autre, selon le contexte. Par exemple, un casse-tête pourrait dire « dans la petite grille, faites X, mais dans la grande grille, faites Y. » Les humains remarquent le changement de contexte et adaptent leur approche. Les systèmes d'IA, cependant, ont tendance à se fixer sur un modèle qu'ils ont détecté et à l'appliquer aveuglément partout.

En somme, ARC-AGI-2 sonde délibérément ces aspects du raisonnement. Les énigmes exigent du résolveur qu'il comprenne et s'adapte véritablement – qu'il saisisse le « pourquoi » derrière un modèle, qu'il gère plusieurs éléments en mouvement et qu'il sache quand adapter une règle. Ce sont des choses que nous, les humains, apprenons dès l'enfance et utilisons sans effort dans des situations nouvelles. L'IA actuelle, en revanche, apprend principalement à partir de vastes quantités de données et de modèles statistiques ; elle peine avec le raisonnement à la volée qui n'a pas été préprogrammé ou rencontré lors de l'entraînement.

L'IA peut encore être à la traîne des humains pour les énigmes de raisonnement, cependant, des modèles comme Claude AI évoluent avec des traits centrés sur l'humain pour une meilleure adéquation. C'est une évolution.

Que nous disent ces résultats sur l'IA face à l'intelligence humaine ?

Le résultat sans appel d'ARC-AGI-2 envoie un message clair : l'IA est encore loin de l'intelligence générale de type humain. Oui, l'IA a fait des progrès incroyables – elle peut traduire des langues, écrire du code, reconnaître des images et même battre des champions du monde à des jeux comme le Go. Dans de nombreux domaines spécifiques et étroits, les systèmes d'IA sont surhumains (par exemple, ils calculent plus vite, mémorisent plus et ne se fatiguent jamais). Cependant, ces succès sont des compétences spécialisées. Ils ne constituent pas le type d'intelligence polyvalente et adaptable que possèdent les humains.

Le « fossé humain-IA » de l'ARC-AGI-2 met en évidence ce qui manque : la capacité d'apprendre de nouveaux problèmes rapidement et efficacement. En d'autres termes, une IA peut être un génie dans un domaine et complètement perdue en dehors de sa zone de confort, alors que les humains peuvent généralement assimiler de nouvelles tâches ou changer de contexte avec peu d'instructions.

De manière cruciale, ces découvertes abordent le mot à la mode « AGI » (Intelligence Artificielle Générale) – l'idée d'une IA capable de comprendre ou d'apprendre n'importe quelle tâche intellectuelle qu'un humain peut accomplir. Le benchmark ARC-AGI-2 a été conçu comme une vérification de la réalité pour les affirmations concernant l'AGI. Le fait qu'il y ait de nombreux problèmes dans ARC-AGI-2 qui sont triviaux pour les humains mais qui déconcertent les meilleures IA est une preuve solide que nous n'avons pas encore d'IA de type humain. Comme le dit l'équipe du Prix ARC, tant que nous pouvons facilement trouver des tâches que n'importe quelle personne dans la rue peut résoudre mais que même l'IA la plus intelligente ne peut pas, la véritable intelligence générale n'a pas été atteinte.

Bien que l'IA rencontre encore des difficultés avec les tâches de raisonnement complexes, ses atouts brillent dans des domaines spécialisés, comme la façon dont elle transforme les communications d'entreprise et la prise de décision. Un excellent exemple est la manière dont l'IA redéfinit les relations investisseurs avec Libertify IR.

Au-delà du laboratoire : implications et défis concrets

Pourquoi cela est-il important au-delà d'un ensemble spécifique de puzzles de pixels ? C'est important car cela touche à la confiance et aux capacités de l'IA dans le monde réel. Dans la vie et les affaires, nous sommes souvent confrontés à des problèmes nouveaux, qui ne ressemblent pas exactement à ce que nous avons déjà vu. Les humains gèrent constamment ces situations inédites en adaptant leurs connaissances antérieures. Les résultats d'ARC-AGI-2 suggèrent que si une IA est confrontée à un problème véritablement inconnu ou à un scénario qui ne figure pas dans ses données d'entraînement, elle pourrait échouer ou avoir des difficultés là où une personne réussirait.

Dans les applications critiques pour la sécurité, telles que les voitures autonomes ou le diagnostic médical, l'incapacité à gérer les cas limites – c'est-à-dire les situations inhabituelles et inattendues – est une préoccupation majeure. ARC-AGI-2 est essentiellement une collection de « cas limites » pour le raisonnement de l'IA, et les modèles actuels échouent à les maîtriser.

Le benchmark contient également une leçon sur la façon dont nous mesurons les progrès en IA. Il ne s'agit pas seulement d'obtenir un score élevé à un test ; il s'agit de la manière dont ce score a été obtenu. Forcer une solution avec une puissance de calcul énorme ou avoir de la chance sur des exemples connus n'est pas la même chose que de comprendre réellement le problème de manière efficace. L'intelligence, comme le souligne l'équipe de l'ARC, inclut un élément d'efficacité – faire beaucoup avec peu, comme le font nos cerveaux.

Le fait qu'un humain puisse, avec un effort relativement minime, résoudre bon nombre de ces énigmes alors qu'une IA nécessite des milliards d'opérations et échoue toujours, nous indique qu'il existe une différence qualitative entre notre façon de raisonner et la façon dont les IA « pensent » actuellement. Cela met également en évidence une limite : la simple mise à l'échelle des modèles d'IA (plus de données, plus de paramètres, plus de puissance de calcul) pourrait ne pas combler automatiquement cet écart. De nouvelles stratégies et architectures pourraient être nécessaires pour que l'IA puisse approcher la flexibilité cognitive humaine.

Sur une note d'espoir, des benchmarks comme ARC-AGI-2 guident les chercheurs vers ces pièces manquantes. En identifiant les lacunes de l'IA (par exemple, la compréhension du contexte ou la combinaison de règles), les scientifiques et les ingénieurs peuvent se concentrer sur le développement de nouvelles techniques pour surmonter ces obstacles. C'est un rappel que, malgré le battage médiatique, l'IA n'est pas encore un cerveau tout-puissant remplaçant l'humain – mais aussi une invitation à innover.

Même si les humains conservent encore l'avantage en matière de raisonnement, l'IA continue de prouver sa valeur dans tous les secteurs d'activité, dans des scénarios pratiques à fort impact. Vous pouvez découvrir certains cas d'utilisation concrets de Libertify pour voir comment les organisations en tirent déjà profit.

En résumé

ARC-AGI-2 offre un bulletin d'évaluation de l'IA rafraîchissant et centré sur l'humain. Sur ces puzzles de raisonnement abstrait que la plupart des gens résolvent avec du bon sens et un peu de créativité, les systèmes d'IA actuels échouent encore presque complètement. Ce contraste dans les performances cognitives – les humains à 60 % contre les IA à environ 1 % – souligne que nous n'avons pas encore reproduit la capacité générale de résolution de problèmes de l'esprit humain dans les machines.

Cela nous rappelle que l'intelligence humaine est plus qu'un simple traitement de données : elle est adaptable, consciente du contexte et efficace d'une manière que les machines n'ont pas encore atteinte. Pour le grand public, le message est à la fois rassurant et motivant. Rassurant, car cela signifie que l'IA est loin d'égaler toute l'étendue de l'intellect humain – votre capacité à résoudre de nouveaux problèmes vous est toujours propre. Motivant, car cela montre où se situe la frontière de la recherche en IA.

À mesure que l'IA continue de progresser, des tests comme ARC-AGI-2 nous permettront de rester lucides quant aux capacités réelles de ces systèmes, et stimuleront le développement d'une IA capable non seulement de traiter l'information, mais aussi de raisonner véritablement comme un être humain.

Sources : Le benchmark ARC-AGI-2 et ses résultats sont détaillés par l'équipe du prix ARC, avec une analyse des difficultés de l'IA (par exemple, l'interprétation des symboles, le raisonnement multi-règles, la compréhension contextuelle). De nombreux médias ont rapporté comment les humains ont battu l'IA sur ces tâches (humains ~60% contre les meilleurs modèles ~1-4%), soulignant que cet écart indique que nous sommes encore loin d'une IA générale de niveau humain.
Auteur : Steve Rosenblum