dimanche 21 décembre 2025

GAIA est un banc d'essai conçu pour évaluer les modèles linéaires logiques (LLM)

GAIA Leaderboard


GAIA est un banc d'essai conçu pour évaluer les modèles linéaires logiques (LLM) de nouvelle génération (LLM dotés de capacités accrues grâce à des outils supplémentaires, une assistance efficace, l'accès à la recherche, etc.). (Pour plus de détails, consultez notre article.)

GAIA pose des questions de logique pour mesurer le côté « humain » des IA. En gros, c’est un peu l’équivalent d’AnTuTu pour les processeurs ou de SpeedTest pour les box Internet. Concrètement, il s’agit d’un ensemble de 466 questions, plus ou moins faciles, pensées pour être mieux adaptées aux humains qu’aux outils numériques.

Données
GAIA comprend plus de 450 questions non triviales à réponse univoque, nécessitant différents niveaux d'outils et d'autonomie pour être résolues. Il est donc divisé en 3 niveaux : le niveau 1 devrait être contournable par de très bons LLM, tandis que le niveau 3 indique un bond significatif dans les capacités du modèle. Chaque niveau est divisé en un ensemble de développement entièrement public pour la validation et un ensemble de test avec des réponses et des métadonnées privées.

Les données GAIA sont disponibles dans ce jeu de données. Les questions sont contenues dans le fichier metadata.jsonl. Certaines questions sont accompagnées d'un fichier supplémentaire, situé dans le même dossier et dont l'identifiant est indiqué dans le champ file_name.



Veuillez ne pas republier l'ensemble de développement public ni l'utiliser comme données d'entraînement pour vos modèles.

Classement

Les soumissions de notre équipe sont identifiées par la mention « Auteurs GAIA ». Bien que nous présentions les scores moyens obtenus sur différentes exécutions lorsque cela est possible dans notre article, seul le meilleur résultat figure dans le classement.



Voir ci-dessous les soumissions.






📙 Citation




L'analyse du classement GAIA (General AI Assistants) que vous présentez montre une évolution spectaculaire des capacités des agents IA en 2025. Contrairement aux benchmarks classiques qui testent les connaissances théoriques, GAIA évalue la capacité à agir (utiliser des outils, naviguer sur le web, raisonner par étapes).

Voici un décodage des résultats et les points clés à retenir :

1. Une performance globale proche de l'humain

Le score moyen des leaders (89,37 %) est impressionnant. À titre de comparaison, lors du lancement du benchmark fin 2023, GPT-4 plafonnait à environ 15 %. Nous approchons désormais du score de référence humain (environ 92 %). Cela signifie que les agents actuels sont capables de résoudre des tâches administratives ou de recherche complexes de manière quasi autonome.

2. Analyse par niveaux de difficulté

Le benchmark GAIA est structuré en trois paliers, reflétant la complexité du workflow :

  • Niveau 1 (Validation des bases) : Presque tous les modèles du Top 10 dépassent les 95 %. Ce niveau, qui demande peu d'étapes de raisonnement, est désormais considéré comme "résolu" par les modèles de pointe.

  • Niveau 2 (Complexité intermédiaire) : Les scores chutent autour de 84-86 %. Ici, l'agent doit coordonner plusieurs outils (ex: ouvrir un PDF, extraire une donnée, faire un calcul et vérifier sur le web). C'est le cœur de métier des assistants actuels.

  • Niveau 3 (La "frontière") : C'est le véritable test de l'intelligence fluide. Les scores varient plus fortement (de 69 % à 87 %). Le modèle de NVIDIA (Nemotron-ToolOrchestra) se distingue particulièrement avec 87,76 %, surpassant même les leaders du classement général sur ce niveau précis. Cela indique une capacité de planification à long terme supérieure.

3. La domination des systèmes "Multi-Agents"

Une tendance majeure se dégage de la colonne "Model family" : les meilleurs résultats ne proviennent pas d'un seul modèle, mais de combinaisons hybrides.

  • Le leader, testManus_v0.0.1, utilise un mélange de GPT-5, o3, Gemini 2.5 Pro et Claude.

  • Pourquoi ? Parce qu'un modèle peut être excellent pour planifier (o3/GPT-5), tandis qu'un autre est plus fiable pour l'utilisation d'outils spécifiques ou l'analyse de documents (Claude/Gemini).

4. Observations stratégiques

  • NVIDIA en embuscade : Bien que 7ème au général, le modèle de NVIDIA est le plus performant sur les tâches de niveau 3. Pour des projets nécessitant une très haute autonomie sans supervision, leur approche "ToolOrchestra" semble être la plus robuste.

  • Convergence des géants : Microsoft (HALO) et JD Enterprise (Manus) occupent les deux premières places avec des scores identiques au centième près. La compétition au sommet est extrêmement serrée.

  • L'arrivée de GPT-5 et Gemini 3 : On remarque l'apparition de modèles comme Gemini-3-Pro et GPT-5.1 dans les soumissions de décembre 2025, confirmant que nous sommes sur une nouvelle génération de modèles "natifs pour les agents".


Synthèse des scores (Top 3)

AgentOrganisationMoyenneNiveau

samedi 2 août 2025

La Commission européenne a publié le « General-Purpose AI Code of Practice ».

Les 3 chapitres du code

Ci-dessous, vous pouvez télécharger le code, composé de trois chapitres écrits séparément: Transparence, droit d'auteur et sûreté et sécurité.

Les chapitres sur la transparence et le droit d’auteur offrent à tous les fournisseurs de modèles d’IA à usage général un moyen de démontrer le respect de leurs obligations au titre de l’article 53 de la législation sur l’IA.

Les chapitres sur la sûreté et la sécurité ne concernent que le petit nombre de fournisseurs des modèles les plus avancés, ceux qui sont soumis aux obligations de la législation sur l’IA pour les fournisseurs de modèles d’IA à usage général présentant un risque systémique en vertu de l’article 55 de la législation sur l’IA.


C’est officiel ! Les fournisseurs développant des modèles de hashtagIA à usage général (GPAI) en Europe ont un rendez-vous clé le 2 août 2025 🚨

La Commission européenne a publié le « General-Purpose AI Code of Practice », un guide volontaire mais stratégique pour se conformer au RIA (AI Act) avant que les sanctions n’entrent en scène.

📘 Que propose ce guide ?

Une feuille de route claire pour les développeurs et les fournisseurs de GPAI afin de démontrer la responsabilité, la transparence et la sécurité dans leurs activités :

✅ Modèle de formulaire de documentation : décrit les capacités, les limitations, les cas d’utilisation et les risques.

✅ Politique de droit d’auteur : Obligatoire pour prévenir la violation et instaurer la confiance.

✅ Évaluations de sécurité : Exigences plus strictes pour les modèles présentant un « risque systémique ».

✅ Engagement vis-à-vis des tiers : Transparence et réponse en moins de 14 jours à ceux qui intègrent ou répliquent votre modèle.

🧩 Ce n’est pas obligatoire, mais adhérer au code tôt peut être un avantage concurrentiel : cela réduit la charge de documents, présume la conformité légale et vous positionne comme un acteur fiable dans la chaîne de valeur de l’IA.

📅 Dates clés :

📍 Jours d’entrée en vigueur de l’ARG pour l’IAGP : 2 août 2025

📍 Nouveaux modèles : conformité obligatoire en 2026

Le 2 août 2025, une partie du régime de sanctions du règlement (UE) 2024/1689 sur l’IA, qui interdit les systèmes tels que l’identification biométrique à distance en temps réel dans l’espace public, entrera en vigueur.

Les règles de l’UE sur les modèles d’IA à usage général commencent à s’appliquer demain, apportant plus de transparence, de sécurité et de responsabilité | Bâtir l’avenir numérique de l’Europe

 

GPAI code of practice transparency

Transparence

Le chapitre sur la transparence (PDF) propose un modèle de formulaire de documentation (DOCX) convivial qui permet aux fournisseurs de documenter facilement les informations nécessaires pour se conformer à l’obligation imposée par la législation sur l’IA aux fournisseurs de modèles afin de garantir une transparence suffisante.

GPAI code of practice copyright

Droit d'auteur

Le chapitre sur le droit d'auteur (PDF) offre aux fournisseurs des solutions pratiques pour satisfaire à l'obligation de la législation sur l'IA de mettre en place une politique de conformité avec la législation de l'UE sur le droit d'auteur.

GPAI code of practice security

Sûreté et sécurité

Le chapitre sur la sûreté et la sécurité (PDF) décrit des pratiques concrètes de pointe pour gérer les risques systémiques, c'est-à-dire les risques des modèles les plus avancés. Les fournisseurs peuvent s’appuyer sur ce chapitre pour se conformer aux obligations prévues par la législation sur l’IA pour les fournisseurs de modèles d’IA à usage général présentant un risque systémique.

 Approche européenne de l’intelligence artificielle | Bâtir l’avenir numérique de l’Europe

https://digital-strategy.ec.europa.eu/fr/policies/european-approach-artificial-intelligence


Bureau européen de l’IA | Bâtir l’avenir numérique de l’Europe

https://digital-strategy.ec.europa.eu/fr/policies/ai-office


https://youtu.be/LtjwRIXtzDw?si=czkbIUyDRO282DJA


--- 

Erol GIRAUDY 

https://www.erolgiraudy.eu