GAIA Leaderboard
L'analyse du classement GAIA (General AI Assistants) que vous présentez montre une évolution spectaculaire des capacités des agents IA en 2025. Contrairement aux benchmarks classiques qui testent les connaissances théoriques, GAIA évalue la capacité à agir (utiliser des outils, naviguer sur le web, raisonner par étapes).
Voici un décodage des résultats et les points clés à retenir :
1. Une performance globale proche de l'humain
Le score moyen des leaders (89,37 %) est impressionnant. À titre de comparaison, lors du lancement du benchmark fin 2023, GPT-4 plafonnait à environ 15 %. Nous approchons désormais du score de référence humain (environ 92 %). Cela signifie que les agents actuels sont capables de résoudre des tâches administratives ou de recherche complexes de manière quasi autonome.
2. Analyse par niveaux de difficulté
Le benchmark GAIA est structuré en trois paliers, reflétant la complexité du workflow :
Niveau 1 (Validation des bases) : Presque tous les modèles du Top 10 dépassent les 95 %. Ce niveau, qui demande peu d'étapes de raisonnement, est désormais considéré comme "résolu" par les modèles de pointe.
Niveau 2 (Complexité intermédiaire) : Les scores chutent autour de 84-86 %. Ici, l'agent doit coordonner plusieurs outils (ex: ouvrir un PDF, extraire une donnée, faire un calcul et vérifier sur le web). C'est le cœur de métier des assistants actuels.
Niveau 3 (La "frontière") : C'est le véritable test de l'intelligence fluide. Les scores varient plus fortement (de 69 % à 87 %). Le modèle de NVIDIA (Nemotron-ToolOrchestra) se distingue particulièrement avec 87,76 %, surpassant même les leaders du classement général sur ce niveau précis. Cela indique une capacité de planification à long terme supérieure.
3. La domination des systèmes "Multi-Agents"
Une tendance majeure se dégage de la colonne "Model family" : les meilleurs résultats ne proviennent pas d'un seul modèle, mais de combinaisons hybrides.
Le leader, testManus_v0.0.1, utilise un mélange de GPT-5, o3, Gemini 2.5 Pro et Claude.
Pourquoi ? Parce qu'un modèle peut être excellent pour planifier (o3/GPT-5), tandis qu'un autre est plus fiable pour l'utilisation d'outils spécifiques ou l'analyse de documents (Claude/Gemini).
4. Observations stratégiques
NVIDIA en embuscade : Bien que 7ème au général, le modèle de NVIDIA est le plus performant sur les tâches de niveau 3. Pour des projets nécessitant une très haute autonomie sans supervision, leur approche "ToolOrchestra" semble être la plus robuste.
Convergence des géants : Microsoft (HALO) et JD Enterprise (Manus) occupent les deux premières places avec des scores identiques au centième près. La compétition au sommet est extrêmement serrée.
L'arrivée de GPT-5 et Gemini 3 : On remarque l'apparition de modèles comme Gemini-3-Pro et GPT-5.1 dans les soumissions de décembre 2025, confirmant que nous sommes sur une nouvelle génération de modèles "natifs pour les agents".
Synthèse des scores (Top 3)
Souhaitez-vous que j'analyse plus en détail la méthodologie d'un de ces agents (comme le système de planification de Microsoft ou l'orchestration de NVIDIA) ?
L'évolution des agents IA et le benchmark GAIA
Cette vidéo explore les différences de raisonnement entre les derniers modèles (Gemini 3, GPT-5, Claude 4.5), ce qui aide à comprendre pourquoi les systèmes multi-agents dominent le classement GAIA.
https://youtu.be/6w0i2Wp0knM?si=FuOZ8u2M8nyKvWeT
J'ai mis à l'épreuve trois modèles d'IA de pointe lors d'un concours de design. À partir du même sujet, j'ai demandé à Gemini 3 de Google, Opus 4.5 d'Anthropic et Codex 5.1 d'OpenAI de repenser la conception de ma page de blog, en les évaluant sur la qualité du design visuel, l'amélioration de l'expérience utilisateur et l'optimisation SEO. Un modèle a produit une refonte magnifique, soignée et prête pour la production. Un autre était correct. Et le dernier a complètement échoué. Si vous cherchez à déterminer la place de chaque modèle dans votre flux de travail (conception, planification, développement back-end ou autre), cet épisode vous évitera bien des tâtonnements.
Ce que vous apprendrez :
1. Comment chaque modèle d’IA aborde différemment un même défi de conception
2. Pourquoi les capacités de planification ont un impact considérable sur la qualité de la conception
3. Les améliorations visuelles et fonctionnelles spécifiques apportées par chaque modèle
4. Quel modèle excelle en conception front-end par rapport aux fonctionnalités back-end
5. Comment choisir stratégiquement le modèle d’IA adapté aux différentes étapes de votre flux de travail
6. L’importance de changer de modèle en fonction des cas d’utilisation spécifiques
Conception du blog : https://www.chatprd.ai/blog
Présenté par :
Lovable — Créez des applications en discutant simplement avec l’IA : https://lovable.dev/
Où trouver Claire Vo :
ChatPRD : https://www.chatprd.ai/
Site web : https://clairevo.com/
LinkedIn :
/ clairevo
X : https://x.com/clairevo
Dans cet épisode, nous abordons :
(00:00) Introduction à la conception par IA Défi
(01:25) La question : Quel modèle est le meilleur concepteur ?
(03:08) L'invite utilisée pour les trois modèles
(04:10) Approche et résultats de Gemini 3 Pro
(06:00) Approche et résultats d'Opus 4.5
(10:54) Approche et résultats décevants de Codex 5.1
(14:51) Comparaison des trois modèles
(16:03) Analyse des journaux de modifications et des améliorations SEO de chaque modèle
(22:43) Verdict final
(23:00) Conclusion et perspectives
Outils utilisés :
• Gemini 3 Pro : https://deepmind.google/models/gemini...
• Anthropic Opus 4.5 : https://www.anthropic.com/news/claude...
• OpenAI Codex 5.1 : https://platform.openai.com/docs/mode...
• Curseur : https://cursor.com/
Production et marketing : https://penname.co/. Pour toute demande de partenariat avec le podcast, veuillez contacter jordan@penname.co.
Aucun commentaire:
Enregistrer un commentaire