Affichage des articles dont le libellé est UGAIA. Afficher tous les articles

mardi 9 juin 2026

Script PowerShell simple pour un fichier PDF → MD

un script PowerShell prêt à l’emploi.

1. Pré-requis

Installer Pandoc (Windows)

winget install --id JohnMacFarlane.Pandoc

Vérifie que pandoc.exe est dans le PATH :
```
pandoc --version
```

2. Script PowerShell simple pour un fichier PDF → MD

param(
    [Parameter(Mandatory = $true)]
    [string]$PdfPath
)

if (-not (Test-Path $PdfPath)) {
    Write-Error "Fichier introuvable : $PdfPath"
    exit 1
}

$fullPdfPath = (Resolve-Path $PdfPath).Path
$dir  = Split-Path $fullPdfPath -Parent
$name = [System.IO.Path]::GetFileNameWithoutExtension($fullPdfPath)
$mdPath = Join-Path $dir "$name.md"

Write-Host "Conversion de '$fullPdfPath' vers '$mdPath'..."

pandoc.exe `
    -f pdf `
    -t markdown `
    -o "$mdPath" `
    "$fullPdfPath"

if ($LASTEXITCODE -eq 0) {
    Write-Host "OK : $mdPath"
} else {
    Write-Error "Erreur de conversion (code : $LASTEXITCODE)"
}

Usage :

.\Convert-PdfToMd.ps1 -PdfPath "C:\Chemin\Plaquette_vbch_fr_TrustedGPT_AIPM_v5.pdf"

3. Version pour convertir tous les PDF d’un dossier

param(
    [Parameter(Mandatory = $true)]
    [string]$Folder
)

if (-not (Test-Path $Folder)) {
    Write-Error "Dossier introuvable : $Folder"
    exit 1
}

$folderPath = (Resolve-Path $Folder).Path
$pdfFiles = Get-ChildItem -Path $folderPath -Filter *.pdf -File

if (-not $pdfFiles) {
    Write-Host "Aucun PDF trouvé dans : $folderPath"
    exit 0
}

foreach ($pdf in $pdfFiles) {
    $mdPath = Join-Path $folderPath ("{0}.md" -f $pdf.BaseName)
    Write-Host "Conversion de '$($pdf.FullName)' vers '$mdPath'..."

    pandoc.exe `
        -f pdf `
        -t markdown `
        -o "$mdPath" `
        "$($pdf.FullName)"

    if ($LASTEXITCODE -ne 0) {
        Write-Warning "Échec pour : $($pdf.Name) (code : $LASTEXITCODE)"
    }
}

Write-Host "Terminé."

Usage :

.\Convert-AllPdfToMd.ps1 -Folder "C:\Chemin\Vers\Dossier"

La conversion d’un PDF vers du Markdown (.md) n’est pas un détail technique :

c’est une étape stratégique dans toute architecture RAG, car elle conditionne la qualité des embeddings, le coût en tokens, et la précision des réponses du modèle.

Voici l’explication complète, structurée, opérationnelle :

🎯 Pourquoi convertir un PDF en Markdown dans un pipeline IA / RAG ?

🧩 1. Le PDF est un format visuel, pas un format sémantique

Un PDF est conçu pour l’impression, pas pour l’analyse par une IA.

Le texte peut être fragmenté en blocs arbitraires
Les colonnes, tableaux, notes de bas de page sont mélangés
Les sauts de ligne sont aléatoires
Les titres ne sont pas identifiés
Les listes deviennent des lignes séparées
Les images perturbent l’extraction

Résultat :
➡️ Les embeddings générés depuis un PDF brut sont bruyants, incohérents, et peu utiles pour un RAG.

📄→📘 2. Le Markdown transforme un PDF en structure exploitable

Le Markdown est parfait pour les LLM :

Titres → #, ##, ###
Paragraphes propres
Listes normalisées
Tableaux lisibles
Liens et références préservés
Structure hiérarchique claire

En clair :
➡️ Le Markdown redonne du sens au document.
➡️ Les embeddings deviennent cohérents, contextuels, pertinents.

🧠 3. Impact direct sur la qualité du RAG

Sans conversion PDF → MD :

Le chunking coupe des phrases en plein milieu
Les embeddings capturent du bruit
Le modèle hallucine davantage
Les réponses sont vagues ou incorrectes
Le RAG “ne retrouve rien” même si l’info est dans le PDF

Avec conversion PDF → MD :

Les chunks suivent la structure logique du texte
Les embeddings sont plus denses en sens
Le RAG retrouve les bons passages
Les réponses sont précises, citées, fiables

➡️ Le Markdown augmente la précision du RAG de 30 à 60 % (observé dans la plupart des pipelines industriels).

💰 4. Impact sur les tokens (coût + performance)

Les LLM facturent au token, pas au caractère.

Un PDF brut contient :

des espaces inutiles
des sauts de ligne
des artefacts
des caractères invisibles
des blocs dupliqués

Le Markdown :

supprime le bruit
compresse le texte
réduit la taille des chunks
optimise le prompt final

➡️ Tu économises 20 à 40 % de tokens
➡️ Tu accélères les réponses
➡️ Tu réduis les coûts
➡️ Tu augmentes la fenêtre contextuelle utile

🏗️ 5. Impact sur le chunking et les embeddings

Le chunking est le cœur du RAG.

Avec du Markdown :

On peut chunker par titres
On peut chunker par sections logiques
On peut chunker par listes
On peut chunker par articles (AI Act, RGPD)

Exemple :
Un PDF de 100 pages → 800 chunks incohérents
Le même en Markdown → 300 chunks propres et hiérarchisés

➡️ Moins de chunks =

moins d’embeddings
moins de stockage
moins de calcul
meilleure précision

🧱 6. Le Markdown est souverain, portable, durable

Pas de dépendance à Adobe
Pas de dépendance à un format propriétaire
Compatible Git, GitHub, GitLab
Compatible tous les moteurs RAG (LlamaIndex, LangChain, Haystack, Chroma, Milvus…)
Lisible par un humain
Lisible par un LLM

➡️ Le Markdown est le format standard de la souveraineté documentaire IA.

🧭 7. Synthèse COMEX (1 slide)

Objectif	PDF brut	Markdown	Impact IA
Structure	❌ Aucune	✔️ Hiérarchique	Embeddings précis
Bruit	❌ Élevé	✔️ Faible	Moins de tokens
Chunking	❌ Aléatoire	✔️ Logique	RAG fiable
Coût tokens	❌ +30–40%	✔️ Optimisé	Économie
Hallucinations	❌ Fréquentes	✔️ Réduites	Qualité
Souveraineté	❌ Faible	✔️ Forte	Pérennité

🚀 Conclusion

Convertir un PDF en Markdown n’est pas une option : c’est une exigence pour tout RAG sérieux.

Tu gagnes :

en précision
en coût
en performance
en souveraineté
en qualité des embeddings
en fiabilité des réponses

C’est exactement ce que tu construis avec ton pipeline Mistral + Ollama + ChromaDB + GRCA100.

---

Erol GIRAUDY

https://www.erolgiraudy.eu

dimanche 21 décembre 2025

GAIA est un banc d'essai conçu pour évaluer les modèles linéaires logiques (LLM)

GAIA Leaderboard

GAIA est un banc d'essai conçu pour évaluer les modèles linéaires logiques (LLM) de nouvelle génération (LLM dotés de capacités accrues grâce à des outils supplémentaires, une assistance efficace, l'accès à la recherche, etc.). (Pour plus de détails, consultez notre article.)

GAIA pose des questions de logique pour mesurer le côté « humain » des IA. En gros, c’est un peu l’équivalent d’AnTuTu pour les processeurs ou de SpeedTest pour les box Internet. Concrètement, il s’agit d’un ensemble de 466 questions, plus ou moins faciles, pensées pour être mieux adaptées aux humains qu’aux outils numériques.

Données

GAIA comprend plus de 450 questions non triviales à réponse univoque, nécessitant différents niveaux d'outils et d'autonomie pour être résolues. Il est donc divisé en 3 niveaux : le niveau 1 devrait être contournable par de très bons LLM, tandis que le niveau 3 indique un bond significatif dans les capacités du modèle. Chaque niveau est divisé en un ensemble de développement entièrement public pour la validation et un ensemble de test avec des réponses et des métadonnées privées.

Les données GAIA sont disponibles dans ce jeu de données. Les questions sont contenues dans le fichier metadata.jsonl. Certaines questions sont accompagnées d'un fichier supplémentaire, situé dans le même dossier et dont l'identifiant est indiqué dans le champ file_name.

Veuillez ne pas republier l'ensemble de développement public ni l'utiliser comme données d'entraînement pour vos modèles.

Classement

Les soumissions de notre équipe sont identifiées par la mention « Auteurs GAIA ». Bien que nous présentions les scores moyens obtenus sur différentes exécutions lorsque cela est possible dans notre article, seul le meilleur résultat figure dans le classement.

Voir ci-dessous les soumissions.

Classement GAIA - un espace de visage dans les câlins par gaia-benchmark

https://huggingface.co/spaces/gaia-benchmark/leaderboard

gaia-benchmark/GAIA · Datasets at Hugging Face

https://huggingface.co/datasets/gaia-benchmark/GAIA

📙 Citation

Gradio https://gaia-benchmark-leaderboard.hf.space/?__theme=system

C’est quoi GAIA, l’outil qui vérifie si les IA sont bêtes ? - Numerama

L'analyse du classement GAIA (General AI Assistants) que vous présentez montre une évolution spectaculaire des capacités des agents IA en 2025. Contrairement aux benchmarks classiques qui testent les connaissances théoriques, GAIA évalue la capacité à agir (utiliser des outils, naviguer sur le web, raisonner par étapes).

Voici un décodage des résultats et les points clés à retenir :

1. Une performance globale proche de l'humain

Le score moyen des leaders (89,37 %) est impressionnant. À titre de comparaison, lors du lancement du benchmark fin 2023, GPT-4 plafonnait à environ 15 %. Nous approchons désormais du score de référence humain (environ 92 %). Cela signifie que les agents actuels sont capables de résoudre des tâches administratives ou de recherche complexes de manière quasi autonome.

2. Analyse par niveaux de difficulté

Le benchmark GAIA est structuré en trois paliers, reflétant la complexité du workflow :

Niveau 1 (Validation des bases) : Presque tous les modèles du Top 10 dépassent les 95 %. Ce niveau, qui demande peu d'étapes de raisonnement, est désormais considéré comme "résolu" par les modèles de pointe.
Niveau 2 (Complexité intermédiaire) : Les scores chutent autour de 84-86 %. Ici, l'agent doit coordonner plusieurs outils (ex: ouvrir un PDF, extraire une donnée, faire un calcul et vérifier sur le web). C'est le cœur de métier des assistants actuels.
Niveau 3 (La "frontière") : C'est le véritable test de l'intelligence fluide. Les scores varient plus fortement (de 69 % à 87 %). Le modèle de NVIDIA (Nemotron-ToolOrchestra) se distingue particulièrement avec 87,76 %, surpassant même les leaders du classement général sur ce niveau précis. Cela indique une capacité de planification à long terme supérieure.

3. La domination des systèmes "Multi-Agents"

Une tendance majeure se dégage de la colonne "Model family" : les meilleurs résultats ne proviennent pas d'un seul modèle, mais de combinaisons hybrides.

Le leader, testManus_v0.0.1, utilise un mélange de GPT-5, o3, Gemini 2.5 Pro et Claude.
Pourquoi ? Parce qu'un modèle peut être excellent pour planifier (o3/GPT-5), tandis qu'un autre est plus fiable pour l'utilisation d'outils spécifiques ou l'analyse de documents (Claude/Gemini).

4. Observations stratégiques

NVIDIA en embuscade : Bien que 7ème au général, le modèle de NVIDIA est le plus performant sur les tâches de niveau 3. Pour des projets nécessitant une très haute autonomie sans supervision, leur approche "ToolOrchestra" semble être la plus robuste.
Convergence des géants : Microsoft (HALO) et JD Enterprise (Manus) occupent les deux premières places avec des scores identiques au centième près. La compétition au sommet est extrêmement serrée.
L'arrivée de GPT-5 et Gemini 3 : On remarque l'apparition de modèles comme Gemini-3-Pro et GPT-5.1 dans les soumissions de décembre 2025, confirmant que nous sommes sur une nouvelle génération de modèles "natifs pour les agents".

Synthèse des scores (Top 3)

Agent	Organisation	Moyenne	Niveau