Pourquoi ChatGPT comprend mieux le Markdown que le HTML brut ?
ChatGPT peut lire le HTML, mais le Markdown lui présente souvent le contenu de façon plus claire. Il supprime une partie du bruit technique et conserve les éléments utiles comme les titres, les listes, les liens et les paragraphes.
Explication
Le HTML décrit à la fois la structure, l’affichage et parfois le comportement d’une page. Pour une IA, beaucoup de ces informations ne sont pas utiles : classes CSS, scripts, styles, wrappers, menus ou attributs techniques. Le Markdown est plus direct. Il met en avant la hiérarchie du contenu, ce qui aide le modèle à repérer les sections, les idées principales et les relations entre les éléments.
Formule / méthode
HTML brut = beaucoup de structure technique.
Markdown propre = contenu + hiérarchie lisible.
Pour une analyse IA, le Markdown donne généralement un meilleur rapport signal/bruit.
Exemple concret
Un titre HTML comme <h2>Avantages</h2> devient simplement ## Avantages. Le sens reste clair, mais le prompt devient plus court et plus lisible.
Erreur fréquente
Markdown ne veut pas dire perte totale d’information. L’objectif n’est pas de tout supprimer, mais de garder ce qui aide vraiment l’analyse : structure, texte, liens utiles, tableaux et métadonnées importantes.
Sources et méthodologie
- OpenAI — Prompt engineering — Recommandations sur la structuration des prompts avec des séparateurs, des titres et des formats lisibles.
- CommonMark — Markdown specification — Spécification du Markdown comme format texte structuré et lisible.
- WHATWG — HTML Living Standard — Référence sur HTML, ses éléments, attributs et mécanismes destinés aux documents web.
- ReaderLM-v2 — Small Language Model for HTML-to-Markdown and JSON Cleaning — Recherche sur la conversion de HTML bruité en Markdown ou JSON plus propre pour les usages LLM.
Ce contenu suit la méthode éditoriale d'Outilo.