Comment réduire les tokens d’un contenu HTML avant de l’envoyer à une IA ?

Édité par Outilo · Relu par Yoann Begue · Vérifié le 24/05/2026

Réponse rapide

Pour réduire les tokens d’un contenu HTML, commence par supprimer le bruit technique : scripts, styles, menus, footers, publicités, attributs inutiles et blocs répétés. Convertis ensuite le contenu utile en Markdown propre pour garder les titres, paragraphes, listes, liens, tableaux et métadonnées importantes dans un format plus léger.

Outil recommandé

Convertisseur HTML en Markdown pour IA

Transforme le HTML d’une page web en Markdown propre, léger et prêt à coller dans ChatGPT, Claude, Gemini ou tout autre LLM.

Ouvrir l'outil

Explication

Le HTML d’une page contient souvent beaucoup plus que le contenu à analyser. Les classes CSS, styles inline, scripts, menus, pieds de page, composants cachés, URLs de tracking et blocs dupliqués consomment du contexte sans améliorer la réponse de l’IA. Réduire les tokens consiste donc à augmenter le rapport signal/bruit.

La bonne méthode n’est pas de tout couper brutalement. Il faut garder ce qui porte le sens : structure Hn, paragraphes principaux, liens utiles, tableaux, images importantes, balises meta et JSON-LD si l’analyse SEO le demande. La conversion en Markdown est un bon compromis : elle conserve la hiérarchie éditoriale tout en supprimant une grande partie du code inutile.

Formule / méthode

Checklist de réduction :

supprimer script, style, menus, footers et blocs répétés ;
retirer les classes CSS, styles inline et attributs inutiles ;
conserver titres, paragraphes, listes, liens et tableaux utiles ;
garder les métadonnées ou le JSON-LD seulement si nécessaire ;
convertir le résultat en Markdown propre ;
ajouter une consigne courte et précise.

Exemple concret

Une page peut contenir 40 000 caractères de HTML mais seulement quelques milliers de caractères vraiment utiles. Si tu retires les scripts, les styles, la navigation et les blocs répétitifs, le Markdown final devient plus court, plus lisible et plus facile à analyser pour ChatGPT, Claude ou Gemini.

Erreur fréquente

Ne réduis pas les tokens au point de supprimer le sens. Le piège classique est de retirer les liens, les titres ou les tableaux qui étaient justement utiles à l’analyse. Méfie-toi aussi des estimations fixes du type “caractères ÷ 4” : elles restent approximatives et varient selon le modèle, le contenu et les fichiers.

Sources et méthodologie

OpenAI — Counting tokens — Documentation sur le comptage des tokens, les limites des estimations locales et l’optimisation des prompts.
OpenAI — Prompt engineering — Recommandations sur la structuration des prompts avec Markdown, sections et hiérarchie.
CommonMark — Markdown specification — Référence du Markdown comme format texte structuré et lisible.
WHATWG — HTML Standard — Référence sur HTML, ses éléments et sa structure documentaire.

Ce contenu suit la méthode éditoriale d'Outilo.

Guide pratique

Analyser une page web avec ChatGPT grâce au Markdown

Apprends à analyser une page web avec ChatGPT ou Claude en convertissant le code source HTML en Markdown propre, puis en utilisant des prompts réutilisables.