Comment réduire les tokens d’un contenu HTML avant de l’envoyer à une IA ?
Pour réduire les tokens d’un contenu HTML, commence par supprimer le bruit technique : scripts, styles, menus, footers, publicités, attributs inutiles et blocs répétés. Convertis ensuite le contenu utile en Markdown propre pour garder les titres, paragraphes, listes, liens, tableaux et métadonnées importantes dans un format plus léger.
Explication
Le HTML d’une page contient souvent beaucoup plus que le contenu à analyser. Les classes CSS, styles inline, scripts, menus, pieds de page, composants cachés, URLs de tracking et blocs dupliqués consomment du contexte sans améliorer la réponse de l’IA. Réduire les tokens consiste donc à augmenter le rapport signal/bruit.
La bonne méthode n’est pas de tout couper brutalement. Il faut garder ce qui porte le sens : structure Hn, paragraphes principaux, liens utiles, tableaux, images importantes, balises meta et JSON-LD si l’analyse SEO le demande. La conversion en Markdown est un bon compromis : elle conserve la hiérarchie éditoriale tout en supprimant une grande partie du code inutile.
Formule / méthode
Checklist de réduction :
- supprimer
script,style, menus, footers et blocs répétés ; - retirer les classes CSS, styles inline et attributs inutiles ;
- conserver titres, paragraphes, listes, liens et tableaux utiles ;
- garder les métadonnées ou le JSON-LD seulement si nécessaire ;
- convertir le résultat en Markdown propre ;
- ajouter une consigne courte et précise.
Exemple concret
Une page peut contenir 40 000 caractères de HTML mais seulement quelques milliers de caractères vraiment utiles. Si tu retires les scripts, les styles, la navigation et les blocs répétitifs, le Markdown final devient plus court, plus lisible et plus facile à analyser pour ChatGPT, Claude ou Gemini.
Erreur fréquente
Ne réduis pas les tokens au point de supprimer le sens. Le piège classique est de retirer les liens, les titres ou les tableaux qui étaient justement utiles à l’analyse. Méfie-toi aussi des estimations fixes du type “caractères ÷ 4” : elles restent approximatives et varient selon le modèle, le contenu et les fichiers.
Sources et méthodologie
- OpenAI — Counting tokens — Documentation sur le comptage des tokens, les limites des estimations locales et l’optimisation des prompts.
- OpenAI — Prompt engineering — Recommandations sur la structuration des prompts avec Markdown, sections et hiérarchie.
- CommonMark — Markdown specification — Référence du Markdown comme format texte structuré et lisible.
- WHATWG — HTML Standard — Référence sur HTML, ses éléments et sa structure documentaire.
Ce contenu suit la méthode éditoriale d'Outilo.