Comment récupérer le HTML d’une page web ?
Pour récupérer le HTML d’une page web, commence par Ctrl+U ou clic droit puis “Afficher le code source de la page”. Si la page est générée avec JavaScript, ouvre plutôt l’inspecteur du navigateur, sélectionne la balise body ou html, puis copie son HTML externe.
Explication
Il existe deux façons de récupérer le HTML d’une page, et elles ne donnent pas toujours le même résultat. Le code source affiche le HTML initial envoyé par le serveur. C’est suffisant pour une page simple ou statique. L’inspecteur, lui, montre le DOM actuel de la page, c’est-à-dire la structure après exécution éventuelle du JavaScript. Sur une application moderne, un site e-commerce ou une page chargée dynamiquement, cette seconde méthode est souvent plus fiable pour obtenir le contenu réellement visible avant de le convertir en Markdown ou de l’analyser avec une IA.
Formule / méthode
Méthode rapide :
- Ouvre la page dans ton navigateur.
- Fais
Ctrl+Uou clic droit → “Afficher le code source de la page”. - Copie le HTML affiché.
Méthode fiable pour les pages dynamiques :
- Ouvre les outils de développement.
- Va dans l’onglet Elements / Inspecteur.
- Sélectionne
bodyouhtml. - Clic droit → Copy → Copy outerHTML.
- Colle le résultat dans ton convertisseur HTML vers Markdown.
Exemple concret
Si tu copies le code source d’une page produit et que le convertisseur ne récupère presque rien, le contenu est probablement ajouté après chargement par JavaScript. Dans ce cas, copie le HTML depuis l’inspecteur plutôt que depuis le code source.
Erreur fréquente
Ne confonds pas le HTML initial et le DOM affiché. Le HTML initial peut être incomplet sur les pages dynamiques, tandis que le DOM contient souvent le contenu réellement visible. Attention aussi aux contenus privés ou protégés : ne copie que ce que tu as le droit d’utiliser.
Sources et méthodologie
- Chrome DevTools — View and change the DOM — Documentation sur l’inspection des nœuds, le panneau Elements et la différence entre HTML initial et DOM actuel.
- MDN — Document Object Model (DOM) — Référence sur le DOM comme représentation structurée et manipulable d’une page web.
- WHATWG — HTML Standard — Spécification de référence du langage HTML et de la structure des documents web.
Ce contenu suit la méthode éditoriale d'Outilo.