Web markdown crawler

Eric Aellen
12 oct. 2025
1 min de lecture

Dernière mise à jour : 13 oct. 2025

Repo Github Dans le cadre de mon projet de bachelor, j'avais besoin de crawler des sites web. En français, ça veut dire envoyer un petit "robot" qui se balade sur le site, récupère le contenu des pages et me ramène tout ça bien structuré.

Au début, je comptais passer par un crawler tiers, via API, mais j'ai vite compris que c'était beaucoup trop cher : environ 0,50 CHF par site web, selon leur taille et le nombre de pages présentes. Ok, on dirait que ce n'est pas beaucoup, mais le service qu'on offre est gratuit — on ne peut pas se permettre d'utiliser des outils significativement payants dans un service qu'on va proposer gratuitement.

DONC

J'en ai eu marre et j'ai mis en place un simple crawler qui parse (= se balade) une URL donnée, parcourt les pages du site web et, le plus important, convertit le HTML, CSS et JS (= les langages des sites web) en Markdown (= de l'anglais structuré pour les LLM). Rapidement mis en ligne sur Railway, on peut désormais lui envoyer une simple requette HTTP, sur n8n par exemple, avec quelque paramètres de recherche, et il renvoie le markdown correspondant

Exemple de requette (CUrl)

Et l'on reçoit une commande comme ceci

Les requètes peuvent se faire depuis n'importe quel terminal, mais aussi sur ce site (gratuit toujours)

Web markdown crawler

Posts récents

Commentaires