2008
WebSPHINX le roi du crawl
Non, je vous le dis tout de suite, ce post n’a rien à voir avec la natation et encore moins avec la charmante Laure Manaudou.
Crawl, de l’anglais, signifie ici « exploration » .
Oui ! Car WebSPHINX est un crawler, c'est-à-dire, un système qui à l’instar du Google bot va parcourir les pages d’un site en s’aidant des liens qu’il trouve sur chaque page.
Ce petit logiciel développé en JAVA est avant tout là pour mettre en avant une librairie JAVA : WebSPHINX class library.
J’ai découvert cet outil lors d’une recherche d’informations sur le fonctionnement des crawler.
Celui-ci se présente en deux parties, la première est la class à proprement parlé, et la seconde est un système utilisant la première.
Mais que fait WebSPHINX ?
Tout cela :
- Visualiser un ensemble de page web sous forme d’un graphique (très gourmand en mémoire)
- Sauvegarder des pages web sur son poste de travail
- Concaténer un ensemble de pages pour les visualiser ou les imprimer comme un seul document
- Extraire certaines partie de texte de pages en fonction de masque définis
- …
Lire la suite : WebSPHINX le roi du crawl
Parfois je regrette de ne pas avoir Dreamweaver sous la main.