Identifier les liens brisés sur votre site web

Je dois actuellement identifier les liens brisés de la version française du site pour lequel je travaille. Après un sondage rapide sur Twitter il ressort 1 outils sur Windows et 2 outils en ligne.

  • Le validateur de liens du W3C : http://validator.w3.org/checklink
  • Xénu Link Sleuth : http://home.snafu.de/tilman/xenulink.html
  • Google WebMaster Tool : https://www.google.com/webmasters/tools

Le Validateur du W3C :

Il s’agit d’un outils de validation en ligne dans un client léger. Le résultat est relativement succin et le parcours du site extrêmement rapide pour un site relativement conséquent : 290.41 sec soit approximativement 5 minutes. Le rapport est contenu dans un emplacement réduit et est difficile lisible. Les liens javascript sont désactivés (« status: (N/A) Access to ‘javascript’ URIs has been disabled » dans le texte) mais remontés en tant que mauvaise pratique. La question ici n’est pas de juger de la pertinence de ce type de lien ou non mais de savoir s’ils fonctionnent ou non. Les liens vers les conditions générales de ventes sont exclus dans un robot.txt, la règle est donc suivie par le parser. J’aurais bien vu une case à cocher pour overrider cette propriété.

Google Webmaster Tools :

Vous devez posséder un compte Google et positionner un meta de validation afin que Google parcours votre site et construise un rapport. Je m’attendais à un rapport ultra détaillé avec une bonne précision et bien c’est la déception complète, un lien est remonté mais pas possibilité de voir les fichiers parcourus. A noter qu’il est possible d’ajuster la prise en compte des variables GET dans « Configuration du site > Paramètres », dans mon cas une variable déterminante dans la descente du catalogue était exclue. A noter qu’ici la remontée n’est pas à la demande et que Google parcours régulièrement votre site, c’est plutôt pratique car vous avez un résultat direct qui ne nécessite pas d’attente.

Xénu Link Sleuth :

Xénu Link Sleuth est un client lourd et gratuit. Il permet de vérifier les liens brisés en parcourant :

  • les liens
  • les images
  • les frames
  • les plug-ins
  • les backgrounds
  • les feuilles de style
  • les scripts
  • les applets Java

A priori c’est l’outil le plus complet des trois.

L’analyse du site s’est déroulée en 1h27mn, on est bien loin des 5 minutes du Validateur W3C et cela me semble plus cohérent avec la taille imposante du site.

Il offre la possibilité de trier les résultats par :

  • Adresse
  • Status
  • Type
  • Poids
  • Titre 
  • Date
  • Liens sortants
  • Liens entrants
  • Type de serveur
  • Type d’erreur 
  • Temps d’exploration (Duration)
  • Charset

Afin de ne pas surcharger les ressources du serveur, du réseau et du poste local j’ai commencé par configurer le nombre de requêtes parallèles en mettant 5.

J’observe différents résultats :

  • En faisant un tri par statut, j’ai un bon paquet d’url dont le statut est « no connection » sur des fichiers qui sont pourtant présents sur le serveur. Dans mon cas difficile d’identifier s’il s’agit d’un problème de réseau dans mon entreprise ou de connexion sur le serveur. La fonctionnalité « File > Retry Broken Links » permet de relancer une passe sur ces liens.
  • Des url sont en 404, et c’est d’ailleurs ce qui nous intéresse initialement. « Click droit » puis « Properties » permet de voir les pages qui sont liés aux 404, afin d’identifier la page qui point vers une ressource inexistante ou vers un lien mal formé.
  • Contrairement a ce que le soft promet, les liens javascript (Oui les liens en Javascipt c’est mal) ne sont pas du tout interprétés et sont considérés comme des liens externes à ignorer. C’est gênant car dans mon cas ce sont les liens vers les fiches produits !

Le soft offre également la possibilité de générer un sitemap Google depuis les url parcourus ainsi que la sauvegarde de la session dans un fichier .XNU afin de l’analyser plus tard. Enfin vous pourrez  exporter le rapport dans différents format pour le triturer comme bon vous semble.

Même si on peut éventuellement trouver une certaine complémentarité entre ces solutions, Xénu remporte ce mini comparatif haut la main !