Identifier les liens brisés sur votre site web

Je dois actuellement identifier les liens brisés de la version française du site pour lequel je travaille. Après un sondage rapide sur Twitter il ressort 1 outils sur Windows et 2 outils en ligne.

  • Le validateur de liens du W3C : http://validator.w3.org/checklink
  • Xénu Link Sleuth : http://home.snafu.de/tilman/xenulink.html
  • Google WebMaster Tool : https://www.google.com/webmasters/tools

Le Validateur du W3C :

Il s’agit d’un outils de validation en ligne dans un client léger. Le résultat est relativement succin et le parcours du site extrêmement rapide pour un site relativement conséquent : 290.41 sec soit approximativement 5 minutes. Le rapport est contenu dans un emplacement réduit et est difficile lisible. Les liens javascript sont désactivés (« status: (N/A) Access to ‘javascript’ URIs has been disabled » dans le texte) mais remontés en tant que mauvaise pratique. La question ici n’est pas de juger de la pertinence de ce type de lien ou non mais de savoir s’ils fonctionnent ou non. Les liens vers les conditions générales de ventes sont exclus dans un robot.txt, la règle est donc suivie par le parser. J’aurais bien vu une case à cocher pour overrider cette propriété.

Google Webmaster Tools :

Vous devez posséder un compte Google et positionner un meta de validation afin que Google parcours votre site et construise un rapport. Je m’attendais à un rapport ultra détaillé avec une bonne précision et bien c’est la déception complète, un lien est remonté mais pas possibilité de voir les fichiers parcourus. A noter qu’il est possible d’ajuster la prise en compte des variables GET dans « Configuration du site > Paramètres », dans mon cas une variable déterminante dans la descente du catalogue était exclue. A noter qu’ici la remontée n’est pas à la demande et que Google parcours régulièrement votre site, c’est plutôt pratique car vous avez un résultat direct qui ne nécessite pas d’attente.

Xénu Link Sleuth :

Xénu Link Sleuth est un client lourd et gratuit. Il permet de vérifier les liens brisés en parcourant :

  • les liens
  • les images
  • les frames
  • les plug-ins
  • les backgrounds
  • les feuilles de style
  • les scripts
  • les applets Java

A priori c’est l’outil le plus complet des trois.

L’analyse du site s’est déroulée en 1h27mn, on est bien loin des 5 minutes du Validateur W3C et cela me semble plus cohérent avec la taille imposante du site.

Il offre la possibilité de trier les résultats par :

  • Adresse
  • Status
  • Type
  • Poids
  • Titre 
  • Date
  • Liens sortants
  • Liens entrants
  • Type de serveur
  • Type d’erreur 
  • Temps d’exploration (Duration)
  • Charset

Afin de ne pas surcharger les ressources du serveur, du réseau et du poste local j’ai commencé par configurer le nombre de requêtes parallèles en mettant 5.

J’observe différents résultats :

  • En faisant un tri par statut, j’ai un bon paquet d’url dont le statut est « no connection » sur des fichiers qui sont pourtant présents sur le serveur. Dans mon cas difficile d’identifier s’il s’agit d’un problème de réseau dans mon entreprise ou de connexion sur le serveur. La fonctionnalité « File > Retry Broken Links » permet de relancer une passe sur ces liens.
  • Des url sont en 404, et c’est d’ailleurs ce qui nous intéresse initialement. « Click droit » puis « Properties » permet de voir les pages qui sont liés aux 404, afin d’identifier la page qui point vers une ressource inexistante ou vers un lien mal formé.
  • Contrairement a ce que le soft promet, les liens javascript (Oui les liens en Javascipt c’est mal) ne sont pas du tout interprétés et sont considérés comme des liens externes à ignorer. C’est gênant car dans mon cas ce sont les liens vers les fiches produits !

Le soft offre également la possibilité de générer un sitemap Google depuis les url parcourus ainsi que la sauvegarde de la session dans un fichier .XNU afin de l’analyser plus tard. Enfin vous pourrez  exporter le rapport dans différents format pour le triturer comme bon vous semble.

Même si on peut éventuellement trouver une certaine complémentarité entre ces solutions, Xénu remporte ce mini comparatif haut la main !

Webdrections At Media 2010 : Point de vue sur l’organisation

 J’ai eu la chance de partir à Londres les 10 et 11 juin 2010 par le biais de mon Agence, Digitas France, pour assister à deux jours de conférences aux Webdirections At Media 2010.

Comme je fais parti de l’équipe qui organise les conférences Paris-Web, je ne ferais pas ici un compte rendu des conférences mais un retour sur l’organisation au sens large du terme. Pour les détails des conférences, vous pouvez consulter le blog de Jérémie Patonnier qui s’en est donné à cœur joie. Je me concentrerais sur les conférences, n’ayant pas assistés aux ateliers.

Les conférences se sont déroulées dans le hall « Queen Elizabeth » du « Southbank Centre », composé d’un grand hall et de deux salles de conférences. Les participants sont accueillis par deux files d’attente distribuant les arrivants par ordre alphabétique.

Crédit Photo : Emilie Pistorius (CC)

Nous recevons une sacoche argentée arborant « Webdirection At Media » comportant des plaquettes des partenaires, un cahier présentant les différentes conférences et un cahier de note. Le cahier de conférence est bien fait puisque en face de chaque présentation on dispose d’une page blanche pour prendre des notes. Un tour de cou à la Marque « Opéra » et un badge me sont remis, il est grand et comporte mon nom, mon prénom, le nom de mon entreprise ainsi que mon contact Twitter (enfin non pas moi parce que j’ai la poisse), c’est très lisible et très pratique.

Crédit Photo : Emilie Pistorius (CC)

Au dos du badge se trouve le programme, pas besoin de chercher dans son sac, il suffit de tourner le badge pour voir en clin d’œil où se déroule la prochaine conférence où à quelle heure se font les pauses.

Crédit Photo : Emilie Pistorius (CC)

Crédit Photo : Emilie Pistorius (CC)

Les salles de conférences sont de tailles différentes. La première que l’on peut qualifier de principale doit pouvoir accueillir 700 voire 800 personnes. Seule la moitié basse sera occupée, c’est agréable d’avoir de l’espace. Les sièges sont relativement confortables, mais arrive mi-dos, rien à voir avec ce que l’on peut connaitre chez IBM. Accessoirement quelques prises électriques sont disponibles en début de rangée. La salle dispose d’une très grande scène, avec sur sa gauche un pupitre et dans le fond un écran géant pour dérouler les slides. L’acoustique est très bonne ! L’autre salle est deux fois moins grande mais tout aussi agréable avec une scène surélevée.

Le programme est découpé en deux types de conférences, pour les développeurs et pour les designers, clairement identifiés par des couleurs sur les badges. Les journées démarrent par une première intervention d’1h05 dans la grande salle. Il n’y a pas de track parallèle, ce qui rassemble tous les profils. C’est une bonne idée, dans un monde où ces derniers ont du mal à communiquer, cela nous rappelle que nous sommes bien là pour avancer ensemble et partager. Ceci dit je pense aussi que la présentation d’Andy Clarke était exceptionnelle et qu’il aurait été peut pertinent de faire un track dans l’autre salle. Le « Thé du matin » coupe la matinée et permet de discuter tout en se restaurant : café, thé, grenadine et gâteaux sont disponible en quantité suffisante. Détail léger mais qui a son importance, les toilettes sont grandes ! Deux conférences de 55 minutes suivront avant le déjeuner. A une exception près, les sujets sur le design et le développement sont alternés dans chacune des salles, ce qui implique un gros mouvement de foule entre les deux. Bien qu’il y ait surement une bonne raison à cela j’ai du mal à comprendre ce fonctionnement. Chacune des salles pouvant accueillir la totalité des participants, ce changement n’était pas obligatoire.

Le déjeuner se déroule dans le hall qui comporte plusieurs espaces pour se restaurer. Des repas sont disposés sur des tables à la sortie des salles, des menus végétariens sont également disponibles. Je ne me souviens pas si cette information avait été demandé lors de l’inscription mais c’est bien vu. Une petite barque en plastique ainsi qu’une bouteille d’eau seront le repas. La nourriture est fraiche et bonne mais j’avoue être un peu resté sur ma faim, en bon français j’aurais aimé un morceau de fromage, en bon anglais un muffin !

La pause d’une heure est courte mais suffisante à mon goût. Des stands des partenaires sont disposés et permettent de faire des démos et de pouvoir discuter avec les éditeurs de navigateurs et les éditeurs de services comme Opéra, Yahoo! ou Microsoft. C’est très chouette de pouvoir discuter avec eux des prochaines évolutions / sorties.

L’après-midi sera le miroir du matin avec deux conférences successives, une pause puis une conférence de clôture. A noter que le vendredi midi une session de discussion avec un intervenant, Andy Clarke en l’occurrence, avait lieu dans la petite salle. C’est un format très intéressant où chacun peu intervenir librement et échanger sur ses problématiques. J’aimerai vraiment voir ce format pour Paris-Web car nous avons peut l’occasion d’être physiquement rassemblés entre professionnels et de discuter ouvertement.

Une session de table ronde organisée sous forme de discussion animé par Jeremy Keith se déroule en fin de journée jeudi. J’ai trouvé vraiment dommage que le micro ne circule qu’au bout de 45 minutes. La table ronde ressemble plus à discussion privé de la hype qu’à un réel échange avec le public.

Une petite note sur l’infrastructure réseau : trois réseaux Wifi étaient disponible, un pour le public, un second pour les stands et un troisième pour les organisateurs. Vous ne le savez peut-être pas mais offrir un réseau wifi de qualité à plusieurs centaines de geeks est une mission quasiment impossible, entre ceux qui postent sur les réseaux sociaux, ce qui prennent des notes dans le Cloud, ceux qui blogguent et j’en passe, le réseau fini toujours par s’écrouler. L’idée de fournir différents réseaux et de couper le réseau public afin de privilégier les démos m’a semblé une excellente idée !

L’apéritif communautaire prend place jeudi soir dans le hall accompagné d’une vente à prix cassés des livres rédigés par les conférenciers. Une soirée de clôture aura lieu dans un bar privation juste à côté. Malheureusement nous pourrons pas y participer car notre train nous attend !

Globalement l’organisation est très bonne, pas de retards sur les horaires, des informations claires et précises pour profiter pleinement de l’événement !

TouchGraph

TouchGraph est une application reposant sur Java et Google permettant d’afficher les connections entre les sites webs lors d’une recherche sur le web. Voici le résultat pour une recherche sur « Parisweb »

GraphTouch - Paris Web

Autant j’aime beaucoup la représentation graphique autant je déteste le fait que ça passe par une machine virtuelle qui rame méchamment, par conséquent difficile de cliquer sur les différentes représentations sans parler du fait qu’il faille mettre à jour la dite machine. Comme dans Personas, dommage également que l’on ne puisse voir les urls qui permettent de mettre en relation les différentes ressources. Quel est le rapport entre Paris Web et la tour Eiffel ?