Crawler un site Web revient à le parcourir dans son ensemble par un robot et collecter toutes les données des pages.

L’intérêt est multiple : Identification des problèmes de structures, des contenus, des pages d’erreurs, des problèmes de redirections etc. Il existe plusieurs solutions pour crawler un site comme vu ici.

En revanche, ce type d’outils ne permettra pas de faire un suivi précis des différentes pages du site. Il s’agit d’un crawl à un instant T, une image du site à un moment précis.

Utiliser un analyseur de logs pour suivre son site et le crawl de GoogleBot

Avec une solution comme Botify ou Watussi qui propose de l’analyse de logs, cela nous donnera accès à la façon dont Google parcourt le site Web. Le crawl de Google est le passage des Googlebots, les robots de Google, sur les différentes pages web d’un site.

Suivre le crawl de Googlebot présente plusieurs avantages. Tout d’abord, il sera ainsi possible de s’assurer que le crawl de Google se fait correctement sur l’ensemble du site, ou du moins, sur les parties du sites que l’on souhaite le mieux référencer, des pages avec un objectif SEO et donc un potentiel de positionnement. Cela permettra de vérifier que le passage du robot de Google est en adéquation avec les objectifs SEO des différentes pages du site.

Un analyseur de logs pour suivre l’évolution de son site Web

Avec ce type d’outil, il sera désormais possible de crawler le site régulièrement. Pour les plus gros sites type annuaire de professionnels comme RDV Artisans, l’annuaire d’artisans, nous pourrons suivre l’évolution du nombre de pages. En suivant cet indicateur, nous vérifierons que le nombre de pages correspond bien au plan du site. Ainsi seront éviter les créations de pages indésirables qui peuvent parfois diluer le PageRank interne, perdre les robots de Google sur des pages sans intérêt, souvent dupliquées, ou encore d’autres problèmes.

Nous pourrons également identifier les éventuels problèmes d’accessibilités, les pages avec des erreurs, les liens cassés, etc.

Surtout, nous pourrons savoir quelles sont les pages actives en SEO, c’est à dire, les pages qui reçoivent des visites via les moteurs de recherche, et s’assurer que c’est en adéquation avec les pages qui sont crawlées par Google. Avec ce type d’information, nous pourrons être en mesure de définir les actions qui permettront d’améliorer la découverte des pages du site par Google et le référencement global du site.

Pour effectuer ce travail, il conviendra donc d’utiliser une solution comme Watussibox, Seolyzer.io ou Botify (à noter que j’ai pu obtenir la Certification Consultant Botify).