Optimiser la fréquence de crawl d’un site

Comment disposer d’un crawl Google vraiment efficace ?

Publié le 12/05/2010 à 13:03 par - Mis à jour le 20/09/2016 à 14:58

 

Pourquoi Google crawle t’il certaines pages régulièrement et pas d’autres ? Pourquoi certaines pages ne sont pas indexées du tout ? Comment faire pour que les moteurs prennent en compte une modification sur une page ancienne ? Comment faire sortir mes pages de l’index complémentaire ?

Ce sont des questions que l’on se pose souvent en référencement. Voici un point sur la question.

 

Le crawl est réglé en fonction de la fréquence de mise à jour

Matt Cutts l’a rappelé tout récemment dans une vidéo (voir ci-dessous), Google règle sa fréquence de crawl en fonction des mises à jour d’un site. Dans les premiers temps de l’existence d’un site, les spiders vont venir régulièrement, crawler selon l’arborescence puis identifier des « motifs » récurrents :

– la fréquence de mise à jour de la homepage, des homes de rubrique

– les pages « hub » qui donnent accès aux nouveaux contenus

– des typologies de page : home, home de rubrique, article, liste, page d’info générale qui bouge peu (en général celles qui sont linkées depuis le pied de page), contenu dupliqué, page sans contenu (formulaire par exemple)

– une fréquence de mise à jour moyenne pour chaque typologie de page, pondérée par sa place dans l’arborescence (par exemple une rubrique dans laquelle les pages articles seraient mises à jour plus fréquemment)

Il va en tirer un « plan de crawl » du site qui servira ensuite à la mise à jour de son index.

Il faut bien comprendre que le crawl du web mondial est une activité extrêmement gourmande en ressources machine. Outre la qualité et la complétude de leur index, les moteurs de recherche cherchent à optimiser au maximum leurs coûts en bande passante et le temps machine « utile » . Cela veut dire ne pas crawler des pages qui n’ont pas changé depuis le dernier passage.

Le crawl complet, dont la fréquence dépend du plan de crawl du site, va permettre de recalibrer les fréquences de crawl par type de page. Il sert à identifier si le fonctionnement d’un site a profondément changé (par exemple si la fréquence de mise à jour a doublé. Un crawl complet intervient aussi lorsque l’on lance une nouvelle version de site, et c’est très très rapide (parfois de manière assez déconcertante).

En dehors du plan de crawl, j’ai le sentiment que Google semble disposer d’un schéma de construction du template HTML de chaque site et d’alertes permettant d’identifier des modifications structurelles importantes afin de déclencher un recrawl en dehors de toute planification.

Un grand nombre de redirections 301 est à coup sûr un bon moyen de déclencher une alerte permettant un recrawl…

 

Le crawl s’effectue par ordre de PR décroissant

Matt Cutts l’a finalement lâché il y a quelques temps, le plan de crawl se base sur le PageRank des pages. J’aurais tendance à pondérer cela avec les données de mise à jour : la modification du contenu a aussi une incidence non négligeable, pour peu que ce soit le coeur de page qui soit modifié, pas un bête bloc de remontée en bas de page ou en sidebar…

Matt Cutts rappelle dans le vidéo ci-dessous que le sitemap n’est pas une garantie d’indexation de 100% des urls. C’est même rarement le cas. Le sitemap a deux utilités, et pas une de plus :

– Faire gagner du temps aux moteurs dans leur crawl (le sitemap indique l’importance de la page dans le site et la date de dernière mise à jour)
– Il permet de découvrir rapidement les nouvelles urls. C’est surtout important pour les très gros sites disposant de plusieurs centaines de milliers de pages qui produisent plusieurs dizaines de pages par jour.

Pour augmenter la base d’indexation du site (son nombre de pages inscrites dans l’index, à l’exclusion de l’index complémentaire), il faut donc limiter le duplicate content et augmenter le PR des pages non incluses ou peu crawlées.

 

Comment augmenter lé fréquence et l’étendue du crawl ?

L’une des premières choses à faire c’est de lister les pages situées dans l’index complémentaire de Google et de calculer le pourcentage de pages incluses dans le sitemap qui ne sont pas indexées.
Il sera intéressant de suivre ces données dans le temps pour valider l’utilité du travail effectué.

Les niveaux d'indexation d'un site par les moteurs de recherche

 

A savoir : lorsque le seul changement effectué sur une page est une modification de syntaxe d’écriture de balise title et/ou description, la prise en compte par Google sur la totalité des contenus peut être très longue : jusqu’à plusieurs mois pour un site de taille modeste.

Les pages non indexées

L’analyse doit se faire autant sur le quanti (données chiffrées : combien de pages en valeur absolue, en pourcentage) que sur le quali (quels sont les templates qui aboutissent à un non indexation ou à un index complémentaire et pourquoi ceux-là ?)
Dans la majorité des cas, les pages incluses dans le sitemap mais non indexées sont des pages situées très profondément dans l’arborescence ou alors très peu linkées. On y retrouve souvent des pages de liste dont la numérotation est élevée.

Au vu des résultats, il faudra décider d’un plan d’action qui sera différent selon les cas :
– améliorer le maillage interne pour augmenter les chances que les moteurs découvrent la page et améliorer le PR interne de ces pages
– modifier l’architecture globale du site
– créer de nouvelles pages tampon pour faciliter l’accès
– etc.

Les pages confinées dans l’index complémentaire

Là encore, l’analyse doit se faire autant sur le quanti (données chiffrées : combien de pages en valeur absolue, en pourcentage) que sur le quali (quels sont les templates qui aboutissent à un non indexation ou à un index complémentaire et pourquoi ceux-là ?)

Très souvent, les pages situées dans l’index complémentaire sont des pages dépourvues de contenu (parfois d’ailleurs des pages qui ne sont pas incluses dans le sitemap) ou, très souvent, des pages en duplicate content.

En analysant les résultats, il faudra là aussi définir un plan d’action

S’il s’agit de duplicate content :
– Identifier ce qui cause le duplicate content : les title et les descriptions de vos pages de liste sont ils les mêmes ? Votre vue de contenu pour l’impression est-elle indexable ? etc.
– Ecrire un plan d’action en commençant par ce qui est le plus rapide à réaliser

S’il s’agit de pages sans contenu :
– Mettre de côté les pages sans intérêt SEO
– Ecrire un plan d’action pour valoriser les pages qui pourraient être indexées en effectuant un travail raisonnable en jours/homme

Dans tous les cas, la clé c’est la mesure. Sans suivi chiffré du travail effectué vous serez incapable de savoir si ce qui a été fait a eu un impact et si cela fonctionne.
Comme souvent en référencement, expérimentation, mesure puis correction sont la clé du succès.
En tout état de cause, l’architecture de l’information est primordiale pour assurer un crawl le plus complet possible. Rien ne remplacera une structure informationnelle logique et rationnelle.

N’oubliez pas non plus que si votre site est très lent (7-8 secondes pour afficher une page) ou si les moteurs rencontrent régulièrement des erreurs 503, votre base d’indexation en sera très fortement affectée. Dans ce cas, le premier travail à effectuer est sur les serveurs web. Dans ce cas, c’est votre Admin Sys qu’il faut aller voir avant d’entreprendre quoi que ce soit…

Partager sur les réseaux

 

3 Commentaire (s)

Daniel, de SeoMix

Excellent article sur l’indexation de Google, même s’il confirme ce que l’on sait déjà :

– plus un contenu se renouvelle, plus Google va le crawler vite
– plus le pagerank est élevé, plus il indexera en priorité. Puisqu’il inclut pour une grande part les liens pointant vers le domaine, il est logique que le pagerank puisse influer sur le crawl de Google.

Pas mal du tout l’illustration. 😉

Renaud JOLY

Ne pas negliger l’importance des liens pointant de sites de news (les anglais parlent de seed sites) qui alimentent les moteurs en nouvelles pages a crawler.

LaurentB

Perso, je n’hésite pas à booster au max GGBot via la console GWT.