Le Sitemap, ça sert a rien. Ah bon ?

Ce serait une grave erreur de négliger le sitemap… Voici pourquoi.

Publié le 22/07/2010 à 13:52 par - Mis à jour le 20/09/2016 à 14:33

 

En référencement, les modes ça ne manque pas. L’une des dernières en date : affirmer que le sitemap XML ne sert à rien pour améliorer la performance SEO. Franchement, première nouvelle !
OK, si vous avez un petit site de 30 pages, clairement, les moteurs n’en ont pas besoin pour en faire le tour.

Améliorer l’indexation

Lorsqu’on a un site qui est fréquemment mis à jour, les moteurs et Google en particulier utilisent le sitemap pour identifier rapidement les nouveaux contenus produits. On peut même aller jusqu’à poser le postulat que Google utilise les stats d’ajout de nouvelles urls dans le sitemap comme un indicateur lui permettant de régler sa fréquence de crawl et de la pondérer en fonction de la fréquence de mise à jour de chaque section du site.

Ne pas disposer de sitemap sur un site fréquemment rafraichi (plus de 10/20 nouvelles pages par jour), c’est prendre le risque d’être indéxé après la concurrence, ou que des urls soient tout simplement oubliée, et quasi jamais indexées…

Détection de présence massive en index complémentaire ou de non indexation

Dans le Google Webmaster Tools, on dispose du nombre d’urls présentes dans le sitemap et du nombre d’urls indexées.
Ces deux chiffres permettant de déduire un pourcentage de pages indexées sur le nombre de pages totales et de le suivre dans le temps. A mon sens, le suivi de ce chiffre doit faire partie des KPI SEO d’un site.

Beaucoup l’on déjà repéré, il y a une différence entre le nombre de pages indexées mentionnées dans le webmaster Tools et le nombre de pages indexées via une requête « site: » sur Google. Cette différence représente peu ou prou le nombre de pages présentes dans l’index complémentaire.

Vous avez là une mine pour améliorer votre performance :

– quelles sont les pages présentes dans l’index complémentaire ?
– sont-elles à rattacher à des templates spécifiques ?
– est-ce que ce sont des pages mal linkées ou pas linkées du tout
– ce sont des pages en duplicate content ?
– etc.

Faciliter la migration de site

Vous avez décidé de mettre en place une nouvelle version de votre site ? Évidemment au moins une partie des urls vont changer. Il va falloir mettre en place des redirections 301, certes.
Selon mon expérience, pour certaines pages peu souvent crawlées, cela peut mettre des mois avant que la 301 soit définitivement prise en compte (Google par exemple ne la prend pas en compte dès la première fois qu’il passe sur un contenu redirigé, mais vraisemblablement au bout de 3 ou 4 fois).

Le sitemap peut alors être d’une grande aide pour accélérer les choses. N’oubliez pas qu’il y a une date de dernière modification dans le sitemap…

Les sitemaps spécifiques

Dire que le sitemap ne sert à rien, c’est oublier que certains sitemaps spécifiques sont des conditions sine qua non d’une bonne indexation dans les moteurs verticaux de Google : News, Images, Vidéos, Geo.
N’espérez pas que votre trafic Google News décolle sans sitemap xml news… Pour les vidéos, c’est plus ou moins la même chose, même si on n’a l’impression que le crawl n’est pas régulier.

Pour les images, on a un peu moins de recul, il est donc difficile d’être catégorique. Ce qu’on peut dire ceci dit, c’est que si le duplicate content des pages web est un fléau c’est réellement bien pire pour les images : pour des questions de praticité (et de flemme disons-le…) et parce que les médiathèques des CMS sont encore assez indigentes, on uploade de multiples fois la même photo pour illustrer différents contenus.
Le sitemap doit aider grandement Google a détecter les images « canoniques » même si on sait qu’il sait très bien indexer les images sans sitemap (sinon, le protocole aurait été étendu aux images depuis bien longtemps…).
A coup sûr un jour le duplicate content images va devenir un facteur de performance de trafic. Autant mesurer le pourcentage de duplication dès maintenant…

Pourquoi les sitemaps spécialisés sont-ils si importants ? Tous simplement parce qu’ils listent des médias ou des data et non des pages, et qu’il est donc beaucoup plus difficile pour les moteurs de les retrouver tous seuls.

Si après tous ces arguments vous persistez à penser que le sitemap ça ne sert à rien, j’abandonne…

Partager sur les réseaux

 

16 Commentaire (s)

Daniel, de SeoMix

+1 avec tout ce qui est dit ici, surtout sur le suivi des pages du sitemap par rapport au nombre de pages indexées.

Idem pour Google News où le sitemap est indispensable.

Pour Google video, je sais que j’ai eu des retours différents, avec parfois des sites indexés sans sitemaps.

Pour Google Image, le test que j’avais fait prouvait qu’il n’avait aucun intérêt. Mais c’était au lancement des balises img du sitemap pour Google donc les choses ont peut-être changées : Référencement par sitemap Image.

En tout cas, excellent article.

Lagiirafe

Je suis d’accord avec toi. J’ai toujours été méfiant avec les sitemaps et les utilise aujourd’hui avec des stratégies bien précises : gérer des cycles d’entrée et de sorties de produits par gros volume, lancement de sites avec beaucoup de contenus, etc… + les cas que tu soulignes.

Mais (et ce n’est pas à ton attention @largow) : un sitemap ne doit jamais être considéré comme un paliatif au travail d’architecture du site, de catégorisation et d’organisation des contenus.

Et derrière chaque sitemap, il doit toujours y avoir un objectif clair et précis, et un (ou des) sitemap doi(ven)t évoluer avec le temps.

Sylvain

Je pense que les nombreux blogs ou l’on peut lire que le sitemap ne sert à rien (dont mon blog), est une réponse à ceux qui propagent le bruit que le sitemap améliore le positionnement.

Bien évidemment, dans les cas que tu cites, et pour la rapidité d’indexation, le sitemap est très utile. Pour un petit site statique de 30 pages, je pense que cela reste du temps de perdu. Ou parfois, le signe que l’on a oublié les fondamentaux, soit : une bonne architecture, un bon maillage sur les bonnes ancres.

ps : si tout va bien, cet article devrait faire polémique et générer de nombreux commentaires 🙂

    Virginie Clève

    @Sylvain : un peu de linkbait en cette période de trafic terne, je ne suis pas contre 🙂 .
    Sur le fait que le sitemap ne remplace en aucun cas une bonne architecture de l’information, je suis complètement d’accord !

Mickael B.

Heureux de lire un article sur le sujet ! J’étais fervent défenseur du sitemap Google ne sert à rien pour l’indexation (je parle pas pour les news et compagnie) jusqu’il y a quelques temps où je me suis remis en cause (faute de preuve ^^)…
Ok pour les sitemaps spécifiques et la migration.

Pour ce qui est de l’indexation j’avais testé il y un petit moment de ça l’indexation sitemap VS RSS et c’est bien entendu le RSS qui a « gagné » les URL présentes dans le sitemap n’étant pas linkées n’était pas indéxées ! (il faudrait que je refasse ce test d’ailleurs)

Est-ce que tu as déjà noté des indexations provenant du sitemap, comme tu sembles le décrire ? Je demande parce que les nouveaux contenus sont bien souvent linkés depuis la page d’accueil et/ou depuis un RSS selon les cas, il se peut que Google les crawl par ce biais et non par le sitemap (je ne sais pas ce qu’il en ait pour les « fréquemment mis à jour », ça pourrait m’échapper d’où ma question ;))

    Virginie Clève

    @MickaelB : difficile de te répondre car je bosse dans la presse, alors, la première indexation passe par le sitemap news. Ce que j’observe, c’est que l’indexation arrive dans les SERP’s « classiques » juste après (vraiment juste après).

LaurentB

Les consoles webmaster proposées par les 3 principaux outils de recherche (faut pas oublier Bing et Yahoo) sont vraiment excellents pour contrôler les paramètres que tu cites.
Après, il faut toujours garder une reserve par rapport aux chiffres énoncés. Je préfère garder mes analyses pour les tendances, mais je ne donne pas toute ma confiance aux données que veulent bien proposer les consoles. Le parallèle avec la commande site: est un bon exemple, mais il faut savoir qu’il y a toujours une différence probable entre ce que raconte un moteur sur ses résultats de recherche (et la console webmaster) et ce qui se trame réellement dans l’index.

512banque

J’utilisais le sitemap ya 3 ans quand je surfais sur WRI.
Maintenant je l’utilise plus. Mais je bosse pas sur des sites où ya 10 à 20 nouvelles pages par jour.
Ah si, mon motercalo, et le ping suffisait amplement pour être indexé 😀

Mickael B.

@Virginie : Ok, donc mon test sera le bienvenu pour les sitemaps Google (classiques), je vais le lancer.

witamine

Merci d’avoir pris la peine de rédiger cet article 🙂
Pour compléter :

« Impact of Sitemaps

During the tests, the sitemap manifested itself as a very useful tool to influence the crawl rate. We added a sitemap with 50,000 uncrawled pages in it (indexation level 0). Googlebot placed the pages which were added to Google by sitemap on top of the crawl queue. »

source : http://www.seomoz.org/blog/googlebot-new-insights

Julien R

Je rajouterai que le nombre d’Url par fichier sitemap compte aussi. Dans gg web tools j’ai réussi à booster, fois 10, le nombre d’url pris en compte en optimisant le nombre et la taille des fichiers (50 000 urls soit 10mo par fichier).

source : http://www.sitemaps.org/fr/protocol.php

Fred

Je me penche en ce moment sur ces sujets. J’aurais aimé que tu puisses aller un tout petit peu plus loin sur cette notion « d’index complémentaire ».

Effectivement je me suis aperçu de cette différence entre l’info du GWT et du suivi « véritable » que je fais de l’index GG (je contrôle chacune de mes URL de sitemap avec un cache: et je suis cela ds le temps avec une base de données)

Merci pour ce post hyper intéressant Virginie.

Maxime

Gros site dit généralement CMS ou architecture avec framework. Ce qui dit aussi plugin, extension, ou agrégation de fonctionnalité faciliter, alors personne n’a d’excuse pour ne pas avoir de sitemap sur un gros site !

MagicYoyo

Salut;

Tu dis « Beaucoup l’on déjà repéré, il y a une différence entre le nombre de pages indexées mentionnées dans le webmaster Tools et le nombre de pages indexées via une requête « site: » sur Google. Cette différence représente peu ou prou le nombre de pages présentes dans l’index complémentaire. »

Euh, ça me semble une interprétation un peu rapide. Le chiffre balancé par Google sur site: est une estimation grossière. Elle change au fur et à mesure que tu fais défiler les pages de résultats. Elle change parfois d’une requête sur l’autre.
Je ne crois pas que ce soit un indicateur très fiable.

    Virginie Clève

    @MagicYoyo : selon mes tests, le chiffre affiché sur la toute dernière page est fiable. Je fais le delta entre le nbre de pages affiché en dernière page de résultat index versus index complémentaire.
    Bon, de toute façon ça ne marche qu’avec un site de petite taille, quand tu as des centaines de milliers de pages indexées, c’est plus gérable…

aymeric

Juste une petite précision concernant les sitemaps générés automatiquement par certains CMS, ça peut être parfois très mauvais. Je prends l’exemple de Drupal avec Xmlsitemap.

Malgé un grand nombre de paramétrages comme inclure/exclure certains types de contenu en paramétrant des niveaux de priorité pour chacun d’eux (sondage, evenement, page, actualité) ainsi que des pages type liste/feed affichant des contenu liés à une catégorie (taxonomy), pour un peu que certains articles similaires soit listés dans plusieurs catégories, on se retrouve vite avec du contenu dupliqué même si ces pages n’ont pas beaucoup de poids dans les SERP, c’est « moche ».
Il m’est arrivé de retrouvé des centaines de pages (page 1,2,3…) quasi identiques à cause de cela ou de voir des pages de test dont le lien n’existe pas encore sur le site mais qui ont été indexées dans Google (j’avais oublié de décocher « Publier », c’est un peu ma faute aussi).

Il faut surveiller ces sitemaps pour être sûr qu’ils ne rajoutent pas n’importe quoi qui se retrouvera par la suite en libre accès pour Google. Après les bots s’excitent et visites tout ce qu’ils trouvent via ces pages involontairement indexées.
Restez vigilents avec ces modules/plugins.:-)