Référencement Google Actu : optimiser le taux de refus

Comment identifier les articles non indexés et la cause de leur refus ? Comment faire en sorte que cela ne se reproduise pas ? Voici quelques pistes.

Publié le 23/12/2010 à 16:58 par - Mis à jour le 06/10/2016 à 11:43

 

Vous avez soumis votre site à Google Actualités, il a été accepté et le spider a commencé à crawler vos contenus. Tout va bien, sauf que certains articles ne sont pas indexés…

Les anciennes techniques qui ne marchent plus (ou presque)

Il y a encore un peu plus d’un an, on n’avait pas le droit à l’erreur : Google ne repassait jamais sur un article : il fallait qu’il soit optimal dès la publication. S’il était rejeté, c’était fini. Seule solution : publier un nouvel article avec une nouvelle url.

Pourquoi avec une nouvelle url ? Parce que Google Actualités dispose d’un spider dédié, qui n’a pendant longtemps pas disposé de filtre anti duplicate content.Pour le robot, toute nouvelle url est alors considérée comme un nouvel article.

J’ai le sentiment qu’il y a un filtre aujourd’hui, mais encore assez peu efficace.

Une astuce qui fonctionnait bien était (pour les sites disposant d’un CMS gérant la redirection 301 de manière transparente, ce qui n’est tout de même pas donné à tous les sites…) de modifier  l’article et son titre (donc son url :-)) afin qu’il soit de nouveau crawlé.

Ce petit jeu pouvait durer le temps d’un certain nombre d’essais, jusqu’à l’acceptation de l’article.  Évidemment cela représente de la charge serveur toutes ces 301, mais le jeu en valait la chandelle en terme de trafic actualités.

Les sites ayant un CMS  ne gérant pas les redirections 301 à la volée y ont joué aussi, générant un duplicate content galopant sur le Google classique, mais démultipliant leur trafic Google Actualités. On y a vu des batailles aussi âpres que pour la première place de sa thématique sous Nielsen (mais avec beaucoup moins de médiatisation…).

Aujourd’hui cette technique ne marche plus ou presque plus, car Google repasse à présent sur les articles dans les premières heures qui suivent leur publication. La manipulation est alors vite découverte. Il peut aller jusqu’à 3-4 repasses sur les sujets chauds. Le titre est à chaque fois actualisé ainsi que le snippet de texte qui est affiché.

 

Les repasses du spider Google Actualités sur les articles

Autre intérêt des repasses de Google actualités : gérer les mises à jour des articles sur l’actu super chaude, ou l’info change de minute en minute. Auparavant, il fallait pour que ce soit pris en compte créer un nouvel article pour chaque mise à jour, ce qui était fastidieux mais aussi polluant.

A noter, une fois l’article indexé, il ne peut plus être refusé lors des repasses. Cela peut se révéler bien utile dans certains cas… 😉

 

Connaitre son taux de refus

Qu’est ce que le taux de refus ? C’est le pourcentage d’articles non indexés sur le nombre d’articles produits.

Pour connaître le nombre d’articles indexés, il suffit d’utiliser la commande « site: » dans Google Actualités.

Pour connaître le nombre d’article refusés, il faut aller dans le Google Webmaster Tools dans Diagnostic/Erreurs d’exploration/Actualités. (Nota : cette section n’apparait dans le GWT que si le site a été accepté dans Google Actualités).

Pour générer le maximum de trafic possible, il est primordial de faire baisser le taux de refus.

Google communique tous les 15 jours une liste des articles refusés par Actualités dans le Webmaster Tools. Pour chaque article refusé Google donne un motif. Mais leur interprétation n’est pas toujours aisée et certaines causes d’erreur ressemblent parfois à un bug de parsing de la part de GoogleNews-Bot.

Une bonne pratique est de fournir à l’équipe éditoriale tous les 15 jours :

– le taux de refus et la courbe d’évolution de ce taux sur l’année

– la liste des articles refusés avec la cause de refus. Cette liste est facilement accessible via un export csv depuis le Webmaster Tools. Il suffit ensuite de reformater un peu le fichier ensuite sous Excel.

Ce reporting permet d’impliquer les équipes éditoriales dans la performance Google News.

La liste des types de d’erreurs est accessible (mais curieusement difficile à trouver…) sur l’Aide aux éditeurs. Il est utile d’en faire un document word/Wiki/PDF à fournir avec le reporting bimensuel aux équipes éditoriales, en la simplifiant.

Il est intéressant d’indiquer aussi dans le reporting le nombre d’articles produits par mois et la courbe d’évolution correspondante. Pourquoi ? Parce que la production à un impact sur la performance. J’y reviendrai dans un prochain article.

 

Les motifs de refus

Voici une liste des codes d’erreur et mon interprétation.

Google Actualités : liste des codes d'erreur

Et vous ? Quels types d’erreurs et de problèmes  rencontrez-vous ?

Partager sur les réseaux

 

7 Commentaire (s)

JulienC

Merci pour ces éléments relatifs aux sources d’erreurs sur Google News.

De manière globale pour les gros sites de contenus, il ne faut pas hésiter à sensibiliser les différents départements sur les erreurs remontées par GWT :
– Collaborer étroitement avec les journalistes en leur présentant les outils Google (insight, trends, GA) sur les tendances de recherche d’informations pour les marronniers, buzz et … sujets de fond.
– Avec les techos, s’assurer que chaque mise en production est validée par un SEO. Attention au updates de template qui peuvent influer le crawl de Googlebot(-news)

Et puis par expérience, ne pas hésitez à rentrer en contact avec Google :
– à partir de la page dédiée http://www.google.com/support/news/bin/static.py?page=contact_policy.cs
– contacts Google pouvant transmettre à qui de droit. Plus que dans le Search classique, le lobbying est nécessaire :). Bien sûr préparer un email bien argumenté pour causer des erreurs 🙂

Nicolas, E-seo

Petite question de noob de GG News, j’ai soumis un site le 7 Dec dernier, toujours pas de réponse, dois-je commencer à m’inquiéter et est-il possible de le re-soumettre une nouvelle fois ? (enfin est-ce productif)

    Virginie Clève

    @Nicolas : il faut environ 3 semaines entre le moment ou tu a reçu l’email t’informant que tu es inclus et le réel début du crawl. Là ça fait juste 3 semaines, attend encore une semaine et si rien ne se passe, tente ta chance de nouveau.
    Il faut savoir que lorsque tu demandes ton inclusion, un mail auto te rappelle les consignes pour figurer dans G News. Il faut répondre à ce message. Si tu ne l’as pas fait, ta demande est restée en standby.

Nicolas

Merci pour ta réponse rapide,

J’ai inscrit le finalement le 10 Dec, reçu le mail et envoyé un mail de réponse basique.

Donc toujours pas de mail de confirmation d’inclusion ou quoi que ce soit d’autre…

Reçoit-on un message d’inclusion ou refus ou est-ce le grand flou ?

    Virginie Clève

    @Nicolas : Donc 10 décembre plus trois semaines… Tu devrais avoir bientôt des news.

aymeric

Bonjour Virginie,

Merci pour ces précieuses infos. Premier point concernant une cause de rejet: « Article fragmenté ».
Après plusieurs modifications du code à la volée : suppression des   mais aussi générés par l’editeur wysiwig pour nos journalistes remplacés par entre autres, toujours des articles fragmentés! J’avoue que là, je suis dérouté.

Deuxième point, il n’est pas rare de voir des petits sites concurrents sur notre thématique passer en tête de Cluster devant OuestFrance, Lefigaro, L’Equipe alors que ce n’est qu’un copier/coller de communiqué de presse. Grrrrr… rageant quand on s’applique a écrire du contenu unique et qu’une simple recherche stricte d’une des phrase sur Google nous montre plusieurs résultats, plus DC, tu meurs :o)

Merci de ton retour!

Aymeric

    Virginie Clève

    @Aymeric : la raison est exactement celle que je mentionne dans le tableau des causes de rejet en bas de l’article : paragraphes très courts qui se succèdent, surtout en début d’article.
    Effectivement, on voit parfois de petits sites raffler les positions. Et pourtant, ils sont désavantagés par Google Actualités, comme je l’expliquerai dans le prochain article. C’est juste qu’ils maitrisent à fond les bonnes techniques, ce qui n’est pas (encore) le cas de beaucoup de sites d’infos, même parmi les plus prestigieux.

    Comme je le disais, les filtres anti DC de Google Actualités sont plutôt pauvres, et c’est logique puisque l’acceptation est manuelle… Le problème, c’est que certains sites qui ont sont listés ne devraient pas l’être.
    Google a fait récemment un gros ménage dans les sources US, c’est plutôt une bonne chose. A quand pour la France ? Mystère…