Elysee.fr : une optimisation SEO catastrophique
Seconde étape de cette SEO Clinique concernant la sortie de la nouvelle version de Elysee.fr. Il y a du travail !
Publié le 29/03/2010
Mis à jour le 04/10/2021
L'analyse des métas était une première étape, passons maintenant à l'analyse du body de la page, de la configuration des redirections et autres paramétrages.
Le balisage sémantique
Le déséquilibre est manifeste et le balisage fait l'objet d'un joyeux mélange dans lequel on a bien du mal à se retrouver. La règle du balisage sémantique est celle d'un entonnoir : une seule H1, au moins 2 H2 et elles doivent respecter un ordre logique.
A noter :
- Il faut attendre la ligne 1131 pour obtenir la balise H1 au nom très parlant sémantiquement de « Accueil ». Cette balise doit être positionnée normalement en haut du code, pour précéder le texte du cœur de page qu'il résume.
- La balise H2, qui se nomme elle aussi « Accueil » comporte une class=« invisible » ce qui ne laisse aucun doute sur le fait qu'elle est destinée à être masquée à l'internaute.
Personnellement, je trouve qu'un procédé d'obfuscation aussi évident est plutôt risqué, et n'a de plus dans ce cas précis aucun intérêt…
Redirection de la version non www
La configuration du serveur est correcte : http://elysee.fr renvoie vers http://www.elysee.fr. Il est très important de le vérifier au lancement d'un site, sous peine de se retrouver bêtement avec un site 100% en duplicate content.
Redirections
On repère quelques redirections 302 qui semblent provenir de l'ancienne version du site et qui son dommageables au référencement.
Exemple : www.elysee.fr/index.php renvoie en 302 vers www.elysee.fr/president/,lui-même en duplicate content intégral avec la homepage http://www.elysee.fr/president/accueil.1.html.
Cela fait beaucoup de perte de jus de lien…
Nice Urling
Lorsque l'on utilise un CMS, l'urling est pris en charge par celui-ci. En revanche il ne faut pas toujours conserver le paramétrage par défaut.
Les syntaxes à motif
Ici on note des problèmes au niveau du carrousel qui utilise des urls peu conseillées en SEO.
La syntaxe est http://www.elysee.fr/$rubrique/accueil.$id.html
On sait que Google commence à crawler des pages au hasard en essayant des combinaisons sur des patterns qu'il repère.
Que va t'il faire dans ce cas ? Eh bien tenter toutes les combinaisons numériques possibles.
Il va donc voir http://www.elysee.fr/president/accueil.1.html puis tenter http://www.elysee.fr/president/accueil.2.html, etc. Le problème c'est que certaines de ces pages aboutiront sur des erreurs 404.
Le nommage des rubriques
la rubrique de niveau 1 n'est pas forcément une bonne idée, même si cette rubrique de niveau 1 n'est pas cliquable (ce qui est le cas ici) car on obtient des urls sur optimisées. Exemple : http://www.elysee.fr/president/international/international.6.html
De plus, si un jour on décide de créer une home de rubrique de niveau 1, la navigation deviendra incohérente. Il faudra alors renommer la rubrique de niveau 2 et faire des redirections 301. En terme de jus de lien il y aura déperdition, et en terme de charge serveur, disons-le tout net : votre Admin Sys va vous adorer…
La longueur des urls
Il est bien connu qu'une url basée sur un titre d'article est plutôt une bonne chose en SEO. En général on note une syntaxe de ce type : http://www.mon-site.fr/rubrique-niveau-1/rubrique-niveau-2/titre-de-mon-article.html Parfois on y inclus le mois et le jour. C'est le cas de l'urling par défaut des blogs Wordpress.
Personnellement je n'y ai jamais vu aucun problème (quoique le débat soit ouvert dans la profession) sauf dans les cas d'arborescences profondes, car cela aboutit à la troncature du titre de l'article.
C'est le cas ici : http://www.elysee.fr/president/les-actualites/communiques-de-presse/2010/mars/le-president-adresse-ses-felicitations-a-gregory.8402.html
Il aurait clairement mieux valu donc modifier le NiceUrling par défaut du CMS.
Conclusion :
Un CMS c'est bien, ça aide en référencement car un certain nombre d'optimisations sont déjà en place « out of the box » mais on ne peux pas se passer pour autant d'un peu de « fine tuning » et d'une véritable démarche SEO.
Dans le cas d'Elysee.fr, la situation est loin d'être désespérée, mais il y a encore pas mal de chemin à parcourir…
Voilà une première analyse rapide tout de même. D'autres points à signaler que j'aurais oubliés ? Par d'accord avec cette analyse ? Les commentaires sont à vous !
Début de cet article : SEO Clinique Elysee.fr : les balises méta
MAJ
Quelques données concernant ce site :Budget : 100 000 euros (hors implication des équipes de l'Elysée)
Création du site : Soleil Noir et Nexint
Plus d'infos sur CBWebletter
Commentaires
commentaire
Sympa, La page 404 non travaillé par exemple. ;-)
Effectivement, bien vu ! La 404 qui mène à une page blanche, quand on lance une nouvelle version de site, c'est très très pénalisant... Exemple : http://www.elysee.fr/toto Ah, j'enrage de ne pas l'avoir vue celle là ! :-)
Un autre exemple, ce matin au lancement du site, il y avait un beau no-follow sur l'index du site :p Maintenant en regardant le source bien il a disparu, mais la balise marqué comme devant être supprimée n'a pas été faite.. Bref, encore une grosse société qui fait un site bien cher mais qui n'est pas capable d'appliquer les concepts de base.
Ce matin il y avait du nofollow partout sur le site, pas seulement sur la home. J'imagine que c'était pour éviter l'indexation avant le lancement, mais il y des actions beaucoup plus efficaces pour cela : interdiction via le robots.txt, ou encore mieux : restriction sur IP.
Bonjour, et merci pour cette analyse. Cependant, c'est la première fois que je lis qu'il y a une limite au maillage interne d'un site internet : pour les portails à gros contenu, la limite de 100 doit être vite atteinte, non ?! Je suis assez surpris, mais j'en prends note, je vais du coup essayer de recouper cette info sur d'autres blogs. Sinon, j'ai mis un peu de temps à comprendre votre système de commentaires : ce sont donc les plus récents qui apparaissent en premier... déroutant :-). Enfin, félicitations et longue vie à ce blog !
@Christophe : Je confirme les 100 liens. Il s'agit d'une recommandation officielle de Google. Lorsque j'étais chez Prisma, on essayait de s'y tenir, à 10% près. Pour ce qui est des commentaires, on m'en a fait la remarque, je modifie ça dès que j'ai un peu de temps
Justement pour l'accessibilité une seule balise h1 par page! Par contre W3C c'est un peux simplet et autodeclaratif une labelisation accessiweb ou euracert aurait chalenger les site publics.
Bonjour Virginie, Les remarques sont pertinentes :) Par rapport à ta reco sur la syntaxe à modifier, je ne comprends pas tout : tu parles de patterns que Googlebot va tenter comme http://www.elysee.fr/president/accueil.2.html. Pourquoi notre spider va t'il tenter ces combinaisons ? Est-ce parce que le séparateur n'est pas le plus sexy ? Merci, Bonne continuation pour ton blog,
@Julien : c'est une tendance récente que j'ai eu l'occasion de vérifier en live et dont plusieurs blogs se sont faits l'écho : Google commence depuis un moment déjà à crawler un peu "à l'aveugle" en "inventant" des urls à partir de suites qui lui semblent logiques. Par exemple lorsqu'il voit que seul un id change dans l'url, il va tester de multiples combinaisons avec des id différentes C'est très gênant car il indexe alors parfois des pages incomplètes, dupliquées ou ne contenant aucune donnée. Le risque est également que le spider ne se perdre littéralement et n'arrive plus à crawler les pages vraiment importantes. Pourquoi Google fait-il cela ? A priori je dirais pour indexer le web "invisible", c'est à dire tous ces contenus qu'il ne peut indexer "naturellement" sur des sites mal optimisés sur le plan SEO. L'ennui, c'est qu'on ne peut pas faire grand-chose pour l'en empêcher... Il faut donc veiller à utiliser le moins possible d'urls "prévisibles", ou tout du moins "déductibles". Finalement, ce sujet mériterait peut être un post. Je rajoute à ma liste ! :-)
D'où tu sors cette limitation à 100 liens ? C'est un mythe et ça ne vient certainement pas d'une recommandation officielle ou officieuse de la part de Google.
@LaurentB : eh bien cela sort directement du blog de Matt Cutts (oui, je sais...). Pour préciser, c'est une limite moyenne. On est d'accord que le chiffre comme ça est un peu "péremptoire". Le plus important me semble t'il c'est le ratio texte/liens. Il est certain que les moteurs ne traitent par de la même manière les pages remplies de liens (hubs à crawl) comme les page de listes ou d'archives et les pages article, produit, homes de rubriques (réservoirs à contenu). Ce serait dommage qu'une home de rubrique ou une landing page soit traitée comme un bête hub. Comme les pages web ont sensiblement la même longueur, une centaine de liens correspond à un bon ratio. J'adapte en fonction de cela.
C'est une confusion qui remonte à 2004 http://googleguy-fr.blogspot.com/2004/08/quelles-restrictions-sur-les-100-liens.html Il est pas trop frais MC sur le coup et c'est bien plus que péremptoire puisqu'il n'y a pas raison valable pour avancer cette reco. Ratio texte/liens est effectivement plus censé.
@LaurentB : il n'empêche qu'en dehors de l'aspect SEO, plus de 100 liens par page c'est noyer l'internaute sous une masse de décisions possible. Du coup je ne trouve pas cette limitation gênante. Même plutôt salutaire en fait :)
Nous sommes d'accord ;) La question que je me pose vraiment par rapport à ce site est pourquoi pomper celui de la Maison Blanche ? Y a un truc qui m'échappe là.
+1 @LaurentB