Friday, 29 March 2019

Comment mettre en place une stratégie pour gérer du contenu dupliqué en quelques étapes simples ?

Google identifie du contenu dupliqué sur votre site et rejette les URLs canoniques que vous avez déclarées ? Cela peut arriver lorsque vous ne traitez correctement qu’une partie des pages identifiées par Google comme dupliquées.

Grâce à cet article explicatif sur le traitement et le reporting des pages dupliquées dans OnCrawl, nous espérons vous fournir une nouvelle façon d’aborder la gestion du contenu dupliqué sur votre site web. Cette technique est rapide à mettre en place : vous n’avez besoin que d’un crawl ! Et également rapide à analyser : il faut simplement être capable d’identifier les couleurs d’un feu de circulation et de jauger les tailles de rectangles.

Analyser le contenu dupliqué avec OnCrawl

En plus de signaler les problèmes de duplication on-page, comme les titres, descriptions et H1 réutilisés, OnCrawl mesure le niveau de similarité de toutes les pages crawlées. OnCrawl utilise l’algorithme Simhash pour établir la similarité, comme le fait Google.

Les pages relativement similaires sont groupées ensemble. Nous appelons ce groupe un cluster de pages avec du contenu dupliqué. Dans un cluster, toutes les pages sont similaires les unes aux autres. Voici une représentation d’un cluster de 3 pages :

Ensuite, OnCrawl regroupe tous les clusters dans un seul graphique. La taille du rectangle est proportionnelle au nombre de pages dans le cluster :

Enfin, OnCrawl fait le lien entre vos clusters et votre utilisation des URLs canoniques. Les déclarations canoniques sont une méthode parmi d’autres permettant d’indiquer à Google que vous avez détecté ce contenu similaire et de lui montrer laquelle des pages similaires est supposée être la version la plus importante.

Chaque cluster est colorié selon l’analyse :

  • Vert : toutes les pages du cluster indiquent la même URL canonique.
  • Orange : toutes les pages du cluster n’indiquent pas la même URL. Certaines déclarations peuvent manquer, ou quelques pages peuvent indiquer des URLs canoniques différentes des autres.
  • Rouge : aucune URL canonique n’est indiquée.

Cette analyse vous permet d’évaluer rapidement le fonctionnement de votre stratégie pour gérer le contenu dupliqué.

Le slider en haut du graphique vous permet de filtrer pour n’afficher que les clusters d’une taille souhaitée.

Vous pouvez également filtrer par slider les clusters dont la similarité moyenne ne vous concerne pas. Par exemple, vous pouvez prendre en compte uniquement les clusters avec un taux de similarité de plus de 80 %.

Que faire lorsque votre site contient du contenu dupliqué ?

Évaluer votre gestion du contenu dupliqué

La plupart des sites auront besoin d’un mélange des trois stratégies suivantes afin de gérer efficacement leur contenu dupliqué. Voici quelques signes d’une stratégie bien implémentée :

Gestion du contenu dupliqué par la différenciation des pages : le contenu des pages est modifié pour qu’elles ne soient plus similaires.

  • Peu de clusters de pages similaires
  • Peu de pages par cluster
  • Taux de similarité par cluster bas

Gestion du contenu dupliqué par déclarations canoniques : une URL canonique est déclarée pour chaque page similaire et seule l’URL canonique est indexée.

  • Pas de clusters rouges
  • Peu ou pas de clusters oranges
  • Les clusters contenant un nombre important de pages sont justifiés

Gestion du contenu dupliqué par la fermeture des pages dupliquées au crawl et à l’indexation : les instructions aux robots, notamment la balise meta robots noindex, sont utilisées pour éviter l’indexation des pages dupliquées.

  • Taux de similarité par cluster bas

Mise en place d’une nouvelle stratégie ou remaniement de la stratégie actuelle

Si votre stratégie de gestion de contenu dupliqué ne fonctionne pas, voici une façon d’utiliser notre graphique pour trouver le point d’entrée afin de pouvoir la corriger:

  1. Glissez le slider de taux de similarité pour n’afficher que les clusters avec une similarité d’au moins 80 %.
  2. Paramétrez la taille du cluster afin qu’il reste gérable pour votre équipe SEO. Si vous ne savez pas quelle taille vous conviendrait le mieux, commencez par des clusters avec un maximum de 4 pages.
  3. Enlevez les rectangles verts.
  4. Ne traitez pas les pages une par une, recherchez les tendances cluster par cluster. Posez-vous les questions suivantes :
    1. Est-ce que tous les clusters que je regarde contiennent une URL mal formée ?
    2. Est-ce que tous les clusters de cette taille et de ce taux de similarité contiennent une page catégorie ?
    3. Est-ce que la plupart des clusters que je regarde contiennent un seul type de page ?

À vous d’affiner votre gestion des pages dupliquées !

Les pages dupliquées constituent l’un des enjeux clés du SEO. Par exemple, les pages trop similaires peuvent se concurrencer pour des recherches identiques, ou bien les pages dupliquées peuvent ne pas être indexées à cause d’une version plus importante que vous (ou, ce qui est de plus en plus commun, Google) auriez indiquée. Vous pouvez éviter ces situations et augmenter les chances que Google accepte vos déclarations canoniques en utilisant des appuis simples.

OnCrawl vous aide à :

  • Suivre les groupes de pages qui paraissent similaires sur la base des algorithmes utilisés par Google
  • Évaluer l’étendu et l’importance du contenu dupliqué sur votre site, selon le nombre et la taille des clusters
  • Se concentrer sur les clusters les plus importants
  • Déterminer l’efficacité de votre stratégie de déclarations canoniques en utilisant un code couleur.

Vous n’êtes pas encore utilisateur OnCrawl ? C’est le moment idéal pour commencer votre essai gratuit, acquérir de nouvelles perspectives grâce aux vraies données de votre site web et profiter de l’expertise de nos Customer Success Managers chez OnCrawl.


[Read More ...]

Thursday, 28 March 2019

R&D OnCrawl : analyses avancées du contenu unique vs dupliqué

OnCrawl est heureux de vous présenter son nouveau laboratoire de contenu dupliqué. Notre équipe R&D travaille sur une nouvelle manière de détecter le contenu unique vs dupliqué sur votre site. Cela vous permettra de vous baser sur une technique plus fiable lors de la construction de votre stratégie éditoriale.

Pourquoi se concentrer sur le contenu unique et dupliqué ?

Le contenu fait toujours partie des trois facteurs de classement les plus importants et Google encourage les sites web à délivrer du contenu instructif, unique et descriptif à leurs visiteurs afin d’offrir la meilleure expérience utilisateur possible.

Mais tous les contenus n’ont pas le même poids. Google a toujours été très compétent et devient même encore meilleur pour séparer le boilerplate (contenu structurel comme votre header, footer, menus navigationnels et d’autres contenus répétitifs) du contenu principal de la page.

En résumé, Google ignore généralement le texte de votre template et ne classe que votre contenu principal. C’est pourquoi, au lieu d’examiner le nombre de mots, le nouveau laboratoire expérimental d’OnCrawl réparti le contenu par blocs plutôt que par pages.

Nos données : qu’est-ce qu’un bloc de contenu ?

Une fois que vous avez fini de crawler votre site web, chaque page est séparée en blocs de texte plus petits. Un bloc de contenu est composé de mots qui sont groupés ensemble dans un seul noeud HTML, comme les ancres de texte, paragraphes ou les items d’une liste à puces.

Pour chaque bloc, nous calculons le quotient d’unicité et le ratio d’occurrence à travers tout votre site. Nous continuons d’utiliser les mêmes algorithmes que Google, notamment l’algorithme Simhash qui nous permet de calculer les degrés de similarité.

En utilisant les blocs de contenu, nous pouvons identifier le contenu principal d’une page. C’est le contenu qui est le moins dupliqué. Cela aide OnCrawl à fournir des réponses aux questions suivantes :

  • Quelle proportion du texte sur mon site est unique ?
  • Quelle est la proportion de boilerplate ?
  • Si nous excluons les textes de boilerplate et de template, est-ce que mon contenu est trop léger ?
  • Quelles pages bénéficieraient le plus de mes efforts de rédaction ?

Nos données : les graphiques et données sur les blocs de contenu

Les blocs de contenu vous permettent de vous concentrer sur le contenu unique seulement. Vous pouvez maintenant analyser l’unicité d’une page par rapport à d’autres sur votre site et trouver les pages qui contiennent trop peu de contenu unique.

Data Explorer

Dans le Data Explorer, vous pouvez maintenant examiner le nombre de mots et pourcentage de mots dans une page par types de blocs :

  • Blocs uniques
  • Blocs rencontrés sur 25 % des pages sur le site
  • Blocs rencontrés sur 25 % à 50 % des pages sur le site
  • Blocs rencontrés sur 50 % à 75 % des pages sur le site
  • Blocs rencontrés sur 75 % des pages sur le site
  • Blocs rencontrés sur toutes les pages du site.

Ces métriques sont aussi disponibles pour segmenter vos pages.

Métriques de rapport de crawl

Dans le rapport de crawl, un nouveau tableau de bord est disponible dans la sidebar : le Text block analysis. Les graphiques disponibles dans ce tableau vous donne un aperçu de la manière dont le contenu de votre site est réparti selon le quotient d’unicité.

Ces graphiques peuvent aussi être utilisés dans des tableaux personnalisés.

Quelles pages ont toujours du contenu léger une fois les templates et boilerplate retirés ? Vérifiez le nombre de pages avec moins de 300 mots dans les blocs uniques, indépendamment du nombre total de mots sur la page. Ces pages ont très peu de contenu principal à offrir, même si ce contenu est positionné sur des pages avec plus de 1200 mots :

Comparez le nombre de mots dans les blocs uniques par rapport au nombre de mots sur les pages en général. Des pages avec un faible nombre de mots peuvent contenir beaucoup plus de contenu unique que des pages plus longues, comme les pages dans la première colonne de ce site :

Évaluez l’unicité par page en examinant les portions de mots par page qui sont trouvées dans chaque type de bloc. Cela aide à répondre à des questions comme :

  • En moyenne à travers le site, quelle proportion d’une page est du contenu boilerplate (orange et rouge) ?
  • En moyenne à travers le site, quelle proportion du contenu d’une page est dupliquée (vert) ?

Comprenez combien de mots sont uniques par page et comment cette distribution se déroule à travers les autres pages. Cela fournit des réponses aux questions suivantes :

  • Combien de pages ont du contenu unique ou presque unique ?
  • Combien de pages contiennent plus de 1200 mots de contenu unique ou presque unique ?
  • Sur combien de pages les boilerplates ou templates de textes comptent pour plus de 30 % du texte de la page ?
  • Combien de cas aux extrémités de la distribution (des pages avec plus de la moitié de leur contenu dans des blocs très similaires, ou des pages avec plus de la moitié de leur contenu dans des blocs très uniques) existent sur le site ?

Et analysez l’unicité par profondeur et par groupe de page :

Nos données : le content overlay d’OnCrawl, qu’est-ce que c’est ?

Cette nouvelle analyse propose une surcouche visuelle pour chaque page crawlée par OnCrawl.

La surcouche de contenu illustre l’unicité de votre contenu en surlignant chaque bloc de contenu HTML sur votre page web selon la couleur correspondant à son unicité.

OnCrawl utilise le code source détecté par le robot au moment du crawl et revêtit l’analyse d’unicité pour chaque bloc dans la source HTML.

En survolant un bloc de contenu, vous pouvez obtenir des informations comme :

  • L’intégralité du texte dans un bloc de contenu
  • La fréquence exacte du contenu à travers le site
  • Le nombre de fois que le bloc est utilisé en tant qu’ancre de texte pour un lien

Cette analyse peut révéler des sections de pages où le contenu est copié et collé ou là ou des templates de rédaction sont utilisés sans être développés. Et inversement, il peut aussi montrer comment les pages avec peu de contenu réussissent à inclure de l’originalité sans augmenter leur nombre de mots.

Construire une stratégie de rédaction de contenu basée sur l’unicité d’une page

Vous pouvez désormais aller au-delà du nombre de mot lorsque vous analysez la qualité d’un contenu.

Les nouvelles métriques expérimentales d’OnCrawl ont été pensées pour permettre une analyse profonde de la stratégie éditoriale :

  • Utilisez-vous du contenu similaire pour les pages visant différentes intentions de recherche ? Est-ce que ce contenu est suffisamment adapté pour les différences dans l’intention de recherche ?
  • Est-ce que des pages sur votre site requièrent de grande quantités de contenu unique pour se classer et bien performer. Est-ce que des pages courtes et uniques arrivent au même résultat ?
  • Est-ce que le contenu répété (menus, footers, texte boilerplate, décharges…) fait de l’ombre à votre contenu principal ?
  • Avez-vous utilisé un template de rédaction non adapté pour des pages individuelles dans un groupe de pages avec une haute similarité ? Comme par exemple des localisations d’agence ou de bureaux ?

Notre équipe de R&D a pour objectif de vous permettre d’explorer votre contenu en profondeur et selon un nouvel angle. Nous espérons que vous apprécierez ces nouvelles données et que cela vous aidera à amener votre stratégie éditoriale au niveau supérieur.

Contactez-nous pour demander un accès à ce lab expérimental et n’hésitez pas à nous envoyer votre avis en utilisant le chat dans l’application.


[Read More ...]

Tuesday, 26 March 2019

Zoom sur les erreurs serveur 5xx : pourquoi et quand se produisent-elles et comment les corriger ?

Cela va sans dire que personne n’aime voir des codes erreurs sur internet, surtout lorsqu’ils apparaissent sur votre site web.
Il existe différents statut codes HyperText Transfer Protocol (HTTP) qui peuvent être délivrés par un serveur en réponse à la requête d’un client.
Ces codes se classent de 1xx à 5xx, le premier chiffre d’un statut code annonçant à laquelle des 5 catégories il appartient.
Dans cet article, nous allons nous intéresser à seulement une seule de ces catégories.

Codes erreur serveur 5xx, qu’est-ce que c’est ?

En résumé, l’erreur 5xx est un code qui apparaît dans les navigateurs web lorsque le serveur n’est pas parvenu à répondre à une requête.
Il vous montre aussi si le serveur est conscient qu’il a rencontré une erreur ou s’il n’est pas capable de répondre à la requête.
Il est important de noter que le serveur inclut normalement (à moins qu’il s’agisse d’une requête HEAD) une explication sur la situation de l’erreur ainsi que des informations sur son statut temporaire ou permanent.

Comment détecter un code erreur 5xx ?

Détecter un code erreur 500 peut être plutôt difficile s’il est uniquement présent sur une page, surtout lorsque vous disposez de milliers de pages sur votre site.
Prendre le temps d’inspecter chaque page une par une vous prendra non seulement un temps considérable mais vous coûtera aussi beaucoup de ressources.
À moins que vous soyez suffisamment chanceux pour qu’un utilisateur vous indique une erreur 5xx ou que l’erreur se situe sur une page importante, il pourrait vous prendre des semaines, voire des mois pour découvrir que vous avez une ou plusieurs erreurs 500. Pour accélérer le processus d’identification, vous pouvez utiliser différents outils SEO (OnCrawl, Ahrefs, Moz, etc…). Des services additionnels comme Serpstat peuvent vous fournir des audits par page.
Repérer ces erreurs est indispensable, car les erreurs 500 permanentes peuvent non seulement impacter la performance SEO mais aussi empêcher les utilisateurs d’accéder au site.

Comprendre les différents codes erreur de serveur 5xx

Il y a bien sûr toute une gamme de codes serveur 5xx, et en tant que webmaster, connaître la différence entre ces différents codes est crucial afin de rectifier le problème :

500 – Internal Server Error

Ce statut code est généré lorsque le serveur a rencontré une condition inattendue qui l’empêche de répondre à la requête du client.

501 – Not Implemented

Le serveur web va générer un statut code 501 lorsqu’il ne supporte pas la fonctionnalité nécessaire pour réaliser la requête et lorsque le serveur ne reconnaît pas la méthode requise.
Cela signifie que le serveur n’est pas capable de prendre en charge la requête mais qu’il pourrait y avoir une disponibilité dans le futur.

502 – Bad Gateway

Une erreur 502 se produit lorsque le serveur sert de passerelle ou de proxy et a reçu une réponse invalide du serveur en amont lorsqu’il a tenté de réaliser la requête.

503 – Service Unavailable

Un serveur web va répondre avec ce statut code lorsqu’il est temporairement incapable de gérer la requête à cause d’une surcharge sur le court terme ou d’une maintenance.
Cela arrive généralement lorsque le serveur est temporairement indisponible pour réaliser la requête. Parfois, la longueur du retard peut être indiquée dans le header Retry-After.
Si pour une quelconque raison, aucun Retry-After n’est offert, le client doit gérer la réponse de la même manière qu’une réponse 500.

504 – Gateway timeout

Si le serveur ne reçoit pas une réponse ponctuelle du serveur en amont désigné par l’URL demandée alors qu’il agit en tant que passerelle ou proxy, une erreur 504 sera présentée.

505 – HTTP Version Not Supported

Si un serveur web répond avec ce statut code, cela signifie soit qu’il ne prend pas en charge ou qu’il refuse de lire la version du protocole HTTP utilisée dans la requête.
Lorsque cela arrive, la réponse doit contenir une entité qui explique pourquoi cette version HTTP n’est pas supportée.

506 – Variant Also Negotiates

Ce code indique que le serveur dispose d’une erreur dans sa configuration interne et que la ressource variante choisie est en fait configurée pour engager une négociation de contenu transparente.
Cela signifie donc qu’il n’y a pas de point final propre dans le processus de négociation.

507 – Insufficient Storage

Dans ce cas, le code est généré lorsque la méthode ne peut pas être exécutée sur la ressource car celle-ci ne peut pas stocker la représentation nécessaire pour réaliser la requête.
Comme l’erreur de serveur 503, cette condition est aussi temporaire. Ce statut code est généré suite à l’action de l’utilisateur.

508 – Loop Detected

Ce message apparaît lorsque le serveur doit interrompre une opération à cause d’une boucle infinie qui a été détectée lors de la réalisation de la requête avec “Depth: Infinity”.
Ce statut indique que l’intégralité de l’opération a échoué.

510 – Not Extended

Une erreur serveur 510 se produit lorsque la politique pour accéder à la ressource n’a pas été respectée dans la requête. Dans ce cas, le serveur doit renvoyer toutes les informations pour que le client fournisse une requête étendue.

511 – Network Authentication Required

Cette erreur se produit lorsque le client doit s’authentifier afin de pouvoir accéder au réseau.
Une représentation de la réponse de ce type d’erreur doit contenir un lien vers la ressource qui permet aux utilisateurs de soumettre leurs identifiants.
Vous pouvez trouver une liste complète des codes erreur, dont les codes d’autres catégories, ici.

L’impact des erreurs 5xx sur le SEO

Lorsque Google est confronté à une erreur 5xx sur un site, il peut baisser le classement d’une page ou la retirer de l’index car de telles erreurs peuvent engendrer une expérience utilisateur négative. En fait, ces erreurs ont un impact extrêmement négatif sur le SEO.
Ce sont les erreurs les plus compliquées à gérer. Il est difficile de trouver le problème exact qu’ils indiquent et surtout de trouver une solution simple. De plus, ces problèmes ne se règlent généralement pas en modifiant le code d’une page et vous pourriez avoir besoin de demander de l’aide aux développeurs ou à l’administrateur du serveur.
Cependant, vous devriez et même devez les réparer car les moteurs de recherche n’apprécient pas du tout les erreurs 5xx. Un moteur de recherche ne peut pas crawler et analyser votre site s’il se heurte à des erreurs 500 et 503. Cela signifie aussi que les codes erreur 500 peuvent causer une expérience utilisateur pauvre et impacter négativement le classement et l’indexation de votre site.
Bien sûr, vos classements ne vont pas chuter dès qu’une erreur 500 apparaît. Il doit y avoir plusieurs cas de réponses 503 sur une ou deux semaines avant que la page soit retirée de l’index Google. Vous avez donc le temps de les réparer avant d’être sanctionné !

Comment réparer les codes erreur 500 ?

Il peut parfois être difficile de repérer la source d’une erreur 5xx. Celles-ci peuvent se produire si des fichiers sont manquants ou corrompus, s’il y a des améliorations incompatibles ou des erreurs dans les scripts.
Si vous vous apercevez que vous avez une réponse 5xx sur votre site, vous pouvez procéder aux vérifications suivantes :

  1. Rechargez la page au cas où l’erreur était momentanée.
  2. Vérifiez les erreurs de log sur le site.
  3. Réfléchissez à tous les changements ou mises à jour système que vous avez réalisés récemment et retirez-les jusqu’à ce que les erreurs soient réparées.

Un logiciel mis à jour peut aussi être responsable, tout comme les mises à jour non réussies, les fichiers manquants ou corrompus qui peuvent tout aussi bien causer des réponses 5xx. Si vous avez récemment mis à jour votre logiciel, essayez de le désinstaller et de recommencer la procédure.
De nouveaux thèmes et plugins peuvent aussi être incompatibles avec le nouveau logiciel donc essayez de détecter le problème en désactivant les plugins un par un jusqu’à temps que l’erreur soit réglée.

Les scripts côté serveur peuvent aussi causer des problèmes

Lorsque des erreurs 500 apparaissent sur votre site, cela vaut aussi le coup de vérifier les scripts de votre serveur et d’essayer de résoudre le problème :

  • Vérifiez si les permissions de serveur sont correctes. Les permissions pour un script PHP ou CGI doivent être configurées sur 0755 (-rwxr-xr-x).
  • Si le serveur peut connecter des services externes, il pourrait y avoir une temporisation PHP. Vérifiez vos règles de temporisation et de gestion d’erreur. Cependant, celles-ci peuvent être difficiles à trouver. Dans ce cas, retirez simplement les connexions externes.
  • Trop d’appels simultanés peuvent causer un arrêt du serveur, ou des pertes de connexion serveur et des réinitialisations. Donc, n’hésitez pas à tester le script pour vous assurer que cela n’arrive pas fréquemment.
  • Vous pourriez aussi avoir une erreur dans le fichier .htaccess pouvant empêcher une page de se charger. Même si c’est rare, prenez le temps de tester ce problème en retirant temporairement le fichier et en rechargeant la page.
  • Si une page web a une extension CGI ou Perl, alors vous devriez vérifier le script. Assurez-vous de sauvegarder les fichiers CGI dans un format ASCII et de les télécharger dans le répertoire cgi-bin en mode ASCII.

En résumé

Une erreur serveur 5xx apparaît lorsque le serveur ne parvient pas à répondre à une requête. Il existe 10 sortes d’erreurs dans cette catégorie. Chacune d’elle est discutée dans cet article.
Il est plutôt difficile de détecter et de réparer chaque occurrence de ces erreurs mais les moteurs de recherche ne les apprécient pas, particulièrement les erreurs 500 et 503. Ils peuvent retirer votre site de leur index s’ils obtiennent ce type de réponse plusieurs fois. Pour éviter d’en arriver là, utilisez des outils SEO pour auditer votre site et détecter les erreurs 5xx à temps. Vous pouvez les réparer en utilisant 3 stratégies :

  1. Rechargez la page pour vérifier si le problème était temporaire
  2. Vérifiez les erreurs de log sur votre site
  3. Réfléchissez à tous les changements ou mises à jour système que vous avez réalisés récemment et retirez-les jusqu’à ce que les erreurs soient réparées.

[Read More ...]

Friday, 22 March 2019

[Tech & Tricks] Évaluer la distribution de la richesse SEO sur votre site pour identifier et optimiser les cas extrêmes

Dans les tableaux du rapport Ranking d’OnCrawl, nous présentons les impressions et les visites des googlebots comme la presse discuterait de la richesse globale ou nationale. Plutôt que de parler du 1 % (des personnes les plus riches), nous indiquons les 10 % (des pages les plus riches en impressions) ou les 10 % (des pages les plus pauvres en visites des googlebots).

Cette approche vous permet d’évaluer les cas extrêmes : les pages les plus performantes ou démunies sur votre site en ce qui concerne le positionnement. Vous pouvez visualiser la distribution de la richesse SEO (c’est-à-dire les visites des googlebots et les impressions dans les SERPs) sur votre site via l’abscisse. Votre site est-il relativement équitable ? Est-ce que certaines pages sont très riches pendant que d’autres sont très pauvres ?

Et, le plus important, est-ce que votre site devrait distribuer la richesse SEO de façon équitable à toutes vos pages, ou est-ce que la richesse inégale vous sert d’indicateur pour les opportunités d’optimisation ?

Comment fonctionnent les déciles dans OnCrawl ?

Comme la richesse, les impressions ne sont pas distribuées de façon équitable à toutes les pages. Les visites des googlebots non plus. Certaines pages en reçoivent plus que d’autres.

Pour mieux visualiser ce type d’inégalité, OnCrawl fournit des graphiques utilisant des déciles. Après avoir ordonné vos pages par nombre d’impressions obtenues (ou par visites de bots), ces graphiques trient vos pages dans dix groupes, avec chacun le même nombre de pages.

Pour les impressions, les groupes se créent de la façon suivante :

Astuce OnCrawl : Comme chaque groupe contient le même nombre de pages, ils sont faciles à compter: cinq groupes représentent 50 % du total des pages ; deux groupes en représentent 20 %…

Chaque décile de pages correspond à une colonne dans le graphique, avec une barre qui mesure les données pour ce groupe de pages. Le nombre total d’impressions (ou hits) est indiqué par la ligne tracée au-dessus des barres.

La barre rose montre le nombre moyen de clics par page dans un décile donné. Chaque barre rose représente 10 % du total des pages. (La barre à droite montre clairement que 10 % des pages reçoivent beaucoup plus de clics que l’ensemble des 90 % restants.) La ligne bleue montre la distribution des impressions totales pour chaque groupe de pages.

Les déciles sont disponibles pour les données suivantes :

Déciles de pages, ordonnés selon le nombre d’impressions

  • Nombre moyen d’impressions par page
  • Nombre moyen de clics par page
  • Pages indexées dans la structure
  • Distribution selon la profondeur
  • Distribution selon l’Inrank
  • Temps de chargement des pages indexées
  • Nombre moyen de liens “follow” vers les pages indexées
  • Nombre de mots sur les pages indexées
  • État de duplication du titre des pages indexées

Déciles de pages, ordonnés selon le nombre de visites des googlebots

  • Pages qui sont indexées et crawlées par Google
  • Nombre d’impressions obtenues par les pages crawlées par Google
  • CTR (taux de clic)

Utiliser les données par décile pour trouver les opportunités d’optimisation rapides

Rendre les relations visibles

Les déciles sont utiles pour voir certaines différences importantes qui ne sont pas visibles sur d’autres graphiques.

Par exemple, pour comprendre ce qui pourrait influencer le CTR, vous pouvez regarder la distribution du CTR avec des segmentations différentes :

Or, si cela ne vous permet pas d’obtenir des conclusions actionnables, il peut y avoir une relation évidente entre la fréquence des visites des googlebots et le CTR :

Sur ce site, plus une page est visitée par un bot, plus il est probable que la page ait un CTR positif. De plus, il serait intéressant d’étudier et de dupliquer le cas des pages dans le troisième décile en partant de la droite avec un CTR plutôt élevé. Les pages avec un CTR de zéro dans la première colonne de droite sont de bons candidats pour débuter une optimisation.

Identifier les gains rapides grâce aux cas extrêmes

Les projets SEO consomment du temps et des ressources. Quelles pages prioriser ?

Si vos graphiques montrent une corrélation entre les facteurs de positionnement et les déciles des pages pour les impressions, vous pourriez obtenir des résultats significatifs en termes de performances SEO en optimisant :

  • les 10% des pages les plus performantes : les petites améliorations donnent des résultats importants grâce au volume d’impressions concernées.
  • les 10% des pages les moins performantes : le potentiel d’amélioration grâce à des actions plutôt simples à mettre en place est énorme.

Certains cas extrêmes offrent des opportunités d’optimisation rapides. D’autres ne montrent pas de corrélation assez forte pour pouvoir espérer de bons résultats. Voici quelques exemples :

 

À vous de trouver vos opportunités d’optimisation avec les statistiques et les cas extrêmes

Une approche statistique des données peut révéler des tendances et des corrélations qui ne sont pas visibles dans d’autres graphiques. Les graphiques OnCrawl basés sur les déciles vous montrent comment la performance SEO, quantifiée par le nombre d’impressions dans les SERPs et par le nombre de visites des googlebots, se distribue sur votre site.

Si vous vous apercevez que les pages les plus ou les moins performantes se différencient de manière significative de la page type sur votre site, vous avez trouvé les cas extrêmes où les optimisations peuvent produire des résultats rapides pour le référencement. Pour vous aider à identifier les améliorations à cibler, les analyses croisées d’OnCrawl révèlent comment les facteurs de positionnement impactent les performances SEO sur votre site.

Vous n’êtes pas encore utilisateur OnCrawl ? C’est le moment idéal pour commencer votre essai gratuit, acquérir de nouvelles perspectives grâce aux vraies données de votre site web et profiter de l’expertise de nos Customer Success Managers chez OnCrawl.


[Read More ...]

Thursday, 21 March 2019

Comment rendre un site web crawlable ?

Quelle est la chose la plus importante que vous pouvez faire pour que votre site apparaisse dans les résultats de recherche ?

Un site web adapté aux robots permet aux moteurs de recherche de découvrir facilement son contenu et de le rendre disponible à tous les utilisateurs.

Le crawl, ou la visite d’un robot pour collecter des informations, est la première étape de la (longue) procédure qui se termine lorsque votre site est classé premier dans la page des résultats de recherche. Cette étape est tellement importante que l’un des porte-parole de Google, Gary Illyes, pense qu’il faut l’affirmer en majuscules :

Nous [Google] n’insistons visiblement pas suffisamment pour que les webmasters se concentrent sur les choses les plus importantes. Comme CONSTRUIRE UN SITE CRAWLABLE.
Gary Illyes (Chief of Sunshine and Happiness & Trends Analyst chez Google) / 8 février 2019 Reddit AMA sur r/TechSEO

Un site crawlable permet aux robots des moteurs de recherche de réaliser des tâches basiques :

  • Découvrir qu’une page existe à travers des liens pointant vers elle
  • Atteindre une page depuis plusieurs points d’entrée sur le site, comme la page d’accueil
  • Examiner les contenus d’une page
  • Trouver les liens d’autres pages

Les étapes que vous pouvez réaliser pour rendre votre site crawlable doivent couvrir tous ces aspects.

Donner les bonnes instructions aux robots

Les Googlebots suivent les instructions des sites web. Ces instructions peuvent apparaître dans différentes localisations :

  • Les propriétés robots des balises meta d’une page
  • Les balises x-robots dans le header d’une page, particulièrement pour les URLs qui ne sont pas des pages HTML
  • Les fichiers robots.txt du site
  • Les paramètres du serveur du domaine dans le fichier htaccess

Les pages où les sections de site interdites aux robots ne sont pas crawlables car non accessibles par Google.

Lorsque vous fournissez des instructions aux robots, gardez en tête que Google crawle régulièrement avec les robots suivants :

Vous pouvez voir comment le fichier robots.txt de votre site cible ces robots en utilisant un crawler SEO qui respecte les directives des robots et en lançant un crawl avec “Googlebot” dans le nom du user agent du robot.

 

Auditer toutes les pages de votre site pour vérifier les instructions données aux robots est aussi très simple : toutes les pages apparaissant dans Google doivent autoriser les googlebots à les crawler.

 

Suivre la performance du serveur

Les sites avec des pages contenant des erreurs de serveur sont inaccessibles pour les robots (et les utilisateurs !) tant que l’erreur est présente. Des erreurs récurrentes ou systématiques peuvent aussi avoir un effet négatif sur le SEO en général.
Vous pouvez suivre les erreurs de votre site grâce à des crawls réguliers et en corrigeant les pages avec un statut HTTP 400 ou 500.

Penser l’architecture du site avec précaution

L’architecture d’un site désigne la manière dont un visiteur, que ce soit un utilisateur ou un robot, passe d’une page à une autre en utilisant les liens d’un site. Cela inclut non seulement les liens du menu navigationnel, mais aussi les liens dans le contenu d’une page et tous les liens du footer.

Un bon design d’architecture de site inclut les standards suivants :

  1. Créer plus de liens pour les pages les plus importantes
  2. S’assurer que toutes les pages qui existent ont au moins un lien vers elles
  3. Réduire le nombre de clics nécessaires pour aller de la page d’accueil vers d’autres pages

Ces trois standards sont basés sur la manière dont les crawlers des moteurs de recherche se comportent :

 

Des liens d’autres pages sur le même site peuvent aider les moteurs de recherche à établir l’importance relative d’une page sur le site. Cela aide les robots à déterminer si un contenu est de qualité. En résumé, une page avec beaucoup de liens pointant vers elle est souvent plus importante qu’une page recevant peu de liens.

 

En terme de négligence, les pages orphelines, des pages avec aucun lien pointant vers elles, sont problématiques. À moins qu’il y ait des liens externes vers les pages orphelines, ces pages sont invisibles aux moteurs de recherche. La clef pour les rendre crawlables est d’ajouter des liens vers elles depuis une page qui fait déjà partie de l’architecture de votre site.

 

À cause du délai entre le moment où une page est découverte, où elle est crawlée et lorsque les liens qu’elle comporte sont crawlés, les pages qui sont situées loin des points clés du site (comme la page d’accueil) peuvent mettre un moment avant d’être crawlées par les moteurs de recherche. La distance depuis la page d’accueil, appelée la profondeur de page, peut être réduite en ajoutant des liens vers les pages profondes sur les pages catégorie et les autres pages qui sont plus proches de la page d’accueil.

Utiliser une technologie web accessible aux moteurs de recherche

Il existe un écart entre ce que font les navigateurs modernes et ce que fait Google actuellement.
Martin Splitt (Webmaster Trends Analyst chez Google) / Oct. 30 2018 Google Webmaster hangout

La technologie utilisée par les crawlers web pour accéder au contenu d’une page est actuellement basée sur Chrome 41 (M41). Si vous utilisez une version à jour de Chrome en mars 2019, vous êtes probablement sur une version de Chrome 72 ou Chrome 73. Bien qu’il s’agisse d’un grand écart, Google affirme qu’ils travaillent à le réduire.

Les principales différences concernent l’accompagnement pour les rich media et les technologies additionnelles. Google fournit des détails dans la documentation de Chrome et sur la page de documentation pour le service de rendu web. 

Cela ne signifie pas que vous ne pouvez pas inclure du contenu média riche comme Flash, Silverlight ou des vidéos sur votre site. Cela signifie simplement que n’importe quel contenu que vous intégrez dans ces fichiers devra toujours être disponible en format texte ou il ne pourra pas être accessible du tout aux moteurs de recherche.
Google Webmaster Support

Si vous êtes particulièrement préoccupés par le JavaScript, vous devriez regarder la série de vidéos de Google ou lire les suggestions de Maria Cieslak pour apprendre à travailler avec JavaScript sans que cela ne soit un cauchemar.

S’assurer que les informations clés sont rendues ___ et __

Les mots-clés manquant dans le titre sont “en premières” et “par le serveur”.
Google a récemment publié un article recommandant le rendu dynamique. Cette procédure permet au contenu JavaScript d’être crawlé plus rapidement en fournissant aux crawlers le contenu préalablement préparé par le serveur (rendu côté serveur ou SSR). Cela s’applique même si vous fournissez aux utilisateurs un HTML ou un JavaScript brut qui seront ensuite interprétés par le navigateur (rendu côté client, ou CSR).

Le rendu dynamique requiert que votre serveur web puisse détecter les crawlers (par exemple, en utilisant le user agent). Les requêtes des crawlers sont acheminées vers un moteur de rendu, les requêtes des utilisateurs sont servies normalement. Si nécessaire, le rendu dynamique sert une version du contenu appropriée pour le crawler. Par exemple, il peut servir une version statique du HTML. Vous pouvez choisir d’autoriser le rendu dynamique pour toutes les pages ou page par page.
Google Developers’ Guide / Dernière modification le 4 février 2019

Il y a eu quelques débats pour déterminer si cette pratique n’était pas du cloaking, qui est sujet à des pénalités. C’est une manière de fournir du contenu non identique au utilisateurs et aux robots.
L’objectif est de s’assurer que votre contenu peut être vu et interprété par tous les visiteurs, qu’il s’agisse d’utilisateurs ou de robots. Quelques experts SEO comme Jan-Willem Bobink, soutiennent le rendu côté serveur à des fins SEO.
Si vous fournissez du contenu non rendu, assurez-vous que votre contenu principal est disponible dans le HTML basique de la page. Le rendu peut être retardé si des éléments bloquent le contenu en étant absents, en erreur, ou incomplets, comme le CSS ou JavaScript.
Vous pouvez vérifier comment Google voit votre page en utilisant l’outil Inspect URL, disponible depuis janvier 2019 dans la nouvelle Google Search Console :

 

Influencer les moteurs de recherche avec un site adapté aux robots

Si votre site web est facilement crawlable, vous avez gagné la première bataille du SEO. Les sites crawlables peuvent être indexés et les sites indexés peuvent être classés. Et les sites classés ramènent des leads.
Un site crawlable prend en considération la nature des robots et leurs limitations dans son design et son monitoring. Pour cela, vous devez vous intéresser aux questions suivantes :

  • Comment les robots passent d’une page à une autre
  • Comment les moteurs de recherche programment les crawls
  • Comment les robots accèdent au contenu d’une page web
  • Comment les sites communiquent avec les robots
  • Comment les serveurs fournissent du contenu aux visiteurs robots

Si vous souhaitez attirer des visiteurs, c’est-à-dire gagner des leads grâce au marketing digital ou promouvoir des produits et services en ligne, un site crawlable est une première étape vers le succès.


[Read More ...]

Tuesday, 19 March 2019

OnCrawl décuple la vitesse de vos crawls

OnCrawl est heureux d’annoncer que la migration progressive de ses utilisateurs vers son tout nouveau crawler a débuté. Notre aspect favori de la nouvelle technologie de crawl OnCrawl ? La vitesse incomparable !

Nous avons aussi profité de cette mise à jour majeure pour inclure une constellation de nouveaux éléments, dont le monitoring en temps-réel des détails de crawl et l’extension des données pour l’analyse des liens et des pages non-indexables.

Nouveau crawler, fonctionnalités de crawl identiques

Cette amélioration majeure du crawler OnCrawl produit des résultats de crawl identiques. Tous les tableaux de bord, fonctionnalités et données disponibles sont complètement pris en charge par notre nouveau crawler.

Ainsi, vous pouvez comparer des crawls réalisés avec l’ancienne version du crawler avec les crawls plus récents sans crainte d’avoir de données faussées et sans devoir procéder à des ajustements.

Il n’y a aucune différence dans les tableaux de bord et graphiques OnCrawl. Leur aspect et les calculs utilisés pour les produire n’ont pas changé. La modification du crawler ne produit pas de chiffres différents dans les graphiques.

Vitesse astronomique : crawl plus rapide

Pour un décollage plus rapide

Vos crawls décollent désormais avec un compte à rebours plus court et une base de lancement plus puissante.

Non seulement la phase d’initialisation du crawl prend beaucoup moins de temps mais vous pouvez aussi utiliser la nouvelle version de la page de monitoring de crawl pour voir ce qu’il se passe pendant cette période, avant que les premières pages soient crawlées.

Sur la page de monitoring de crawl, vous pouvez suivre la progression des différentes tâches de pre-crawl et ensuite analyser des nombres précis, rafraîchir en temps réel, vous permettant de savoir exactement ce que le crawl fait et comment il le fait.

Une vitesse de crawl plus rapide

Vos crawls bénéficient également d’un coup de boost de leur vitesse. Les plus grands sites vont voir une réduction de temps conséquente lors de leur crawl. Même les sites avec moins de 1000 pages pourront voir une vitesse de crawl multipliée par 8.

Nous crawlons non seulement chaque page plus rapidement mais nous avons aussi amélioré la vitesse de crawl globale dans 3 domaines clés :

  1. Nous avons parallélisé les tâches de crawl.
    Comme plusieurs tâches peuvent être exécutées en même temps, la vitesse de crawl globale est bien plus rapide.
  2. Nous avons retiré les pauses pendant la période de crawl.
    Sans pauses, le crawler est maintenant capable de respecter la vitesse de crawl que vous avez demandé pour un temps de crawl plus court. (Cela signifie que vous pourriez avoir besoin de faire des ajustements si vous vous rendez compte que la vitesse la plus rapide demande trop d’efforts à votre serveur web.)
  3. Nous avons ré-écris les algorithmes pour incrémenter la profondeur pendant un crawl.
    Pour les grands sites web, par exemple, les crawls profonds pouvaient prendre plus d’une heure pour progresser d’une profondeur de 10 (ou N) à une profondeur de 11 (ou N+1). Avec le nouveau crawler, les changements de profondeur sont plus fluides, même aux niveaux les plus profonds des sites web gigantesques.

Temps de réaction plus rapides

Le délais nécessaire pour mettre en pause ou arrêter un crawl a été amélioré. À cause du stockage et du traitement des données précédents, mettre en pause un crawl pouvait prendre un moment, même après que vous ayez appuyé sur le bouton. Avec le nouveau crawler, c’est maintenant presque instantané.

Si vous avez besoin de mettre en pause ou d’arrêter un crawl, vous pouvez maintenant le faire en quelques secondes.

Monitoring de crawl amélioré

Le monitoring de crawl de l’interface d’OnCrawl a été repensé avant la sortie du nouveau crawler. Avec le nouveau crawler, cependant, il y a toute une galaxie de différences dans le monitoring de crawl.

L’amélioration inclut :

  • Plus d’informations lorsque que les comptes connectés mettent du temps à répondre ou lorsque les informations demandées ne peuvent pas être obtenues. Cela peut arriver, par exemple, lorsque vous n’avez pas assez de quota restant dans votre compte tierce connecté.
  • Plus d’informations en temps réel sur les erreurs de crawl d’une page.
  • La possibilité de voir la progression d’un crawl pendant la phase d’analyse.

Quelles sont les autres nouveautés ?

Plus d’informations pour plus d’URLs

Le nouveau crawler OnCrawl récupèrent des informations pour toutes les pages en format HTML, peu importe leur indexabilité et leur status code HTTP.

Auparavant, les données des pages n’étaient disponibles que pour les pages avec un status code 200 et pour les pages indexables. Les nouvelles informations sont disponibles dans le Data Explorer et l’outil URL Details, comme elles concernent généralement seulement les pages qui ne sont pas incluses dans les tableaux de bord et graphiques OnCrawl. Cela inclut le nombre de mots, le titre, la méta description, les titres (H1 – HN), les n-grams, l’Open Graph, les Twitter cards et bien plus encore.

Dans l’URL Details, sous “View Source”, l’intégralité du code, dont les headers, sont disponibles pour toutes les pages.

Récupérer des données provenant de pages additionnelles aide aussi OnCrawl à trouver plus de liens et à améliorer la similarité entre notre crawler et le googlebot. Par exemple, OnCrawl ignorait précédemment le contenu des pages avec un status code 3xx, malgré l’évidence que Google puisse suivre des liens de ce type sur ces pages. OnCrawl peut maintenant, comme Google, crawler les liens sur les pages avec un status code autre que 200.

Le fait que des liens additionnels soient trouvés et que des pages additionnelles soient analysées signifie que le total du nombre de pages dans le Data Explorer peut être plus élevé que les nombres que vous trouviez auparavant pour le même site. Par exemple, sur une page redirigée, il est possible que nous découvrons de liens vers des nouvelles pages. Même si ces pages-là se trouvent à ne pas être indexables, elles seront comptées dans le nombre total de pages affiché dans le Data explorer.

Analyse de liens sortants étendue

Nous avons amélioré la capacité de notre crawler à identifier et suivre les liens qui conduisent vers une autre page. Le crawler d’OnCrawl prend maintenant en compte les liens suivants :

Nouveaux champs (et améliorations) dans le Data Explorer

Nous avons ajouté des champs liés au robot d’OnCrawl dans le Data Explorer :

  • Sources : comment OnCrawl connait cette page ? Nous vous informons de la manière dont notre robot l’a trouvée, si elle est listée dans votre sitemap, et si les données connectées y font référence.
  • Fetch date : la date et l’heure auxquelles notre robot a demandé l’URL.
  • Fetch status : le résultat de la tentative de notre robot pour récupérer la page. La valeur ‘success” signifie que le robot d’OnCrawl a reçu une réponse du serveur web : même si la réponse du serveur indiquait une erreur de page ou de serveur, notre robot a réussi à obtenir cette information du serveur.

Nous avons aussi amélioré le rapport de certains champs qui affichaient auparavant des valeurs par défaut. Cela vous donne des informations plus précises pour toutes vos pages. Par exemple, le champ Metarobots dans le Data Explorer indiquait par défaut que les robots étaient autorisés lorsque aucune contre indication n’était présente. Maintenant, le champ Metarobots montre la valeur actuelle de la propriété “meta robots=” pour l’URL. Si la propriété est manquante, le champ est laissé blanc.

Comment obtenir ces nouvelles analyses supersoniques sur votre compte OnCrawl ?

Le nouveau schéma de crawl sera déployé progressivement pour tous nos utilisateurs, qu’ils soient nouveaux ou non, et sans aucune action demandée.

Cependant, si vous utilisez toujours l’ancienne version et que vous souhaitez obtenir dès maintenant la version mise à jour, n’hésitez pas à contacter votre responsable de compte ou à nous contacter directement via le bouton bleu Intercom en bas à droite de l’écran lorsque vous vous identifiez dans l’application.

Vous souhaitez bénéficier d’un crawl plus rapide que l’éclair avec la puissance et la flexibilité d’une plateforme de SEO technique ? Si vous n’êtes pas encore utilisateur OnCrawl, démarrez votre essai dès maintenant.


[Read More ...]

3 facteurs qui éloignent les utilisateurs et les crawlers de votre page d’accueil

  Votre page d’accueil n’est pas juste un espace dans lequel vous affichez votre nom de marque et votre logo. Il s’agit de la page initial...