Semalt: Comment Google sait-il quand (et pourquoi) arrêter de parcourir votre site Web?

Les araignées Google sont aussi importantes que la campagne de référencement elle-même lors de la commercialisation d'un site Web. Ils explorent les sites Web et indexent le contenu de toutes les pages qu'il peut trouver. Il effectue également une réindexation sur les pages mises à jour du site. Il le fait régulièrement, en fonction de plusieurs facteurs. Ils incluent, mais sans s'y limiter, le PageRank, les contraintes d'exploration et les liens trouvés sur la page. Le nombre de fois que les araignées Google explorent un site dépendra d'un ou de plusieurs de ces facteurs.

Un site Web doit être facilement navigable par les visiteurs ainsi que par les robots d'exploration Google. C'est la raison pour laquelle avoir un site Web facile à explorer est un avantage supplémentaire pour sa campagne de référencement. Sinon, Google ne pourra pas accéder au contenu, réduisant ainsi le classement du site sur la page de classement des moteurs de recherche .

Ross Barber, le Customer Success Manager de Semalt , définit que deux des facteurs d'indexation les plus importants sur lesquels Google s'appuie pour influencer sa décision de ralentir ou d'arrêter l'exploration de votre site sont l'heure de connexion et le code d'état HTTP. D'autres incluent la commande de désaveu, les balises "sans suivi" et robots.txt.

Connecter l'heure et les codes d'état HTTP

Le facteur de temps de connexion se rapporte au temps nécessaire au robot d'exploration Google pour atteindre le serveur du site et les pages Web. La vitesse est grandement appréciée par Google car elle est hautement indicative d'une bonne expérience utilisateur. Si la page Web n'est pas optimisée pour la vitesse, le site sera alors mal classé. Les araignées Google tenteront d'accéder au site Web, et si le temps nécessaire pour créer une connexion est plus long, ils reculent et l'explorent moins fréquemment. De plus, si Google pousse à indexer le site Web avec la vitesse actuelle, cela peut interrompre l'expérience utilisateur car cela pourrait ralentir considérablement son serveur.

Le deuxième facteur d'indexation est les codes d'état HTTP qui font référence à la façon dont le serveur répond à une demande d'exploration du site. Si les codes d'état se situent dans la plage 5xx, Google prend alors la décision d'arrêter ou de retarder la vitesse à laquelle ils explorent le site actuel. Tout élément dans la plage 5xx est un indicateur de problèmes possibles avec le serveur et que la réponse à la demande peut être problématique. En raison du risque de provoquer des problèmes supplémentaires, les robots Google se retireront et procéderont à l'indexation lorsque le serveur sera plus accessible.

Quand Google reprend-il l'exploration du site?

Google croit qu'il faut offrir aux utilisateurs la meilleure expérience et classera les sites qui optimisent leurs éléments de référencement vers ces objectifs. Cependant, si le site Web présente actuellement les problèmes mentionnés ci-dessus, il ordonnera à son Googlebot d'essayer de l'explorer ultérieurement. Si les problèmes persistent, le propriétaire perdra une excellente occasion de voir Google parcourir son contenu et lui attribuer un rang bien mérité dans les résultats de recherche. En plus de ces problèmes, tout signe de spam empêchera le site d'apparaître dans les résultats de recherche.

Comme tous les autres algorithmes que Google utilise, ses araignées sont également automatiques. Ils sont développés pour rechercher, analyser et indexer du contenu en fonction de certains paramètres. Si le site n'est pas conforme à certaines bonnes pratiques, l'indexation n'aura pas lieu. De nombreux autres facteurs sont impliqués, mais n'oubliez pas de prêter une attention particulière à l'heure de connexion et aux codes d'état HTTP de votre site.