Gros plan sur les principaux rôles du sitemap

Les référenceurs essaient par tous les moyens de suivre des protocoles afin d’optimiser son positionnement dans le moteur de recherche. Le sitemap est un moyen qui permet au moteur de recherche d’indexer plus facilement votre site. En effet, c’est le webmaster qui indique au moteur de recherche quel site il doit indexer. Le sitemap, quant à lui, il permet au webmaster d’effectuer son travail. La manière d’indexation d’une page par le moteur de recherche part donc du sitemap. Cette technique sera utilisée lorsque vous effectuez des recherches que ce soit sur Google, Yahoo, MSN ou encore Ask. On les appelle également moteur de recherche majeur.

Ce qu’il faut savoir sur le sitemap

Les crawlers

Les crawlers sont des éléments du moteur de recherche qui s’occupent de l’indexation des pages. En effet, lorsque le moteur de recherche indexe une page, l’indexeur met des liens de côté. Les crawlers servent alors à consulter une base de données de ces liens. Contrairement aux spiders, ils n’ont pas besoin de télécharger les pages. Cette technique leur permet d’agir plus vite dans leur fonction. Google ainsi que Yahoo ont chacun leurs propres crawlers qui sont respectivement GoogleBot et Yahoo Slurp. On peut également appeler cela une indexation naturelle.

Le protocole sitemaps

Le protocole sitemaps permet aux référenceurs de rendre leurs pages plus facilement indexées lors des requêtes des internautes. Ce protocole a été accordé par trois différents moteurs de recherche il y a maintenant une dizaine d’années. Il comporte notamment Google, Yahoo ainsi que Microsoft Live Search. C’est seulement des années après que Ask a rejoint le groupe de moteur de recherche qui supporte le protocole sitemap.

Zoom sur le fichier sitemap

Comme vous le savez déjà, le webmaster sert à indiquer au moteur de recherche quelle page il va indexer. Le rôle du fichier sitemap, de son côté, est de faciliter la tâche du webmaster. Un fichier sitemap doit, dans ce cas, être créé pour être compris par tous les moteurs de recherche. C’est le format XML qui se charge de cette création afin de faciliter l’indexation d’une page.
Le sitemap est, en effet, un fichier XML. Il contient la liste des URL d’un site web qui sera exposé aux principaux moteurs de recherche. On peut connaître le rôle du sitemap grâce au fonctionnement de ces moteurs de recherche. Lors des analyses d’un site web, ils commencent par télécharger et analyser les fichiers robots.txt. Ils téléchargent ensuite la racine du site. En analysant le texte de la page, il va relever la liste des liens qu’elle contient. Ces liens seront par la suite téléchargés ainsi que les liens internes qu’ils contiennent. Cette procédure va alors continuer jusqu’à ce qu’il n’y ait plus de nouveau lien.
Si les URL d’un site web ne sont pas accessibles par sa racine, les robots des moteurs de recherches ne peuvent donc pas le trouver. C’est pour cette raison que le sitemap à été créé au départ. Il permet au webmaster d’un site web de montrer aux robots les URL qu’ils ne peuvent pas trouver d’eux-mêmes. Non seulement le fichier XML liste les URL, mais il a également en possession ses renseignements. On pourra donc y trouver la date de sa dernière mise à jour ainsi que la fréquence estimée du changement. Sans oublier son importance relative ou sa priorité dans le site.

Générer un fichier sitemap

Il existe trois façons de générer un fichier sitemap. Tout d’abord, il est possible de le faire manuellement. Il s’agit de créer un fichier en utilisant un éditeur XML. Vous pouvez également le faire par programmation. Cette méthode est la plus puissante. Elle s’adapte à tous les problématiques de votre site web. Pour ce faire, vous aurez à utiliser les bonnes librairies qui suivront votre langage de programmation pour créer le XML. Il faut tout de même vérifier le nombre d’URL. S’il risque d’atteindre le nombre maximal, vous devez les découper en plusieurs fichiers.
La dernière manière de générer un fichier seitmap est l’emploi d’outil de génération automatique. Celle-ci est une très bonne méthode, mais il faut toutefois faire attention lors de son application. Les outils de génération qui utilisent la même technique qu’un robot pour trouver les URL d’un site sont à éviter. Enfin, vous avez désormais toutes les clefs en main. À vous d’en faire un bon usage.