Le fichier robots.txt : des instructions pour les moteurs d’indexation
Après une pause saisonnière plutôt bien mérité, nous revenons pour vous livrer les dernières clés d’un référencement réussi. Après les différentes balises, nous restons dans le code pour aborder le fichier robots.txt.
Nous entrons de plus en plus dans le vif du sujet, aujourd’hui nous allons voir un fichier qui va nous permettre de “contrôler” les pages indexées par les moteurs de recherche afin d’éviter l’exploration des pages de résultats de recherche par ceux-ci et qui n’offrent pas d’intérêt particulier pour l’internaute.
Qu’est-ce que le fichier robots.txt et comment fonctionne-t-il ?
Le robots.txt est un fichier qui permet d’envoyer des informations aux robots des moteurs de recherche (Google, Bing…), ce fichier texte est disponible à une URL précise qui est unique pour chaque site, comme ceci : http://monsite.fr/robots.txt.
Le fichier robots.txt sert essentiellement à limiter l’indexation des robots des moteurs de recherche, il existe deux types de limitation :
- interdire à certains moteurs de recherche d’indexer le site
- interdire l’indexation de certaines pages, images et/ou répertoires de votre site.
Mais pour bien comprendre ce qu’est un fichier robots.txt ainsi que son utilité, revenons rapidement sur le fonctionnement d’un moteur de recherche.
Un moteur de recherche (ex : Google) possède des robots appelés aussi spiders, crawlers ou bots, ces robots parcourent les urls et indexent les pages dont ils en ont l’autorisation. Dès qu’ils accèdent à un lien, ils interrogent directement le fichier robots.txt afin de savoir quelles sont les URLs qu’ils sont autorisés à télécharger. Ainsi les robots parcourent les différentes pages de liens en liens…
Construire un fichier robots.txt
Après la théorie, la pratique, vous allez devoir mettre les mains à la pâte ! Pour créer un fichier robots.txt, vous devez démarrer un éditeur de texte (notepad++, smultron) et enregistrer votre fichier avec l’extension .txt .
La première ligne est composée de l’user-agent avec un astérisque, celle-ci indique aux robots les limitations indiquées dans les commandes disallow.
Les lignes disallow suivantes indiquent aux spiders qu’ils ne doivent pas indexer les fichiers se trouvant dans les répertoires wp-admin et wp-includes.
Revenons sur quelques généralités concernant ce fichier :
- il doit être unique et situé à la racine de votre site
- par précaution, écrivez tout le fichier en minuscule
- il doit être composé d’une commande par ligne
- la commande dissalow ne peut être suivi que d’une seule page, d’un seul fichier ou d’un seul répertoire, chaque entité différente devra faire l’objet d’une ligne supplémentaire
- l’astérisque n’est accepté que dans le champ user-agent (sauf exception)
- si le fichier robots.txt est inexistant, toutes les pages de votre site seront indexées.
Notons que l’on peut créer dans un seul et même fichier avec plusieurs sections user-agent pour limiter l’indexation en fonction de chaque moteur de recherche ; et qu’il existe des commandes spécifiques selon les moteurs de recherche, comme celui de Google par exemple.
Pour aller plus loin
Pour plus d’informations sur la création du fichier robots.txt, consultez le support Google pour webmaster ou le site Robots-txt.com.