Pour faire simple, un fichier robots.txt permet de cacher aux robots d’explorations (GoogleBot, BingBot etc.. ) certaines parties de votre site que ce soit des images ou autres fichiers ressources. En se plaçant à la racine de votre site, il permet de déterminer les parties qui peuvent être explorées. Il choisit en même temps le type de moteur d’exploration qui peut explorer le contenu.
Quel est le rôle de ce fichier de contrôle d’indexation de site ?
Grâce à l’utilisation de ce fichier, vous avez la possibilité d’interdire l’exploration de votre site aux robots. Cette interdiction peut dépendre de la page que vous souhaitez cacher. Il peut également empêcher certains spiders à explorer votre site ou certaines de vos pages. En effet, le robot est un simple fichier qui permet de trouver s’il y a un nouveau contenu. Il peut également détecter si un contenu déjà mis en place a été modifié. Le robots.txt sert à communiquer à ces spiders des instructions. Il les indique alors ceux qu’ils doivent ou ceux qu’ils ne doivent pas indexer. Les robots de moteurs de recherches doivent donc consulter le robots.txt avant d’indexer un site web.
Toutefois, ne vous servez pas de ce fichier si vous souhaitez masquer votre page web. Lorsque les internautes font des recherches sur Google, il est possible qu’ils ne voient pas directement votre page web. Par contre, lorsqu’ils ouvrent d’autres sites, ils peuvent être dirigés vers la page que vous avez cachée. Dans ce genre de cas, il serait alors préférable d’opter pour d’autres moyens. Recourez aux balises noindex ou bien protégez votre site en utilisant un mot de passe. Quant aux fichiers images, vous pouvez les masquer lors des recherches google. Par contre, les internautes peuvent les trouver en se servant d’autres liens. Avant d’utiliser le fichier, il est donc important de savoir jusqu’ou il peut aller.
Quelles sont les limites de ce fichier important dans le référencement ?
Le fichier robots.txt est un élément de référencement. Il permet au moteur de recherche Google d’indiquer les pages qui peuvent ou qui ne peuvent pas être indexées. Il s’agit donc d’une consigne et non d’une règle. En effet, si certains robots sérieux suivent les instructions données par le robots.txt, d’autres peuvent l’ignorer. Ce qui indique que l’on ne peut pas compter seulement sur ce moyen pour cacher ses pages. Il est plutôt conseillé d’adapter d’autres méthodes de sécurisation. Utilisez un mot de passe pour protéger les fichiers privés de votre serveur.
Il peut également arriver que deux robots différents interprètent la syntaxe de diverses manières. Il est donc important de connaître les syntaxes appropriées pour l’adapter à chaque type de robot de recherche. Quant aux pages bloquées par un robot, ils ne seront pas directement visibles sur le moteur de recherche, mais les internautes peuvent les trouver sur d’autres pages web. Votre fichier ne sera donc pas découvert dès la première recherche, mais on peut le trouver grâce aux liens qui mènent à la page.
Comment créer le fichier en question ?
Tout d’abord, vous devez retenir qu’un robots.txt ne peut se trouver qu’à un seul endroit de votre site. Il se place uniquement à la racine. Il est très facile de le créer, pas besoin d’une connaissance particulière en matière de programmation. Il existe quatre outils essentiels qui le composent dont le User-agent, Disallow, Allow et Sltemap. L’idéal est que le fichier soit capable de s’adresser à tous les robots. Par contre, dans certains cas particuliers, le User-agent sert à détecter à quel robot on s’adresse. La commande principale est le Disallow, elle permet de protéger votre site ou votre page. Vous pouvez même vous en servir pour éviter d’indexer un répertoire tout entier.
Comme le robots.txt sert aussi à indiquer certains pages, il existe également la commande Allow. Elle est peu implicite, car les pages le sont déjà automatiquement. On l’utilise dans le cas ou vous souhaitez qu’un répertoire ne soit indiqué, mais qu’une partie reste quand même explorable. La dernière commande est la Sltemap. Ceci est un fichier opposé au robots.txt. Il sert à indiquer la page que l’on veut indexer. Enfin, il faut retenir que le fichier robots.txt sert à empêcher l’indexation de vos pages et non les bloquer. Ces différentes commandes se complètent alors afin d’indexer ou de cacher vos répertoires. En jouant chacun son propre rôle, ils peuvent diriger le moteur de recherche dans l’exploration de votre site.