Je vais vous parler d’un problème qui peut nous arriver à tous. Un problème rencontré sur un fichier robots.txt et qui m’amène aujourd’hui à vous en faire la démonstration. Je ne vais pas revenir dans cet article sur le robots.txt en tant que tel (directives robots, blocage de fichiers, dossiers, source sitemap etc.), mais sur un problème invisible qui peut se cacher dans celui-ci, et avoir un impact catastrophique pour votre référencement naturel. La nomenclature UTF-8 BOM.
Comment un seul caractère, qui plus est invisible, peut mettre à mal votre fichier robots.txt et par conséquence le crawl de votre site ? Etudions cela ensemble.
Qu’est-ce que le UTF-8 BOM ?
BOM veut dire Byte Order Mark, cette nomenclature est utilisée pour indiquer l’ordre des octets dans un flux de texte. C’est un caractère invisible situé au début d’un fichier. Certains outils et programmes ajoutent ce caractère automatiquement. Le problème est qu’on ne le voit pas forcément, et que cela peut causer de sérieux dégats quand les robots essayeront d’analyser votre ficher.
Qu’arrive-t-il à votre fichier quand l’UTF-8 BOM est présent ?
Ce caractère invisible étant placé au début du fichier, il va la plupart du temps masquer la ligne « User-agent : », qui sera donc ignorée … Et si aucun user-agent n’est présent dans votre fichier, toutes les autres lignes seront considérées comme des erreurs et de ce fait, ignorées par Google. Avec tous les problèmes SEO qui en découlent.
Voici un exemple d’un fichier robots.txt en UTF-8 BOM :
L’exemple parle de lui même …
Comment identifier que mon robots.txt est en UTF-8 BOM ?
Utilisez l’outil de test du fichier robots.txt sur la Search Console de Google. Si vous voyez une croix rouge sur la première ligne, dans l’exemple la ligne User-agent : *, alors il y a de grande chance que vous ayez un problème avec le BOM.
Rendez-vous sur le site W3C Internalization Checker. Vous pourrez uploader votre fichier pour vérifier la présence de UTF-8 BOM.
Comment résoudre ce problème d’UTF-8 BOM dans votre fichier robots.txt ?
Rien de plus simple ! Utilisez un éditeur de texte type Textpad pour créer votre fichier et prenez soin de décocher si besoin la case UNICODE BOM. Bien sûr, n’utilisez pas des soft comme Microsoft Word pour générer vos fichiers … Vous pouvez ensuite re tester votre fichier sur l’outil du W3C.
Appliquez votre fichier robots.txt à la racine du site et testez-le à nouveau sur la Search Console.
Attention : Le robots.txt sert à bloquer vos url, dossiers et fichiers, et non à les désindexer 😉
Si vous pensez avoir des problèmes au niveau de votre crawl ou de votre indexation, n’hésitez pas à nous contacter !
That’s all folks !
Sources: Glenn Gabe, W3C, Searc Console Google