Le fichier robots txt

De Wiki Amis SH
Aller à la navigation Aller à la recherche



Le wiki : Accueil - Administrateur - Bureautique - Développeur - Intégrateur - Marketing - Multimédia - Objets numériques - Jeux - We make Hack


Le fichier robots.txt

# Le fichier robots.txt permet de paramétrer le passage des robots.

La directive User-Agent

User-Agent permet de préciser le robot concerné par les directives.

Autoriser l'indexation de votre site par les robots

# Insérer uniquement les deux lignes suivantes dans votre fichier robots.txt.
# La directive User-argent avec pour valeur l'étoile sélectionne tous les robots.
User-Agent: *
Disallow:

Interdire l'indexation de votre site par les robots

# Les robots standards d'indexation de contenu sont tous interdits avec la commande Disallow /.
User-agent: *
Disallow: /

Allow

# La directive Allow ne semble être prise en charge que par Google, Yahoo et Ask et permet d'identifier des répertoires ou des pages qui sont autorisés pour l'exploration.
# Pour autoriser Googlebot à accéder uniquement au répertoire "google":
# Noter que d'après mes lectures, la directive Allow devrait être placée en première position, suivie par la ou les commandes Disallow.
User-agent: Googlebot
Disallow: /
Allow: /google/

Interdire uniquement les mauvais robots

Un robot malveillant sert par exemple à collecter des adresses e-mail pour envoyer des spams ou rechercher des formulaires pour publier des liens et de la publicité.
Les robots malveillants pourront toujours accéder au contenu de votre site malgré la commande Disallow /.
Si le mauvais robot obéit à /robots.txt et que vous connaissez son nom de User-Agent alors vous pouvez créer une section dans votre /robotst.txt pour l'exclure spécifiquement.
Mais presque tous les mauvais robots ignorent /robots.txt ce qui rend cette méthode d'exclusion inutile.
Si le mauvais robot fonctionne à partir d'une seule adresse IP, vous pouvez bloquer son accès à votre serveur Web via la configuration du serveur ou avec un pare-feu réseau.
Si les le robot fonctionne avec de nombreuses adresses IP différentes alors cela devient plus difficile.
Utiliser des règles de pare-feu pour bloquer l'accès aux adresses IP qui établissent de nombreuses connexions.
Cette méthode peut permettre de bloquer les mauvais robots mais risque tout de même de bloquer les bons robots d'indexation.

Crawl-delay

# Certains sites Web avec des volumes élevés de trafic doivent ralentir les moteurs de recherche pour disposer de plus de ressources serveur pour pouvoir répondre aux demandes du trafic.
# Le délai d'exploration est une directive reconnue par Ask, Bing, Live Search, Yahoo!, Yandex et d'autres qui indique à un robot d'exploration le nombre de secondes d'attente entre chaque exploration de page.
Crawl-delay: 120
# Google ne supporte pas le paramètre Crawl-delay dans le fichier robots.txt.
# Google a confirmé ce point dans l'article What Crawl Budget Means for Googlebot : https://webmasters.googleblog.com/2017/01/what-crawl-budget-means-for-googlebot.html
# "The non-standard "crawl-delay" robots.txt directive is not processed by Googlebot.".
# Pour limiter la vitesse d'exploration maximale de Google, il est nécessaire de se connecter aux Outils pour les webmasters de Google et d'aller dans la section Configuration du site / Paramètres.
# Sélectionner l'option : Limiter la vitesse d'exploration maximale de Google.

Ne pas indexer le duplicata content

Le contenu présent en double pénalise le site internet.
Configurer le bot pour ne pas indexer les pages quand l'url contient le paramètre ?tmpl=component.
Interdire les pages finissant par ?tmpl=component avec la ligne suivante dans le fichier robots.txt :
## Vérifier si il s'agit de la bonne règle, avec ?tmpl=component placé à la fin de l'adresse.
## Que se passe t'il si ?tmpl=component n'est pas placé à la fin de l'adresse ?
## Disallow: /*?tmpl=component
Disallow: /?tmpl=component&type=raw

Exclure des pages de l'indexation

# Ne pas faire apparaître certaines pages dans la page de résultat des moteurs de recherche.
# Disallow: /repertoire/chemin/page.html
# Disallow: /repertoire/chemin/page2.html
# Disallow: /repertoire/chemin/page3.html

Exclure le fichier robots.txt de l'indexation

# Ne pas faire apparaître le fichier robots.txt dans la page de résultats des moteurs de recherche.
Disallow: /robots.txt

Exclure un dossier de l'indexation

# Exclure toutes les pages d'un dossier et les sous-dossiers de l'indexation.
User-Agent: *    
Disallow: /dossier/

Exclure certains modèles types d'adresse URL avec le pattern matching

# Le patern matching ou correspondance de modèle en français semble être utilisable par les trois robots les plus importants : Google, Yahoo et Live Search.
# Bloquer l'accès à tous les sous-répertoires commençant par "private" en utilisant le caractère générique astérisque.
User-agent: Googlebot
Disallow: /private*/
# Faire correspondre la fin de la chaîne en utilisant le signe dollar ($). Par exemple, pour bloquer les URL qui se terminent par .asp
User-agent: Googlebot
Disallow: /*.asp$
# Bloquer l'accès à toutes les URL qui incluent un point d'interrogation, utiliser simplement le point d'interrogation.
# Pas besoin de l'échapper ou de le précéder d'une barre oblique inverse.
User-agent: *
Disallow: /*?*
# Autoriser les robots à explorer tous les fichiers d'un type spécifique, par exemple, pour les images.
User-agent: *
Allow: /*.js*
Allow: /*.css*
Allow: /*.png*
Allow: /*.jpg*
Allow: /*.gif*
# Exclure toutes les URL contenant ? et son paramètre dynamique pour garantir que les robots n'explorent pas les pages dupliquées.
# Inclure les URL qui se terminent par un "?".
User-agent: Slurp
Disallow: /*? # Bloquer les url qui contiennent un ?
Allow: /*?$ # Autoriser les url qui finissent par ?

Noindex

Noindex au lieu de Disallow
Généralement, la directive noindex est incluse dans une balise meta robots.
Cependant, Google a pris en charge Noindex pendant de nombreuses années dans Robots.txt, de la même façon qu'un webmaster utiliserait Disallow.
Google autorise donc une directive Noindex dans le fichier robots.txt et supprime complètement toutes les URL de site correspondantes de Google.
John Meuller de Google recommande de ne pas utiliser noindex dans le fichier robots.txt.
User-agent: Googlebot
Disallow: /page-uno/
Noindex: /page-uno/

Ressources complémentaires pour le fichier robots.txt

 Source : https://www.sitemaps.org/fr
 Source : https://web.archive.org/web/20190326055432/https://www.yakaferci.com/robotstxt/
 Source : http://www.rankspirit.com/frobots.php
 Source : http://www.yapasdequoi.com/seo/3783-les-petites-subtilites-du-fichier-robots-txt-qui-peuvent-faire-mal.html
 Source : https://web.archive.org/web/20180710114701/https://craym.eu/tutoriels/referencement/fichier_robot_txt.html
 Source : https://alphadesign.fr/joomla/checklist-seo-pour-joomla-referencement-joomla/robots-txt.html
 Source : http://www.commentcamarche.net/faq/10609-robots-txt-un-fichier-important
 Source : https://www.fred-net.fr/blog/joomla/joomla-et-le-fichier-robots
 Source : http://robots-txt.com
 Source : http://robots-txt.com/ressources/
 Source : http://robots-txt.com/sitemaps/
 Source : https://moz.com/learn/seo/robotstxt
 Source : http://www.robotstxt.org/robotstxt.html
 Source : https://developers.google.com/search/reference/robots_txt
 Source : https://support.google.com/webmasters/answer/6062608?hl=fr&ref_topic=6061961&rd=1
 Source : http://www.grey-hat-seo.com/manuel-ghs-tools/verifier-presence-fichier-robots-txt-vos-sites
 Source : Le fichier robots.txt pour WordPress : https://wpformation.com/robots-txt-wordpress/
 Source : Bibliographie - Lien vers Vision du web pour le fichier robots.txt : https://fr.wikipedia.org/wiki/Protocole_d%27exclusion_des_robots

Indiquer le chemin du fichier sitemap dans le fichier robots.txt

# Le fichier robots.txt peut être utilisé pour préciser l'emplacement du fichier sitemap.xml si celui-ci n'est pas situé à la racine du site.
# Les principaux moteurs de recherche prennent en charge le protocole Sitemap Auto-Discovery, notamment Google, Yahoo, Live Search et Ask.
# Ajouter à la fin du fichier robots.txt :
Sitemap: /sitemap.xml
# Ou :
Sitemap: https://www.visionduweb.fr/sitemap.xml

Le fichier sitemap.xml

Le fichier sitemap.xml.

Valider la syntaxe du fichier robots.txt

Utiliser un générateur de fichier robots.txt : https://www.internetmarketingninjas.com/seo-tools/robots-txt-generator/
Tester la présence du fichier robots.txt et détecter les erreurs sur le fichier robots.txt : https://seositecheckup.com/tools/robotstxt-test
Les DNS de Cloudflare empêchent la lecture du fichier robots.txt avec Browsershots. Ce n'est donc pas le fichier robots.txt qui est mal renseigné.

Consoles des moteurs de recherche

Console Google

Google Webmaster Central.
Tester le fichier robots.txt dans Google Webmaster Tools : https://www.google.com/webmasters/tools
Il ne vérifie pas si les ressources bloquées sont  cruciales ou non pour votre site.
Utiliser alors l'outil "Explorer comme Google"
Exploration > Outils de test du fichier robots.txt
Google précise sur cette page les fichiers bloqués par votre fichier robots.txt.
Tester si le site est adapté aux mobiles (Mobile Friendly) : https://search.google.com/test/mobile-friendly?utm_source=mft&utm_medium=redirect&utm_campaign=mft-redirect
# Une erreur est affichée :
# Vérifier si le dossier templates est autorisé dans la version de production !
# https://www.domaine.ext/components/com_uddeim/templates/default/css/uddemodule.css	Feuille de style	Googlebot est bloqué par le fichier robots.txt
Google Pagespeed Insights
Google Pagespeed Insight fait une estimation de vitesse de chargement de la page sur mobile.
Site officiel : https://developers.google.com/speed/pagespeed/insights/

Console Live Search

Live Search Webmaster Center.

Console Yahoo

Yahoo Site Explorer.

Conflits entre le fichier robots.txt et la balise meta name robots

# Si le fichier robots.txt et les instructions meta tag des robots sont en conflit pour une page, les robots suivent les instructions les plus restrictives.
# Une page refusée à l'indexation par le fichier robots.txt ne sera pas indexée et les robots ne liront jamais les META tags.
# Une page autorisée à l'indexation avec le fichier robots.txt mais refusée à l'indexation à l'aide de <meta name="googlebot" content="noindex"> ne sera pas indexée.
# Googlebot lira la balise META et n'indexera pas la page.

Le fichier robots.txt n'est pas un réglage de sécurité

# Le fichier robots.txt sert uniquement a renseigner les robots d'indexation.
# Par contre, les robots malveillants liront également le fichiers robots.txt.
# Il est recommandé de ne pas renseigner d'informations trop explicites, comme par exemple, interdire le référencement d'un fichier de mots de passe.
# L'astuce suivante permet d'interdire le référencement d'un fichier sensible.
# Cette ligne interdit l'indexation de toutes les adresses commençant par "/abcd/fichier_top".
# Cette ligne interdit de ce fait l'indexation de tous les les fichiers plus long basés sur le même début de nom : "/abcd/fichier_top_secret_dont_le_nom_est_123456.html".
Disallow: /abcd/fichier_top

Autoriser le fichier robots.txt avec Apache2

# Pour pouvoir informer les robots avec les règles d'indexation qui ont été configurées, le fichier robots.txt doit toujours être accessible depuis le serveur web.
# Ajouter le code suivant dans le VirtualHost ou dans le fichier .htaccess du site.
# Toujours autoriser la consultation du fichier robots.txt :
<Files robots.txt>
Require all granted
</Files>

Empêcher l'indexation d'un site miroir créé sur un sous-domaine via le fichier robots.txt

# Dans le cas d'un site miroir, le contenu et le code sont entièrement dupliqués.
# Les fichiers ".htaccess" sont donc identiques entre les deux sites.
# Utiliser la directive "RewriteRule" pour réécrire l'adresse du fichier "robots.txt".
# Lorsqu'un internaute ou un robot accède à la page https://www.monsite.fr, le fichier "robots.txt" sera affiché normalement.
# Si le domaine consulté est http://www.miroir.monsite.fr, le fichier "robots.txt" sera redirigé vers le fichier "robots-miroir.txt".
# Si le nom de domaine demandé est le sous-domaine, on redirige le fichier "robots.txt" vers un autre fichier "robots.txt" qui interdit l'indexation du site.
<IfModule mod_rewrite.c>
 RewriteEngine on
 RewriteCond %{HTTP_Host} ^miroir\.monsite\.fr$ [NC]
 RewriteRule ^/robots\.txt$  /robots-miroir.txt [L]
</IfModule>
# Dans le fichier "robots-miroir.txt", ajouter les instructions interdisant l'accès et le référencement du sous-domaine :
User-agent: *
Disallow: /

Le fichier robots.txt pour Joomla

Le fichier robots.txt pour Joomla.

NAVIGATION

PARTICIPER ET PARTAGER

Bienvenue sur le wiki de Amis SH.
De nombreuses pages sont partagées sur ce wiki.
Créer un compte utilisateur pour participer sur le wiki.
Les pages présentées sur le wiki évoluent tous les jours.
Certaines recherches sont peu abouties et incluent des erreurs.
Utiliser la recherche interne du wiki pour trouver votre contenu.
La page de discussion de Amis SH vous permet de poser vos questions.
Consulter le site amis-sh.fr pour installer votre propre serveur web.
Améliorer le contenu des pages avec vos retours depuis l'onglet discussion.
Ce contenu ne doit pas servir à nuire à autrui ou à un système informatique.
Protéger votre système Linux ou Windows avec cette page dédiée à la sécurité.

SOUTENIR CE WIKI

Soutenir le wiki avec un don en monnaie numérique :
AEON - Bitcoins - Bitcoins Cash - Bitcoins Gold - Bitcore - Blackcoins - Basic Attention Token - Bytecoins - Clams - Dash - Monero - Dogecoins - Ğ1 - Ethereum - Ethereum Classique - Litecoins - Potcoins - Solarcoins - Zcash

OBTENIR DE LA MONNAIE NUMERIQUE

Obtenir gratuitement de la monnaie numérique :
Miner de la cryptomonnaie.