Liste de robots
Aller à la navigation
Aller à la recherche
Le wiki : Accueil - Administrateur - Bureautique - Développeur - Intégrateur - Marketing - Multimédia - Objets numériques - Jeux - We make Hack
Liste de robots
AhrefsBot
# Le robot est censé suivre les recommandations du fichier "robots.txt" ce qui ne semble pas si évident. # Refuser le robot AhrefsBot en le plaçant dans la liste des robots bloqués permettra à votre serveur de moins souffrir du fait des nombreux passages à répétition de ce robot.
Site officiel : https://ahrefs.com/fr/ Page d'aide : https://help.ahrefs.com/en/
# Liste probable d'adresses IP pour le robot AhrefsBot :
54.36.148.0/24 54.36.149.0/24 54.36.150.0/24 195.154.122.0/24 195.154.123.0/24 195.154.126.0/24 195.154.127.0/24
AspiegelBot de Huawei
# AspiegelBot explore et indexe pour Huawei pour son moteur de recherche bêta.
# Ce robot est censé suivre les règles d'indexation du fichier robots.txt mais pourtant, il semble réellement faire de l'indexation sauvage, plusieurs fois par minute. # Cela va réduire les performances pour un petit serveur, de ce fait, on peut éventuellement bloquer ce robot.
# Liste probable d'adresses IP pour le robot AspiegelBot :
114.119.160.12 114.119.160.18 114.119.160.31 114.119.160.43 114.119.160.50 114.119.160.56 114.119.160.87 114.119.160.101 114.119.160.106 114.119.160.141 114.119.160.144 114.119.160.150 114.119.160.167 114.119.160.171 114.119.160.189 114.119.160.200 114.119.160.217 114.119.160.223 114.119.160.224 114.119.160.245 114.119.161.4 114.119.161.19 114.119.161.43 114.119.161.51 114.119.161.55 114.119.161.58 114.119.161.76 114.119.161.82 114.119.161.83 114.119.161.113 114.119.161.114 114.119.161.116 114.119.161.121 114.119.161.132 114.119.161.134 114.119.161.150 114.119.161.167 114.119.161.183 114.119.161.244 114.119.161.227 114.119.161.251 114.119.162.2 114.119.162.19 114.119.162.20 114.119.162.34 114.119.162.40 114.119.162.44 114.119.162.56 114.119.162.57 114.119.162.64 114.119.162.66 114.119.162.91 114.119.162.133 114.119.162.165 114.119.162.195 114.119.162.200 114.119.162.206 114.119.162.207 114.119.162.212 114.119.162.224 114.119.162.249 114.119.162.250 114.119.163.3 114.119.163.13 114.119.163.16 114.119.163.20 114.119.163.36 114.119.163.56 114.119.163.63 114.119.163.81 114.119.163.86 114.119.163.108 114.119.163.117 114.119.163.121 114.119.163.123 114.119.163.142 114.119.163.147 114.119.163.161 114.119.163.173 114.119.163.175 114.119.163.183 114.119.163.197 114.119.163.239 114.119.164.1 114.119.164.3 114.119.164.7 114.119.164.19 114.119.164.33 114.119.164.46 114.119.164.47 114.119.164.71 114.119.164.81 114.119.164.85 114.119.164.96 114.119.164.108 114.119.164.112 114.119.164.115 114.119.164.118 114.119.164.132 114.119.164.155 114.119.164.156 114.119.164.166 114.119.164.183 114.119.164.196 114.119.164.206 114.119.164.207 114.119.164.213 114.119.164.233 114.119.164.253 114.119.165.6 114.119.165.15 114.119.165.23 114.119.165.28 114.119.165.41 114.119.165.42 114.119.165.52 114.119.165.59 114.119.165.62 114.119.165.83 114.119.165.93 114.119.165.108 114.119.165.115 114.119.165.120 114.119.165.122 114.119.165.125 114.119.165.127 114.119.165.148 114.119.165.168 114.119.165.169 114.119.165.175 114.119.165.199 114.119.165.202 114.119.165.213 114.119.165.227 114.119.165.229 114.119.165.230 114.119.165.250 114.119.166.1 114.119.166.58 114.119.166.79 114.119.166.105 114.119.166.107 114.119.166.156 114.119.166.231 114.119.166.236 114.119.166.239 114.119.166.240 114.119.166.241 114.119.167.13 114.119.167.38 114.119.167.45 114.119.167.48 114.119.167.56 114.119.167.62 114.119.167.96 114.119.167.109 114.119.167.113 114.119.167.130 114.119.167.138 114.119.167.139 114.119.167.154 114.119.167.161 114.119.167.181 114.119.167.209 114.119.167.215 114.119.167.241 114.119.167.248
Googlebot de Google
Googlebot est le robot spécialisé pour la recherche sur le web. Il explore les pages à partir de l'index Web et de l'index des actualités.
Les pages bloquées par disallows avec le fichier robots.txt peuvent toujours figurer dans l'index de Google. Elles apparaîtrons dans les résultats de la recherche, en particulier, si d'autres sites ont créés un lien. Un classement élevé est peu probable puisque le robot de Google n'a pas l'autorisation de visiter cette page. Pour ne pas ajouter la page à l'index d'un moteur de recherche, même si d'autres sites l'ont liés, utiliser la balise meta name robots noindex. La page ne doit pas être interdite depuis le fichier robots.txt ce qui permet aux robots de reconnaître la balise meta name robots noindex et de supprimer l'url de l'index.
# Google utilise plusieurs robots (user-agents) différents. # Les autres robots de Google respectent les règles définies pour Googlebot. # Autoriser les robots Googlebot mais bloquer l'accès à tous les autres robots. User-agent: Googlebot Allow: / User-agent: * Disallow: /
# Ne pas autoriser les robots Googlebot à visiter le contenu du site. # Le blocage de Googlebot bloque tous les robots commençant par "Googlebot". User-agent: Googlebot Disallow: /
Note sur l'ordre des directives
Le GoogleBot impose de placer les Allow avant les Disallow. Ce n'est pas forcement le cas pour tout les bots, certains ne comprennent même pas les Allow. Si vous avez besoin d’être référencé correctement sur un autre bot, il faudra dupliquer et adapter les règles pour le robot concerné.
Autres robots de Google
Des règles supplémentaires peuvent être définies pour les robots spécifiques suivants :
Googlebot : Le spider de crawl et d’indexation pour desktop et mobiles.
Googlebot-Image : Permet de référencer les images dans Google Images. Googlebot-Mobile : Permet les pages pour mobile. Googlebot-News : Pour les sites d’actualités. Googlebot-Video : Pour configurer l’affichage des vidéos dans la SERP. Mediapartners-Google : Explore les pages pour déterminer le contenu AdSense, explore uniquement les sites si les annonces AdSense sont diffusées. Adsbot-Google : Explore pour mesurer la qualité de la page de destination AdWords, explore uniquement les sites qui utilisent Google AdWords pour faire de la publicité.
Le robot bingbot
User-agent: bingbot Autres règles spécifiques à ce bot.
Le robot de Semrush
Bloquer le robot de Semrush avec le fichier robots.txt
# Page officielle du robot Semrush : https://www.semrush.com/bot/
# Interdire tous les robots : User-agent: * Disallow: / # Interdire Googlebot : User-agent: Googlebot Disallow: / # Empêcher SEMrushBot d'analyser votre site avec un graphe Web de liens : User-agent: SemrushBot Disallow: / # Supprimer SEMrushBot de l'analyse de votre site pour différents problèmes techniques et de référencement : User-agent: SemrushBot-SA Disallow: / # Pour empêcher SEMrushBot d'explorer votre site pour l'outil d'audit Backlink : User-agent: SemrushBot-BA Disallow: / # Pour empêcher SEMrushBot d'explorer votre site pour l'outil On Page SEO Checker et des outils similaires : User-agent: SemrushBot-SI Disallow: / # Pour empêcher SEMrushBot de vérifier les URL de votre site pour l'outil SWA : User-agent: SemrushBot-SWA Disallow: / # Pour empêcher SEMrushBot d'explorer votre site pour les outils Content Analyzer et Post Tracking : User-agent: SemrushBot-CT Disallow: / # Pour empêcher SEMrushBot d'explorer votre site pour la surveillance de la marque : User-agent: SemrushBot-BM Disallow: /
Bloquer avec PHP et HTTP_USER_AGENT
Source : https://www.blackhatworld.com/seo/block-semrush.838057/
Les adresses IP de SemRush
# Le support de Semrush propose de bloquer les adresses IP suivantes pour ne plus subir les visites de Semrush : 46.229.168.65 46.229.168.82 192.243.53.51 213.174.146.211 213.174.146.212 213.174.146.213 46.229.173.66 46.229.173.67 46.229.173.68 213.174.147.83 192.243.56.76 213.174.153.121 18.197.42.174 35.177.199.105 13.53.129.183 192.243.55.95 85.208.96.41 192.243.53.25 192.243.53.31 192.243.53.32
Bloquer Semrush avec Bad Blocker
Source : Bloquer des Bots et des URL indésirables avec Bad Bot Blocker.
SerendeputyBot
Serendeputy est un robot de flux d'actualités. Robot SerendeputyBot : https://serendeputy.com/about/serendeputy-bot
Autres robots connus
User-Agent: msnbot User-Agent: Baiduspider User-Agent: Mail.RU_Bot User-Agent: MegaIndex User-Agent: MJ12bot User-Agent: Pinterestbot User-Agent: proximic User-Agent: PubMatic User-Agent: ScoutJet User-Agent: Scooter (Alta Vista) User-Agent: SeznamBot User-Agent: ArchitextSpider (Excite) User-Agent: Slurp (HotBot) User-Agent: InfoSeek Sidewinder (InfoSeek) User-Agent: T-Rex (Lycos) User-Agent: Echo (Voilà)
Liste de 15627 User-Agent : https://www.aqtronix.com/useragents/
NAVIGATION
PARTICIPER ET PARTAGERBienvenue sur le wiki de Amis SH. De nombreuses pages sont partagées sur ce wiki. Créer un compte utilisateur pour participer sur le wiki. Les pages présentées sur le wiki évoluent tous les jours. Certaines recherches sont peu abouties et incluent des erreurs. Utiliser la recherche interne du wiki pour trouver votre contenu. La page de discussion de Amis SH vous permet de poser vos questions. Consulter le site amis-sh.fr pour installer votre propre serveur web. Améliorer le contenu des pages avec vos retours depuis l'onglet discussion. Ce contenu ne doit pas servir à nuire à autrui ou à un système informatique. Protéger votre système Linux ou Windows avec cette page dédiée à la sécurité. |
SOUTENIR CE WIKISoutenir le wiki avec un don en monnaie numérique : AEON - Bitcoins - Bitcoins Cash - Bitcoins Gold - Bitcore - Blackcoins - Basic Attention Token - Bytecoins - Clams - Dash - Monero - Dogecoins - Ğ1 - Ethereum - Ethereum Classique - Litecoins - Potcoins - Solarcoins - Zcash OBTENIR DE LA MONNAIE NUMERIQUEObtenir gratuitement de la monnaie numérique : Miner de la cryptomonnaie. |