Liste de robots

De Wiki Amis SH
Aller à la navigation Aller à la recherche



Le wiki : Accueil - Administrateur - Bureautique - Développeur - Intégrateur - Marketing - Multimédia - Objets numériques - Jeux - We make Hack


Liste de robots

AhrefsBot

# Le robot est censé suivre les recommandations du fichier "robots.txt" ce qui ne semble pas si évident.
# Refuser le robot AhrefsBot en le plaçant dans la liste des robots bloqués permettra à votre serveur de moins souffrir du fait des nombreux passages à répétition de ce robot.
Site officiel : https://ahrefs.com/fr/
Page d'aide : https://help.ahrefs.com/en/
# Liste probable d'adresses IP pour le robot AhrefsBot :
54.36.148.0/24
54.36.149.0/24
54.36.150.0/24
195.154.122.0/24
195.154.123.0/24
195.154.126.0/24
195.154.127.0/24

AspiegelBot de Huawei

# AspiegelBot explore et indexe pour Huawei pour son moteur de recherche bêta.
# Ce robot est censé suivre les règles d'indexation du fichier robots.txt mais pourtant, il semble réellement faire de l'indexation sauvage, plusieurs fois par minute.
# Cela va réduire les performances pour un petit serveur, de ce fait, on peut éventuellement bloquer ce robot.
# Liste probable d'adresses IP pour le robot AspiegelBot :
114.119.160.12
114.119.160.18
114.119.160.31
114.119.160.43
114.119.160.50
114.119.160.56
114.119.160.87
114.119.160.101
114.119.160.106
114.119.160.141
114.119.160.144
114.119.160.150
114.119.160.167
114.119.160.171
114.119.160.189
114.119.160.200
114.119.160.217
114.119.160.223
114.119.160.224
114.119.160.245
114.119.161.4
114.119.161.19
114.119.161.43
114.119.161.51
114.119.161.55
114.119.161.58
114.119.161.76
114.119.161.82
114.119.161.83
114.119.161.113
114.119.161.114
114.119.161.116
114.119.161.121
114.119.161.132
114.119.161.134
114.119.161.150
114.119.161.167
114.119.161.183
114.119.161.244
114.119.161.227
114.119.161.251
114.119.162.2
114.119.162.19
114.119.162.20
114.119.162.34
114.119.162.40
114.119.162.44
114.119.162.56
114.119.162.57
114.119.162.64
114.119.162.66
114.119.162.91
114.119.162.133
114.119.162.165
114.119.162.195
114.119.162.200
114.119.162.206
114.119.162.207
114.119.162.212
114.119.162.224
114.119.162.249
114.119.162.250
114.119.163.3
114.119.163.13
114.119.163.16
114.119.163.20
114.119.163.36
114.119.163.56
114.119.163.63
114.119.163.81
114.119.163.86
114.119.163.108
114.119.163.117
114.119.163.121
114.119.163.123
114.119.163.142
114.119.163.147
114.119.163.161
114.119.163.173
114.119.163.175
114.119.163.183
114.119.163.197
114.119.163.239
114.119.164.1
114.119.164.3
114.119.164.7
114.119.164.19
114.119.164.33
114.119.164.46
114.119.164.47
114.119.164.71
114.119.164.81
114.119.164.85
114.119.164.96
114.119.164.108
114.119.164.112
114.119.164.115
114.119.164.118
114.119.164.132
114.119.164.155
114.119.164.156
114.119.164.166
114.119.164.183
114.119.164.196
114.119.164.206
114.119.164.207
114.119.164.213
114.119.164.233
114.119.164.253
114.119.165.6
114.119.165.15
114.119.165.23
114.119.165.28
114.119.165.41
114.119.165.42
114.119.165.52
114.119.165.59
114.119.165.62
114.119.165.83
114.119.165.93
114.119.165.108
114.119.165.115
114.119.165.120
114.119.165.122
114.119.165.125
114.119.165.127
114.119.165.148
114.119.165.168
114.119.165.169
114.119.165.175
114.119.165.199
114.119.165.202
114.119.165.213
114.119.165.227
114.119.165.229
114.119.165.230
114.119.165.250
114.119.166.1
114.119.166.58
114.119.166.79
114.119.166.105
114.119.166.107
114.119.166.156
114.119.166.231
114.119.166.236
114.119.166.239
114.119.166.240
114.119.166.241
114.119.167.13
114.119.167.38
114.119.167.45
114.119.167.48
114.119.167.56
114.119.167.62
114.119.167.96
114.119.167.109
114.119.167.113
114.119.167.130
114.119.167.138
114.119.167.139
114.119.167.154
114.119.167.161
114.119.167.181
114.119.167.209
114.119.167.215
114.119.167.241
114.119.167.248

Googlebot de Google

Googlebot est le robot spécialisé pour la recherche sur le web. Il explore les pages à partir de l'index Web et de l'index des actualités.
Les pages bloquées par disallows avec le fichier robots.txt peuvent toujours figurer dans l'index de Google.
Elles apparaîtrons  dans les résultats de la recherche, en particulier, si d'autres sites ont créés un lien.
Un classement élevé est peu probable puisque le robot de Google n'a pas l'autorisation de visiter cette page.
Pour ne pas ajouter la page à l'index d'un moteur de recherche, même si d'autres sites l'ont liés, utiliser la balise meta name robots noindex.
La page ne doit pas être interdite depuis le fichier robots.txt ce qui permet aux robots de reconnaître la balise meta name robots noindex et de supprimer l'url de l'index.
# Google utilise plusieurs robots (user-agents) différents.
# Les autres robots de Google respectent les règles définies pour Googlebot.
# Autoriser les robots Googlebot mais bloquer l'accès à tous les autres robots.
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
# Ne pas autoriser les robots Googlebot à visiter le contenu du site.
# Le blocage de Googlebot bloque tous les robots commençant par "Googlebot".
User-agent: Googlebot
Disallow: /

Note sur l'ordre des directives

Le GoogleBot impose de placer les Allow avant les Disallow.
Ce n'est pas forcement le cas pour tout les bots, certains ne comprennent même pas les Allow.
Si vous avez besoin d’être référencé correctement sur un autre bot, il faudra dupliquer et adapter les règles pour le robot concerné.

Autres robots de Google

Des règles supplémentaires peuvent être définies pour les robots spécifiques suivants :
Googlebot : Le spider de crawl et d’indexation pour desktop et mobiles.
Googlebot-Image : Permet de référencer les images dans Google Images.
Googlebot-Mobile : Permet les pages pour mobile.
Googlebot-News	: Pour les sites d’actualités.
Googlebot-Video : Pour configurer l’affichage des vidéos dans la SERP.
Mediapartners-Google : Explore les pages pour déterminer le contenu AdSense, explore uniquement les sites si les annonces AdSense sont diffusées.
Adsbot-Google : Explore pour mesurer la qualité de la page de destination AdWords, explore uniquement les sites qui utilisent Google AdWords pour faire de la publicité.

Le robot bingbot

User-agent: bingbot
Autres règles spécifiques à ce bot.

Le robot de Semrush

Bloquer le robot de Semrush avec le fichier robots.txt

# Page officielle du robot Semrush : https://www.semrush.com/bot/
# Interdire tous les robots :
User-agent: *
Disallow: /

# Interdire Googlebot :
User-agent: Googlebot
Disallow: /

# Empêcher SEMrushBot d'analyser votre site avec un graphe Web de liens :
User-agent: SemrushBot
Disallow: /
# Supprimer SEMrushBot de l'analyse de votre site pour différents problèmes techniques et de référencement :
User-agent: SemrushBot-SA
Disallow: /
# Pour empêcher SEMrushBot d'explorer votre site pour l'outil d'audit Backlink :
User-agent: SemrushBot-BA
Disallow: /
# Pour empêcher SEMrushBot d'explorer votre site pour l'outil On Page SEO Checker et des outils similaires :
User-agent: SemrushBot-SI
Disallow: /
# Pour empêcher SEMrushBot de vérifier les URL de votre site pour l'outil SWA :
User-agent: SemrushBot-SWA
Disallow: /
# Pour empêcher SEMrushBot d'explorer votre site pour les outils Content Analyzer et Post Tracking :
User-agent: SemrushBot-CT
Disallow: /
# Pour empêcher SEMrushBot d'explorer votre site pour la surveillance de la marque :
User-agent: SemrushBot-BM
Disallow: /

Bloquer avec PHP et HTTP_USER_AGENT

Source : https://www.blackhatworld.com/seo/block-semrush.838057/

Les adresses IP de SemRush

# Le support de Semrush propose de bloquer les adresses IP suivantes pour ne plus subir les visites de Semrush :
46.229.168.65
46.229.168.82
192.243.53.51
213.174.146.211
213.174.146.212
213.174.146.213
46.229.173.66
46.229.173.67
46.229.173.68​​​​​​
213.174.147.83
192.243.56.76
213.174.153.121
18.197.42.174
35.177.199.105
13.53.129.183
192.243.55.95
85.208.96.41
192.243.53.25
192.243.53.31
192.243.53.32

Bloquer Semrush avec Bad Blocker

Source : Bloquer des Bots et des URL indésirables avec Bad Bot Blocker.

SerendeputyBot

Serendeputy est un robot de flux d'actualités.
Robot SerendeputyBot : https://serendeputy.com/about/serendeputy-bot

Autres robots connus

User-Agent: msnbot
User-Agent: Baiduspider
User-Agent: Mail.RU_Bot
User-Agent: MegaIndex
User-Agent: MJ12bot
User-Agent: Pinterestbot
User-Agent: proximic
User-Agent: PubMatic
User-Agent: ScoutJet
User-Agent: Scooter (Alta Vista)
User-Agent: SeznamBot
User-Agent: ArchitextSpider (Excite)
User-Agent: Slurp (HotBot)
User-Agent: InfoSeek Sidewinder (InfoSeek)
User-Agent: T-Rex (Lycos)
User-Agent: Echo (Voilà)
Liste de 15627 User-Agent : https://www.aqtronix.com/useragents/

NAVIGATION

PARTICIPER ET PARTAGER

Bienvenue sur le wiki de Amis SH.
De nombreuses pages sont partagées sur ce wiki.
Créer un compte utilisateur pour participer sur le wiki.
Les pages présentées sur le wiki évoluent tous les jours.
Certaines recherches sont peu abouties et incluent des erreurs.
Utiliser la recherche interne du wiki pour trouver votre contenu.
La page de discussion de Amis SH vous permet de poser vos questions.
Consulter le site amis-sh.fr pour installer votre propre serveur web.
Améliorer le contenu des pages avec vos retours depuis l'onglet discussion.
Ce contenu ne doit pas servir à nuire à autrui ou à un système informatique.
Protéger votre système Linux ou Windows avec cette page dédiée à la sécurité.

SOUTENIR CE WIKI

Soutenir le wiki avec un don en monnaie numérique :
AEON - Bitcoins - Bitcoins Cash - Bitcoins Gold - Bitcore - Blackcoins - Basic Attention Token - Bytecoins - Clams - Dash - Monero - Dogecoins - Ğ1 - Ethereum - Ethereum Classique - Litecoins - Potcoins - Solarcoins - Zcash

OBTENIR DE LA MONNAIE NUMERIQUE

Obtenir gratuitement de la monnaie numérique :
Miner de la cryptomonnaie.