Robots Crawler

Les "crawlers" ou "spiders" (allusion au Web/toile d'araignée) sont des logiciels automatisés qui naviguent sur Internet pour référencer le contenu Web. C'est la base des moteurs de recherche comme Google, Yahoo ou Bing.

Habituellement, il consulte le fichier /robots.txt (à la racine du site) pour connaître le contenu a indexé ou non. Ensuite, il télécharge le contenu d'une page qu'il connaisse (connu via un lien externe ou par un formulaire d'ajout). Les robots évaluent ensuite le contenu de la page (analyse du HTML), repèrent les liens et ajoutent les nouveaux liens dans leur base de données pour de prochaine visite.

Liste

Connus

  • GoogleBot de Google: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Slurp de Yahoo : Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)
  • MSNBot de Bing/Microsoft: msnbot/2.0b (+http://search.msn.com/msnbot.htm)

Autres

  • Ask Jeeves/Teoma: Mozilla/5.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml)
  • Baiduspider (chinois): Baiduspider+(+http://www.baidu.com/search/spider.htm)
  • Cityreview Robot: Cityreview Robot (+http://www.cityreview.org/crawler/
  • Discobot: Mozilla/5.0 (compatible; discobot/1.1; +http://discoveryengine.com/discobot.html
  • DotBot: Mozilla/5.0 (compatible; DotBot/1.1; http://www.dotnetdotcom.org/, crawler@dotnetdotcom.org)
  • envolk: envolk/1.7 (+http://www.envolk.com/envolkspiderinfo.html)
  • Exabot: Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)
  • Googlebot-Image: Googlebot-Image/1.0
  • ia_archiver d'Alexa: ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com)
  • MJ12Bot: Mozilla/5.0 (compatible; MJ12bot/v1.3.3; http://www.majestic12.co.uk/bot.php?+)
  • MLBot: MLBot (www.metadatalabs.com/mlbot)
  • msbot-media: msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)
  • Nokia Crawler?: Nokia6682/2.0 (3.01.1) SymbianOS/8.0 Series60/2.6 Profile/MIDP-2.0 configuration/CLDC-1.1 UP.Link/6.3.0.0.0 (compatible;YahooSeeker/M1A1-R2D2; http://help.yahoo.com/help/us/ysearch/crawling/crawling-01.html)
  • Nutch:
    • Chen Li/Nutch-1.0 (Nutch spiderman; http://chenli.com.cn; chenlibiti@163.com)
    • GeoHasher/Nutch: GeoHasher/Nutch-1.0 (GeoHasher Web Search Engine; geohasher.gotdns.org; geo_hasher at yahoo * com)
    • PenTest.sg/Nutch: PenTest.sg/Nutch-1.1 (www.PenTest.sg; crawler@PenTest.sg)
  • ScoutJet: Mozilla/5.0 (compatible; ScoutJet; +http://www.scoutjet.com/)
  • Sindice: Mozilla/5.0 (compatible; sindice-site-manager/0.1.0 +http://sindice.com/developers/bot)
  • Sogou: Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
  • Sosospider: Sosospider+(+http://help.soso.com/webspider.htm)
  • Spbot: Mozilla/5.0 (compatible; spbot/2.0.3; +http://www.seoprofiler.com/bot/ )
  • Speedy Spider: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)
  • TopBlogsInfo: Mozilla/5.0 (compatible; TopBlogsInfo/2.0; +topblogsinfo@gmail.com)
  • Twiceler de Cuil: Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)
  • VoilaBot d'Orange: Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (support.voilabot@orange-ftgroup.com)
  • WebSurfer: WebSurfer text/*
  • Yandex: Yandex/1.01.001 (compatible; Win16; I)
  • Yeti: Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)

RSS

Ils sont spécialisés dans le contenu RSS pour leurs usagers

  • Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; 5 subscribers; feed-id=9999999999999999999)
  • Spinn3r: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/20021130
  • R6_FeedFetcher: R6_FeedFetcher(www.radian6.com/crawler)