AI boti a crawlery
Přehled AI crawlerů, jejich user-agent stringy a doporučení, jestli je pro váš B2B web povolit nebo zablokovat.
| Bot | Vlastník | Kategorie | Respektuje robots.txt | Doporučení pro B2B |
|---|---|---|---|---|
| Amazonbot | Amazon | trénink | ano | Povolit |
| Applebot-Extended | Apple | trénink | ano | Povolit |
| Bytespider | ByteDance | trénink | castecne | zvážit |
| CCBot | Common Crawl Foundation | trénink | ano | Povolit |
| ChatGPT-User | OpenAI | user-fetch | castecne | Povolit |
| Claude-SearchBot | Anthropic | search | ano | Povolit |
| Claude-User | Anthropic | — | Ano | Claude-User přímo ovlivňuje, jestli vás uživatelé Claude uvidí v odpovědích, když se ptají konkrétně na váš web. Blokování znamená ztrátu viditelnosti v okamžiku, kdy má uživatel nejvyšší zájem — konkrétně se ptá na vás nebo vaši konkurenci. Povolit Claude-User je prakticky vždy správné rozhodnutí pro web, který chce být součástí nákupního výzkumu uživatelů. |
| ClaudeBot | Anthropic | trénink | ano | Povolit |
| Google-CloudVertexBot | search | ano | Povolit | |
| Google-Extended | trénink | ano | Povolit | |
| GPTBot | OpenAI | trénink | Ano | Povolit |
| Meta-ExternalAgent | — | trénink | ano | Povolit |
| Meta-ExternalFetcher | — | user-fetch | — | Povolit |
| OAI-SearchBot | OpenAI | search | Ano | Povolit |
| PerplexityBot | Perplexity AI | search | ano | Povolit |
Amazonbot
Crawler Amazonu pro Alexa, Rufus AI a generativní AI produkty. Sbírá obsah webu pro vylepšení odpovědí AI asistentů napříč Amazon ekosystémem.
Mozilla/5.0 (compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)Detail bota Applebot-Extended
Opt-out token Apple pro AI trénink. Řídí, jestli může Apple použít obsah crawlovaný Applebotem k tréninku foundation modelů Apple Intelligence. Neovlivňuje Siri, Spotlight ani Safari Suggestions.
Applebot-Extended nemá samostatný HTTP user-agent string. Crawling probíhá existujícím user-agentem Applebot; robots.txt token `Applebot-Extended` slouží jako řídicí direktiva.Detail bota Bytespider
Tréninkový crawler ByteDance pro modely Doubao a AI funkce napříč TikTok ekosystémem. Známý agresivním crawlováním a historicky nekonzistentním respektováním robots.txt.
Mozilla/5.0 (compatible; Bytespider; [email protected])Detail bota CCBot
Crawler neziskové Common Crawl Foundation. Vytváří veřejný archiv webu, který slouží jako nejpoužívanější tréninkový dataset pro open-source AI modely.
CCBot/2.0 (https://commoncrawl.org/faq/)Detail bota ChatGPT-User
User-triggered fetcher OpenAI. Stahuje stránky jménem uživatelů ChatGPT a Custom GPTs při konkrétních dotazech, typicky ignoruje robots.txt.
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/botDetail bota Claude-SearchBot
Indexační crawler Anthropicu, který buduje a udržuje index webu pro vyhledávání uvnitř Claude. Klíčový bot pro viditelnost v Claude odpovědích.
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)Detail bota Claude-User
User-triggered fetcher Anthropicu, který stahuje stránky jménem uživatelů Claude, když se ptají na konkrétní web.
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)Detail bota ClaudeBot
Hlavní crawler Anthropicu pro sběr veřejného obsahu z webu pro trénink budoucích modelů Claude.
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; [email protected])Detail bota Google-CloudVertexBot
Enterprise crawler Google pro Vertex AI Search. Jede jen na vyžádání — typicky když klient Vertex AI buduje vlastního AI agenta a zahrnuje váš web jako zdroj dat.
https://developers.google.com/search/docs/crawling-indexing/verifying-googlebotDetail bota Google-Extended
Opt-out token Google pro AI trénink. Řídí, jestli může Google použít obsah crawlovaný Googlebotem k tréninku Gemini a Vertex AI. Neovlivňuje Google Search.
Google-Extended nemá samostatný HTTP user-agent string. Crawling probíhá existujícími Google user-agenty (typicky Googlebot); robots.txt token `Google-Extended` slouží jako řídicí direktiva.Detail bota GPTBot
Oficiální tréninkový crawler OpenAI. Sbírá veřejný obsah webu pro trénink budoucích generací modelů GPT a ChatGPT.
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.3; +https://openai.com/gptbotDetail bota Meta-ExternalAgent
Hlavní tréninkový crawler Mety pro AI modely LLaMA a vlastní search infrastrukturu. Sbírá veřejný web pro trénink Meta AI napříč Facebook, Instagram a WhatsApp.
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)Detail bota Meta-ExternalFetcher
User-triggered fetcher Mety. Stahuje konkrétní URL na žádost uživatele v Meta AI, a v těchto případech může ignorovat robots.txt.
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)Detail bota OAI-SearchBot
Indexační crawler OpenAI pro ChatGPT Search. Klíčový bot pro to, jestli vás ChatGPT zobrazí v aktuálních odpovědích s vyhledáváním.
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; +https://openai.com/searchbotDetail bota PerplexityBot
Hlavní indexační crawler Perplexity AI. Buduje vyhledávací index, ze kterého Perplexity čerpá odpovědi při konverzačním vyhledávání s citacemi.
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)Detail bota