AI boti a crawlery

Přehled AI crawlerů, jejich user-agent stringy a doporučení, jestli je pro váš B2B web povolit nebo zablokovat.

Bot	Vlastník	Kategorie	Respektuje robots.txt	Doporučení pro B2B
Amazonbot	Amazon	trénink	ano	Povolit
Applebot-Extended	Apple	trénink	ano	Povolit
Bytespider	ByteDance	trénink	castecne	zvážit
CCBot	Common Crawl Foundation	trénink	ano	Povolit
ChatGPT-User	OpenAI	user-fetch	castecne	Povolit
Claude-SearchBot	Anthropic	search	ano	Povolit
Claude-User	Anthropic	—	Ano	Claude-User přímo ovlivňuje, jestli vás uživatelé Claude uvidí v odpovědích, když se ptají konkrétně na váš web. Blokování znamená ztrátu viditelnosti v okamžiku, kdy má uživatel nejvyšší zájem — konkrétně se ptá na vás nebo vaši konkurenci. Povolit Claude-User je prakticky vždy správné rozhodnutí pro web, který chce být součástí nákupního výzkumu uživatelů.
ClaudeBot	Anthropic	trénink	ano	Povolit
Google-CloudVertexBot	Google	search	ano	Povolit
Google-Extended	Google	trénink	ano	Povolit
GPTBot	OpenAI	trénink	Ano	Povolit
Meta-ExternalAgent	—	trénink	ano	Povolit
Meta-ExternalFetcher	—	user-fetch	—	Povolit
OAI-SearchBot	OpenAI	search	Ano	Povolit
PerplexityBot	Perplexity AI	search	ano	Povolit

Povolit

Amazonbot

Crawler Amazonu pro Alexa, Rufus AI a generativní AI produkty. Sbírá obsah webu pro vylepšení odpovědí AI asistentů napříč Amazon ekosystémem.

Mozilla/5.0 (compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)Detail bota

Povolit

Applebot-Extended

Opt-out token Apple pro AI trénink. Řídí, jestli může Apple použít obsah crawlovaný Applebotem k tréninku foundation modelů Apple Intelligence. Neovlivňuje Siri, Spotlight ani Safari Suggestions.

Applebot-Extended nemá samostatný HTTP user-agent string. Crawling probíhá existujícím user-agentem Applebot; robots.txt token `Applebot-Extended` slouží jako řídicí direktiva.

Detail bota

Bytespider

Tréninkový crawler ByteDance pro modely Doubao a AI funkce napříč TikTok ekosystémem. Známý agresivním crawlováním a historicky nekonzistentním respektováním robots.txt.

Mozilla/5.0 (compatible; Bytespider; [email protected])Detail bota

Povolit

CCBot

Crawler neziskové Common Crawl Foundation. Vytváří veřejný archiv webu, který slouží jako nejpoužívanější tréninkový dataset pro open-source AI modely.

CCBot/2.0 (https://commoncrawl.org/faq/)Detail bota

Povolit

ChatGPT-User

User-triggered fetcher OpenAI. Stahuje stránky jménem uživatelů ChatGPT a Custom GPTs při konkrétních dotazech, typicky ignoruje robots.txt.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/botDetail bota

Povolit

Claude-SearchBot

Indexační crawler Anthropicu, který buduje a udržuje index webu pro vyhledávání uvnitř Claude. Klíčový bot pro viditelnost v Claude odpovědích.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)Detail bota

Claude-User

User-triggered fetcher Anthropicu, který stahuje stránky jménem uživatelů Claude, když se ptají na konkrétní web.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)Detail bota

Povolit

ClaudeBot

Hlavní crawler Anthropicu pro sběr veřejného obsahu z webu pro trénink budoucích modelů Claude.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; [email protected])Detail bota

Povolit

Google-CloudVertexBot

Enterprise crawler Google pro Vertex AI Search. Jede jen na vyžádání — typicky když klient Vertex AI buduje vlastního AI agenta a zahrnuje váš web jako zdroj dat.

https://developers.google.com/search/docs/crawling-indexing/verifying-googlebotDetail bota

Povolit

Google-Extended

Opt-out token Google pro AI trénink. Řídí, jestli může Google použít obsah crawlovaný Googlebotem k tréninku Gemini a Vertex AI. Neovlivňuje Google Search.

Google-Extended nemá samostatný HTTP user-agent string. Crawling probíhá existujícími Google user-agenty (typicky Googlebot); robots.txt token `Google-Extended` slouží jako řídicí direktiva.

Detail bota

Povolit

GPTBot

Oficiální tréninkový crawler OpenAI. Sbírá veřejný obsah webu pro trénink budoucích generací modelů GPT a ChatGPT.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.3; +https://openai.com/gptbotDetail bota

Povolit

Meta-ExternalAgent

Hlavní tréninkový crawler Mety pro AI modely LLaMA a vlastní search infrastrukturu. Sbírá veřejný web pro trénink Meta AI napříč Facebook, Instagram a WhatsApp.

meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)Detail bota

Povolit

Meta-ExternalFetcher

User-triggered fetcher Mety. Stahuje konkrétní URL na žádost uživatele v Meta AI, a v těchto případech může ignorovat robots.txt.

meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)Detail bota

Povolit

OAI-SearchBot

Indexační crawler OpenAI pro ChatGPT Search. Klíčový bot pro to, jestli vás ChatGPT zobrazí v aktuálních odpovědích s vyhledáváním.

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; +https://openai.com/searchbot

Detail bota

Povolit

PerplexityBot

Hlavní indexační crawler Perplexity AI. Buduje vyhledávací index, ze kterého Perplexity čerpá odpovědi při konverzačním vyhledávání s citacemi.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)Detail bota