AiPress

AI boti a crawlery

Přehled AI crawlerů, jejich user-agent stringy a doporučení, jestli je pro váš B2B web povolit nebo zablokovat.

BotVlastníkKategorieRespektuje robots.txtDoporučení pro B2B
AmazonbotAmazontréninkano Povolit
Applebot-ExtendedAppletréninkano Povolit
BytespiderByteDancetréninkcastecnezvážit
CCBotCommon Crawl Foundationtréninkano Povolit
ChatGPT-UserOpenAIuser-fetchcastecne Povolit
Claude-SearchBotAnthropicsearchano Povolit
Claude-UserAnthropicAnoClaude-User přímo ovlivňuje, jestli vás uživatelé Claude uvidí v odpovědích, když se ptají konkrétně na váš web. Blokování znamená ztrátu viditelnosti v okamžiku, kdy má uživatel nejvyšší zájem — konkrétně se ptá na vás nebo vaši konkurenci. Povolit Claude-User je prakticky vždy správné rozhodnutí pro web, který chce být součástí nákupního výzkumu uživatelů.
ClaudeBotAnthropictréninkano Povolit
Google-CloudVertexBotGooglesearchano Povolit
Google-ExtendedGoogletréninkano Povolit
GPTBotOpenAItréninkAno Povolit
Meta-ExternalAgenttréninkano Povolit
Meta-ExternalFetcheruser-fetch Povolit
OAI-SearchBotOpenAIsearchAno Povolit
PerplexityBotPerplexity AIsearchano Povolit
Povolit

Amazonbot

Crawler Amazonu pro Alexa, Rufus AI a generativní AI produkty. Sbírá obsah webu pro vylepšení odpovědí AI asistentů napříč Amazon ekosystémem.

Mozilla/5.0 (compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)Detail bota
Povolit

Applebot-Extended

Opt-out token Apple pro AI trénink. Řídí, jestli může Apple použít obsah crawlovaný Applebotem k tréninku foundation modelů Apple Intelligence. Neovlivňuje Siri, Spotlight ani Safari Suggestions.

Applebot-Extended nemá samostatný HTTP user-agent string. Crawling probíhá existujícím user-agentem Applebot; robots.txt token `Applebot-Extended` slouží jako řídicí direktiva.Detail bota

Bytespider

Tréninkový crawler ByteDance pro modely Doubao a AI funkce napříč TikTok ekosystémem. Známý agresivním crawlováním a historicky nekonzistentním respektováním robots.txt.

Mozilla/5.0 (compatible; Bytespider; [email protected])Detail bota
Povolit

CCBot

Crawler neziskové Common Crawl Foundation. Vytváří veřejný archiv webu, který slouží jako nejpoužívanější tréninkový dataset pro open-source AI modely.

CCBot/2.0 (https://commoncrawl.org/faq/)Detail bota
Povolit

ChatGPT-User

User-triggered fetcher OpenAI. Stahuje stránky jménem uživatelů ChatGPT a Custom GPTs při konkrétních dotazech, typicky ignoruje robots.txt.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/botDetail bota
Povolit

Claude-SearchBot

Indexační crawler Anthropicu, který buduje a udržuje index webu pro vyhledávání uvnitř Claude. Klíčový bot pro viditelnost v Claude odpovědích.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)Detail bota

Claude-User

User-triggered fetcher Anthropicu, který stahuje stránky jménem uživatelů Claude, když se ptají na konkrétní web.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)Detail bota
Povolit

ClaudeBot

Hlavní crawler Anthropicu pro sběr veřejného obsahu z webu pro trénink budoucích modelů Claude.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; [email protected])Detail bota
Povolit

Google-CloudVertexBot

Enterprise crawler Google pro Vertex AI Search. Jede jen na vyžádání — typicky když klient Vertex AI buduje vlastního AI agenta a zahrnuje váš web jako zdroj dat.

https://developers.google.com/search/docs/crawling-indexing/verifying-googlebotDetail bota
Povolit

Google-Extended

Opt-out token Google pro AI trénink. Řídí, jestli může Google použít obsah crawlovaný Googlebotem k tréninku Gemini a Vertex AI. Neovlivňuje Google Search.

Google-Extended nemá samostatný HTTP user-agent string. Crawling probíhá existujícími Google user-agenty (typicky Googlebot); robots.txt token `Google-Extended` slouží jako řídicí direktiva.Detail bota
Povolit

GPTBot

Oficiální tréninkový crawler OpenAI. Sbírá veřejný obsah webu pro trénink budoucích generací modelů GPT a ChatGPT.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.3; +https://openai.com/gptbotDetail bota
Povolit

Meta-ExternalAgent

Hlavní tréninkový crawler Mety pro AI modely LLaMA a vlastní search infrastrukturu. Sbírá veřejný web pro trénink Meta AI napříč Facebook, Instagram a WhatsApp.

meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)Detail bota
Povolit

Meta-ExternalFetcher

User-triggered fetcher Mety. Stahuje konkrétní URL na žádost uživatele v Meta AI, a v těchto případech může ignorovat robots.txt.

meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)Detail bota
Povolit

OAI-SearchBot

Indexační crawler OpenAI pro ChatGPT Search. Klíčový bot pro to, jestli vás ChatGPT zobrazí v aktuálních odpovědích s vyhledáváním.

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; +https://openai.com/searchbotDetail bota
Povolit

PerplexityBot

Hlavní indexační crawler Perplexity AI. Buduje vyhledávací index, ze kterého Perplexity čerpá odpovědi při konverzačním vyhledávání s citacemi.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)Detail bota