AiPress

GPTBot

Publikováno:
·
Aktualizováno:
·
Oficiální tréninkový crawler OpenAI. Sbírá veřejný obsah webu pro trénink budoucích generací modelů GPT a ChatGPT.

Kategorie: trénink

OpenAI

TL;DR

GPTBot je oficiální crawler OpenAI, který systematicky prochází veřejný web a sbírá obsah pro trénink budoucích generací modelů GPT (včetně ChatGPT).

Auditovat web

Technické informace

User-agent string
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.3; +https://openai.com/gptbot
Respektuje robots.txt
Ano
Publikované IP
Rozsahy IP
Oficiální dokumentace
Odkaz

Podrobný popis

GPTBot je hlavní tréninkový crawler společnosti OpenAI. Prochází veřejně přístupné stránky, stahuje jejich obsah a ten se stává součástí datasetů používaných pro trénink budoucích verzí modelů GPT. Jde o stejnou kategorii nástrojů jako ClaudeBot od Anthropicu nebo Google-Extended — nesbírá data pro aktuální odpovědi ChatGPT, ale pro výcvik dalších generací modelu.

V dubnu 2026 je aktuální verze crawleru GPTBot/1.3 a představuje se user-agent řetězcem obsahujícím „GPTBot“ a odkaz na oficiální dokumentaci https://openai.com/gptbot. Crawler respektuje standardní direktivy v robots.txt. Co ho odlišuje od ClaudeBotu — OpenAI publikuje strojově čitelný seznam IP adres na adrese openai.com/gptbot.json, takže můžete požadavky tvrdě verifikovat a blokovat na úrovni firewallu ty, které se jen vydávají za OpenAI.

OpenAI formalizoval trojbotový model (GPTBot, OAI-SearchBot, ChatGPT-User) již dříve než Anthropic a explicitně definuje každý jako nezávislý. Klíčová implikace: blokace GPTBot neimplikuje blokaci ChatGPT Search. Pokud chcete být vidět v aktuálních odpovědích ChatGPT s funkcí vyhledávání, musíte povolit OAI-SearchBot. Pokud chcete, aby ChatGPT mohl stahovat konkrétní URL na žádost uživatele, musíte povolit ChatGPT-User. Každé rozhodnutí je samostatné.

Jedna praktická poznámka, kterou OpenAI v oficiální dokumentaci uvádí: „Pokud váš web povolí oba boty (GPTBot i OAI-SearchBot), můžeme výsledky z jediného crawlu použít pro oba účely, abychom se vyhnuli duplicitnímu procházení.“ To je dobrá zpráva z hlediska zatížení serveru — OpenAI aktivně optimalizuje, aby nechodil dvakrát pro stejný obsah.

Co se stane, když bota zablokujete

Co se stane, když GPTBot zablokujete

Pokud v robots.txt zakážete GPTBot, OpenAI vyřadí váš web z tréninkových dat budoucích verzí modelů GPT. Vaše současné umístění v ChatGPT odpovědích se okamžitě nezmění — aktuální modely jsou trénované na datech sesbíraných v minulosti a ta se zpětně neodstraňují.

V dlouhodobém horizontu to ale znamená, že nové verze ChatGPT nebudou o vaší firmě, produktech, případových studiích nebo expertíze „vědět“ z tréninku. To může znamenat, že když uživatel v budoucí verzi ChatGPT položí generický dotaz týkající se vašeho oboru („jaké jsou nejlepší CRM pro malé firmy“, „která česká agentura dělá Next.js“), ChatGPT vás nezmíní mezi odpovědí, protože vás v jeho „znalosti světa“ nebude. Zůstane vám jen cesta přes OAI-SearchBot (aktivní vyhledávání) nebo ChatGPT-User (na přímou žádost uživatele) — pokud tyto dva boty povolíte.

Blokace GPTBot má smysl primárně u obsahu, který nechcete v tréninkových datech — typicky placený prémiový obsah, citlivé informace, nebo materiály chráněné autorskými právy, u kterých řešíte licencování. Pro standardní B2B web, e-shop nebo SaaS službu je blokace GPTBot dlouhodobou ztrátou viditelnosti.

Doporučení pro B2B

Povolit

<p>ChatGPT je aktuálně nejpoužívanější AI chat na světě s cca 700 miliony uživatelů měsíčně. Pro typickou B2B firmu je přítomnost v jeho tréninkových datech otázkou dlouhodobé viditelnosti v odpovědích. Povolení GPTBot je investice s odloženým výsledkem — efekt uvidíte v další generaci modelu, ale kumulativně stojí za to.</p>

Ukázky robots.txt

Povolit bota

User-agent: GPTBot
Allow: /

Zablokovat bota

User-agent: GPTBot
Disallow: /

Omezit frekvenci (Crawl-delay)

User-agent: GPTBot Crawl-delay: 1

Částečné blokování

User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
Allow: /

Historie

GPTBot byl zveřejněn v srpnu 2023 jako první samostatný tréninkový crawler OpenAI. Aktuální verze GPTBot/1.3 je z prosince 2025. Předchozí verze (1.0, 1.1) jsou postupně nahrazeny, ale některé servery je mohou v lozích ještě vidět — to je buď zastaralá instance, nebo spoofovaný požadavek vydávající se za OpenAI.

Časté dotazy

Stačí zablokovat GPTBot, abych vyloučil veškerý obsah z ChatGPT?

Ne. GPTBot ovlivňuje jen trénink budoucích modelů. Pokud chcete, aby váš obsah nebyl v ChatGPT vidět vůbec — ani v aktuálních odpovědích, ani v trénincích — musíte zablokovat všechny tři boty OpenAI: GPTBot, OAI-SearchBot a ChatGPT-User. A i pak nemáte jistotu pro data, která už jsou v tréninkových datasetech starších modelů (ta se zpětně nemažou).

Jak často GPTBot stahuje obsah z mého webu?

OpenAI neuvádí přesnou frekvenci a ta se liší dle velikosti a autority webu. Z analýz produkčních webů se typicky pozoruje několik desítek požadavků denně u středních webů, u velkých publisherů i stovky. Frekvenci můžete snížit direktivou Crawl-delay v robots.txt, ale OpenAI ji oficiálně neuvádí jako podporovanou. Pro tvrdší limitaci použijte rate-limiting na úrovni firewallu s IP adresami z openai.com/gptbot.json.

Jak ověřím, že požadavek skutečně přišel od OpenAI, a ne od podvrženého bota?

OpenAI publikuje strojově čitelný seznam IP adres na openai.com/gptbot.json (stejně jako pro OAI-SearchBot a ChatGPT-User na samostatných JSON). Stačí porovnat vzdálenou IP adresu požadavku s aktuálním obsahem JSON. Pokud IP v seznamu není, jde pravděpodobně o spoofovaný požadavek, který se za OpenAI vydává, a můžete ho bez obav zablokovat.

Blokuje GPTBot i ChatGPT Search odpovědi?

Ne. GPTBot a OAI-SearchBot jsou dva samostatné boty s různými úkoly. GPTBot sbírá data pro budoucí trénink, OAI-SearchBot indexuje obsah pro ChatGPT Search funkci. Blokací GPTBot ovlivníte pouze trénink budoucích modelů, ale v ChatGPT Search výsledcích stále budete moci být zobrazeni — pokud máte povolený OAI-SearchBot. OpenAI explicitně doporučuje používat tyto boty nezávisle.

OpenAI uvádí, že "pokud povolím oba boty, použijí jeden crawl pro oba účely" — co to znamená?

Je to optimalizace z jejich strany, která vám šetří zatížení serveru. Pokud máte v robots.txt povolené GPTBot i OAI-SearchBot, OpenAI se snaží crawlovat vaše stránky jednou a výsledky použít pro oba účely (trénink i indexace pro search). Místo dvou separátních průchodů tedy uvidíte zhruba jeden — což je dobré pro výkonnost vašeho webu. Tohle je jedna z mála oblastí, kde se OpenAI snaží jít majitelům webů vstříc více než jen minimem.

Je váš web dobře nastavený pro AI crawlery?

Nechte si zauditovat robots.txt a další signály.

Auditovat web zdarma