AiPress

Google-Extended

Publikováno:
·
Aktualizováno:
·
Opt-out token Google pro AI trénink. Řídí, jestli může Google použít obsah crawlovaný Googlebotem k tréninku Gemini a Vertex AI. Neovlivňuje Google Search.

Kategorie: trénink

Google

TL;DR

Google-Extended není klasický crawler — je to řídicí token v robots.txt, který určuje, jestli může Google použít obsah crawlovaný Googlebotem pro trénink Gemini modelů a Vertex AI generative APIs.

Auditovat web

Technické informace

User-agent string
Google-Extended nemá samostatný HTTP user-agent string. Crawling probíhá existujícími Google user-agenty (typicky Googlebot); robots.txt token `Google-Extended` slouží jako řídicí direktiva.
Respektuje robots.txt
ano
Publikované IP
Rozsahy IP
Oficiální dokumentace
Odkaz

Podrobný popis

Google-Extended je speciální případ mezi AI boty, který většina SEO článků nesprávně popisuje jako crawler. Není to crawler. Sám Google ve své dokumentaci píše: „Google-Extended nemá samostatný HTTP user-agent string. Crawling probíhá existujícími Google user-agenty; robots.txt token se používá v řídicí roli.“ To znamená, že v serverových lozích Google-Extended nikdy neuvidíte — nikdy neprovádí vlastní HTTP požadavky. Je to čistě direktiva v robots.txt.

Jak to funguje prakticky: Googlebot (klasický vyhledávací crawler) stahuje váš obsah pro Google Search. Když ho stáhne, Google se dívá do vašeho robots.txt, jestli máte direktivu User-agent: Google-Extended Disallow: /. Pokud ano, Google stažený obsah nepoužije pro trénink Gemini, ale pořád ho použije pro Google Search. Pokud direktivu nemáte nebo je Allow, Google obsah použije pro obojí. Googlebot v obou případech chodí stejně.

To vytváří nejčistší opt-out mechanismus v celém AI ekosystému: můžete zablokovat Google-Extended bez jakéhokoliv negativního dopadu na Google Search rankingy, AI Overviews v Google Search, ani žádnou jinou Google viditelnost. Google to explicitně potvrzuje. Ekvivalentní mechanismus existuje u Apple (Applebot-Extended) — tam funguje identicky s Applebotem.

Google-Extended specificky ovlivňuje tréninková data pro Gemini Apps (dříve Bard), Vertex AI generative APIs a grounding v Gemini produktech. Změna názvu Bard → Gemini proběhla v roce 2024 a Google při té příležitosti dokumentaci Google-Extended aktualizoval, aby zdůraznil oddělení od Google Search. Pozor ale na jednu věc: Google-Extended neřídí, jestli vás Gemini zmíní v odpovědích grounded na real-time search — to dělá samotný Googlebot přes AI Overviews a AI Mode funkce.

Co se stane, když bota zablokujete

Co se stane, když Google-Extended zablokujete

Pokud v robots.txt uvedete User-agent: Google-Extended / Disallow: /, Google přestane váš obsah používat pro trénink Gemini modelů a Vertex AI generative APIs. Všechen obsah, který Googlebot v budoucnu stáhne, bude i nadále indexován pro Google Search — ale nebude se přidávat do tréninkových datasetů. Obsah, který už je v tréninkových datech starších modelů Gemini, se zpětně neodstraňuje.

Co blokace NEovlivní (toto je důležité):

  • Google Search rankingy a pozice — nulový dopad
  • AI Overviews v Google Search — Gemini v AI Overviews může váš web nadále citovat v real-time, protože k tomu používá Googlebota, ne Google-Extended
  • AI Mode v Search — stejná situace jako AI Overviews
  • Ostatní Google produkty — Discover, Shopping, Maps atd. fungují beze změny

Co blokace ovlivní:

  • Váš obsah nepůjde do tréninku budoucích Gemini modelů — takže nové verze Gemini Apps (Gemini.google.com) nebudou o vaší firmě „vědět“ z tréninku
  • Nepůjde do tréninku Vertex AI modelů — relevantní pro B2B s enterprise AI aplikacemi

Pro majitele webu je tohle nejčistší volba v celém AI ekosystému: můžete říct „ne AI tréninku“ a přitom si zachovat všechnu Google viditelnost. Většina ostatních AI platforem (OpenAI, Anthropic, Meta) takovou separaci neposkytuje tak čistě.

Doporučení pro B2B

Povolit

<p>Gemini je třetí nejpoužívanější AI chat na světě a jeho uživatelé o vás v budoucích verzích potenciálně budou „vědět&#8220;, pokud Google-Extended povolíte. Přesto je to jedno z nejméně naléhavých rozhodnutí — blokace nemá žádný dopad na Google Search ani na AI Overviews. Povolte, pokud chcete být v Gemini tréninkových datech; zablokujte, pokud máte legitimní důvod (licencovaný obsah, obavy o autorská práva) a nechcete přispívat k dalšímu tréninku Google AI modelů.</p>

Ukázky robots.txt

Povolit bota

User-agent: Google-Extended
Allow: /

Zablokovat bota

User-agent: Google-Extended
Disallow: /

Částečné blokování

User-agent: Google-Extended
Disallow: /premium/
Disallow: /members/
Allow: /

Kombinace pravidel

# Google Search: ano
# Gemini AI trénink: ne
User-agent: Googlebot
Allow: /

User-agent: Google-Extended
Disallow: /

Historie

Google-Extended byl představen 28. září 2023 jako první oficiální opt-out mechanismus pro AI trénink u Google. V září 2024 Google aktualizoval dokumentaci v souvislosti s přejmenováním Bard na Gemini Apps — explicitně uvedl, že Google-Extended ovlivňuje Gemini Apps a Vertex AI, ale nemá žádný dopad na Google Search. Toto objasnění reagovalo na obavy publisherů, kteří si nebyli jisti, zda blokace Google-Extended neovlivní jejich Search rankingy. Tato odpověď zněla jasně: ne, neovlivní.

Časté dotazy

Proč se Google-Extended nikdy neobjeví v mých serverových lozích?

Protože to není skutečný crawler. Google sám uvádí: „Google-Extended nemá samostatný HTTP user-agent string. Crawling probíhá existujícími Google user-agenty; robots.txt token se používá v řídicí roli.“ Když vás Google stahuje, používá k tomu Googlebota — klasický vyhledávací crawler, kterého v lozích normálně vidíte. Google-Extended je jen pravidlo v robots.txt, podle kterého se Google rozhoduje, jestli stažený obsah použije pro AI trénink. Samo o sobě to není živý bot, který by chodil na vaše stránky.

Ovlivní blokace Google-Extended moje pozice v Google Search?

Ne, nijak. Google to explicitně potvrzuje ve své dokumentaci a v oficiálním changelogu z září 2024 uvádí: „Google-Extended neovlivňuje Google Search.“ Blokace ovlivní pouze to, jestli Google použije váš obsah pro trénink Gemini modelů a Vertex AI generative APIs. Google Search rankingy, AI Overviews, AI Mode, Discover, Shopping — všechno pokračuje beze změny, protože to řídí Googlebot, ne Google-Extended.

Proč Google nabízí tuto separaci, když OpenAI a Anthropic ne?

Rozdílný strategický postoj. Google má dominantní postavení v Search a nechce riskovat, že publisheři zablokují Googlebota kvůli obavám z AI — což by poškodilo jeho Search index. Nabízí proto čisté oddělení: AI trénink může publisher opt-out, Search indexaci ne. OpenAI a Anthropic jsou primárně AI firmy bez klasického search produktu, takže pro ně je takový ústupek méně relevantní. Apple zvolil stejnou strategii jako Google (Applebot-Extended), protože má Applebot pro Spotlight Search a chce zachovat jeho funkcionalitu nezávislou na AI trénincích.

Ovlivní Google-Extended to, jestli se objevím v Gemini odpovědích s aktivním vyhledáváním?

Ne přímo. Gemini v aplikaci (gemini.google.com) i v Google Search přes AI Overviews a AI Mode používá při generování odpovědí tzv. grounding — aktivní dotazování Google Search. To znamená, že Gemini se dynamicky ptá na aktuální obsah přes Googlebota, ne přes Google-Extended. Blokace Google-Extended tedy neznemožní, aby vás Gemini zmínil v odpovědích — jen zablokuje použití vašeho obsahu pro trénink samotného modelu. Pro aktuální viditelnost v Gemini je důležitější mít dobré SEO pro Googlebota než vyřešit Google-Extended.

Mám zablokovat i Google-CloudVertexBot zvlášť?

Ano, pokud chcete tvrdý opt-out z celého Google AI ekosystému. Google-CloudVertexBot je separátní crawler pro Vertex AI, který se chová jinak než Google-Extended token. Zatímco Google-Extended je direktiva, kterou Google respektuje při použití dat z Googlebota, Google-CloudVertexBot je skutečný crawler, který přímo stahuje obsah pro enterprise Vertex AI aplikace. Pro kompletní opt-out doporučujeme obě direktivy: User-agent: Google-Extended Disallow: / User-agent: Google-CloudVertexBot Disallow: /

Je váš web dobře nastavený pro AI crawlery?

Nechte si zauditovat robots.txt a další signály.

Auditovat web zdarma