AiPress

Google-CloudVertexBot

Publikováno:
·
Aktualizováno:
·
Enterprise crawler Google pro Vertex AI Search. Jede jen na vyžádání — typicky když klient Vertex AI buduje vlastního AI agenta a zahrnuje váš web jako zdroj dat.

Kategorie: search

Google

TL;DR

Google-CloudVertexBot je specializovaný crawler Google Cloud pro službu Vertex AI Search — chodí na vyžádání, když klient Vertex AI (typicky enterprise firma) staví vlastního AI agenta a potřebuje indexovat konkrétní weby jako zdroj dat.

Auditovat web

Technické informace

User-agent string
https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot
Respektuje robots.txt
ano
Oficiální dokumentace
Odkaz

Podrobný popis

Google-CloudVertexBot je unikátní případ mezi AI crawlery. Na rozdíl od GPTBot, ClaudeBot nebo PerplexityBot, které systematicky procházejí celý web, Google-CloudVertexBot funguje na vyžádání — jede jen tehdy, když klient Vertex AI Search (typicky velká enterprise firma) v Google Cloud konzoli nastaví, že chce indexovat konkrétní web pro své interní AI aplikace. Bez takového explicitního požadavku vás Google-CloudVertexBot nikdy nenavštíví.

Vertex AI je enterprise AI platforma Google Cloud, kterou firmy používají pro stavbu vlastních AI agentů, interních chatbotů, nebo RAG systémů (retrieval-augmented generation). Když firma chce, aby její AI agent odpovídal na otázky o určitém webu — může být to web dodavatele, oborový portál, nebo veřejná dokumentace — Google-CloudVertexBot ten web proindexuje a data se stanou součástí dat store konkrétního enterprise klienta. Obsah zůstává izolován v jejich Google Cloud projektu a nepoužívá se pro trénink Gemini nebo veřejných Google modelů.

Bot respektuje robots.txt a explicitně vyžaduje povolení pro indexaci paywalled content — Google v dokumentaci výslovně uvádí, že pokud chcete, aby Vertex AI Search mohl indexovat váš placený obsah, musíte Google-CloudVertexBot v robots.txt povolit. To je specifické — u klasických crawlerů paywalled content obvykle indexují jen za specifických podmínek (Subscription structured data).

Pro typického majitele B2B webu je Google-CloudVertexBot spíš okrajový bot. Pokud váš web není cílem nějakého enterprise Vertex AI projektu, v lozích ho nikdy neuvidíte. Zároveň ale platí, že pokud někdo z vašich B2B zákazníků staví Vertex AI agenta a chce do něj integrovat vaši dokumentaci nebo katalog, blokace Google-CloudVertexBot by to znemožnila. Pro firmy s technicky pokročilejší klientelou stojí za to ho ponechat povolený.

Co se stane, když bota zablokujete

Co se stane, když Google-CloudVertexBot zablokujete

Pokud v robots.txt zakážete Google-CloudVertexBot, zamezíte tomu, aby enterprise klienti Google Vertex AI mohli váš web přidat jako zdroj dat pro své interní AI agenty. V praxi:

  • Pokud váš web není cílem žádného Vertex AI projektu, blokace nemá žádný reálný dopad — bot vás stejně nikdy nenavštěvoval
  • Pokud některý váš klient nebo partner staví Vertex AI aplikaci a chce indexovat váš web jako zdroj (dokumentace, katalog, case studies), blokace to znemožní. Klient se o tom dozví při snaze přidat váš web do data store
  • Vaše viditelnost v Google Search, Gemini, AI Overviews se blokací Google-CloudVertexBot nijak nemění — tohle jsou oddělené systémy s jinými crawlery

Pro většinu B2B firem, e-shopů a SaaS produktů je blokace nevýrazné rozhodnutí. Ale pokud jste B2B dodavatel s enterprise zákazníky, může mít smysl Google-CloudVertexBot povolit — vaši zákazníci tak budou moci efektivně integrovat váš obsah do svých interních AI nástrojů. Zvlášť pokud poskytujete technickou dokumentaci, produktové katalogy nebo oborové analýzy, je to signál „jsme přátelští k Vertex AI integracím“.

Doporučení pro B2B

Povolit

<p>Google-CloudVertexBot je enterprise-facing crawler, který reálný dopad má jen pokud někdo z vašich klientů používá Vertex AI. Povolení nic nestojí a může posílit vaši integraci do enterprise AI ekosystému. Blokace dává smysl jen při velmi specifických licenčních omezeních nebo když výslovně nechcete, aby váš obsah byl součástí externích firemních RAG systémů.</p>

Ukázky robots.txt

Povolit bota

User-agent: Google-CloudVertexBot
Allow: /

Zablokovat bota

User-agent: Google-CloudVertexBot
Disallow: /

Omezit frekvenci (Crawl-delay)

User-agent: Google-CloudVertexBot Crawl-delay: 1

Částečné blokování

User-agent: Google-CloudVertexBot
Disallow: /interni/
Disallow: /draft/
Allow: /

Kombinace pravidel

# Vertex AI Search: ano (včetně placeného obsahu pro enterprise klienty)
# Google-Extended: ne (neposkytovat do Gemini tréninku)
User-agent: Google-CloudVertexBot
Allow: /

User-agent: Google-Extended
Disallow: /

Historie

Google-CloudVertexBot byl zaveden v srpnu 2024 jako součást Vertex AI Agent Builder — nové platformy Google Cloud pro stavbu enterprise AI agentů. Jeho primární role se od té doby nezměnila: umožnit enterprise klientům indexovat konkrétní weby jako zdroj dat pro interní AI aplikace. V dubnu 2026 Google aktualizoval dokumentaci s upřesněním, jak bot spolupracuje s paywalled content a RAG integracemi.

Časté dotazy

Proč jsem Google-CloudVertexBot nikdy neviděl v serverových lozích?

Protože chodí jen na vyžádání, ne systematicky. Na rozdíl od Googlebota nebo GPTBota, kteří autonomně procházejí celý web, Google-CloudVertexBot funguje na enterprise principu: klient Vertex AI Search v Google Cloud konzoli explicitně nastaví, který web chce indexovat — a teprve pak bot váš web navštíví. Pokud žádný klient vaše stránky do svého Vertex AI data store nepřidal, bot u vás nikdy není. Pro většinu B2B webů to znamená, že Google-CloudVertexBot uvidíte v lozích nejdříve tehdy, až někdo z vašich klientů začne stavět Vertex AI aplikaci s vaším webem jako zdrojem.

Jaký je rozdíl mezi Google-CloudVertexBot a Google-Extended?

Naprosto zásadní. Google-Extended je opt-out token v robots.txt — nikdy netvoří HTTP požadavky, neexistuje v lozích, jen řídí, jestli Google může použít obsah crawlovaný Googlebotem pro trénink Gemini modelů. Google-CloudVertexBot je skutečný crawler, který fyzicky chodí na weby a stahuje obsah — ale jen pro enterprise klienty Vertex AI Search. První je direktiva, druhý je bot. Můžete mít jeden povolený a druhý zablokovaný (typicky: Google-CloudVertexBot povolit pro enterprise integrace, Google-Extended zablokovat pro opt-out z veřejného AI tréninku).

Dostane se můj obsah do veřejného Gemini, když povolím Google-CloudVertexBot?

Ne. Google-CloudVertexBot indexuje obsah pouze pro data store konkrétního enterprise klienta Vertex AI. Obsah zůstává izolován v jejich Google Cloud projektu a nepoužívá se pro trénink veřejných Google modelů (Gemini, Gemini Apps). Pokud chcete opt-out z veřejného tréninku, použijte Google-Extended — je to samostatné rozhodnutí, které povolení Google-CloudVertexBot neovlivňuje. Google tuto izolaci explicitně garantuje v dokumentaci Vertex AI.

Mám povolit Google-CloudVertexBot i když moji klienti Vertex AI nepoužívají?

Krátká odpověď: ano, výchozí povolení je rozumné. Důvody: (a) pokud vás nikdo nezahrne do Vertex AI projektu, bot vás stejně nenavštíví — povolení je „no-op“; (b) enterprise AI adopce rychle roste a neznáte všechny své klienty do budoucna — může se stát, že za 6 měsíců některý z nich chce integrovat váš web do své Vertex AI aplikace; (c) povolení je vnímáno jako signál přívětivosti k B2B integracím. Blokaci doporučujeme jen pokud máte velmi specifický důvod (licencovaný obsah, bezpečnostní omezení, firemní policy proti AI integracím).

Co se stane, když klient Vertex AI chce přidat můj web, ale já mám Google-CloudVertexBot zablokovaný?

Klient se o blokaci dozví v Google Cloud konzoli při pokusu přidat váš web do Vertex AI data store — dostane chybu typu „robots.txt forbids crawling“ nebo podobně. Pravděpodobně vás bude kontaktovat s žádostí o povolení, nebo najde alternativní zdroj. Pokud máte s klientem obchodní vztah (B2B dodávky, dokumentace pro partnery), blokace může vytvořit třecí plochu. Pro weby s veřejně přístupným obsahem určeným k použití partnery je tedy smysluplné Google-CloudVertexBot povolit a dát klientům hladkou cestu k integraci.

Je váš web dobře nastavený pro AI crawlery?

Nechte si zauditovat robots.txt a další signály.

Auditovat web zdarma