AiPress

RAG (Retrieval-Augmented Generation)

Publikováno:
·
Aktualizováno:
·

Definice

RAG (Retrieval-Augmented Generation) je technika, při které AI model nejdřív vyhledá relevantní informace z externího zdroje (typicky z webu nebo databáze) a teprve potom na jejich základě vygeneruje odpověď. Místo toho, aby model odpovídal jen z toho, co se naučil při tréninku, získává aktuální a ověřená data v reálném čase.

Výklad

RAG řeší jeden ze zásadních problémů velkých jazykových modelů (LLM) — jejich znalosti končí datem tréninku (tzv. knowledge cutoff) a nemají přístup k aktuálním informacím ani k soukromým datům konkrétní firmy. ChatGPT Search, Perplexity, Google AI Overviews i Claude s webovým přístupem používají RAG, aby mohly odpovídat na otázky o aktuálním dění a citovat konkrétní zdroje.

Proces RAG má dvě fáze:

  1. Retrieval (vyhledávání) — systém najde nejrelevantnější dokumenty nebo části textu (chunks) na základě uživatelského dotazu. Používá k tomu klasické vyhledávání nebo vektorové databáze.
  2. Generation (generování) — model dostane nalezené dokumenty jako kontext a na jejich základě zformuluje odpověď v přirozeném jazyce, často s citacemi zdrojů.

Pro majitele webů to znamená zásadní změnu paradigmatu. Váš web už není cíl, kam uživatel klikne — je to zdroj, ze kterého AI čerpá při generování odpovědi. Pokud je váš obsah kvalitní, strukturovaný a dohledatelný, AI vás bude citovat. Pokud ne, odpověď sestaví z konkurenčních zdrojů.

RAG je důvod, proč GEO (Generative Engine Optimization) vůbec vzniklo. Bez RAG by AI modely byly statické encyklopedie. S RAG se stávají dynamickými vyhledávači, pro které se vyplatí optimalizovat.

Příklad z praxe

Příklad z praxe

Když se uživatel zeptá Perplexity „Kolik stojí WordPress hosting v Česku v roce 2026?“, proces vypadá takto:

  1. Systém vyhledá relevantní české stránky o WordPress hostingu
  2. Najde například 5 článků s aktuálními cenami
  3. Předá je modelu jako kontext
  4. Model vygeneruje odpověď se srovnáním cen a cituje zdroje

Pokud váš web má článek s konkrétními cenami, aktuálním datem a jasnou strukturou, pravděpodobně bude mezi citovanými zdroji. Pokud má jen obecný marketingový text bez čísel, AI ho přeskočí.