Indexovatelnost: jak ovládat canonical tagy, sitemap a noindex ve WordPressu

Můžete mít skvělý obsah, perfektní design a dokonalé SEO – ale pokud Google a AI nástroje nemohou vaše stránky najít a zařadit do indexu, nikdo se k nim nedostane. Indexovatelnost je technický základ celého SEO. V roce 2026 jsou indexační signály ještě důležitější díky AI vyhledávačům, které si vybírají, koho citovat, podle kanonických URL a strukturovaných dat. V tomto článku si vysvětlíme, jak fungují canonical tagy, kdy použít noindex, jak udržet sitemap.xml čistý a jak ve WordPressu kontrolovat, co se indexuje a co ne.

Co je indexovatelnost

Než se dostaneme k technickým detailům, vyjasníme si tři pojmy, které se často zaměňují:

Crawlability (procházatelnost) – jestli vyhledávací roboti vůbec mohou na vaši stránku dorazit. Řídí se přes robots.txt a interní odkazy.
Indexability (indexovatelnost) – jestli mohou vaši stránku přidat do svého indexu (databáze stránek, ze které vybírají výsledky). Řídí se přes meta robots, canonical tagy, status kódy.
Ranking – jestli a jak vysoko se vaše stránka zobrazí ve výsledcích. Řídí se stovkami faktorů.

Tyto tři vrstvy jdou v pořadí: bez crawlability není indexability, bez indexability není ranking. Web může selhat na kterékoli z nich. Většina technických SEO auditů najde problémy hned na první nebo druhé úrovni.

Klíčové pravidlo: blokovat stránku v robots.txt nezabrání její indexaci. Pokud na ni vede nějaký odkaz, Google ji může indexovat, jen nebude znát její obsah. Pro skutečné zabránění indexaci slouží noindex direktiva.

Canonical tagy: která verze je „originál“

Canonical tag je krátký kus HTML kódu, který říká Googlu: „Z těchto podobných nebo identických stránek je tahle ta hlavní.“ Vypadá takto:

<link rel="canonical" href="https://vasedomena.cz/clanek/" />

Umístí se do hlavičky <head> dokumentu.

Kdy canonical tag potřebujete

Stránky s URL parametry. vasedomena.cz/produkt/?ref=email vs. vasedomena.cz/produkt/ – obsahově identické, technicky dvě URL.
Filtry a třídění v e-shopu. ?color=red, ?sort=price – mohou generovat tisíce variant.
Variantní produkty. Stejné triko v 5 barvách jako 5 různých URL.
HTTP vs. HTTPS, www vs. non-www. Technicky čtyři různé URL pro stejnou stránku.
Tracking parametry z UTM. ?utm_source=newsletter – obsahově nic nemění.
Print/PDF verze stránky, pokud existují.
Syndikovaný obsah. Když svůj článek publikujete na partnerském webu, oba mají canonical na váš originál.

Self-referencing canonical

Každá stránka by měla mít canonical tag i sama na sebe (tzv. self-referencing canonical):

<!-- Stránka https://vasedomena.cz/clanek/ má v <head>: -->
<link rel="canonical" href="https://vasedomena.cz/clanek/" />

Vypadá to redundantně, ale je to správně. Self-canonical chrání před náhodnými duplicitami (např. když někdo přidá tracking parametr do URL).

Pravidla pro canonical targets

URL, na kterou canonical odkazuje, musí splňovat:

Vrátit HTTP 200 (nesmí to být 404, redirect ani 410)
Nesmí být blokovaná v robots.txt
Nesmí mít noindex direktivu
Měla by být indexovatelná a finální verze

Důležité: Canonical je doporučení, ne příkaz. Google může váš canonical ignorovat, pokud ostatní signály (interní odkazy, sitemap, redirecty) říkají něco jiného. Proto musí být všechny signály konzistentní.

Pagination v roce 2026: zásadní změna

Pokud máte na webu stránkování (seznam článků/produktů rozdělený na stránky 1, 2, 3…), pravidla se v posledních letech zásadně změnila.

Co už neplatí

rel="prev" a rel="next" – Google oficiálně přestal tyto signály používat. Nepoškozují, ale ani nepomáhají.
Canonical všech paginovaných stránek na stránku 1 – velká chyba! Říkáte tím Googlu, že stránky 2, 3, 4… jsou duplicity stránky 1, a obsah na nich Google nezindexuje.

Co platí v roce 2026

Každá paginovaná stránka má self-canonical na sebe samotnou:

<!-- /blog/page/2/ má v <head>: -->
<link rel="canonical" href="https://vasedomena.cz/blog/page/2/" />

Každá paginovaná stránka je indexovatelná (žádný noindex)
Mezi stránkami jsou viditelné HTML odkazy (ne jen JavaScript)

Důvod: pokud máte v archivu 200 článků a v paginated pages 2, 3, 4 jsou unikátní články, které by jinak Google nenašel, tyto stránky musí být indexovatelné. Jinak ztrácíte discoverability hloubkového obsahu. Stejně to platí pro AI nástroje – když všechny paginated URL canonicalizujete na stránku 1, AI nástroje vidí jen první stránku obsahu.

Meta robots: noindex, nofollow a další direktivy

Meta robots tag je instrukce pro vyhledávače umístěná v hlavičce stránky:

<meta name="robots" content="noindex, follow" />

Obsahuje dvě hlavní instrukce: jestli stránku indexovat a jestli následovat odkazy z ní.

Čtyři základní kombinace

index, follow – výchozí stav. Indexovat stránku a následovat odkazy. Většina stránek.
noindex, follow – neindexovat stránku, ale následovat odkazy. Pozor: Google v dlouhodobém horizontu interpretuje „noindex, follow“ stejně jako „noindex, nofollow“. Po čase přestane odkazy sledovat.
noindex, nofollow – neindexovat ani nesledovat odkazy. Pro úplně skryté stránky.
index, nofollow – indexovat, ale nesledovat odkazy. Vzácně používané (např. sponzorovaný obsah).

Kdy použít noindex

Děkovací stránky po odeslání formuláře nebo objednávce
Admin a login stránky (pokud nejsou už blokované)
Filtrované URL v e-shopu (?color=red, ?size=L)
Interní vyhledávací výsledky (/?s=hledany-text)
Tagové archivy, pokud generují tenký obsah
Staging a testovací prostředí
Duplicitní stránky, kde nemůžete použít canonical (např. dvě úplně různé stránky o podobném tématu)
Stránky s tenkým obsahem, které nepřinášejí hodnotu

X-Robots-Tag: noindex přes HTTP hlavičku

Pro non-HTML soubory (PDF, obrázky, video) nemůžete použít meta tag. Místo toho server pošle informaci v HTTP hlavičce:

X-Robots-Tag: noindex, nofollow

Užitečné když chcete například skrýt PDF dokumenty z vyhledávání. Ve WordPressu se nastavuje přes .htaccess nebo plugin (např. Yoast SEO Premium).

Robots.txt vs. noindex: zásadní rozdíl

Tohle pochopit je klíčové, protože tady spousta lidí dělá chybu.

robots.txt říká: „Tuto stránku nenavštěvuj.“ Roboti tam nepůjdou, ale URL může být známá z odkazů jinde a může být v indexu uvedená (jen bez obsahu).
noindex říká: „Stránku navštívíš, ale nezařadíš ji do indexu.“ Robot stránku navštíví, přečte direktivu a stránku nezindexuje.

Klasická chyba: Chcete stránku odstranit z Googlu, tak ji blokujete v robots.txt. Výsledek: Google na ni nemůže ani dorazit, takže neuvidí váš noindex tag a stránka může v indexu zůstat dál.

Správný postup:

Přidejte na stránku noindex meta tag
Počkejte, až Google stránku znovu navštíví a noindex načte
Až poté, co stránka vypadne z indexu, můžete ji případně blokovat v robots.txt

Sitemap.xml: přesný seznam toho, co chcete indexovat

Sitemap.xml je strukturovaný seznam URL, které chcete, aby vyhledávače znaly. Pomáhá hlavně velkým a komplexním webům, ale i malým ulehčuje práci.

Co MUSÍ a NESMÍ být v sitemap

Sitemap by měl obsahovat:

Pouze URL, které vrací HTTP 200
Pouze canonical, indexovatelné URL
Pouze HTTPS verze
Přesné lastmod datum (kdy se obsah skutečně změnil, ne dnešní datum vždy)

Sitemap by NEMĚL obsahovat:

Stránky s noindex direktivou
URL s redirecty (301, 302)
404 a 410 stránky
Stránky blokované v robots.txt
Non-canonical varianty (parametry, filtry)

Pokud máte víc než 50 000 URL, rozdělte sitemap do více souborů a propojte je sitemap indexem.

Sitemap ve WordPressu

WordPress od verze 5.5 generuje vestavěný sitemap na /wp-sitemap.xml. Pro většinu webů je to dostačující, ale SEO pluginy nabízí pokročilejší kontrolu:

Yoast SEO – generuje rozdělený sitemap (post, page, kategorie, tagy)
Rank Math – pokročilá kontrola, můžete vyloučit konkrétní typy obsahu
All in One SEO – obdobné funkce

Po každé větší změně sitemapu jej znovu odešlete v Search Console → Sitemapy.

Indexovatelnost ve WordPressu: praktické tipy

Kontrola „Discourage search engines“

Naprosto nejčastější WordPress chyba: v Nastavení → Čtení je zaškrtnuté „Vyžádat si od vyhledávačů, aby tento web neindexovaly“. Po launchi nového webu se na to zapomene a celý web zůstane neviditelný.

Vždy po spuštění zkontrolujte:

Toto pole musí být odškrtnuté
Otevřete zdrojový kód libovolné stránky a zkontrolujte, že NENÍ <meta name="robots" content="noindex">

Canonical přes SEO plugin

Všechny moderní SEO pluginy (Yoast, Rank Math, AIOSEO) automaticky generují self-referencing canonical pro každou stránku. Můžete je v editoru přepsat:

Yoast SEO: v editoru → záložka Pokročilé → Canonical URL
Rank Math: v editoru → SEO panel → Pokročilé → Canonical URL

Noindex přes SEO plugin

Pro jednotlivé stránky:

Yoast: záložka Pokročilé → Povolit vyhledávačům zobrazit tento příspěvek? → Ne
Rank Math: SEO panel → Pokročilé → Robots Meta → No Index

Pro celé typy obsahu (např. všechny tagy):

Yoast: SEO → Search Appearance → Taxonomies → Tags → Show Tags in search results → No
Rank Math: Titles & Meta → Taxonomies → Tags

Co typicky noindexovat ve WordPressu

Author archives, pokud máte jediného autora
Datumové archivy (/2024/01/, /2024/)
Tag archives s méně než 3–5 příspěvky
Search results page (/?s=...)
Děkovací stránky po formulářích
Stránky s tenkým obsahem, které nemůžete vylepšit

Jak ověřit, co je v indexu

Google Search Console

Hlavní zdroj informací:

Indexace stránek – přehled, kolik stránek je indexovaných a proč ne
Sitemapy – stav vašich odeslaných sitemapů
URL Inspection Tool – kontrola konkrétní URL: jestli je indexovaná, kdy byla naposledy procházena, jaký je její canonical

Site: operátor

Rychlá kontrola v Googlu:

site:vasedomena.cz

Ukáže (přibližně), které stránky vašeho webu má Google v indexu. Pro konkrétní URL:

site:vasedomena.cz/clanek/

Specializované crawlery

Screaming Frog SEO Spider – sekce „Directives“ ukazuje canonical, noindex a další tagy napříč celým webem
Sitebulb – vizualizace indexovatelnosti
Ahrefs Site Audit – přehled indexačních problémů

Indexovatelnost a AI vyhledávače

V éře AI vyhledávání má kanonikalizace ještě jeden rozměr. AI nástroje (ChatGPT, Perplexity, Google AI Overviews) potřebují jednoznačně určit, která verze obsahu je „pravá“:

Citace správné URL. Když AI nástroj cituje váš obsah, musí citovat tu správnou (canonical) URL, ne variantu s parametrem.
Konsolidace autority. AI nechce váhat mezi pěti URL s podobným obsahem – chce jasný hint, kterou považovat za zdroj.
Eliminace duplicit. AI prochází limitované množství stránek. Když je polovina vašeho webu duplicita, AI vidí jen polovinu reálného obsahu.

Obsah, který nemá jasnou kanonickou URL, AI nástroje typicky neciuje – preferují jasné, autoritativní zdroje.

Časté chyby v indexovatelnosti

Globální noindex po launchi. Klasika. WordPress má v Nastavení → Čtení zaškrtnutý „Discourage search engines“ a celý web je neviditelný.
Canonical na noindex stránku. Říkáte tím Googlu „indexuj tuhle URL“, ale ta má noindex. Konflikt, který zmate algoritmus.
Canonical na 404 nebo redirect. Cíl canonical musí vrátit 200.
Rozporné signály. Sitemap obsahuje URL, která má noindex. Interní odkazy směřují na variantu, kterou jste canonicalizovali jinam.
Blokování v robots.txt místo noindex. Klasická chyba popsaná výše.
Zapomenutý noindex po staging migraci. Vývojář nasadil web ze staging prostředí a zapomněl noindex odstranit.
Pagination canonicalizovaná na stránku 1. Ztráta hloubkového obsahu.
Canonical přes JavaScript. Funguje, ale ne spolehlivě. Vždy v initial HTML.
Sitemap obsahuje 404 a redirecty. Plýtvá crawl budgetem.
Indexace tagů a kategorií s tenkým obsahem. Snižuje celkovou kvalitu webu v očích Googlu.

Akční audit indexovatelnosti

Search Console → Indexace stránek. Kolik stránek je indexovaných? Kolik je v „Vyloučeno“? Co tvoří hlavní problémy?
Spusťte Screaming Frog a zkontrolujte sekci Directives. Jsou všechny canonical správně? Není někde nečekaný noindex?
Porovnejte sitemap s realitou. Obsahuje jen indexovatelné URL? Žádné 404, redirecty, noindex?
Zkontrolujte WordPress → Nastavení → Čtení. „Discourage search engines“ musí být odškrtnuté.
Auditujte robots.txt. Neblokuje nějakou důležitou sekci? Neblokuje CSS/JS soubory?
Vyřešte konflikty. Sitemap × noindex, canonical × noindex, robots.txt × noindex.
Noindexujte tenký obsah. Tagy s 1–2 příspěvky, prázdné kategorie, search results.

Závěr

Indexovatelnost je jako traffic dispatcher pro vyhledávače – říkáte jim, co indexovat, co ignorovat a kterou verzi považovat za hlavní. V roce 2026 jsou tyto signály ještě důležitější díky AI nástrojům, které citují konkrétní kanonické URL a potřebují jasnou strukturu vašeho obsahu.

Klíč je v konzistenci všech signálů: canonical, sitemap, interní odkazy, robots.txt a meta robots se musí shodovat. Když jsou v rozporu, Google si vybere podle vlastního uvážení – a to často není to, co byste chtěli.

Akční plán:

Zkontrolujte WordPress nastavení (Discourage search engines vypnuté)
Implementujte self-referencing canonical na všech stránkách (přes SEO plugin)
Auditujte sitemap.xml – obsahuje jen indexovatelné URL?
Noindexujte tenký nebo duplicitní obsah
Zkontrolujte pagination – self-canonical, ne odkaz na stránku 1
Sledujte Search Console → Indexace stránek měsíčně
Po každé větší změně proveďte crawl Screaming Frogem
Vyřešte konflikty mezi signály (canonical × noindex × sitemap)

Pravidlo na závěr: indexovatelnost je o jasnosti komunikace s vyhledávači. Když jim řeknete přesně, co chcete a co nechcete v indexu, dostanete čistší ranking, lepší crawl efficiency a vyšší AI viditelnost. Když jim posíláte rozporuplné signály, vybírají si sami – a často špatně.