Indexovatelnost: jak ovládat canonical tagy, sitemap a noindex ve WordPressu
Můžete mít skvělý obsah, perfektní design a dokonalé SEO – ale pokud Google a AI nástroje nemohou vaše stránky najít a zařadit do indexu, nikdo se k nim nedostane. Indexovatelnost je technický základ celého SEO. V roce 2026 jsou indexační signály ještě důležitější díky AI vyhledávačům, které si vybírají, koho citovat, podle kanonických URL a strukturovaných dat. V tomto článku si vysvětlíme, jak fungují canonical tagy, kdy použít noindex, jak udržet sitemap.xml čistý a jak ve WordPressu kontrolovat, co se indexuje a co ne.
Co je indexovatelnost
Než se dostaneme k technickým detailům, vyjasníme si tři pojmy, které se často zaměňují:
- Crawlability (procházatelnost) – jestli vyhledávací roboti vůbec mohou na vaši stránku dorazit. Řídí se přes robots.txt a interní odkazy.
- Indexability (indexovatelnost) – jestli mohou vaši stránku přidat do svého indexu (databáze stránek, ze které vybírají výsledky). Řídí se přes meta robots, canonical tagy, status kódy.
- Ranking – jestli a jak vysoko se vaše stránka zobrazí ve výsledcích. Řídí se stovkami faktorů.
Tyto tři vrstvy jdou v pořadí: bez crawlability není indexability, bez indexability není ranking. Web může selhat na kterékoli z nich. Většina technických SEO auditů najde problémy hned na první nebo druhé úrovni.
Klíčové pravidlo: blokovat stránku v robots.txt nezabrání její indexaci. Pokud na ni vede nějaký odkaz, Google ji může indexovat, jen nebude znát její obsah. Pro skutečné zabránění indexaci slouží noindex direktiva.
Canonical tagy: která verze je „originál“
Canonical tag je krátký kus HTML kódu, který říká Googlu: „Z těchto podobných nebo identických stránek je tahle ta hlavní.“ Vypadá takto:
<link rel="canonical" href="https://vasedomena.cz/clanek/" />
Umístí se do hlavičky <head> dokumentu.
Kdy canonical tag potřebujete
- Stránky s URL parametry.
vasedomena.cz/produkt/?ref=emailvs.vasedomena.cz/produkt/– obsahově identické, technicky dvě URL. - Filtry a třídění v e-shopu.
?color=red,?sort=price– mohou generovat tisíce variant. - Variantní produkty. Stejné triko v 5 barvách jako 5 různých URL.
- HTTP vs. HTTPS, www vs. non-www. Technicky čtyři různé URL pro stejnou stránku.
- Tracking parametry z UTM.
?utm_source=newsletter– obsahově nic nemění. - Print/PDF verze stránky, pokud existují.
- Syndikovaný obsah. Když svůj článek publikujete na partnerském webu, oba mají canonical na váš originál.
Self-referencing canonical
Každá stránka by měla mít canonical tag i sama na sebe (tzv. self-referencing canonical):
<!-- Stránka https://vasedomena.cz/clanek/ má v <head>: -->
<link rel="canonical" href="https://vasedomena.cz/clanek/" />
Vypadá to redundantně, ale je to správně. Self-canonical chrání před náhodnými duplicitami (např. když někdo přidá tracking parametr do URL).
Pravidla pro canonical targets
URL, na kterou canonical odkazuje, musí splňovat:
- Vrátit HTTP 200 (nesmí to být 404, redirect ani 410)
- Nesmí být blokovaná v robots.txt
- Nesmí mít noindex direktivu
- Měla by být indexovatelná a finální verze
Důležité: Canonical je doporučení, ne příkaz. Google může váš canonical ignorovat, pokud ostatní signály (interní odkazy, sitemap, redirecty) říkají něco jiného. Proto musí být všechny signály konzistentní.
Pagination v roce 2026: zásadní změna
Pokud máte na webu stránkování (seznam článků/produktů rozdělený na stránky 1, 2, 3…), pravidla se v posledních letech zásadně změnila.
Co už neplatí
rel="prev"arel="next"– Google oficiálně přestal tyto signály používat. Nepoškozují, ale ani nepomáhají.- Canonical všech paginovaných stránek na stránku 1 – velká chyba! Říkáte tím Googlu, že stránky 2, 3, 4… jsou duplicity stránky 1, a obsah na nich Google nezindexuje.
Co platí v roce 2026
- Každá paginovaná stránka má self-canonical na sebe samotnou:
<!-- /blog/page/2/ má v <head>: -->
<link rel="canonical" href="https://vasedomena.cz/blog/page/2/" />
- Každá paginovaná stránka je indexovatelná (žádný noindex)
- Mezi stránkami jsou viditelné HTML odkazy (ne jen JavaScript)
Důvod: pokud máte v archivu 200 článků a v paginated pages 2, 3, 4 jsou unikátní články, které by jinak Google nenašel, tyto stránky musí být indexovatelné. Jinak ztrácíte discoverability hloubkového obsahu. Stejně to platí pro AI nástroje – když všechny paginated URL canonicalizujete na stránku 1, AI nástroje vidí jen první stránku obsahu.
Meta robots: noindex, nofollow a další direktivy
Meta robots tag je instrukce pro vyhledávače umístěná v hlavičce stránky:
<meta name="robots" content="noindex, follow" />
Obsahuje dvě hlavní instrukce: jestli stránku indexovat a jestli následovat odkazy z ní.
Čtyři základní kombinace
index, follow– výchozí stav. Indexovat stránku a následovat odkazy. Většina stránek.noindex, follow– neindexovat stránku, ale následovat odkazy. Pozor: Google v dlouhodobém horizontu interpretuje „noindex, follow“ stejně jako „noindex, nofollow“. Po čase přestane odkazy sledovat.noindex, nofollow– neindexovat ani nesledovat odkazy. Pro úplně skryté stránky.index, nofollow– indexovat, ale nesledovat odkazy. Vzácně používané (např. sponzorovaný obsah).
Kdy použít noindex
- Děkovací stránky po odeslání formuláře nebo objednávce
- Admin a login stránky (pokud nejsou už blokované)
- Filtrované URL v e-shopu (
?color=red,?size=L) - Interní vyhledávací výsledky (
/?s=hledany-text) - Tagové archivy, pokud generují tenký obsah
- Staging a testovací prostředí
- Duplicitní stránky, kde nemůžete použít canonical (např. dvě úplně různé stránky o podobném tématu)
- Stránky s tenkým obsahem, které nepřinášejí hodnotu
X-Robots-Tag: noindex přes HTTP hlavičku
Pro non-HTML soubory (PDF, obrázky, video) nemůžete použít meta tag. Místo toho server pošle informaci v HTTP hlavičce:
X-Robots-Tag: noindex, nofollow
Užitečné když chcete například skrýt PDF dokumenty z vyhledávání. Ve WordPressu se nastavuje přes .htaccess nebo plugin (např. Yoast SEO Premium).
Robots.txt vs. noindex: zásadní rozdíl
Tohle pochopit je klíčové, protože tady spousta lidí dělá chybu.
- robots.txt říká: „Tuto stránku nenavštěvuj.“ Roboti tam nepůjdou, ale URL může být známá z odkazů jinde a může být v indexu uvedená (jen bez obsahu).
- noindex říká: „Stránku navštívíš, ale nezařadíš ji do indexu.“ Robot stránku navštíví, přečte direktivu a stránku nezindexuje.
Klasická chyba: Chcete stránku odstranit z Googlu, tak ji blokujete v robots.txt. Výsledek: Google na ni nemůže ani dorazit, takže neuvidí váš noindex tag a stránka může v indexu zůstat dál.
Správný postup:
- Přidejte na stránku
noindexmeta tag - Počkejte, až Google stránku znovu navštíví a noindex načte
- Až poté, co stránka vypadne z indexu, můžete ji případně blokovat v robots.txt
Sitemap.xml: přesný seznam toho, co chcete indexovat
Sitemap.xml je strukturovaný seznam URL, které chcete, aby vyhledávače znaly. Pomáhá hlavně velkým a komplexním webům, ale i malým ulehčuje práci.
Co MUSÍ a NESMÍ být v sitemap
Sitemap by měl obsahovat:
- Pouze URL, které vrací HTTP 200
- Pouze canonical, indexovatelné URL
- Pouze HTTPS verze
- Přesné
lastmoddatum (kdy se obsah skutečně změnil, ne dnešní datum vždy)
Sitemap by NEMĚL obsahovat:
- Stránky s noindex direktivou
- URL s redirecty (301, 302)
- 404 a 410 stránky
- Stránky blokované v robots.txt
- Non-canonical varianty (parametry, filtry)
Pokud máte víc než 50 000 URL, rozdělte sitemap do více souborů a propojte je sitemap indexem.
Sitemap ve WordPressu
WordPress od verze 5.5 generuje vestavěný sitemap na /wp-sitemap.xml. Pro většinu webů je to dostačující, ale SEO pluginy nabízí pokročilejší kontrolu:
- Yoast SEO – generuje rozdělený sitemap (post, page, kategorie, tagy)
- Rank Math – pokročilá kontrola, můžete vyloučit konkrétní typy obsahu
- All in One SEO – obdobné funkce
Po každé větší změně sitemapu jej znovu odešlete v Search Console → Sitemapy.
Indexovatelnost ve WordPressu: praktické tipy
Kontrola „Discourage search engines“
Naprosto nejčastější WordPress chyba: v Nastavení → Čtení je zaškrtnuté „Vyžádat si od vyhledávačů, aby tento web neindexovaly“. Po launchi nového webu se na to zapomene a celý web zůstane neviditelný.
Vždy po spuštění zkontrolujte:
- Toto pole musí být odškrtnuté
- Otevřete zdrojový kód libovolné stránky a zkontrolujte, že NENÍ
<meta name="robots" content="noindex">
Canonical přes SEO plugin
Všechny moderní SEO pluginy (Yoast, Rank Math, AIOSEO) automaticky generují self-referencing canonical pro každou stránku. Můžete je v editoru přepsat:
- Yoast SEO: v editoru → záložka Pokročilé → Canonical URL
- Rank Math: v editoru → SEO panel → Pokročilé → Canonical URL
Noindex přes SEO plugin
Pro jednotlivé stránky:
- Yoast: záložka Pokročilé → Povolit vyhledávačům zobrazit tento příspěvek? → Ne
- Rank Math: SEO panel → Pokročilé → Robots Meta → No Index
Pro celé typy obsahu (např. všechny tagy):
- Yoast: SEO → Search Appearance → Taxonomies → Tags → Show Tags in search results → No
- Rank Math: Titles & Meta → Taxonomies → Tags
Co typicky noindexovat ve WordPressu
- Author archives, pokud máte jediného autora
- Datumové archivy (
/2024/01/,/2024/) - Tag archives s méně než 3–5 příspěvky
- Search results page (
/?s=...) - Děkovací stránky po formulářích
- Stránky s tenkým obsahem, které nemůžete vylepšit
Jak ověřit, co je v indexu
Google Search Console
Hlavní zdroj informací:
- Indexace stránek – přehled, kolik stránek je indexovaných a proč ne
- Sitemapy – stav vašich odeslaných sitemapů
- URL Inspection Tool – kontrola konkrétní URL: jestli je indexovaná, kdy byla naposledy procházena, jaký je její canonical
Site: operátor
Rychlá kontrola v Googlu:
site:vasedomena.cz
Ukáže (přibližně), které stránky vašeho webu má Google v indexu. Pro konkrétní URL:
site:vasedomena.cz/clanek/
Specializované crawlery
- Screaming Frog SEO Spider – sekce „Directives“ ukazuje canonical, noindex a další tagy napříč celým webem
- Sitebulb – vizualizace indexovatelnosti
- Ahrefs Site Audit – přehled indexačních problémů
Indexovatelnost a AI vyhledávače
V éře AI vyhledávání má kanonikalizace ještě jeden rozměr. AI nástroje (ChatGPT, Perplexity, Google AI Overviews) potřebují jednoznačně určit, která verze obsahu je „pravá“:
- Citace správné URL. Když AI nástroj cituje váš obsah, musí citovat tu správnou (canonical) URL, ne variantu s parametrem.
- Konsolidace autority. AI nechce váhat mezi pěti URL s podobným obsahem – chce jasný hint, kterou považovat za zdroj.
- Eliminace duplicit. AI prochází limitované množství stránek. Když je polovina vašeho webu duplicita, AI vidí jen polovinu reálného obsahu.
Obsah, který nemá jasnou kanonickou URL, AI nástroje typicky neciuje – preferují jasné, autoritativní zdroje.
Časté chyby v indexovatelnosti
- Globální noindex po launchi. Klasika. WordPress má v Nastavení → Čtení zaškrtnutý „Discourage search engines“ a celý web je neviditelný.
- Canonical na noindex stránku. Říkáte tím Googlu „indexuj tuhle URL“, ale ta má noindex. Konflikt, který zmate algoritmus.
- Canonical na 404 nebo redirect. Cíl canonical musí vrátit 200.
- Rozporné signály. Sitemap obsahuje URL, která má noindex. Interní odkazy směřují na variantu, kterou jste canonicalizovali jinam.
- Blokování v robots.txt místo noindex. Klasická chyba popsaná výše.
- Zapomenutý noindex po staging migraci. Vývojář nasadil web ze staging prostředí a zapomněl noindex odstranit.
- Pagination canonicalizovaná na stránku 1. Ztráta hloubkového obsahu.
- Canonical přes JavaScript. Funguje, ale ne spolehlivě. Vždy v initial HTML.
- Sitemap obsahuje 404 a redirecty. Plýtvá crawl budgetem.
- Indexace tagů a kategorií s tenkým obsahem. Snižuje celkovou kvalitu webu v očích Googlu.
Akční audit indexovatelnosti
- Search Console → Indexace stránek. Kolik stránek je indexovaných? Kolik je v „Vyloučeno“? Co tvoří hlavní problémy?
- Spusťte Screaming Frog a zkontrolujte sekci Directives. Jsou všechny canonical správně? Není někde nečekaný noindex?
- Porovnejte sitemap s realitou. Obsahuje jen indexovatelné URL? Žádné 404, redirecty, noindex?
- Zkontrolujte WordPress → Nastavení → Čtení. „Discourage search engines“ musí být odškrtnuté.
- Auditujte robots.txt. Neblokuje nějakou důležitou sekci? Neblokuje CSS/JS soubory?
- Vyřešte konflikty. Sitemap × noindex, canonical × noindex, robots.txt × noindex.
- Noindexujte tenký obsah. Tagy s 1–2 příspěvky, prázdné kategorie, search results.
Závěr
Indexovatelnost je jako traffic dispatcher pro vyhledávače – říkáte jim, co indexovat, co ignorovat a kterou verzi považovat za hlavní. V roce 2026 jsou tyto signály ještě důležitější díky AI nástrojům, které citují konkrétní kanonické URL a potřebují jasnou strukturu vašeho obsahu.
Klíč je v konzistenci všech signálů: canonical, sitemap, interní odkazy, robots.txt a meta robots se musí shodovat. Když jsou v rozporu, Google si vybere podle vlastního uvážení – a to často není to, co byste chtěli.
Akční plán:
- Zkontrolujte WordPress nastavení (Discourage search engines vypnuté)
- Implementujte self-referencing canonical na všech stránkách (přes SEO plugin)
- Auditujte sitemap.xml – obsahuje jen indexovatelné URL?
- Noindexujte tenký nebo duplicitní obsah
- Zkontrolujte pagination – self-canonical, ne odkaz na stránku 1
- Sledujte Search Console → Indexace stránek měsíčně
- Po každé větší změně proveďte crawl Screaming Frogem
- Vyřešte konflikty mezi signály (canonical × noindex × sitemap)
Pravidlo na závěr: indexovatelnost je o jasnosti komunikace s vyhledávači. Když jim řeknete přesně, co chcete a co nechcete v indexu, dostanete čistší ranking, lepší crawl efficiency a vyšší AI viditelnost. Když jim posíláte rozporuplné signály, vybírají si sami – a často špatně.