Roboti narážejí do zdi: co vám brzdí indexaci webu

Proč se indexace láme už na vstupu

Indexace je dnes často problémem méně obsahu než přístupu k obsahu. Google i další vyhledávače mají omezený crawl budget, zejména u větších webů, e-shopů a webů s tisíci parametrických URL. Když robot tráví čas na duplicitách, filtračních stránkách nebo nefunkčních cestách, důležité stránky se do fronty dostanou později. V praxi to znamená pomalejší zobrazení nových článků, produktů i úprav existujících stránek.

Google Search Console sice ukáže „Stránka je objevena – aktuálně neindexována“ nebo „Prolezena – aktuálně neindexovaná“, ale to je až důsledek. Skutečný problém bývá v architektuře webu, interním prolinkování, renderování nebo v chybné technické konfiguraci. U velkých webů se velmi často ukáže, že 20 % URL generuje 80 % crawl zátěže, ale nepřináší téměř žádnou hodnotu.

Nejčastější technické bariéry, na které robot naráží

První blok problémů je čistě technický. Typicky jde o chybné status kódy, blokování v robots.txt, kanonizaci nebo renderování JavaScriptu. Pokud je důležitá stránka vrácena jako noindex, v robots.txt zakázaná, nebo přesměrovaná přes více kroků, indexace se výrazně zpomaluje nebo úplně zastaví.

  • robots.txt – omylem zakázané sekce typu /produkty/, /blog/ nebo /wp-content/ s důležitými soubory pro renderování.
  • meta robots noindex – častá chyba po migraci nebo při použití šablon, kdy se noindex dostane i na produkční URL.
  • canonical – špatně nastavený odkaz na kanonickou verzi, který ukazuje na jinou stránku, kategorii nebo homepage.
  • redirect chains – řetězce 301/302, které zvyšují čas i riziko ztráty signálů.
  • 4xx a 5xx chyby – robot se vrací na neexistující nebo chybové stránky a zbytečně plýtvá crawl budgetem.

Dobrá praxe je pravidelně kontrolovat nejen URL stav, ale i to, co robot skutečně vidí. U JavaScriptových webů se často stává, že HTML je téměř prázdné a obsah se doplní až po renderu. Google sice umí JavaScript renderovat, ale ne vždy okamžitě. U složitějších aplikací může být mezi prolezením a vykreslením klidně dny až týdny.

Jak zjistit, kde se indexace zasekla

Začněte v Google Search Console. Sledujte hlavně sekce Stránky, Sitemapy a Kontrola adresy URL. Pokud máte nový obsah, ale Search Console hlásí „objeveno – aktuálně neindexováno“, je to signál, že Google URL zná, ale nevyhodnotil ji jako dostatečně prioritní nebo kvalitní k indexaci. Pokud je stránka „prolezena – aktuálně neindexována“, robot ji už navštívil, ale nezařadil do indexu.

Další silný zdroj jsou serverové logy. V nich uvidíte, jak často robot prochází konkrétní typy URL, jaké status kódy dostává a zda se vrací opakovaně na nepodstatné stránky. U větších webů se vyplatí analyzovat minimálně 30 dní logů. Nástroje jako Screaming Frog Log File Analyser, Botify, Oncrawl nebo Splunk vám ukážou, které části webu Googlebot opravdu navštěvuje.

Praktický postup:

  • Exportujte z GSC všechny neindexované URL za posledních 90 dní.
  • Porovnejte je s interním crawl výstupem ze Screaming Frogu nebo Sitebulbu.
  • V logách ověřte, zda se na ně Googlebot vůbec dostává.
  • U každé skupiny URL určete příčinu: blokace, slabé prolinkování, duplicita, render, chybový stav.

U e-shopů často odhalíte, že robot tráví čas na facetech a parametrech typu ?sort=, ?price=, ?utm= nebo interních vyhledáváních. Tyto URL bývají zbytečně indexované nebo alespoň nadměrně procházené. Výsledkem je menší šance, že se Google zaměří na produktové stránky s marží a poptávkou.

Interní prolinkování rozhoduje víc, než si většina webů připouští

Indexace není jen o tom, zda má stránka XML sitemapu. Google stále silně spoléhá na interní odkazy jako na signál důležitosti i dostupnosti. Pokud je nová stránka dostupná jen přes sitemapu, ale nikde jinde na webu na ni neodkazujete, může se indexovat výrazně pomaleji. U menších webů je to problém hlavně u blogů; u větších webů u kategorií, landing pages a produktů mimo hlavní navigaci.

V praxi funguje jednoduché pravidlo: každá důležitá URL by měla mít alespoň 2–3 interní odkazy z relevantních míst webu. Nejde o masové prolinkování, ale o tematickou logiku. Když publikujete článek o Core Web Vitals, odkažte na něj z technického SEO hubu, souvisejícího článku o výkonu a případně z FAQ sekce. Tím robot i uživatel pochopí kontext.

Pro analýzu použijte Sitebulb nebo Screaming Frog a sledujte hloubku prokliku. Stránky, které jsou 4 a více kliků od homepage, bývají indexované pomaleji, zejména pokud nemají externí odkazy. U e-shopů je dobré hlídat i tzv. orphan pages – stránky bez interních odkazů. Ty se často objeví po migraci, přidání nových kategorií nebo importu produktů.

Sitemap, canonical a parametry: drobnosti, které dělají velké škody

XML sitemapu berte jako seznam prioritních URL, ne jako odpadkový koš. Do sitemap patří jen stránky, které chcete indexovat, vracejí 200 OK, mají self-referential canonical a jsou v reálném obsahu webu. Pokud do sitemap posíláte noindex stránku, přesměrování nebo duplicitní varianty, snižujete její důvěryhodnost.

Canonical je potřeba používat konzistentně. U produktových variant, parametrů nebo stránkování musí být jasné, která verze je hlavní. Častá chyba je, že všechny varianty kanonizují na homepage nebo na kategorii, což Google vyhodnotí jako nekonzistentní signál. Canonical není direktiva, ale silné doporučení; pokud mu web posílá protichůdné signály, Google si často vybere jinou URL než vy.

Parametry v URL je vhodné řídit už na úrovni informační architektury. Pokud filtr mění obsah jen minimálně a nevzniká po něm vyhledávací poptávka, často je lepší ho z indexace vyloučit. Naopak u parametrů, které vytvářejí skutečně samostatně hledané kombinace, dává smysl vytvořit statické landing pages. To je běžná praxe u e-commerce katalogů s vysokým search intentem.

Co opravit jako první, aby se robot dostal dál

Pokud máte omezené zdroje, řešte problémy v tomto pořadí: nejdřív blokace a chybové stavy, potom interní strukturu, až pak jemné ladění sitemapy a canonicalů. U menších webů bývá nejrychlejší zisk v odstranění technických chyb po vývoji nebo migraci. U větších webů nejvíc pomůže redukce zbytečných URL a lepší směrování crawl budgetu na stránky s obchodní hodnotou.

  • Opravte chybné noindex, robots.txt a přesměrování.
  • Zkontrolujte, zda důležité URL vracejí 200 OK a mají správný canonical.
  • Propojte nové a důležité stránky z hlavní navigace, kategorií nebo tematických hubů.
  • Omezte indexaci parametrů, interního vyhledávání a slabých filtrů.
  • Otestujte renderování v nástrojích jako Google Rich Results Test, URL Inspection a Mobile-Friendly Test.

U webů na WordPressu se často ukáže, že problém není v samotném CMS, ale v kombinaci pluginů, šablony a cache. Například SEO plugin nastaví canonical správně, ale page builder generuje zbytečně hlubokou strukturu nadpisů a odkazy se skrývají v JavaScriptu. U headless řešení zase bývá problém v tom, že frontend sice vypadá rychle, ale pro robota vrací neúplné HTML nebo slabou interní navigaci.

Indexace je tedy méně o jedné „magické“ chybě a více o součtu malých překážek. Když odstraníte blokace, zjednodušíte cestu ke klíčovým stránkám a omezíte zbytečný crawl, robot přestane narážet do zdi a začne se pohybovat po webu tam, kde skutečně chcete být vidět.