Příběhy webmasterů: Ruský spam, subdomain hijack, nástroje hromadného ničení a SEO pro Jekyll

Jedna subdoména. Ovšem naprosto zásadní pro další existenci Heureky. Mobilní subdoména m.heureka.cz
. Přes čtyři roky práce na zresponzivnění Heureky s MFI v zádech.
Jedna vládne MFI je čtvrtý díl ze série textů Satan, SEO a Subdomény. V předchozí části s podtitulem Řízená SEOcida jsme popisovali válku s 60.000 brandovými subdoménami. V průběhu všech předchozích prací jsme ovšem pracovali na něčem mnohem větším, byť to obnášelo zahodit jen jednu subdoménu.
V rychlosti si pojďme zopakovat přehled čtyř hlavních typů subdomén Heureky:
www
, blog
, info
) ~20 subdomén.m
) 1 subdoména.notebooky
, mobilni-telefony
, elektronika
) ~2500 subdomén.sony
, nikon
, apple
) ~60.000 subdomén.herni-notebook
, android-telefony
, xbox-360
) ~1000 subdomén.Tentokrát se budeme bavit pouze o jedné jediné subdoméně. Ovšem naprosto zásadní pro další existenci Heureky. Mobilní subdoména m.heureka.cz
. Přes čtyři roky práce na zresponzivnění Heureky s MFI v zádech.
Na start připomeňme časovou osu informací a aktualizací kolem mobile-first indexování, page speed a page experience.
Kolem MFI kolovalo poměrně hodně nejasností a lehká panika. Nejvíc tomu přispěl Google update z dubna 2015, který si vysloužil nelichotivou přezdívku „Mobilegeddon“.1 Od MFI se tak trochu očekávalo, že to bude druhý Mobilegeddon. Nebyl.
Zpětným pohledem je vlastně úsměvné koukat na některé informace. V roce 2016 se dozvídáme o MFI. Dalších roky následuje spousta rezolutních zpráv o definitivním přesunu. A najednou v roce 2021, kdy už se na MFI trochu pozapomnělo, Google informuje veřejnost, že vlastně všechny weby na mobile-first připraveny nejsou a ještě to potrvá. Něco podobného aktuálně probíhá také u přesunu z GA UA na GA4.2 Většina těch velkých věcí trvá déle, než bylo plánováno a Google jednoduše nemá za cíl váš web potopit.3 Málokdy je skutečně důvod předčasně panikařit.
Nehledě na aktuální stav rolloutu MFI je nutné poznamenat, že mobile-first přístup skutečně důležitý. Základna uživatelů s mobilními zařízeními stále roste a je nutné tento stav reflektovat. Pokud ještě máte separátní mobilní verzi, tak níže uvádíme takové MFI SEO minimum, které jsme řešili nejvíce.
Nicméně v dnešní době je dobrý nápad se mobilní verze zbavit a přesunout se na plně responzivní design. Stále ovšem platí, že není dobrý nápad responziv uspěchat. Je lepší o něco déle vydržet se separátními verzemi nebo jen desktopovou verzí. A udělat responziv pořádně v dobré kvalitě. Nějak to narychlo poprasit se nevyplácí.
Zresponzivnění Heureky byl poměrně solidní oříšek a běh na trať delší, než kdokoliv původně očekával. Nervy tekly všem zúčastněným. Téměř polovinu času nám na dveře ťukal strašák v podobě MFI. A druhou polovinu nám stál v zádech a my čekali, kdy se co podělá a jak moc.
Postup jsme hodili do zjednodušené časové osy, kde je vypsaná většina výraznějších milníků na cestě k responzivu.
m.heureka.cz
.m.heureka.cz
.m.heureka.cz
běží na 50 % trafficu.Vývoj a kompletní nasazení trvalo přibližně čtyři roky a podařilo se necelé dva roky po příchodu MFI. Do procesu zasahovaly čtyři poměrně významné věci a nespočet dalších větších či menších událostí.
Délku zprovoznění responzivu protahovaly různé technologické změny. Postupný přesun na cloudové řešení. A také přepisování všech služeb a částí Heureky na mikroservisy. Bavíme se o zásadních a komplexních změnách, které se nedají udělat za pár dní.
Více si můžete přečíst ve článcích níže.
Významnou evoluci firmy představoval přesun od klasických KPIs směrem k OKR metodice. Dále také změna struktury pomocí rozdělení do tribů a logičtějšího rozdělení produktových oblastí. Podobné změny v dlouhodobém horizontu přináší mnoho pozitiv. Z krátkodobého pohledu však může nastat období lehkých zmatků. Jinak řečeno, chvilku trvá „než si to sedne“.
Vše je zdokumentované ve článcích níže.
Ve stejném časovém období se začal řešit i vývoj OnePlatform. Tedy jednotného backendu a frontendu pro všechny weby v devíti zemích Heureka Group. Paralelně vedle sebe tedy běžely dva obří vývojové projekty.
Více o OnePlatform ve článcích níže.
Ač neradi tak musíme zmínit i COVID-19. Příchod koronaviru a pandemie změnil věci na mnoha úrovních. Přesun lidí na homeoffice a hromada callů asi nejsou žádná novinka. Lidé se přesunuli více do on-line světa. Neustálé lockdowny, rozvolňování a různá opatření pro nás znamenaly totální „rozbití“ analytiky, která už tak nebyla jednoduchá. Poměrně běžně se stávalo, že se vládní opatření trefovala do našich testů a vyhodnocování. Často nebylo vůbec jasné, jestli k poklesu nebo růstu došlo díky naší práci nebo divoké covidové situaci.
Níže článek, jak jsme si poradili s homeofficem.
Možná už tušíte z předchozích článků, že ani samotná Heureka ze SEO pohledu nebyla příliš přehledná. Mimo to často existovalo paralelně více verzí Heureky. Něco běželo na produkci, něco v (jednom z mnoha) A/B testů. K tomu několik staging prostředí. Ve výsledku vedle sebe bylo zpravidla pět a více verzí k testování.
Představu asi máte. Některé věci se testovaly přidáním speciálních parametrů do URL. Třeba https://www.heureka.cz/?display=old. V pozdějších fázích pak pomocí cookies, které řešily (ne)zobrazení responzivu nebo nějakého A/B testu. Posléze se ještě přidává automatické přesměrovávání uživatelů na responzivní desktopovou verzi, kterou ale stále boti nevidí.
Testovat bežnými SEO nástroji většinu z toho nebylo možné. Takže jsme seděli u PC s tahákem, s různými „hacky“ co a jak zobrazit. Dokola se ručně testovaly scénáře a ověřovalo, že bot skutečně vidí jen to, co jsme potřebovali. A často stejně nic vyhodnotit nešlo. Po spuštění testu se na jaře kompletně změní počasí, lidi vyrazí do přírody a koukáme se na 15% pokles. Nebo je vyhlášen lockdown a následuje 15% růst. Povedl se test? Nebo propadl? Může za to nějaký externí faktor? Když test zopakujeme, tak se dva měsíce zpožděná práce protáhne o další dva měsíce, které už nemáme. Následuje vyčerpání, rezignace a v rámci expertního odhadu a zkušeností doufáte v dobrý výsledek.
Než přišlo MFI, tak jsme se snažili šířit dostatek osvěty, školit kolegy, analyzovat potenciální dopady a vyřešit problematická místa na webu. Největší nepřítel je stres a strach z neznámého. Reálně nikdo netušil, co se může stát po přesunu webu na MFI. A kdy přesně k tomu dojde.
Notifikace o mobile-first indexingu pro Heureku nám dorazila 23. října 2019. Informace hned od začátku působily zmateně, protože v GSC se stejný den objevila informace, že k přesunu došlo ve skutečnosti už 1. října. To pro nás znamenalo, že jsme pravděpodobně nabrali přes 3 týdny zpoždění.
V GSC jsme hned na to postřehli, že od prvního října došlo k obřímu propadu indexovaných URL. Z 230 milionů na 78 milionů URL.
U analytiky jsme seděli do tří do noci. Nikde nic. Vliv MFI nikde vidět nebyl. Pokles indexovaných URL se taky nijak neprojevil.
Dle informací jedním z hlavních signálů MFI měla být aktivita botů. Konkrétně traffic od bota pro mobilní zařízení měl být (výrazně) vyšší než u desktopových googlebotů. Což se nestalo. V daném období dělal mobilní googlebot (tyrkysová na grafu) jen třetinu trafficu. Na druhou stranu signály jsme dostávali v průběhu předchozích dvanácti měsíců, kdy postupně docházelo k nárůstu z desetinového trafficu na zmíněný třetinový.
Ve finále se nic nestalo. Jen se pomalu zvyšovala aktivita mobilního googlebota. Žádný dopad na traffic. Ale ten stres bychom nikomu nepřáli zažít.
Venku jsme z toho nebyli. Responziv stále nebyl hotový a práce intenzivně pokračovaly. Byť jsme do té doby nezaznamenali žádný dopad, tak nebylo jasné, jak dlouho nám zbývá, než se případné problémy projeví. Stres pokračoval a každý den mohlo dojít k libovolnému průšvihu. Ta nejhorší část přesunu na responziv následovala až po MFI. V časovém období od ledna 2020 až do června 2021 probíhalo velké množství A/B testování a ladění. Vše ovlivněné již zmíněným nástupem covidu, který měl dopad i svět e‑commerce.
Na mobilní verzi se naštěstí nacházely pouze kategorie, produktové detaily a interní vyhledávání. Dříve popisované parametrické sekce a brandové koutky se zde vůbec nenacházely.
V době 301 redirectů už navíc na mobilní verzi nebyl prakticky žádný traffic, protože veškeré uživatele jsme už dávno automaticky přesměrovávali na responzivní desktopovou verzi, o které jsme věděli, že funguje spolehlivě. Největší pozornost jsme proto zaměřili na access logy a chování botů.
Samotné přesměrování mobilní subdomény proběhlo poměrně čistě a bezproblémově. URL patterny byly na mobilní i desktopové verzi víceméně stejné, což proces relativně usnadnilo.
Jako první jsme přesměrovali interní vyhledávání. U toho nedošlo k žádnému problému.
m.heureka.cz/hledat -> www.heureka.cz/?h[fraze]=
Druhý v pořadí byl produktový detail. S čím jsme úplně nepočítali bylo, že si to Google vyloží jako důvod proč přestat crawlovat i zbytek mobilní Heureky. Na grafu níže je vidět aktivita Googlebota po přesměrování produktových detailů. Levá část zobrazuje běžnou aktivitu napříč mobilní Heurekou. Zvýšení aktivity po přesměrování. A následný útlum crawlování úplně všech URL, krom přesměrovaných produktových detailů.
Rychle jsme tedy přesměrovali i zbytek – kategorie a homepage. Zajímavé je, že Googlebot pak poměrně rychle přestal přesměrované mobilní URL navštěvovat. Očekávali jsme větší nápor requestů a delší období postupného poklesu, ale nedošlo k tomu. Něco podobného jsme již zmiňovali v předchozím článku.4
Je velmi pravděpodobné, že Google umí poměrně dobře pracovat s různými patterny a pomocí nějakého „interpolačního“ mechanismu si jednoduše umí některé věci dopočítat, aniž by musel navštívit všechny URL.
Krom toho je možné, že v případě mobilní verze webu hrály v náš prospěch i správné tagy canonical a alternate. Takže ve chvíli, kdy bylo ze vzorku přesměrování jasné, už měl bot k dispozici dostatek informací, aby nemusel všechny známé URL testovat.
Ještě na závěr přidáváme pár článků, kde je popsáno zresponzivnění z jiného pohledu:
Poučení 1: Chladná hlava. To se jednodušeji říká (respektive píše), než realizuje. Jsou věci, které nejdou ovlivnit a urychlit. Hoďte se trochu do pohody, protože jinak se u velkých úprav webů zblázníte. A pochopitelně mějte po ruce dostatek podkladů a argumentů pro vedení firmy.
Poučení 2: Google není nepřítel. Google dlouhodobě bojuje poměrně intenzivně se spamem a u spousty věcí bývá nekompromisní. Ale v případě užitečných služeb a známých brandů má poněkud vyšší toleranci.
Poučení 3: Propad v indexaci a data v GSC. Google měl a má problémy zobrazovat správná data v GSC. Zvláště u hodně velkých webů. Nevěřte všemu co vidíte a nepanikařte.
Poučení 4: Custom tagy. Pokud si potřebujete něco označkovat, tak je možné vytvořit vlastní tag nebo atribut. Třeba <meta rel="muj-test" value=„yxz“>.
Poučení 5: Poctivě testujte. Vyplatí se to. Lepší se trochu zaseknout v SEO a nemít vše dokonalé. Důležitější je mít kvalitní použitelný web. Bez toho totiž ztratíte víc uživatelů, než kvůli nějakému SEO nedostatku.
Poučení 6: Přesuňte traffic předem. Postupným přesouváním trafficu se dá částečně eliminovat potenciální negativní dopad náhlých SEO změn.
Možná vás zajímá, jaké jsme používali v průběhu této práce nástroje. Uvádíme proto stručný soupis.
Jedna subdoména nám dala zabrat víc než cokoliv jiného. Ani ne tak z pohledu SEO. Tam nebylo moc co řešit. Stačilo pohlídat jen pár tagů a přesměrování. Ale psychicky byly ty roky velice náročné. A na sto procent platí, že takováto práce se nedá dělat v jednom člověku. Je potřeba menší tým, který se nějak zvládne podržet a podporovat.
K textu přistupujte obezřetně. Tento článek a celý seriál neslouží jako návod. Texty neobsahují žádné „univerzální“ pravdy. Každý web představuje unikátní systém s různými výchozími podmínkami. Je nutný individuální přístup a perfektní znalost konkrétního webu i dané problematiky.
Článek popisuje náš web. Nijak nehodnotíme obecnou efektivitu subdomén či adresářů. Ani nedoporučujeme žádné konkrétní řešení. Opět se jedná o silně individuální záležitost, kterou ovlivňuje mnoho faktorů.
Strategie a detailní plány pro některé zde popsané aktivity vznikaly více než rok. Vše bylo mnohokrát diskutováno, průběžně testováno a validováno. Myslete na to, prosím, až budete podobné aktivity sami dělat.
Některá uvedená data mohou být nepřesná a účelově zkreslená. Konkrétní čísla, jako jsou například statistiky organické návštěvnosti, revenue, konverze a podobně, nemáme z pochopitelných důvodů v plánu vypustit ven. Klíčové informace, jako jsou počty subdomén, URL a naše postupy, jsou však uvedeny pravdivě bez přikrášlení.
Texty mohou obsahovat pokročilé koncepty a modely, které nejsou v oblasti SEO úplně standardní. Články je proto doplněny o poznámky pod čarou se zdroji, kde je vše detailně vysvětlené.
Mobilegeddon https://en.wikipedia.org/wiki/Mobilegeddon. ↩
Odložení ukončení měření do GA UA pro uživatele Analytics 360 https://blog.google/products/marketingplatform/analytics/turn-insights-roi-google-analytics/. ↩
Snad jen s výjimkou YMYL (Your Money or Your Life) a EEAT (Experience, Expertise, Authority, Trustworthiness) https://static.googleusercontent.com/media/guidelines.raterhub.com/en//searchqualityevaluatorguidelines.pdf (kapitoly 2.3 a 3.4). ↩
Viz poznámka 12 u článku https://www.heurekadevs.cz/satan-seo-subdomeny-iii-seocida. ↩
Seznam kategorií