SEO Sprendimai | Puslapių indeksvimas – kas tai ir kaip patikrinti, ar Google mato jūsų puslapius
Svetainė sukurta. Turinys įkeltas. Pinigai išleisti dizainui, tekstams, galbūt net reklamai. Ir vis tiek – Google paieškoje jūsų svetainės tiesiog nėra. Ne antrame puslapyje, ne dešimtame. Niekur. Prieš ieškant kaltės turinyje ar raktažodžiuose, reikia užduoti vieną klausimą: ar Googlebot – Google robotas, kuris nuskaito interneto puslapius – apskritai kada nors aplankė tuos puslapius? Ir jei aplankė, ar juos įtraukė į indeksą?
Po šio straipsnio jūs žinosite: ką reiškia puslapių indeksavimas, kodėl Google kartais „praeina pro šalį” net gerai sukurtą svetainę, ir kaip per 10 minučių patikrinti, kuri jūsų svetainės dalis yra matoma, o kuri – ne.
Google neieško turinio realiu laiku. Tai svarbu suprasti nuo pat pradžių.
Vietoj to, Googlebot reguliariai šliaužia per interneto puslapius, renka informaciją ir siunčia ją į milžinišką duomenų bazę – vadinamą indeksą. Tik ten esantys puslapiai gali pasirodyti paieškos rezultatuose. Procesas vyksta keturiais etapais:
Kur dažniausia problema? Tarp trečio ir ketvirto žingsnio. Googlebot gali aplankyti puslapį ir vis tiek jo neindeksuoti. Tai ne klaida – tai sprendimas.
Čia teorija ir praktika išsiskiria.
Kai kurie puslapiai tyčia blokuojami – per robots.txt failą arba meta robots žymą su „noindex” direktyva. Tai normalu: prisijungimo puslapiams, vidinėms administravimo sritims, dublikatų URL. Bet dažniau tikroji problema kyla netyčia, ir savininkas apie ją net nežino.
Orphan pages – puslapiai be vidinių nuorodų. Jei į puslapį nėra nei vienos nuorodos iš kitos svetainės dalies, Googlebot jį randa tik per sitemap.xml. Jei toks failas apskritai neegzistuoja arba nebuvo atnaujintas – šie puslapiai gali likti neatrasti mėnesiais.
Crawl budget – nuskaitymo biudžeto eikvojimas. Didelėse svetainėse Google skiria ribotą kiekį nuskaitymo resursų. Jei svetainė generuoja tūkstančius bereikalingų URL – filtravimo puslapiai, URL parametrai, faceted navigation rezultatai – biudžetas išeikvojamas ne ten, kur reikia. Tai ypač aktualu e-komercijos svetainėms.
„Discovered – currently not indexed.” Tai Google Search Console (GSC) kategorija, kuri tiesiogiai reiškia: „Žinome, kad šis puslapis egzistuoja, bet jį indeksuoti neapsisprendėme.” Ne klaida. Signalas – puslapis yra menkavertis arba tema per konkurencinga jam ginti. Daug smulkaus verslo svetainių turi dešimtis, kartais šimtus puslapių šioje kategorijoje ir apie tai nežino.
Soft 404 – techniškai gyvas, faktiškai tuščias. Puslapis grąžina 200 HTTP atsakymą (t.y. „viskas gerai”), bet jo turinys toks menkas, kad Google jį traktuoja kaip faktiškai tuščią. Klasikinis pavyzdys – WooCommerce produkto puslapis, kurio prekė jau nebeparduodama, tačiau puslapis nebuvo nei atnaujintas, nei pašalintas.
Įveskite Google paieškoje: site:jusudomenas.lt
Rezultatų skaičius rodo, kiek puslapių Google turi savo indekse. 200 puslapių svetainė, kurios „site:” operatorius grąžina 11 rezultatų – tai rimtas signalas. Tačiau čia yra niuansas, kurį dažnai ignoruojama: šis skaičius apytikslis. Google jį apvalina. Naudokite kaip greitą orientyrą, ne kaip auditą.
Tai vienintelis patikimas šaltinis. Google Search Console → „Indexing” → „Pages” – čia rasite:
Jei GSC paskyros dar neturite – tai pirmas dalykas, kurį reikia padaryti šiandien. Prieš viską kita. Ji nemokama ir be jos dirbate aklinai.
Norite patikrinti konkretų URL? GSC URL Inspection Tool parodo: ar puslapis indeksuotas, kada paskutinį kartą jį aplankė Googlebot, kaip Google „mato” puslapio turinį po rendering proceso, ir ar yra struktūrinių klaidų. Ypač naudinga tikrinant naujus puslapius arba po turinio atnaujinimų.
Būsiu tiesioginis: daugelis smulkaus verslo svetainių turi puslapius, kurie turėtų būti blokuoti, bet nėra – ir puslapius, kurie turėtų būti indeksuoti, bet nėra. Dažniausiai abu šie dalykai vyksta vienu metu.
WordPress svetainė su WooCommerce standartiškai sukuria milžinišką kiekį URL: produktų filtrai, krepšelio puslapiai, „thank you” puslapiai, archyvai pagal kategorijas, pagal autorius, pagal metus. Visa tai eikvo crawl biudžetą ir kuria index bloat problemą – per daug menkaverčių puslapių indekse, kas mažina bendrus svetainės kokybės signalus Google akyse. Google tai matuoja ir į tai atsižvelgia vertinant visą domeną.
Sprendimas nėra „noindex viskas.” Tai kita kraštutinybė, kuri gali paslėpti puslapius, kurie iš tikrųjų turėtų būti matomi. Sprendimas – auditas: suprasti, kurie puslapiai prideda vertę vartotojui, ir kurie egzistuoja tik techniškai.
Prieš siunčiant puslapi indeksavimui per GSC funkciją „Request indexing”, patikrinkite du dalykus.
Pirma – robots.txt failas. Atidarykite jusudomenas.lt/robots.txt ir patikrinkite, ar nėra eilutės, kuri blokuoja tą URL ar visą katalogą. Dažnai tai būna iš seno likusios taisyklės, kurių niekas nebeprisimena.
Antra – meta robots žyma puslapio HTML kode. Ieškokite <meta name=”robots” content=”noindex”>. Jei ją rado, ten ir problema – nei turinys, nei nuorodos čia nieko nekeičia.
Jei abu švarūs – siunčiate indeksavimo užklausą. Paprastai Google atsako per 1-14 dienų. Ne visada teigiamai.
Ir čia yra apribojimas, kurį svarbu žinoti: negalima priversti Google indeksuoti puslapio, kurio jis nelaiko vertingu. Jei puslapis per trumpas, turinys nukopijuotas iš kitur, arba tema per konkurencinga – net techniškai tobulas puslapis gali sėdėti „Discovered – currently not indexed” kategorijoje ilgus mėnesius. Techninis tvarkymas atveria duris; vertingas turinys jas pereina.
Puslapių indeksavimas yra SEO pagrindas. Bet tik pradžia.
Indeksuotas puslapis dar nereiškia aukštų pozicijų. Tai reiškia, kad jis yra „žaidime.” Svetainės, kuriose didelis procentas puslapių neindeksuotas be aiškios priežasties, paprastai turi ir bendrų SEO problemų – silpnas vidines nuorodų struktūras, lėtą įkėlimo greitį, arba thin content problemas, kurias Google laiko menkai naudingomis.
Reikia patikrinti ir tai: ar jūsų sitemap.xml apskritai egzistuoja, ar jame yra tik aktualūs puslapiai (ne 301 redirect URL, ne noindex puslapiai), ir ar jis pateiktas GSC. Dalis svetainių turi sitemap, kuris automatiškai generuojamas, bet niekada nebuvo patikrintas – ir jame sėdi puslapiai, kurie neturėtų ten būti.
Jei GSC paskyros dar neturite – tai pirmas žingsnis, ir jis nemokamas. Patvirtinkite domeną ir po kelių dienų turėsite pirmuosius duomenis.
Jei GSC jau turite: atidarykite „Pages” ataskaitą ir paskaičiuokite, koks procentas jūsų puslapių nėra indeksuoti. Jei daugiau nei 30% – verta giliau žiūrėti į crawl budget paskirstymą ir vidinių nuorodų struktūrą, o ne tik siųsti individualias indeksavimo užklausas.
Po 30 dienų – grįžkite į tą pačią ataskaitą. Jei skaičiai nepasikeitė arba pablogėjo po turinio atnaujinimų, tai aiškus signalas: problema ne turinyje, o techninėje svetainės architektūroje. Ir tai jau kitas, gilesnis pokalbis.