Blog 16 min czytania

Noindex czy robots.txt: jak bezpiecznie wykluczyć podstrony z wyników Google?

Redakcja

Redakcja CiąglePiszemy.pl

Noindex czy robots.txt: jak bezpiecznie wykluczyć podstrony z wyników Google?

Jeśli kiedykolwiek próbowałeś „usunąć podstronę z Google”, prawdopodobnie zauważyłeś, że to wcale nie jest jedno kliknięcie. Najczęściej problem wynika z pomieszania dwóch pojęć, które brzmią podobnie, ale oznaczają coś zupełnie innego:

  • crawlowanie (czy Googlebot może wejść na URL i pobrać treść),
  • indeksowanie (czy URL ma prawo pojawić się w wynikach wyszukiwania).

W praktyce wiele błędnych wdrożeń wygląda tak: ktoś blokuje URL w robots.txt, a potem dokłada noindex… i jest zdziwiony, że strona dalej potrafi wisieć w indeksie jako sam adres. W tym poradniku dostajesz podejście „bezpieczne w produkcji”: kiedy użyć noindex, kiedy robots.txt, kiedy 404/410, a kiedy w ogóle nie dotykać żadnego z tych rozwiązań, tylko rozwiązać problem kanonicznością, przekierowaniem albo dostępem.

TL;DR: jak bezpiecznie wykluczyć podstrony z wyników Google

Jeśli masz 30 sekund, zapamiętaj tę regułę:

Chcesz wykluczyć z wyników Google → użyj noindex albo 404/410.
Chcesz oszczędzić crawl i ograniczyć chodzenie bota po śmieciowych URL-ach → użyj robots.txt.

Cel Najbezpieczniejsze rozwiązanie Czego unikać
URL ma zniknąć z Google, ale strona ma dalej działać dla użytkowników noindex (meta robots lub X-Robots-Tag) + brak blokady w robots.txt Disallow + noindex na tym samym URL-u
URL ma zniknąć z Google i strona ma nie istnieć 404 lub 410 (ew. 301 do zamiennika) trzymanie „pustej” strony 200 + noindex bez powodu
Masz miliony kombinacji filtrów/parametrów i chcesz ograniczyć crawl robots.txt (Disallow dla wzorców) + porządek w linkowaniu liczenie, że robots.txt „deindeksuje”
To treść wrażliwa (staging, panel, dane prywatne) autoryzacja 401 / ograniczenie IP / hasło traktowanie noindex lub robots.txt jako zabezpieczenia

Noindex vs robots.txt: różnica, która rozwiązuje 80% problemów

Noindex to informacja dla Google: „nie pokazuj tej strony w wynikach wyszukiwania”. Może być ustawiona:

  • w HTML jako meta tag (<meta name="robots" content="noindex">),
  • w nagłówku HTTP jako X-Robots-Tag: noindex (ważne m.in. dla PDF).

Robots.txt to plik z regułami: „których URL-i Googlebot nie powinien pobierać”. To kontrola crawla, nie indeksu.

Kluczowy niuans: żeby Google zastosował noindex, musi mieć możliwość zobaczenia tej dyrektywy. A więc musi wejść na URL (crawl) i odczytać HTML/nagłówek. Jeśli zablokujesz URL w robots.txt, sam sobie zabierasz możliwość „dostarczenia” noindex.

Crawl a indeks: „tablica prawdy”, którą warto znać

W praktyce warto myśleć o wykluczaniu jak o kombinacji dwóch przełączników: czy Google może wejść na URL? oraz co ma zrobić z indeksem?.

Crawl (robots.txt) Noindex (meta/X-Robots-Tag) Najczęstszy efekt w Google Typowy błąd interpretacji
Dozwolony Brak URL może zostać zindeksowany i rankować „Przecież to nic nie powinno robić”
Dozwolony Jest URL zwykle wypada z indeksu po ponownym crawlu „Noindex nie działa, bo jeszcze widzę w SERP” (a Google nie wszedł ponownie)
Zablokowany Brak URL może być widoczny jako sam adres (bez opisu), jeśli Google zna go z linków „Disallow usuwa z indeksu”
Zablokowany Jest (na stronie) Google często nie ma jak odczytać noindex → URL bywa „uwięziony” w indeksie „Dodałem noindex i dalej wisi”

To jest też powód, dla którego w audytach indeksacji tak często widzisz w GSC komunikaty w stylu „Zindeksowano, mimo że zablokowano w pliku robots.txt” — to nie jest „bug”, tylko przewidywalny efekt rozdzielenia crawla od indeksu.

Kiedy wybrać noindex (i jak wdrożyć bez ryzyka)

Noindex wybierasz wtedy, gdy URL:

  • nie ma wartości jako osobny wynik w Google (np. koszyk, panel klienta, podziękowanie po formularzu),
  • jest „użytkowy”, ale chcesz, żeby ruch przychodził na stronę nadrzędną (np. strona logowania zamiast kategorii),
  • generuje duplikację lub rozcieńcza indeks (np. parametry sortowania, warianty filtrów, strony wewnętrznego wyszukiwania),
  • ma sens dla użytkownika, ale nie chcesz konkurować nim w SERP (np. wersje drukowane, „preview”, strony tagów bez wartości).

Żeby to było „eksperckie”, doprecyzujmy to na przykładach — bo dopiero wtedy widać, gdzie ludzie najczęściej popełniają błędy:

  • E-commerce: /cart, /checkout, /account, /order-confirmation → niemal zawsze noindex. Strony mają sens dla użytkownika, ale praktycznie nigdy nie powinny być landingami z Google.
  • B2B/lead gen: /thank-you (strona podziękowania po formularzu) → noindex + często dodatkowo brak linkowania z nawigacji (żeby nie zrobić jej „naturalnym” URL-em do znalezienia przez boty).
  • Wyszukiwarka wewnętrzna: /szukaj?q= → Google od lat komunikuje, że indeksowanie stron wyników wyszukiwania w serwisach jest niepożądane (to częsta przyczyna „search spam” i cienkich stron). Tu sensowne są dwa poziomy: noindex dla samych wyników + robots.txt dla nieskończonych kombinacji (żeby nie marnować crawla).
  • Parametry śledzące: ?utm_source= / ?gclid= → to nie jest „osobna treść”, więc zamiast noindex lepiej dopilnować, żeby canonical wskazywał wersję bez parametrów i żeby te parametry nie generowały wewnętrznych linków (to typowy przykład problemu, który wygląda jak „indeksacja śmieci”).

Wdrożenie 1: meta robots noindex w HTML

Najprostsza forma:

<meta name="robots" content="noindex,follow">

Praktyczne uwagi eksperta:

  • follow bywa stosowane, gdy chcesz, by robot nadal „przepływał” linkami z tej strony, ale pamiętaj, że w praktyce Google traktuje część dyrektyw jako wskazówki. Najważniejsze jest samo noindex.
  • Jeśli ustawiasz noindex na wielu podstronach, dopilnuj, żeby nie dotknąć przypadkiem URL-i, które mają rankować (najczęstszy błąd: reguła w CMS „łapie” również strony paginacji lub kluczowe filtry).

Warto też rozumieć różnicę między noindex a nofollow, bo często są mieszane:

  • noindex dotyczy widoczności URL-a w wynikach (indeksu),
  • nofollow dotyczy tego, jak Google traktuje linki (i od 2019 r. jest przez Google komunikowany jako „hint”, czyli wskazówka, a nie twarda dyrektywa).

Dlatego w praktyce rzadko ma sens „odcinać” linki (nofollow) na stronach, które i tak mają być użytkowe w serwisie. Jeśli problemem jest indeksacja, rozwiązuj indeksację (noindex/404/410/canonical), a nie próbuj „zaklinać” linków.

Wdrożenie 2: X-Robots-Tag: noindex (PDF, obrazy, pliki)

Gdy nie masz HTML (np. PDF w katalogu /files/), użyj nagłówka HTTP:

X-Robots-Tag: noindex

To rozwiązanie jest szczególnie przydatne, gdy:

  • plik jest dostępny publicznie (ma działać dla użytkowników),
  • ale nie chcesz go w indeksie (bo np. kanibalizuje treść HTML lub jest wersją roboczą).

Najważniejsza zasada przy noindex

Nie blokuj tego URL-a w robots.txt, jeśli Twoim celem jest deindeksacja. Noindex działa „po wejściu” — robots.txt może to wejście uniemożliwić.

Jeśli masz wątpliwości, czy Google w ogóle będzie w stanie zastosować zmianę, przyda Ci się też świadomość, że wiele działań SEO „zaskakuje” dopiero po ponownym crawlu i aktualizacji. Ten mechanizm jest podobny do sytuacji, gdy po zmianie meta tagów SERP przez jakiś czas pokazuje stare dane: Jak długo Google pokazuje stary title i opis po zmianie meta tagów?.

Dlaczego noindex czasem „nie działa”? 7 przyczyn, które widać w projektach

W większości przypadków noindex działa przewidywalnie, ale pod warunkiem, że sygnały się nie gryzą. Poniżej lista przyczyn, które realnie najczęściej znajduję w audytach technicznych:

1) URL jest zablokowany w robots.txt (klasyk: noindex + disallow).
2) Google widzi inną wersję kanoniczną niż Ty edytujesz (np. canonical wskazuje inny URL, albo Google „wybiera” inny canonical przez duplikację).
3) Meta tag jest generowany w JS albo wariantach (A/B, personalizacja) i Googlebot dostaje inną wersję niż Ty w przeglądarce.
4) Cache/CDN serwuje stary HTML (w praktyce widać to jako „w CMS jest noindex, a w źródle strony go nie ma”).
5) Soft 404: strona zwraca 200, ale treść wygląda jak „nie ma produktu”/„brak wyników” — Google potrafi traktować to inaczej niż oczekujesz i decyzje indeksacyjne są niestabilne.
6) Przekierowania po drodze: noindex na URL-u A nic nie da, jeśli realnie ruch i sygnały idą na URL B po 301/302.
7) Zbyt szeroka reguła: „noindex na /” lub na szablonie, który łapie także strony kluczowe (to błąd, który zwykle wychodzi dopiero, gdy spadki są już w GSC).

To nie jest teoria. Da się to sprawdzić w 10 minut: w Inspekcji URL w GSC zobaczysz, co Google pobrał, jaki canonical wybrał i kiedy ostatnio crawlowano stronę. W logach serwera (jeśli masz dostęp) zobaczysz z kolei, czy Googlebot faktycznie wchodzi na URL-e, które chcesz „odindeksować”, czy kręci się po parametrach i filtrach.

Kiedy wybrać robots.txt (i dlaczego to nie jest narzędzie do „usuwania z Google”)

Robots.txt jest świetny do jednego: zarządzania tym, gdzie Googlebot ma nie tracić czasu.

Typowe zastosowania w SEO technicznym:

  • nieskończone kombinacje filtrów (faceted navigation),
  • sortowania, parametry trackingowe, warianty URL-i,
  • strony wewnętrznego wyszukiwania (szczególnie, jeśli generują tysiące thin pages),
  • ścieżki techniczne, które nie powinny być crawlowane (np. endpointy, podglądy, warianty).

Przykład blokady wzorców:

User-agent: *
Disallow: /szukaj
Disallow: /*?sort=
Disallow: /*?utm_

Ważne: czasem trafisz na stare poradniki, które sugerują dyrektywę noindex w robots.txt. Google oficjalnie wycofał wsparcie dla takiej dyrektywy (od 2019 r.), więc traktuj to jako antywzorzec. Jeśli celem jest wykluczenie z wyników, trzymaj się noindex (meta robots / X-Robots-Tag) albo kodów 404/410 — to są mechanizmy, które faktycznie „komunikują” indeksację.

Dwie rzeczy o robots.txt, które ratują przed „dziwnymi” efektami

1) Robots.txt ma swój zasięg (scope). Plik działa na konkretny host i protokół. To oznacza, że example.com/robots.txt nie „steruje” wariantami typu example.com vs www.example.com ani wersjami http/https (jeśli są traktowane jako osobne hosty). W migracjach www/non-www i http/https to jest częsta przyczyna rozjazdów.
2) Robots.txt jest cache’owany. Google nie pobiera go w każdej sekundzie. W dokumentacji Google Search Central znajdziesz informację, że robots.txt może być przechowywany w cache (typowo do 24 godzin), więc zmiana reguł nie zawsze działa natychmiast. To ważne, gdy testujesz poprawki „na żywo”.

Pułapka: „zablokuję w robots.txt i zniknie z indeksu”

To myślenie jest ryzykowne z dwóch powodów:

1) URL może pozostać w indeksie, jeśli Google zna go z linków (np. zewnętrznych lub wewnętrznych). Wtedy wynik potrafi się pojawić jako „goły” adres, bez opisu, bo Google nie może pobrać treści.
2) Jeśli URL już był zindeksowany, to po zablokowaniu crawla utrudniasz Google aktualizację statusu (bo odcinasz mu dostęp do strony).

Robots.txt to narzędzie „crawl budget” i porządków, a nie „bezpiecznego wykluczania z SERP”.

Najczęstszy błąd: noindex + Disallow na tym samym URL-u

W projektach SEO ten błąd wraca jak bumerang, bo wydaje się logiczny: „zablokuję w robots, a jakby co to dam noindex”. Problem w tym, że te dwie rzeczy działają przeciwko sobie.

Scenariusz, który naprawdę się dzieje:

1) URL jest w indeksie lub Google zna go z linków.
2) Wdrażasz Disallow w robots.txt.
3) Dokładasz noindex w HTML (albo miałeś go wcześniej).
4) Google nie wchodzi na URL, więc nie widzi noindex.
5) URL potrafi wisieć w indeksie dłużej niż oczekujesz.

Jeśli celem jest „żeby to zniknęło z Google”, wybierz jedną z bezpiecznych ścieżek:

  • Noindex i crawl OK (bez blokady w robots.txt), albo
  • 404/410 (jeśli strona ma zniknąć), albo
  • 301 do sensownego zamiennika (jeśli to przeniesienie/zmiana).

Jak usunąć z indeksu podstrony, które już są w Google (procedury eksperta)

„Chcę wykluczyć podstrony z wyników Google” może oznaczać trzy różne sytuacje — i tu najłatwiej o błąd, bo ludzie wybierają metodę nie pod cel, tylko „najprostszy klik”.

Sytuacja A: strona ma dalej działać, ale nie ma jej być w Google

Najbezpieczniej:

1) upewnij się, że URL nie jest zablokowany w robots.txt,
2) ustaw noindex (meta robots albo X-Robots-Tag),
3) zadbaj o linkowanie wewnętrzne (żeby Google mógł jeszcze raz wejść i zobaczyć zmianę),
4) jeśli URL jest ważny do szybkiego „sprzątnięcia” — poproś o ponowną indeksację w Google Search Console.

Sytuacja B: strona ma zniknąć na stałe

Najbezpieczniej:

  • zwracaj 404 (Not Found) albo 410 (Gone),
  • nie zostawiaj „pustego 200” z treścią typu „produkt niedostępny”, jeśli nie ma to żadnej wartości (to często zostaje w indeksie jako thin content),
  • jeśli istnieje realny odpowiednik — zastosuj 301.

Ekspercka uwaga: 410 bywa interpretowane jako mocniejszy sygnał „to już nie wróci”, ale w praktyce 404 również działa, jeśli jest konsekwentne i nie ma sprzecznych sygnałów w serwisie (np. linków do nieistniejących URL-i).

Kody HTTP a wykluczanie z Google: szybka tabela decyzyjna

Jeśli chcesz wykluczać „bez zgadywania”, trzymaj się semantyki protokołu HTTP. To jest najprostszy i najbardziej stabilny język komunikacji z robotami.

Status / mechanizm Co komunikuje Najczęstszy efekt w indeksie Typowe zastosowanie
200 + noindex strona istnieje, ale nie ma być w SERP wypada z indeksu po ponownym crawlu koszyk, konto, podziękowanie, wyszukiwarka
301 trwałe przeniesienie stary URL zwykle znika, sygnały przechodzą na nowy zmiana adresu, konsolidacja, zamiennik
302/307 tymczasowe przeniesienie bywa różnie; Google często i tak „uczy się” docelowego URL-a krótkie akcje, testy, nie jako strategia SEO
404 nie znaleziono URL z czasem wypada z indeksu usunięte treści bez zamiennika
410 usunięte na stałe zwykle szybsza i bardziej jednoznaczna deindeksacja niż „miękkie” 200 trwałe usunięcia, porządki w indeksie
401 wymagana autoryzacja to mechanizm bezpieczeństwa; widoczność zwykle spada, ale to nie „przycisk SEO” staging, panele, prywatne zasoby
403 zakaz dostępu podobnie jak 401: kontrola dostępu, nie strategia indeksacji blokady IP/ACL

Sytuacja C: chcesz zniknąć „na już”, ale docelowo wdrożysz poprawne rozwiązanie

Wtedy narzędzie „Usunięcia” w Search Console może działać jako tymczasowa osłona. Nie traktuj tego jako finalnej metody. Finalnie i tak potrzebujesz noindex albo 404/410/301 — bo inaczej URL wróci.

Noindex, canonical, a duplikacja: co wybrać, żeby nie strzelić sobie w stopę

W praktyce noindex jest często używany do rozwiązywania problemów z duplikacją. I czasem to działa, ale nie zawsze jest najlepszym wyborem.

Problem Najczęściej lepsze niż noindex Kiedy noindex ma sens
Duplikaty między domenami (przedruk) cross-domain rel=canonical do oryginału gdy partner nie wdroży canonical, a treść ma być publiczna
Duplikaty w obrębie serwisu (warianty, parametry) canonical + porządek w linkowaniu + robots dla crawla gdy warianty są „użytkowe”, ale nie chcesz ich w SERP
Kanibalizacja (dwie strony na tę samą intencję) konsolidacja + jeden URL kanoniczny gdy musisz zachować stronę, ale nie chcesz rywalizacji w SERP

Jeśli Twoim przypadkiem jest przedruk lub syndykacja, wątek noindex często pojawia się jako „plan B” — ale warto podejść do tego metodycznie, bo decyzja wpływa na to, kto finalnie zostanie w indeksie: Syndykacja treści i przedruk artykułu: kiedy to działa bez szkody dla SEO?.

Checklista wdrożeniowa: bezpieczne wykluczanie URL-i z Google

Zanim cokolwiek wdrożysz, odpowiedz na trzy pytania:

1) Czy to ma zniknąć z wyników Google, czy tylko ma przestać być crawlowane?
2) Czy URL ma dalej działać dla użytkowników?
3) Czy to dotyczy pojedynczej strony, czy wzorca tysięcy URL-i?

Następnie przejdź przez checklistę:

  • sprawdź, czy URL nie jest blokowany w robots.txt (jeśli celem jest noindex/deindeksacja),
  • wybierz metodę: noindex / X-Robots-Tag / 404/410 / 301,
  • usuń linkowanie wewnętrzne do URL-i, które mają zniknąć (albo przynajmniej ogranicz je do minimum),
  • dopilnuj spójności: sitemap, canonical, przekierowania, wersje www/non-www i http/https,
  • monitoruj w GSC: czy Google widzi zmianę (data ostatniego crawla, wybrany canonical, status indeksowania),
  • daj czas na crawl (i dopiero wtedy oceniaj efekt).

Najczęstsze pytania i pułapki (FAQ)

Co jest lepsze: noindex czy robots.txt?

Jeśli chcesz wykluczyć URL z wyników wyszukiwania, wybierz noindex albo 404/410. Robots.txt jest narzędziem do kontroli crawla i nie daje „bezpiecznej gwarancji” deindeksacji.

Czy mogę użyć jednocześnie noindex i Disallow w robots.txt?

To najczęstszy błąd. Disallow może uniemożliwić Google wejście na stronę i odczytanie noindex. Jeśli celem jest deindeksacja, nie blokuj crawla tego URL-a w robots.txt.

Jak długo trwa usunięcie strony z indeksu po wdrożeniu noindex?

Noindex działa po ponownym crawlu. Dla stron często odwiedzanych może to być kilka dni, dla rzadko crawlowanych — tygodnie. Jeśli zależy Ci na czasie, zadbaj o możliwość crawla i użyj GSC, żeby poprosić o ponowne przetworzenie URL-a.

Czy robots.txt ukrywa stronę przed użytkownikami i konkurencją?

Nie. Robots.txt jest publiczny i nie jest zabezpieczeniem. Do ochrony treści używaj autoryzacji (401), ograniczeń IP lub innych mechanizmów na poziomie serwera/aplikacji.

Jak wykluczyć z Google PDF-y i pliki bez HTML?

Najczęściej przez X-Robots-Tag: noindex w nagłówku HTTP. To pozwala wykluczyć zasób z indeksu bez modyfikowania treści pliku.

Kiedy zamiast noindex lepiej zwrócić 404 lub 410?

Gdy strona ma zniknąć na stałe (nie ma wartości dla użytkownika) i nie chcesz jej utrzymywać. Jeśli istnieje sensowny następca — rozważ 301 do najbardziej zbliżonej podstrony.

Czy narzędzie „Usunięcia” w Search Console usuwa stronę na stałe?

To zwykle metoda tymczasowa. Trwałe usunięcie wymaga noindex albo 404/410/301 (w zależności od sytuacji).

Czy 401/403 wystarczy, żeby strona zniknęła z Google?

401/403 to mechanizmy bezpieczeństwa, a nie „ustawienia SEO”. Mogą ograniczyć crawlowanie i z czasem zmniejszyć widoczność, ale jeśli Twoim celem jest pewne wykluczenie z wyników, stosuj noindex (dla stron, które mają działać) albo 404/410 (dla stron usuniętych). Jeśli celem jest ochrona treści, 401 z poprawną autoryzacją jest zwykle właściwsze niż robots.txt.

Czy warto dawać noindex na paginację i filtry w kategoriach?

To zależy od modelu i skali. Jeżeli paginacja i filtry generują realny long tail (popularne kombinacje, unikalne listy produktów, konkretna intencja), czasem lepiej je zostawić indeksowalne i uporządkować canonical oraz linkowanie. Jeśli natomiast tworzą tysiące cienkich wariantów bez wartości, noindex (a czasem dodatkowo robots.txt dla „nieskończonych” kombinacji) ogranicza rozcieńczanie indeksu — pod warunkiem, że nie odetniesz robotom ścieżki do stron kluczowych.


Jeśli chcesz podejść do tematu jak praktyk: zacznij od celu (indeks vs crawl), potem dobierz narzędzie. W SEO technicznym „sprytne” skróty typu noindex + disallow prawie zawsze kończą się dłuższym sprzątaniem niż wdrożeniem poprawnej, prostej ścieżki od razu.

FAQ

Najczęstsze pytania związane z tematem artykułu.

Co jest lepsze: noindex czy robots.txt? +
To zależy od celu. Jeśli chcesz, żeby strona nie pojawiała się w wynikach Google, wybierasz noindex (meta robots lub X-Robots-Tag) albo zwrot 404/410. Robots.txt służy głównie do kontrolowania crawlowania, a nie do bezpiecznego usuwania z indeksu.
Czy mogę użyć jednocześnie noindex i Disallow w robots.txt? +
To najczęstsza pułapka. Jeśli zablokujesz URL w robots.txt (Disallow), Google może nie wejść na stronę i nie zobaczyć tagu noindex — efekt bywa taki, że URL nie znika z indeksu (czasem zostaje jako „goły” adres). Jeśli celem jest deindeksacja, pozwól na crawl i użyj noindex lub 404/410.
Jak długo trwa usunięcie strony z indeksu po wdrożeniu noindex? +
Noindex zadziała dopiero po ponownym crawlu URL-a. Dla często odwiedzanych stron bywa to kwestia dni, dla „zimnych” URL-i — tygodni. Klucz to zapewnić crawl (brak blokady w robots.txt) i w razie potrzeby poprosić o ponowną indeksację w Google Search Console.
Czy robots.txt ukrywa stronę przed użytkownikami i konkurencją? +
Nie. Robots.txt jest publiczny i nie jest mechanizmem bezpieczeństwa. Może ograniczyć crawlowanie przez boty, ale nie chroni treści przed wejściem w URL ani przed kopiowaniem. Do ochrony wrażliwych treści używaj autoryzacji (np. 401) lub ograniczeń na poziomie serwera.
Jak wykluczyć z Google pliki PDF lub inne zasoby bez HTML? +
Najczęściej przez nagłówek HTTP X-Robots-Tag: noindex. To rozwiązanie działa dla PDF-ów i innych plików, gdzie nie dodasz meta tagu w HTML.
Kiedy zamiast noindex lepiej zwrócić 404 lub 410? +
Gdy strona ma zniknąć na stałe (produkt wycofany bez zamiennika, błąd, duplikat bez wartości). 410 (Gone) zwykle sygnalizuje mocniej trwałe usunięcie, ale 404 także działa. Jeśli istnieje następca, lepsze będzie 301 do najbliższego odpowiednika.
Czy narzędzie „Usunięcia” w Search Console usuwa stronę na stałe? +
Nie. To zwykle rozwiązanie tymczasowe (w praktyce „ukrycie” na pewien czas). Żeby usunąć URL trwale, potrzebujesz noindex lub kodów 404/410 (ewentualnie przekierowania, jeśli strona ma zamiennik).
Czy 401/403 wystarczy, żeby strona zniknęła z Google? +
To zależy, ale nie traktuj tego jako „metody SEO”. 401/403 to mechanizmy kontroli dostępu. Mogą ograniczyć crawlowanie i z czasem zmniejszyć widoczność, ale jeśli celem jest pewne wykluczenie z wyników, stosuj noindex (dla stron dostępnych) albo 404/410 (dla stron usuniętych). Do ochrony wrażliwych treści 401 jest lepsze niż robots.txt.
Czy warto dawać noindex na paginację i filtry w kategoriach? +
Nie ma jednej reguły. Jeśli paginacja/filtry generują realny popyt i unikalną wartość (np. popularne kombinacje w sklepie), czasem lepiej je zostawić indeksowalne i uporządkować canonical. Jeśli tworzą masę cienkich wariantów bez wartości, noindex może być sensowny — ale wtedy pilnuj linkowania, canonical i tego, by Google nadal bez problemu crawlowal kluczowe kategorie.

Inne artykuły

Jeśli chcesz wejść głębiej, zobacz powiązane wpisy z naszego bloga.