Plik robots.txt – co to jest i jak go używać? Praktyczne przykłady

03.06.2024

Jeżeli zajmujesz się pozycjonowaniem stron internetowych lub prowadzisz własny biznes online i chcesz zwiększyć swoją widoczność w sieci, z pewnością spotkałeś się z terminem „robots.txt”. Nie wiesz, co to jest i jak może pomóc w SEO? Ten artykuł jest dla Ciebie! Oto, co w nim znajdziesz:

Dowiesz się, czym jest plik robots.txt
Poznasz, jak może wspierać pozycjonowanie
Zobaczysz przykłady przydatnych konfiguracji

Czym jest plik robots.txt?

Robots.txt to plik tekstowy umieszczany w katalogu głównym serwera FTP. Służy do komunikacji z robotami wyszukiwarek, informując je o zasobach strony, do których mogą mieć dostęp, a do których nie.

Podczas odwiedzania strony internetowej, pierwszą rzeczą, którą robią roboty indeksujące, jest sprawdzenie pliku robots.txt. To z niego dowiedzą się, czy mogą rozpocząć indeksowanie strony. Jeśli plik nie istnieje, roboty indeksują całą witrynę, co często nie jest złym rozwiązaniem.

Jak sprawdzić, czy strona ma plik robots.txt?

Aby sprawdzić, czy Twoja strona ma plik robots.txt, wystarczy wpisać w pasku adresu przeglądarki „mojastrona.pl/robots.txt”. Co istotne? Większość popularnych CMS-ów automatycznie generuje ten plik.

Jak utworzyć plik robots.txt?

Robots.txt to zwykły plik tekstowy, który można utworzyć za pomocą prostego edytora tekstu, np. Notatnika. Oto przykładowa konfiguracja:

makefile

User-agent: *

Disallow:

Taka dyrektywa pozwala wszystkim robotom na dostęp do całości zasobów strony. „User-agent” określa, do których robotów odnoszą się instrukcje, a „*” oznacza, że wytyczne dotyczą wszystkich robotów. Z kolei „Disallow” informuje, które foldery lub strony są wyłączone z indeksowania. Poniżej przykład bardziej rozbudowanej instrukcji:

javascript

User-agent: Googlebot

Disallow: /pliki/

Allow: /pliki/omnie.html

Te wytyczne dotyczą tylko robota Google, co określono przez „User-agent”. Blokujemy mu dostęp do całego katalogu „pliki” z wyjątkiem pliku „omnie.html”.

Plik należy zapisać pod nazwą „robots” z rozszerzeniem „.txt” (robots.txt) – każda inna nazwa jest nieprawidłowa.

Dlaczego plik robots.txt jest ważny?

Robots.txt to pierwsze miejsce, w którym roboty indeksujące szukają informacji. Dzięki niemu możemy zablokować dostęp do strony, nad którą ciągle pracujesz, co zapobiegnie jej pojawieniu się w wynikach wyszukiwania.

Jeżeli na stronie znajdują się elementy niskiej jakości, mogą one negatywnie wpłynąć na pozycjonowanie. Dzięki odpowiedniej konfiguracji pliku robots.txt możliwe jest wykluczenie widoczności takich elementów. Ponadto, możesz chronić dane, które chcesz udostępniać tylko wybranym użytkownikom.

Jakie strony warto zablokować?

Znając znaczenie pliku robots.txt, warto rozważyć wykluczenie z indeksowania następujących stron:

Automatycznie generowane strony
Katalogi zawierające pliki konfiguracyjne
Strony pokazujące wyniki wyszukiwania
Strony o niskiej jakości treści, które mogą zaszkodzić pozycjonowaniu

Blokując dostęp do takich zasobów, możesz być pewien, że Twoja strona nie otrzyma kar do Google i będzie widoczna tylko dzięki wartościowym treściom.

Przykładowe konfiguracje pliku robots.txt

Oto kilka przykładowych wytycznych dla robotów indeksujących:

Dostęp wszystkich robotów do wszystkich zasobów:

makefile

User-agent: *

Disallow:

Zablokowanie dostępu do całej strony:

makefile

User-agent: *

Disallow: /

Zablokowanie indeksowania dwóch folderów „moje” i „zdjęcia”:

javascript

User-agent: *

Disallow: /moje/

Disallow: /zdjecia/

Zablokowanie dostępu do plików .png:

makefile

User-agent: *

Disallow: /*.png$

Zablokowanie dostępu robotowi Bing do konkretnej podstrony:

javascript

User-agent: Bingbot

Disallow: /moje/omnie.html

Większość popularnych systemów zarządzania treścią lub sklepów internetowych automatycznie tworzy plik robots.txt. Ważne jest jednak, aby był on dostosowany do specyfiki Twojej strony. Co więcej? Warto również sprawdzić jego poprawną konfigurację za pomocą narzędzia Google Search Console, aby upewnić się, że działa zgodnie z Twoimi oczekiwaniami.