Jeżeli zajmujesz się pozycjonowaniem stron internetowych lub prowadzisz własny biznes online i chcesz zwiększyć swoją widoczność w sieci, z pewnością spotkałeś się z terminem „robots.txt”. Nie wiesz, co to jest i jak może pomóc w SEO? Ten artykuł jest dla Ciebie! Oto, co w nim znajdziesz:
Robots.txt to plik tekstowy umieszczany w katalogu głównym serwera FTP. Służy do komunikacji z robotami wyszukiwarek, informując je o zasobach strony, do których mogą mieć dostęp, a do których nie.
Podczas odwiedzania strony internetowej, pierwszą rzeczą, którą robią roboty indeksujące, jest sprawdzenie pliku robots.txt. To z niego dowiedzą się, czy mogą rozpocząć indeksowanie strony. Jeśli plik nie istnieje, roboty indeksują całą witrynę, co często nie jest złym rozwiązaniem.
Aby sprawdzić, czy Twoja strona ma plik robots.txt, wystarczy wpisać w pasku adresu przeglądarki „mojastrona.pl/robots.txt”. Co istotne? Większość popularnych CMS-ów automatycznie generuje ten plik.
Robots.txt to zwykły plik tekstowy, który można utworzyć za pomocą prostego edytora tekstu, np. Notatnika. Oto przykładowa konfiguracja:
User-agent: *
Disallow:
Taka dyrektywa pozwala wszystkim robotom na dostęp do całości zasobów strony. „User-agent” określa, do których robotów odnoszą się instrukcje, a „*” oznacza, że wytyczne dotyczą wszystkich robotów. Z kolei „Disallow” informuje, które foldery lub strony są wyłączone z indeksowania. Poniżej przykład bardziej rozbudowanej instrukcji:
User-agent: Googlebot
Disallow: /pliki/
Allow: /pliki/omnie.html
Te wytyczne dotyczą tylko robota Google, co określono przez „User-agent”. Blokujemy mu dostęp do całego katalogu „pliki” z wyjątkiem pliku „omnie.html”.
Plik należy zapisać pod nazwą „robots” z rozszerzeniem „.txt” (robots.txt) – każda inna nazwa jest nieprawidłowa.
Robots.txt to pierwsze miejsce, w którym roboty indeksujące szukają informacji. Dzięki niemu możemy zablokować dostęp do strony, nad którą ciągle pracujesz, co zapobiegnie jej pojawieniu się w wynikach wyszukiwania.
Jeżeli na stronie znajdują się elementy niskiej jakości, mogą one negatywnie wpłynąć na pozycjonowanie. Dzięki odpowiedniej konfiguracji pliku robots.txt możliwe jest wykluczenie widoczności takich elementów. Ponadto, możesz chronić dane, które chcesz udostępniać tylko wybranym użytkownikom.
Znając znaczenie pliku robots.txt, warto rozważyć wykluczenie z indeksowania następujących stron:
Blokując dostęp do takich zasobów, możesz być pewien, że Twoja strona nie otrzyma kar do Google i będzie widoczna tylko dzięki wartościowym treściom.
Oto kilka przykładowych wytycznych dla robotów indeksujących:
makefile
User-agent: *
Disallow:
makefile
User-agent: *
Disallow: /
javascript
User-agent: *
Disallow: /moje/
Disallow: /zdjecia/
makefile
User-agent: *
Disallow: /*.png$
javascript
User-agent: Bingbot
Disallow: /moje/omnie.html
Większość popularnych systemów zarządzania treścią lub sklepów internetowych automatycznie tworzy plik robots.txt. Ważne jest jednak, aby był on dostosowany do specyfiki Twojej strony. Co więcej? Warto również sprawdzić jego poprawną konfigurację za pomocą narzędzia Google Search Console, aby upewnić się, że działa zgodnie z Twoimi oczekiwaniami.