Koniec z noindex w robots.txt, REP ma stać się standardem

Mokry sen pedanta: po 25 latach powszechnego użycia standardu REP odpowiedzialnego za komunikację z crawlerami za pomocą robots.txt, Google przedłożyło organizacji IETF (Internet Engineering Task Force) wniosek o standaryzację tego protokołu. Są również drobne zmiany dla nas, szarych SEOwców.

Trochę REP historii

REP czyli robots exclusion protocol, znany też jako robots exclusion standard, a najczęściej zwany po prostu robots.txt, to standard komunikacji pomiędzy stronami internetowymi a crawlerami buszującymi po internecie.

Crawlerów skanujących sieć mamy całe mnóstwo: Google bot, boty narzędzi SEO (Ahrefs, Majestic itd.), Internet Archive, całe mnóstwo mniejszych i większych robotów, mających za zadanie prowadzić analitykę, okraść nas z cennych danych lub zwyczajnie shakować sprawdzając czy może nasz WordPress nie był aktualizowany od 2008 roku.

Aby ogarnąć całe to tałatajstwo, pewien szalony Holender nazwiskiem Martijn Koster stworzył REP, czyli standard, który pozwala webmasterowi poprosić jednego, kilka lub wszystkie roboty o nieskanowanie jednej podstrony, części serwisu, lub jego całości.

REP jest więc standardem wykluczającym aktywność robotów i może być używany w połączeniu z Sitemaps, czyli standardem służącym do włączania poszczególnych stron do aktywnych działań robotów.

A na obrazku poniżej macie zdjęcie twórcy robots.txt, spożywającego tort z okazji 25-lecia standardu robots.txt:

Co się stanie z robots.txt?

REP, mimo powszechnego użycia, nigdy nie stał się oficjalnym standardem internetowym. Brak oficjalnej dokumentacji i lidera spowodował, że nastała pewna samowolka w interperetowaniu danych, a niektóre roboty, jak np. ten od Internet Archive kompletnie przestały słuchać dyrektyw robots.txt.

Mimo to miliony webmasterów wciąż używają tego standardu – Google uznało więc, że czas najwyższy na legalizację tego 25-letniego związku. Podjęło więc 2 kroki do tego zmierzające:

  1. Wniosek do IETF, organizacji non-profit zajmującej się standardami internetowymi, o standaryzację protokołu
  2. Upublicznienie otwartego kodu parsera pliku robots.txt używanego przez Google do interpretowania kodu zawartego w pliku robots.txt.

O ile pierwszy krok ma znaczenie organizacyjno-formalne, o tyle drugi jest istotny dla webmasterów, bo popłynęły z niego konkretne wnioski.

Co się zmienia w robots.txt i co się zmieni w przyszłości?

Noindex w robots.txt

Przede wszystkim: od 1 września 2019 koniec z dyrektywą noindex w robots.txt, o dziwo Bóg wie czemu zalecanej tu i ówdzie. Jedyną poprawną formą przekazywania dyrektywy noindex jest nagłówek HTTP lub meta w kodzie strony, a usuwanie strony z indeksu możliwe jest również przez kody 404 i 419, blokowanie hasłem, lub poprzez Search Console. Koniec, kropka.

Należy pamiętać, że aby przekazać Google dyrektywę noindex, strona nie może być blokowana przez robots.txt. Jak robot miałby odczytać dyrektywę zawartą na stronie, do której zabraniamy mu dostępu? 🙂

Nie tylko http

Co jeszcze się zmieni? Robots.txt ma stać się protokołem dostępnym nie tylko dla usługi http. Będą jej można używać np. także dla CoAP lub serwerów FTP.

Cache dla robots.txt

Maksymalnym domyślnym czasem cache’owania pliku robots.txt będzie 24h; mają być również respektowane dyrektywy dotyczące czasu cacheowania. Pozwoli to oszczędzić transfer i zasoby serwera już na samym pliku robots.txt.

Nieosiągalny plik robots.txt

Bardzo ważną zmianą, której w dłuższej perspektywie trzeba będzie się przyjrzeć jest zasada, w której: jeśli mamy plik robots.txt, który wcześniej był dostępny, a teraz jest nieosiągalny np. ze względu na powtarzające się awarie serwera, robot ma zaprzestać prób pobierania go. Respektowane będą ostatnio znane zasady disallow.

Niepokojące jest, że robot ma zaprzestać prób na długi czas, cytując: „reasonably long period of time” . Oznacza to w praktyce, że jeśli mamy przedłużające się problemy z serwerem, lub np. przypadkiem skasujemy plik robots.txt, odnotowanie zmian w tym pliku może później być bardzo powolne.

Reasumując

Więcej zmian z pewnością opiszemy po ukazaniu się pełnej specyfikacji nowego standardu który z pewnością poddany będzie dyskusji przez zatwierdzeniem. Jeśli zaś chodzi o dyskusję, to chętnie podejmę ją z każdym, kto potrzebuje pomocy w optymalizacji swojej witryny, lub w jakimkolwiek temacie opisywanym przeze mnie na blogu. Zapraszam do kontaktu.

Wyceń pozycjonowanie swojej strony

  • 0 of 500 max characters
    • Wyrażam zgodę na przetwarzanie moich danych osobowych przez Audytorium Piotr Samojło z siedzibą w Białymstoku ul Rzędziana 1E, 15-698 Białystok (dalej: Audytorium) zawartych w niniejszym formularzu kontaktowym w celu realizacji przesłanego zgłoszenia. Zostałem poinformowany/poinformowana o możliwości wycofania zgody w dowolnym czasie, poprzez przesłanie wiadomości e-mail na adres biuro@audytorium.xyz.

Piotr Samojło

Freelancer działający pod marką Audytorium SEO. Jeśli masz pytania, lub szukasz człowieka od SEO i optymalizacji stron, zapraszam do kontaktu.

Zostaw komentarz

Twój adres e-mail nie zostanie upuibliczniony Pola wymagabe*

Ostatnie

13 (średnio ciekawych) ciekawostek o Google których (być może) nie znasz

Mam nadzieję, że tytułem tego posta wystarczająco jasno wyraziłem swoją niechęć dla clickbaitowych haseł. Pora więc bez zbędnych ogródek przejść…

4 dni temu

Google Site Kit – bardzo udana wtyczka do WordPressa

Jeśli kochasz analitykę i lubujesz się w spinaniu danych z wielu platform z pomocą np. GDS - daruj sobie Google…

2 tygodnie temu

3 genialne (tylko że bardzo złe) pomysły na unikalny content

Pisanie lub zamawianie tekstów pod SEO może być udręką, szczególnie jeśli np. pozycjonujesz stronę producenta ssąco-tłoczących rozdrabniaczy bijakowych. Jeśli więc…

4 tygodnie temu

Ahrefs Search Engine – analiza sensacyjnego pomysłu twórcy Ahrefsa

Parę miesięcy temu (konkretniej w kwietniu 2019) twórca i CEO Ahrefsa, czyli najpotężniejszego i uwielbianego przeze mnie kombajnu SEO -…

2 miesiące temu

Kontrola snippetów w SERP – Google wprowadza nowość, która powinna być standardem

Bogate wyniki wyszukiwań w postaci snippetów, knowledge paneli, przepisów, informacji i zdjęć wyświetlających się bezpośrednio w wynikach wyszukiwania kradną webmasterom…

2 miesiące temu

Product Feed w wynikach organicznych już wkrótce – to może być mała rewolucja w SEO

O karuzeli produktowej w organicznych wynikach wiadomo już od kilku miesięcy. Okazuje się, że funkcja ta ma pojawić się globalnie…

2 miesiące temu

Śmierć aplikacji mobilnych, niech żyje SEO

Poniższy wpis to prywatna opinia autora. Wyrażam ją w większej mierze na podstawie obserwacji i intuicji, niż twardych danych analitycznych…

3 miesiące temu

Semantyka w służbie SEO w HTML5

Na każdym kroku namawiam webmasterów do wdrażania jak największej ilości pasujących do ich treści danych strukturalnych. Wciąż spotykam się z…

3 miesiące temu

Domaining. Czego nauczyłem się po roku handlowania domenami?

Przechwytujesz domeny pod SEO? Twój klient szuka ciekawej wolnej nazwy? Może po prostu sam śnisz o karierze domainera, bo przeczytałe(a)ś…

4 miesiące temu

Ta strona używa cookies.

Polityka prywatności