Kein noindex mehr in robots.txt, REP wird zum Standard

Ein feuchter Traum für Pedanten: Nachdem der REP-Standard, der für die Kommunikation mit Crawlern über robots.txt zuständig ist, 25 Jahre lang weit verbreitet war, hat Google der IETF-Organisation (Internet Engineering Task Force) einen Vorschlag zur Standardisierung dieses Protokolls vorgelegt. Auch für uns graue SEOs gibt es kleinere Änderungen.

Ein bisschen REP-Geschichte

REP oder robots exclusion protocol, auch bekannt als robots exclusion standard, und am häufigsten einfach als
robots.txt
ist ein Standard für die Kommunikation zwischen Websites und Crawlern, die das Internet durchforsten.

Wir haben eine Fülle von Crawlern, die das Web durchsuchen: Google-Bots, SEO-Tool-Bots(Ahrefs, Majestic usw.), Internet Archive, eine ganze Reihe kleinerer und größerer Roboter, deren Aufgabe es ist, Analysen durchzuführen, uns wertvolle Daten zu rauben oder uns einfach zu hacken, um zu sehen, ob unser WordPress seit 2008 aktualisiert wurde.

Um diesen ganzen Müll in den Griff zu bekommen, hat ein verrückter Holländer namens Martijn Koster REP entwickelt, einen Standard, der es einem Webmaster ermöglicht, einen, mehrere oder alle Robots zu bitten, eine einzelne Unterseite, einen Teil einer Website oder die gesamte Website nicht zu scannen.

REP ist also ein Standard , der Roboteraktivitäten ausschließt und in Verbindung mit Sitemaps verwendet werden kann, einem Standard zur Einbeziehung einzelner Seiten in aktive Roboteraktivitäten.

Und auf dem Bild unten sehen Sie den Schöpfer von robots.txt beim Verzehr einer Torte zur Feier des 25-jährigen Bestehens des robots.txt-Standards:

Was passiert mit robots.txt?

REP ist trotz seiner weiten Verbreitung nie zu einem offiziellen Internet-Standard geworden. Das Fehlen einer offiziellen Dokumentation und Führung hat zu einer gewissen Willkür bei der Dateninterpretation geführt, und einige Roboter, wie z. B. der vom Internet Archive, haben komplett aufgehört, auf robots.txt-Richtlinien zu hören.

Trotzdem verwenden Millionen von Webmastern diesen Standard immer noch, so dass Google es für höchste Zeit hielt, diese 25 Jahre alte Beziehung zu legalisieren. Sie hat daher 2 Schritte unternommen:

  1. Antrag an die IETF, eine gemeinnützige Organisation für Internetnormen, zur Standardisierung des Protokolls
  2. Veröffentlichung des Parser-Codes der offenen robots.txt-Datei, der von Google zur Interpretation des in der robots.txt-Datei enthaltenen Codes verwendet wird.

Während der erste Schritt von organisatorischer und formaler Bedeutung ist, ist der zweite Schritt für Webmaster wichtig, weil sich daraus konkrete Lehren ergeben haben.

Was ändert sich in robots.txt und was wird sich in Zukunft ändern?

Kein Index in robots.txt

Zunächst einmal: ab 1. September 2019 keine noindex-Direktive mehr in der robots.txt, seltsamerweise weiß Gott warum hier und da empfohlen. Die einzige korrekte Form der Übergabe der noindex-Direktive ist über den HTTP- oder Meta-Header im Seitencode, und das Entfernen einer Seite aus dem Index ist auch über 404- und 419-Codes, Passwortsperrung oder über Search Console möglich. Ende der Geschichte, Punktum.

Bitte beachten Sie, dass die Website nicht durch robots.txt blockiert sein darf, damit die noindex-Direktive an Google weitergegeben werden kann. Wie soll ein Roboter eine Richtlinie lesen, die auf einer Seite enthalten ist, auf die er nicht zugreifen darf? 🙂

Nicht nur http

Was wird sich sonst noch ändern? Robots.txt soll ein Protokoll werden, das nicht nur für den http-Dienst verfügbar ist. Er kann beispielsweise auch für CoAP- oder FTP-Server verwendet werden.

Cache für robots.txt

Die maximale standardmäßige Zwischenspeicherzeit für die robots.txt-Datei beträgt 24 Stunden; die Richtlinien für die Zwischenspeicherzeit sind ebenfalls zu beachten. Dies spart Übertragung und Server-Ressourcen für die robots.txt-Datei selbst.

Unerreichbare robots.txt-Datei

Eine sehr wichtige Änderung, die langfristig in Betracht gezogen werden muss, ist eine Regel, die besagt: Wenn wir eine robots.txt-Datei haben, die vorher verfügbar war, aber jetzt unerreichbar ist, z. B. wegen wiederholter Serverausfälle, soll der Roboter nicht mehr versuchen, sie herunterzuladen. Die kürzlich bekannt gewordenen Verbotsregeln werden beachtet.

Es ist besorgniserregend, dass der Roboter die Tests für einen langen Zeitraum einstellen soll, ich zitiere: „für einen ziemlich langen Zeitraum“. In der Praxis bedeutet dies, dass es bei anhaltenden Serverproblemen oder z. B. bei versehentlichem Löschen der robots.txt-Datei sehr langsam sein kann, Änderungen an dieser Datei später zu vermerken.

Zusammenfassend

Wir werden weitere Änderungen beschreiben, wenn die vollständigen Spezifikationen der neuen Norm veröffentlicht sind, die sicherlich vor der Verabschiedung diskutiert werden. Was die Diskussion angeht, so bin ich gerne bereit, mit jedem zu diskutieren, der Hilfe bei der Optimierung seiner Website oder bei einem anderen Thema benötigt, das ich in diesem Blog behandle. Sie können mich gerne kontaktieren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert