crawler

Google neue Bewertung der robots.txts

Google mischt die Karten neu. 
Ade schöne robots.txt oder wie Du Crawl Budget spart, Seiten und Links richtig kennzeichnest.

Was ist eine robots.txt? 
Die robots.txt ist eine Textdatei, welche im Stammverzeichnis einer Internetseite –  dem Root – angelegt wird. 

Wie erstellt man eine robots.txt Datei?
Da es sich um eine Textdatei handelt, verwendet man üblicher Weise ein Programm wie Notepad oder den Text Editor von Microsoft.

Welche Aufgabe eine solche Datei? 
Diese Datei enthält Befehle für Suchmaschinen und Bots, was sie mit einer Webseite tun sollen. Also Informationen darüber, was wichtig und relevant ist, und eben was nicht. Seiten und Links sollen indexiert und verfolgt werden, oder eben nicht. Damit hat die Steuerungsdatei auch die Aufgabe, Crawler Traffic zu verwalten.

 

Wozu braucht man denn Coockies?
Es ist wichtig zu erwähnen, dass Befehle innerhalb einer robots.txt Datei seit jeher als Empfehlung betrachten wurden, denen Suchmaschinen wie Google, Yahoo oder Bing gefolgt sind. Es bestand keine Verpflichtung dafür, die Befehle zwingende zu befolgen. Spambots haben sich über die Steuerungsinformationen hinweggesetzt. 

Bots

Robot

 

Welche Befehle enthält so eine Datei?
Hier werden – neben der Behandlung von Inhalten (Seiten) und Links – auch Adressen für weiter Daten, wie der sitemap hinterlegt.

Wie wichtig sind solche Empfehlungen?
Mittels der robots.txt konnte man den Crawlern bisher Kommandos über die Indexierung, Prioritäten und Verfolgung von Links erteilen. Diese wurden von Google aufgenommen und umgesetzt. Ausgehende Links wurden so als no follow und no index gekennzeichnet werden. 

Was nun?
Nun hat „Big G“ zum 01.09.2019 und nach gut 25 Jahren die Regeln (REP = Robots Exclusion Standard Protocol)  geändert. Bisher gab es keinen definierte Standard. Nun gibt es einen einheitlichen Standard und die Suchmaschinen zudem seine robots.txt Parser als open source freigeben. So möchte man Daten noch schneller automatisch erfassen und verarbeiten können. Jedoch wurden nicht alle Kommandos in den Standard mit aufgenommen. So werden u.a. folgende Befehle vom Google Bot zukünftig nicht mehr berücksichtigt bwz. NICHT MEHR UNTERSTÜTZT

  • Noindex
  • nofollow
  • Crawl Delay

Alternativ zu den Befehlen in der robots.txt gelten die Befehle in den Metadaten (Header) einer Webseite auch weiterhin. Wer diese Anweisungen benötigt, kann sie weiterhin sinnvollerweise in den Meta-Tags der jeweiligen Seite ausgeben (was hoffentlich sowieso schon der Fall war).

Alle anderen Webseitenbesitzer dürfen sich sogar auf generelle Verbesserungen freuen.

  • gesperrte Seiten (Disallow) sollen nicht mehr in den Suchergebnissen erscheinen

     

  • Der Ausschluss unerwünschter Inhalte soll verbessert werden

     

  • als 404 gekennzeichnete Seiten bzw. fehlende Seiten sollen schneller aus dem Index entfernt werden. 

R(h)einkultur - Ihre Digitalagentur aus Köln.