Was ist die robots.txt Datei?

Zur Übersicht

Was ist die robots.txt Datei?

Robots.txt ist eine Datei auf einer Website, die Suchmaschinen-Crawler anweist, auf welche Teile der Website Suchmaschinen-Bot-Programme nicht zugreifen dürfen. Robots.txt ist eine reine Textdatei, verwendet aber spezielle Befehle und Syntax für Webcrawler. Obwohl nicht offiziell standardisiert, wird die robots.txt im Allgemeinen von allen Suchmaschinen befolgt.

Informationen zur robots.txt

Spider-Programme, wie z. B. Googlebot, indizieren eine Website anhand von Anweisungen, die vom Webmaster der Website festgelegt wurden. Manchmal hat ein Webmaster Teile der Website, die nicht für Suchmaschinen optimiert wurden, oder einige Teile der Website sind anfällig für die Ausnutzung durch Spammer, z. B. durch Link-Spam auf einer Seite, die nutzergenerierte Inhalte (User Generated Content, UGC) enthält. Möchte ein Webmaster Seiten für die Google-Suche unzugänglich halten, kann er die Seite mit einer robots.txt-Datei im obersten Ordner der Website sperren. Robots.txt ist auch bekannt als "das Roboter-Ausschlussprotokoll". Das Verhindern, dass Crawler spammige Inhalte indizieren, bedeutet, dass die Seite bei der Bestimmung des PageRank und der Platzierung in den Suchmaschinenergebnisseiten (SERP) nicht berücksichtigt wird. 

Das nofollow-Tag ist eine weitere Möglichkeit, das Verhalten von Webcrawlern zu kontrollieren. Das nofollow-Tag hindert Crawler daran, Links innerhalb von Seiten für die Ermittlung des PageRanks zu zählen. Webmaster können nofollow verwenden, um Abstrafungen durch Suchmaschinenoptimierung (SEO) zu vermeiden. Um zu verhindern, dass der Googlebot allen Links auf einer bestimmten Seite einer Website folgt, kann der Webmaster ein nofollow-Meta-Tag in die robots.txt-Datei einfügen; um zu verhindern, dass der Bot einzelnen Links folgt, kann er rel="nofollow" zu den Links selbst hinzufügen.