Was ist ein (Web-) Crawler?

Zur Übersicht

Was ist ein Crawler?

Ein Crawler ist ein Programm, das Websites besucht und deren Seiten und andere Informationen liest, um Einträge für einen Suchmaschinenindex zu erstellen. Die großen Suchmaschinen im Web haben alle ein solches Programm, das auch als "Spider" oder "Bot" bezeichnet wird.

Informationen zu Crawlern

Crawler sind in der Regel so programmiert, dass sie Websites besuchen, die von ihren Besitzern als neu oder aktualisiert gemeldet wurden. Ganze Sites oder bestimmte Seiten können selektiv besucht und indexiert werden. Crawler haben den Namen anscheinend erhalten, weil sie eine Website Seite für Seite durchkrabbeln und dabei den Links zu anderen Seiten der Website folgen, bis alle Seiten gelesen wurden.

Der Crawler für die Suchmaschine AltaVista und ihre Website heißt Scooter. Scooter hält sich an die Höflichkeitsregeln für Web-Crawler, die im Standard for Robot Exclusion (SRE) festgelegt sind. Er fragt jeden Server, welche Dateien von der Indizierung ausgeschlossen werden sollen. Er verwendet einen speziellen Algorithmus, um zwischen aufeinanderfolgenden Serveranfragen zu warten, damit er die Antwortzeit für andere Benutzer nicht beeinträchtigt.