Was sind Crawler, Bots und Spider ... und was bedeutet Crawling?

Crawler auch als Bots oder Spider bezeichnet sind Computerprogramme, die URLs automatisch analysieren; dieser Vorgang wird als Crawling bezeichnet. Das Crawling ist ein notwendiger Vorgang für die Suchmaschinen, damit diese ihren Index pflegen können, also neue Webdokumente hinzufügen, nicht mehr existierende löschen und geänderte Seiten aktualisieren.

Die Suchmaschinen Crawler sind ständig im Internet unterwegs, um neue Inhalte zu finden und bekannte URLs erneut zu analysieren. Dabei folgen die Crawler Verlinkungen in den Dokumenten, die im Quelltext gefunden werden, aber auch Informationen aus bereitgestellten Sitemaps oder expliziten URL Anmeldungen.

Erst nachdem ein Webdokument im Index aufgenommen ist, wird es überhaupt von den Suchmaschinen gefunden wird. Im Suchmaschinen-Index sind also alle bekannten und zur Indexierung freigegebenen Dokumente enthalten.

Sie können auch Dokumente oder Verzeichnisse von der Indexierung ausschließen, beispielsweise wenn Sie Duplikate unsichbar machen oder bestimmte Informationen ausschließen möchten.
Die können sie zum einen über die Meta-Robots-Angaben oder über eine sogenannte robots.txt
definieren. Während die robots.txt Datei das entsprechende Dokumenet oder das Verzeichnis beim Indexvorgang komplett ausschließt, kann der Crawler bei den Meta-Robots-Angaben das definierte Dokument lesen und den Verlinkungen folgen.

vorheriger Eintrag