Crawler
Letzte Änderung: Uhr
Was ist ein Crawler?
Die kleine Spinne springt von Link zu Link
Crawler ist die Kurzform von Webcrawler und ebenso bekannt unter den Bezeichnungen Spider, Searchbot oder Robot. Es handelt sich dabei um ein Computerprogramm, welches das Durchsuchen und Indexieren des Internets zur Aufgabe hat.
Diese Form der Computerprogramme finden überwiegend bei Suchmaschinen ihre Anwendung. Ebenso werden Searchbots beim Sammeln von E-Mail-Adressen, Web-Feeds oder weiteren Informationen eingesetzt.
Arten von Crawler:
- Data Mining Crawler
- Crawler zur Websiteanalyse
- Crawler für Preisvergleiche
- Focused bzw. Topical Crawler
Wie funktionieren Crawler?
Crawler durchforsten das Web indem sie von einem Link zum anderen springen. Da diese Art der Fortbewegung sehr einer Spinne im Spinnennetz ähnelt, werden sie auch als Spider bezeichnet. Der Inhalt der Webseite wird vom Spider im Chache gespeichert, analysiert und im besten Fall indexiert. Wenn es sich um einen Webcrawler einer Suchmaschine handelt, werden die indexierten Daten auch bei einer Suchanfrage ausgegeben. Daher sind Webcrawler die Grundlage jeder Suchmaschine.
Searchbots unterscheiden sich in deren Art und Fähigkeiten stark. Data Mining Crawler können Daten wie E-Mail Adressen oder Telefonnummer abgreifen. Webcrawler zur Websiteanalyse erkennen beispielsweise ob die Webseite duplicate content (doppelte Inhalte) enthält, wie sinnvoll die Überschriftenstruktur, welchen Themenschwerpunkt die Webseite hat oder wie hoch die Absprungrate ist. Von Preisvergleichs-Portalen werden ebenso eigene Webcrawler eingesetzt, welche verschiedene Webseiten analysieren und die Preise miteinander vergleichen.
Focused Crawler sind thematisch fokussierte Webcrawler und decken nur einen Themenbereich ab. So können diese beispielsweise nur darauf programmiert sein auf Webseiten Urheberrechtsverletzungen zu suchen.
Schädliche Bots
Da es sich bei den Spidern um das Werkzeug von den Suchmaschinen handelt, wollen Webseitenbetreiber natürlich, dass diese auf die eigene Webseite gelangt. Demnach wird die Seite für Spider zugänglich gemacht und erlaubt, dass diese die Inhalte indexieren. Leider gibt es auch schadhafte Webcrawler wie beispielsweise Spam Bots. Diese sind ähnlich wie Feeds aufgebaut und spammen den Server zu, dass es zum Absturz kommt. Ebenso können Data Mining Bots für böse Absichten missbraucht werden. So können diese beispielsweise so programmiert sein, dass diese spezielle Daten wie etwa Kunden-E-Mails abgreifen sollen.
Schutzmaßnahmen
Bereits im Jahr 1994 wurden Robots Exclusion Standards als Schutzmaßnahme für das Indexieren von Webseiten entwickelt. Aufgrund dieser müssen Bots und Crawler beim Indexieren einer Webseite mit der robots.txt – Datei beginnen. Diese gibt dem Searchbot vor welche Webseiten und Verzeichnisse gecrawlt werden dürfen und welche nicht.
Da sich unseriöse Crawler nicht an die Regeln halten, gibt es zusätzliche Maßnahmen, die verhindern, dass unerwünschte Daten abgegriffen werden. So gibt es sogenannte Teergruben oder Sandboxes. Diese geben dem Spider falsche Informationen und leiten Spam-Bots in die Irre.
Aus Sicht der Suchmaschinenoptimierung (SEO) ist es das Ziel, die Webseite so aufzubauen, dass der Crawler möglichst schnell und einfach die Website durchforsten und indexieren kann. Das heißt, mithilfe der robots.txt Datei genau festlegen, welche Seiten relevant sind und welche nicht.
Ebenfalls wichtig ist die Verwendung von sitemaps. Die Datei sitemap.xml im Quellverzeichnis der Website ist ebenfalls eine enorme Hilfe und liefert dem Crawler wertvolle Informationen über die zu durchforstende Website.
Erklär-Video – Was ist ein Crawler?
Quellen: wikipedia.org, byte.at, Fairrank TV