25.11.2016 von Aylin Chaaban

Crawler

Crawler sind Programme, die automatisch das Internet und Seiten durchsuchen, auslesen und auch analysieren. Sie werden auch Spider, Searchbot oder Bot genannt. Am häufigsten finden Crawler Verwendung bei der Indexierung von Seiten für Suchmaschinen.

Informationen rund um Crawler

Webcrawler erzeugen durch ihr immer ständiges Aufrufen von Seiten ca. 40 Prozent des gesamten Internet-Traffics. Aus diesem Grund darf man sich beim Auswerten der Website-Leistung nicht auf Analyse-Tools verlassen, die Bot-Traffic nicht ausschließen (können).

Google und Co verwenden Crawler zur Indexierung von Websites. Googles Crawler nennt sich Googlebot. Dieses Computerprogramm hat die Aufgabe, Inhalte herunterzuladen und diese nach dem Auslesen dem internen Index zuzuführen. So werden die Websites, die im World Wide Web vorhanden sind, auch bei einer Suchanfrage über die Suchmaschine gefunden.

Ist eine Website nicht von einem Crawler ausgelesen und gefunden worden, so erscheint sie nicht im Suchmaschinenindex. Die Website ist so ausschließlich über das Eingeben der URL auffindbar.

Googlebot und Co – braucht man das überhaupt?

Die meisten Menschen weltweit nutzen Suchmaschinen, um auf Websites zu kommen. Selbst, wenn sie schon mal auf der Seite waren, werden meist die Suchergebnisse von Google und Co genutzt. Aus diesem Grund ist es enorm wichtig, im Index der Suchmaschinen aufzutauchen. Launcht eine Website, so kann man den Vorgang der Indexierung beschleunigen. Durch das Erstellen einer Sitemap und der manuellen Anmeldung bei der Suchmaschinen, signalisiert man seine eigene Anwesenheit. Außerdem hilft eine Sitemap den Crawlern, die Websites auszulesen.

Wie verhindert man das Crawlen einer Website?

Gewisse Seiten auf einer Website sollten nicht unbedingt ausgelesen und indexiert werden. Hierunter fallen beispielsweise die Kunden-Log-Ins. Um den Bots der Suchmaschinen das zu signalisieren, gibt man den Crawlern entsprechende Befehle aus. Neben den Attributen nofollow und noindex ist die effektivste Methode die robot.txt-Datei. Hier bestimmt man, welche Bereiche einer Domain gecrawlt werden dürfen und welche nicht. Im Gegensatz zum nofollow Attribut ist die robot.txt keine Empfehlung, sondern eine Anweisung.

Bedeutung für die Suchmaschinenoptimierung

Ist eine Website gut und verständlich für den Googlebot und Co auszulesen, so wirkt sich das positiv auf das Ranking der Website aus. Daher ist eine Unterstützung mithilfe einer Sitemap eine positive Maßnahme, die ergriffen werden kann.

Außerdem hängen viele Bereiche der Suchmaschinenoptimierung auch in einem direkten Zusammenhang zu dem Crawlen einer Website. Die Anzahl an (hochwertigen) Backlinks steht demnach in einem direkten Zusammenhang zu der Häufigkeit, mit der eine Website gecrawlt wird. Das heißt also: je mehr Backlinks auf eine Domain verweisen, desto häufiger werden dessen Inhalte gecrawlt und im Index der Suchmaschine aktualisiert.

Über den/die Autor/in:
Aylin Chaaban

Die Kommentare sind geschlossen.