Googlebot & Crawler, so kommt die Seite in den Index

Webseiten in den Google Index bringen

Damit eine Webseite in den Google Index kommt muss diese von dem Googlebot (Crawler / Spider) gefunden werden. Der Crawler ist ein spezielles Programm, das im Idealfall die komplette Website erforscht und den Inhalt analysiert. Wer seine Logfiles genauer auswertet wird feststellen, dass es viele automatisierte Abrufe auch von anderen Suchmaschinen gibt, hier wollen wir uns aber zunächst auf den Googlebot bzw. auf die verschiedenen Webcrawler von Google konzentrieren.

Was ist ein Googlebot?

Der Googlebot ist der Webcrawler (auch „Spider“ genannt) von Google. Crawling wird der Prozess genannt, durch den Googlebot neue und aktualisierte Seiten ermittelt, damit sie dem Google-Index hinzugefügt werden. – Google Webmaster-Tools-Hilfe

Wie kommt meine Seite in den Index?

Im Prinzip ist es ganz einfach und erfolgt nach folgendem Schema ab:

Googlebot entdeckt die Website und crawlt die Seiten
Indexiert die Inhalte der Website
Der Google Algorithmus sortiert die Seite entsprechend ihrer Signale in den Suchergebnissen (Serps) ein.
Die Suchergebnisseite (Serp) wird einem Nutzer passend zu seiner Suche angezeigt

Wie funktioniert die Google-Suche (Video)?

Matt Cutts erklärt in einfachen Worten (Englisch), den Ablauf einer Suche mit Google. Wer hätte gedacht, was alles innerhalb nur einer halben Sekunde bei Google passiert, damit wir unser Suchergebnis präsentiert bekommen?

Welche Googlebots gibt es?

Die Suchmaschine Google hat aktuell 8 unterschiedliche Spider im Einsatz, die den Inhalt der Webseiten nach unterschiedlichen Kriterien bewerten. In der nachfolgenden Tabelle sind die verschiedenen Robots aufgeführt.

Crawler	User-Agents	HTTP(S) benötigt User-Agent
Googlebot (Für die Google Suche)	Googlebot	Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) oder (seltener): Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot für Nachrichten	Googlebot-News (Googlebot)	Googlebot-News
Googlebot-Images (Für die Google Bildersuche)	Googlebot-Image (Googlebot)	Googlebot-Image/1.0
Googlebot für Videos	Googlebot-Video (Googlebot)	Googlebot-Video/1.0
Google Mobile (Für die Mobilesuche z.B. auf Smartphones)	Googlebot-Mobile	[verschiedene Mobilgerät-Typen] (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Google Mobile AdSense (Für Werbeanzeigen auf Smartphones)	Mediapartners-Google oder Mediapartners (Googlebot)	[verschiedene Mobilgerät-Typen] (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Google AdSense (Für passende Anzeigen auf den Webseiten)	Mediapartners-Google Mediapartners (Googlebot)	Mediapartners-Google
Google AdsBot Zielseiten-Qualitätsprüfung	AdsBot-Google	AdsBot-Google (+http://www.google.com/adsbot.html)

Wie kann ich meine Website schnell in den Google Index bringen?

Es gibt verschiedene Möglichkeiten Suchmaschinen auf die Website aufmerksam zu machen:

Das A und O ist jedoch eine ordentliche OnPage Optimierung der Website. Der Inhalt sollte für den Googlebot leicht zu lesen und indexieren sein. Die interne Verlinkung spielt hierbei auch eine entscheidende Rolle und hilft dem Crawler aller Inhalte schnell zu entdecken. Jede Seite sollte idealerweise innerhalb von 4 bis 5 Klicks erreichbar sein.
Links, die von anderen Seiten auf Eure Seite verweisen, sind nicht nur ein wichtiges Rankingkriterium für die Platzierung im Suchergebnis, sondern auch eine gute Möglichkeit auf eine neue Seite aufmerksam zumachen. Wichtig ist hierbei, dass der Link ein vollwertiger DoFollow Link ist.
Pingdienste nutzen, z.B. diese URL: https://rpc.pingomatic.com
XML-Sitemap in den Google Webmaster-Tools einreichen

Nicht alle vier Punkte sind hier unbedingt erforderlich. Ich selber würde bei einem Blog den o. a. Pingdienst nutzen und zusätzlich eine XML-Sitemap in den Google Webmaster-Tools einreichen. Übrigens die Microsoft Suchmaschine Bing bietet auch eigene Webmaster-Tools an. Diese sollte man sich auch mal genauer anschauen, da sie auch noch weitere Features anbieten. Dazu vielleicht später mehr. ;-)

Wie kann ich den Crawler für SEO Nutzen?

Die Grundlagen sollten jetzt jedem Webmaster soweit klar sein. Es gibt fälle, da kann eine zielorientierte Steuerung des Crawlers die Platzierung der Webseite verbessern.

Warum sollte ich den Googlebot auf meiner Seite steuern & führen?

Viele Webmaster sind sich nicht der Tatsache nicht bewusst, dass die Ressourcen für das Indizieren der Webseiten begrenzt sind. Auch wenn Google Milliarden Dollar im Jahre verdient, kostet es Geld das Internet abzusuchen. Deswegen verteilt die Suchmaschine intern allen Seiten ein Crawl Budgets und Indexierung Budget. Das Crawl Budget legt also fest wie oft eine Webseite vom Googlebot besucht wird. Das Indexierungsbudget legt fest wie viele Seite in den Google-Index aufgenommen werden. Diese Budgets orientieren sich auch an dem Pagerank einer Seite. Wer sagt, dass der Page Rank für die Suchmaschinenoptmierung komplett irrelevant ist, hat keine umfassende Ahnung von SEO. Ach, Ihr glaubt mir nicht? Dann schaut einfach mal hier vorbei.

Nicht alles muss doppelt und dreifach vom Googlebot indiziert werden. Gerade Onlineshops leiden häufig an Duplicate Content ( Doppelte Inhalte), wenn durch sehr viele Filter im Onlineshop zusätzliche Seiten entstehen. Mit der Folge, dass das Ranking des Shops suboptimal bleibt und folglich der Traffic, die Besucher und Umsätze ausbleiben. Wer hier dem Googlebot rechtzeitig die richtigen Anweisungen gibt und gekonnt durch sein Webangebot führt wird hierfür belohnt werden.

Das SEO Arsenal für den Google-Bot:

SEO freundliche Informationsarchitektur

Eine gute Informationsarchitektur mit einer flachen Hierarchie kommt einer guten Steuerung des Googlebots entgegen und erleichtern das Crawling. Einen sehr guten Artikel zu diesem Thema habe ich im Web auf moz.com gefunden.
Wichtige Seiten sollten möglichst oben in der Hierarchie stehen und direkt von der Startseite verlinkt werden.
Intern sehr gut verlinkte Seiten sollten zu intern schlecht verlinkten Seiten verweisen. Das stärkt diese und führt dazu, dass der Googlebot öfters auch diese Perlen einer Domain entdeckt.
Kategorieseiten als Landingpages verstehen und durch externe Links stärken.
Klickschleifen verhindern. Terminkalender mit Links zu Events könne hierfür eine Falle sein.

Die Robots.txt

Die Robots.txt verbietet den Bot bestimmte Verzeichnisse und Seiten zu besuchen. Allerdings, wenn eine Seite viele externe Links hat, wird diese trotzdem in den Suchergebnissen angezeigt. Wie man eine Robots.txt erstellt könnt Ihr hier nachlesen.

Meta Tags:

<meta name="robots" content="index, follow"> => Die Seite soll indexiert werden, allen Links auf der Seite sollen verfolgt werden.

<meta name="robots" content="index, nofollow"> => Die Seite soll indexiert werden, allen Links auf der Seite sollen nicht verfolgt werden.

<meta name="robots" content="noindex, follow"> => Die Seite soll nicht indexiert werden, allen Links auf der Seite sollen verfolgt werden.

<meta name="robots" content="noindex, nofollow"> => Die Seite soll nicht indexiert werden, allen Links auf der Seite sollen nicht verfolgt werden.

<link rel="canonical" href="https://www.beispieldomain.de/originalcontent/" /> => Verweist auf die Originalseite, die indiziert werden soll. Vereinigt den Linkjuice zu nur einer Seite im Web.

Microformate

Mit Microformaten könnt Ihr Inhalte mit weiteren Informationen auszeichnen, die für Suchmaschine wichtig sind. So könnt Ihr zum Beipspiel auf Rezeptseiten genau deklarieren, was auf der Seite eine Rezeptzutat ist, wie lange ein Rezept dauert und was ein Rezeptbild ist. Für die Steuerung des Crawlers ist das Microformat rel=“nofollow“ interessant. Mit ihm wird ein Link zusätzlich ausgezeichnet, wenn man diesen für die Suchmaschine Entwerten möchte. Meist wird dieses Attribut im Zusammenhang mit der Linspambekämpfung gebracht. Ihr könnt aber mit ihm auch gezielt den Linkjuice auf wichtige Seiten kanalisieren. Wieso sollte eine AGB-Seite, oder das Impressum wertvollen Linkjuice von allen Seiten bekommen? Es ist daher sinnvoll, die Links zu diesen Seiten mit dem rel=“nofollow“ Attribut zu entwerten.

XML-Sitemap

Die eleganteste Möglichkeit seine Inhalte einer Suchmaschine anzubieten, ist die XML-Sitemap. Nicht nur, das sie im Idealfall alle relevanten Inhalte auflistet, man kann in Ihr auch der Suchmaschine signalisieren, wie häufig eine Seite nach neuen Inhalten abgesucht werden soll. Das geschieht über die „Changefrequence“ von „alway“, „hourly,“ „daily“, „weekly“, „monthly“ und“ never“.

Die Priorisierung geht von 1 , für sehr wichtig, bis 0,1 für unwichtig. Man legt also immer im Verhältnis zu allen anderen Seiten auf einer Domain die Wichtigkeit fest. Eine Startseite mit häufig ändernden Inhalten sollte die Priorität 1 haben, während ein sich nicht mehr ändernde Archivseite die Priorität 0,1 haben sollte.

Logfile Analyse

Über eine Logfile Analyse können Webmaster Fehlerhafte Aufrufe entdecken, die das Crawlbudet der Website verschwenden. Auch die Google Webmaster-Tools liefern hier eindeutige Hinweise auf Crawling-Fehler. Man kann auch mit Google Analytics das ganze automatisieren und über Tracking Events, z.B. den Aufruf einer 404 Fehlerseite sich per E-Mail direkt benachrichtigen lassen. Zudem kann man in den Logfiles anhand der User-Agent Einträge entdecken, welcher Bot die Seite besucht hat.

Weitere Tools & Ressourcen

Diese Tools sollte jeder Webmaster kennen.

https://www.feedthebot.com/tools/ – Ein tolles Tool zur Website-Analyse
https://home.snafu.de/tilman/xenulink.html – Xenu’s Link Sleuth checkt die Linkstruktur und findet „broken“ Links.
https://www.useragentstring.com/pages/useragentstring.php – Eine umfangreiche Liste zur Identifizierung von User-Agents.

Fazit

Jetzt sind es doch noch ein paar mehr Worte geworden als eigentlich geplant war. Ich hoffe, dass ich euch einen umfassenden Einblick in die Thematik „Googlebot und seiner Steuerung“, geben konnte. Über Kommentare, Shares und Links zu diesen Beitrag freue ich mich immer riesig. :-D

Anke

10. Oktober 2014 um 16:23 Uhr

Interessant, vor ein paar Jahren war das noch anders, da ging es deutlich schneller. Wenn das so weiter geht, braucht vielleicht jeder neue Webmaster ein google Konto um über diesen Weg seine eigene Webseite in den index zu bringen? Vielleicht wird google in Zukunft nur noch Webseiten aufnehmen die ein Konto haben, also nicht mehr über den Crawler.

Christian Schebitz

26. Februar 2016 um 11:16 Uhr

Wir haben unsere http://www.rechtsanwalt.com/ auf https://www.rechtsanwalt.com/ umgestellt, hat da jemand Erfahrungen ob man dafür eine neue Property in dem WMT anlegen muss oder ob eine Umleitung ausreicht?

Sammy Zimmermanns

2. März 2016 um 07:33 Uhr

Ja, das ist erforderlich, wenn Ihr eure Rankings in der Search Console beobachten wollt.

Googlebot & Crawler, so kommt die Seite in den Index

Webseiten in den Google Index bringen

Was ist ein Googlebot?

Wie kommt meine Seite in den Index?

Wie funktioniert die Google-Suche (Video)?

Welche Googlebots gibt es?

Wie kann ich meine Website schnell in den Google Index bringen?

Wie kann ich den Crawler für SEO Nutzen?

Warum sollte ich den Googlebot auf meiner Seite steuern & führen?

Das SEO Arsenal für den Google-Bot:

SEO freundliche Informationsarchitektur

Die Robots.txt

Meta Tags:

Microformate

XML-Sitemap

Logfile Analyse

Weitere Tools & Ressourcen

Fazit

5 Kommentare zu „Googlebot & Crawler, so kommt die Seite in den Index“

Kommentar verfassen

Webseiten in den Google Index bringen

Was ist ein Googlebot?

Wie kommt meine Seite in den Index?

Wie funktioniert die Google-Suche (Video)?

Welche Googlebots gibt es?

Wie kann ich meine Website schnell in den Google Index bringen?

Wie kann ich den Crawler für SEO Nutzen?

Warum sollte ich den Googlebot auf meiner Seite steuern & führen?

Das SEO Arsenal für den Google-Bot:

SEO freundliche Informationsarchitektur

Die Robots.txt

Meta Tags:

Microformate

XML-Sitemap

Logfile Analyse

Weitere Tools & Ressourcen

Fazit

Weitere Beiträge

5 Kommentare zu „Googlebot & Crawler, so kommt die Seite in den Index“

Kommentar verfassen