Googlebot & Crawler, so kommt die Seite in den Index

Webseiten in den Google Index bringen

Damit eine Webseite in den Google Index kommt muss diese von dem Googlebot (Crawler / Spider) gefunden werden. Der Crawler  ist ein spezielles Programm, das im Idealfall die komplette Website erforscht und den Inhalt analysiert. Wer seine Logfiles genauer auswertet wird feststellen, dass es viele automatisierte Abrufe auch von anderen Suchmaschinen gibt, hier wollen wir uns aber zunächst auf den Googlebot bzw. auf die verschiedenen Webcrawler von Google konzentrieren.

Was ist ein Googlebot?

Der Googlebot ist der Webcrawler (auch “Spider” genannt) von Google. Crawling wird der Prozess genannt, durch den Googlebot neue und aktualisierte Seiten ermittelt, damit sie dem Google-Index hinzugefügt werden. – Google Webmaster-Tools-Hilfe

Wie kommt meine Seite in den Index?

Google-Index -Google-Bot Google-Crawler

 

Im Prinzip ist es ganz einfach und erfolgt nach folgendem Schema ab:

  1. Googlebot entdeckt die Website und crawlt die Seiten
  2. Indexiert die Inhalte der Website
  3. Der Google Algorithmus sortiert die Seite entsprechend ihrer Signale in den Suchergebnissen (Serps) ein.
  4. Die Suchergebnisseite (Serp) wird einem Nutzer passend zu seiner Suche angezeigt

Wie funktioniert die Google-Suche (Video)?

Matt Cutts erklärt in einfachen Worten (Englisch), den Ablauf einer Suche mit Google. Wer hätte gedacht, was alles innerhalb nur einer halben Sekunde bei Google passiert, damit wir unser Suchergebnis präsentiert bekommen?

Welche Googlebots gibt es?

Die Suchmaschine Google hat aktuell 8 unterschiedliche Spider im Einsatz, die den Inhalt der Webseiten nach unterschiedlichen Kriterien bewerten. In der nachfolgenden Tabelle sind die verschiedenen Robots aufgeführt.

CrawlerUser-AgentsHTTP(S) benötigt User-Agent
Googlebot (Für die Google Suche)GooglebotMozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
oder
(seltener): Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot für NachrichtenGooglebot-News
(Googlebot)
Googlebot-News
Googlebot-Images (Für die Google Bildersuche)Googlebot-Image
(Googlebot)
Googlebot-Image/1.0
Googlebot für VideosGooglebot-Video
(Googlebot)
Googlebot-Video/1.0
Google Mobile (Für die Mobilesuche z.B. auf Smartphones)Googlebot-Mobile[verschiedene Mobilgerät-Typen] (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Google Mobile AdSense (Für Werbeanzeigen auf Smartphones)Mediapartners-Google
oder
Mediapartners
(Googlebot)
[verschiedene Mobilgerät-Typen] (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Google AdSense (Für passende Anzeigen auf den Webseiten)Mediapartners-Google
Mediapartners
(Googlebot)
Mediapartners-Google
Google AdsBot Zielseiten-QualitätsprüfungAdsBot-GoogleAdsBot-Google (+http://www.google.com/adsbot.html)

Wie kann ich meine Website schnell in den Google Index bringen?

Googlebot findet die WebsiteEs gibt verschiedene Möglichkeiten Suchmaschinen auf die Website aufmerksam zu machen:

  1. Das A und O ist jedoch eine ordentliche OnPage Optimierung der Website.  Der Inhalt sollte für den Googlebot leicht zu lesen und indexieren sein. Die interne Verlinkung  spielt hierbei auch eine entscheidende Rolle und hilft dem Crawler aller Inhalte schnell zu entdecken. Jede Seite sollte idealerweise innerhalb von 4 bis 5 Klicks erreichbar sein.
  2. Links, die von anderen Seiten auf Eure Seite verweisen, sind nicht nur ein wichtiges Rankingkriterium für die Platzierung im Suchergebnis, sondern auch eine gute Möglichkeit auf eine neue Seite aufmerksam zumachen. Wichtig ist hierbei, dass der Link ein vollwertiger DoFollow Link ist.
  3. Pingdienste nutzen, z.B. diese URL: https://rpc.pingomatic.com
  4. XML-Sitemap in den Google Webmaster-Tools einreichen

Nicht alle vier  Punkte sind hier unbedingt erforderlich. Ich selber würde bei einem Blog den o. a. Pingdienst nutzen und zusätzlich eine XML-Sitemap in den Google Webmaster-Tools einreichen. Übrigens die Microsoft Suchmaschine Bing bietet auch eigene Webmaster-Tools an. Diese sollte man sich auch mal genauer anschauen, da sie auch noch weitere Features anbieten. Dazu vielleicht später mehr. ;-)

 Wie kann ich den Crawler für SEO Nutzen?

Die Grundlagen sollten jetzt jedem Webmaster soweit klar sein. Es gibt fälle, da kann eine zielorientierte Steuerung des Crawlers die Platzierung der Webseite verbessern.

Warum sollte ich den Googlebot auf meiner Seite steuern & führen?

Googlebot analysiert eine Website anhand der Robots.txt, XML-Sitmemap, des Contents und StrukturViele Webmaster sind sich nicht der Tatsache nicht bewusst, dass die Ressourcen für das Indizieren der Webseiten  begrenzt sind. Auch wenn Google Milliarden Dollar im Jahre verdient, kostet es Geld das Internet abzusuchen. Deswegen verteilt die Suchmaschine intern allen Seiten ein Crawl Budgets und Indexierung Budget. Das Crawl Budget legt also fest wie oft eine Webseite vom Googlebot besucht wird. Das Indexierungsbudget legt fest wie viele Seite in den Google-Index aufgenommen werden. Diese Budgets orientieren sich auch an dem Pagerank einer Seite. Wer sagt, dass der Page Rank für die Suchmaschinenoptmierung komplett irrelevant ist, hat keine umfassende Ahnung von SEO. Ach, Ihr glaubt mir nicht? Dann schaut einfach mal hier vorbei.

Nicht alles muss doppelt und dreifach vom Googlebot indiziert werden. Gerade Onlineshops leiden häufig an Duplicate Content ( Doppelte Inhalte), wenn durch sehr viele Filter im Onlineshop zusätzliche Seiten entstehen. Mit der Folge, dass das Ranking des Shops suboptimal bleibt und folglich der Traffic, die Besucher und Umsätze ausbleiben. Wer hier dem Googlebot rechtzeitig die richtigen Anweisungen gibt und gekonnt durch sein Webangebot führt wird hierfür belohnt werden.

Das SEO Arsenal für den Google-Bot:

SEO freundliche Informationsarchitektur

SEO freundliche Informationsarchitektur

  • Eine gute Informationsarchitektur mit einer flachen Hierarchie kommt einer guten Steuerung des Googlebots entgegen und erleichtern das Crawling. Einen sehr guten Artikel zu diesem Thema habe ich im Web auf moz.com gefunden.
  • Wichtige Seiten sollten möglichst oben in der Hierarchie stehen  und  direkt von der Startseite verlinkt werden.
  • Intern sehr gut verlinkte Seiten sollten  zu intern schlecht verlinkten Seiten verweisen. Das stärkt diese und führt dazu, dass der Googlebot öfters auch diese Perlen einer Domain entdeckt.
  • Kategorieseiten als Landingpages verstehen und durch externe Links stärken.
  • Klickschleifen verhindern. Terminkalender mit Links zu Events könne hierfür eine Falle sein.

Die Robots.txt

Die Robots.txt verbietet den Bot bestimmte Verzeichnisse und Seiten zu besuchen. Allerdings, wenn eine Seite viele externe Links hat, wird diese trotzdem in den Suchergebnissen angezeigt. Wie man eine Robots.txt erstellt könnt Ihr hier nachlesen.

Meta Tags:

<meta name="robots" content="index, follow"> => Die Seite soll indexiert werden, allen Links auf der Seite sollen verfolgt werden.
<meta name="robots" content="index, nofollow"> => Die Seite soll indexiert werden, allen Links auf der Seite sollen nicht verfolgt werden.
<meta name="robots" content="noindex, follow"> => Die Seite soll nicht indexiert werden, allen Links auf der Seite sollen verfolgt werden.
<meta name="robots" content="noindex, nofollow"> => Die Seite soll nicht indexiert werden, allen Links auf der Seite sollen nicht verfolgt werden.
<link rel="canonical" href="https://www.beispieldomain.de/originalcontent/" /> => Verweist auf die Originalseite, die indiziert werden soll. Vereinigt den Linkjuice zu nur einer Seite im Web.

Microformate

Mit Microformaten könnt Ihr Inhalte mit weiteren Informationen auszeichnen, die für Suchmaschine wichtig sind. So könnt Ihr zum Beipspiel auf Rezeptseiten genau deklarieren, was auf der Seite eine Rezeptzutat ist, wie lange ein Rezept dauert und was ein Rezeptbild ist. Für die Steuerung des Crawlers ist das Microformat rel=”nofollow” interessant. Mit ihm wird ein Link zusätzlich ausgezeichnet, wenn man diesen für die Suchmaschine Entwerten möchte. Meist wird dieses Attribut im Zusammenhang mit der Linspambekämpfung gebracht. Ihr könnt aber mit ihm auch gezielt den Linkjuice auf wichtige Seiten kanalisieren. Wieso sollte eine AGB-Seite, oder das Impressum  wertvollen Linkjuice von allen Seiten bekommen?  Es ist daher sinnvoll,  die Links zu diesen Seiten mit dem rel=”nofollow” Attribut zu entwerten.

XML-Sitemap

XML SitemapDie eleganteste Möglichkeit seine Inhalte einer Suchmaschine anzubieten, ist die XML-Sitemap. Nicht nur, das sie im Idealfall alle relevanten Inhalte auflistet, man kann in Ihr auch der Suchmaschine signalisieren, wie häufig eine Seite nach neuen Inhalten abgesucht werden soll. Das geschieht über die “Changefrequence” von “alway”, “hourly,” “daily”, “weekly”, “monthly” und” never”.

Die Priorisierung geht von 1 , für sehr wichtig, bis 0,1 für unwichtig. Man legt also immer im Verhältnis zu allen anderen Seiten auf einer Domain die Wichtigkeit fest. Eine Startseite mit häufig ändernden Inhalten sollte die Priorität 1 haben, während ein sich nicht mehr ändernde Archivseite die Priorität 0,1 haben sollte.

 

Logfile  Analyse

Über eine Logfile Analyse können Webmaster Fehlerhafte Aufrufe entdecken, die das Crawlbudet der Website verschwenden. Auch die Google Webmaster-Tools liefern hier eindeutige Hinweise auf Crawling-Fehler. Man kann auch mit Google Analytics das ganze automatisieren und über Tracking Events, z.B. den Aufruf einer 404 Fehlerseite sich per E-Mail direkt benachrichtigen lassen. Zudem kann man in den Logfiles anhand der User-Agent Einträge entdecken, welcher Bot die Seite besucht hat.

 Weitere Tools & Ressourcen

Diese Tools sollte jeder Webmaster kennen.

 Fazit

Jetzt sind es doch noch ein paar mehr Worte geworden als eigentlich geplant war.  Ich hoffe, dass ich euch einen umfassenden Einblick in die Thematik “Googlebot und seiner Steuerung”, geben  konnte.  Über Kommentare, Shares und Links zu diesen Beitrag freue ich mich immer riesig. :-D

 

Bildquellen:  XML Sitemap | © CaliCirilo – Fotolia.com

5 Kommentare zu „Googlebot & Crawler, so kommt die Seite in den Index“

  1. Interessant, vor ein paar Jahren war das noch anders, da ging es deutlich schneller. Wenn das so weiter geht, braucht vielleicht jeder neue Webmaster ein google Konto um über diesen Weg seine eigene Webseite in den index zu bringen? Vielleicht wird google in Zukunft nur noch Webseiten aufnehmen die ein Konto haben, also nicht mehr über den Crawler.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

2 × fünf =

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.

Nach oben scrollen