Robots.txt

Die Robots.txt ist eine kleine Textdatei, die den Suchmaschinenbots und Crawlern von Internetdiensten sagt, wie ein „Bot“ sich auf der Website zu verhalten hat. Sie steuer also das Crawl-Verhalten. Man kann mit ihr bestimmte Verzeichnisse oder Dateien sperren und den Bot hinweise geben, wo er zum Beispiel eine XML-Sitemap findet.

Wie finde ich die Robots.txt?

Die Robots.txt ist gewöhnlich im Root-Verzeichnis des Webservers  als Textdatei hinterlegt. Jeder kann die Robots.txt einsehen. Au fremde SEOs können sich über Deine „Crawling-Politik“ erkundigen. Dafür muss man im Browser nur die gewünschte Domain in die Adresszeile eingeben und dann nach dem Schrägstrich „robots.txt“ eintragen, schon kann man im Browser sehen welche Verzeichnisse und Dateien ( Ressourcen) der Webmaster für den Googlebot und andere gesperrt hat.

Abb.: Beispiel

Auch in der Google Search Console könnt ihr die Robost.txt finden. Dort werden auch noch Infos zu eventuellen Fehlern der Datei angezeigt.

Warum sollte Dich die Robots.txt von anderen Webseiten interessieren?

  1. Man erfährt schon eigentlich eine Menge über das Unternehmen bzw. den Webmaster einer Seite.  Zu jedem Backlinkcheck gehört auch die Überprüfung, ob die Seite auch für den Googlebot und andere Suchmaschinenbots gefunden und indexiert werden dürfen. Nicht jeder Backlink der im Browser als DoFollow Link aussieht ist auch einer. Wenn die Seite oder das Verzeichnis über die Robots.txt gesperrt ist, ist auch ein DoFollow Link für die Suchmaschinenoptimierung nutzlos.
  2. Die Noindex und Nofollow Meta-Tags alleine sind noch lange kein Garant dafür, das auch eine Seite wirklich nicht indexiert wird.
  3. Du findest auch heraus, ob es auf einer Website bestimmte Bereiche gibt, die nicht öffentlich sind. Hacker nutzen das, um hier Schwachstellen in der IT-Sicherheit zu finden.  Ich habe schon Unternehmen im Netz mit einer cleveren Robots.txt gesehen, die über diese Datei auch qualifiziertes SEO-Personal gesucht haben.  Klar, wer diese Datei kennt, scheint ja auch zumindest eine gewisse Ahnung von der Materie zu haben.

Wie erstelle ich eine Robots.txt Datei?

Im Prinzip reicht ein einfacher Texteditor aus oder das von Microsoft vorinstallierte Notepad vollkommen aus.

Was steht in der Robots.txt drin und was bedeutet es?

Als Beispiel hab eich mal meine Robots.txt Datei genommen. Hier seht ihr den Inhalt.

Sitemap: http://internet-pr-beratung.de/sitemap_index.xml
User-agent: *
Disallow: /wp-admin/
Allow: *.js
Allow: *.css

Am Anfang verweise ich die Bots auf meiner XML-Sitemap. Dort können dann die Bots alle Seiten finden, die indexiert werden sollen. In der nächsten Zeile bestimme ich, das folgende Einträge für alle Bots gelten, also für Googlebot, auch für den Baidu-Spider oder Bingbot und alle anderen Bots.

Die Anweisung „Disallow:  /wp-admin/“ bedeutet, dass alle Bots nichts im Verzeichnis wp-admin zu suchen haben und das sämtliche Inhalte, die darunter liegen nicht indexiert werden sollen. Die Anweisung „Allow:*.js“ stellt nochmal klar, dass sämtliche Javascript Ressourcen der Bot sich ansehen darf.

Das waren jetzt globale Anweisungen für alle Bots. Nicht jeder Bot hält sich auch an diese Anweisung, daran kann man leicht die „guten“ von den „bösen“ Bots unterscheiden.  An dieser Stelle möchte ich euch auch noch eine Logfile-Analyse empfehlen, um auch wirklich die „bösen“ Bots zu finden. 😉

Ich kann auch bestimmte Anweisungen nur für bestimmte Bots bestimmen.

user-agent: AhrefsBot
disallow: /

Diese Anweisung oben bezieht sich auf den Bot von Ahrefs-Tools. Das ist eigentlich ein cooler Dienst und der hat eigentlich nichts böses vor,
nur sorgt dieser Bot dafür, das andere Onlinemarketer über das Ahrefs-Tool eure abgehenden Links und internen Links identifizieren können.
Das möchte ich nicht daher habe ich ihn ausgesperrt. Das kann man auch für andere SEO-Toolanbieter machen, wie z.B. Sistrix und Searchmetricsbot.
Wieso sollte ich Wettbewerber einfach meine Website nach SEO-Stärken oder Schwächen analysieren lassen?

Weitere Artikel zum Thema

Google Search Console

Der Inhalt ist nicht verfügbar.
Bitte erlaube Cookies, indem du auf Übernehmen im Banner klickst.

Googlebot

Der Inhalt ist nicht verfügbar.
Bitte erlaube Cookies, indem du auf Übernehmen im Banner klickst.

Website Relaunch & Domainumzug: Worauf muss ich dabei achten?

Der Inhalt ist nicht verfügbar.
Bitte erlaube Cookies, indem du auf Übernehmen im Banner klickst.

Was ist Referrer Spam?

Der Inhalt ist nicht verfügbar.
Bitte erlaube Cookies, indem du auf Übernehmen im Banner klickst.

Googlebot & Crawler, so kommt die Seite in den Index

Der Inhalt ist nicht verfügbar.
Bitte erlaube Cookies, indem du auf Übernehmen im Banner klickst.

Posted in .