Was ist die robots.txt und warum ist sie wichtig für SEO?
Die robots.txt Datei ist eine reine Textdatei, die Informationen darüber enthält, welche Bereiche einer Website von Robots (User-agent) besucht werden dürfen und welche nicht. Dabei kann je nach Bot unterschieden werden. Sie haben also beispielsweise die Möglichkeit über ebendiese Datei die Anweisung zu geben, dass der Googlebot Ihre komplette Seite crawlen darf und der Bingbot nur einen bestimmten Bereich.
Grundsätzlich ist die robtos.txt somit dazu gedacht die komplette Website, Verzeichnisse, Unterverzeichnisse oder einzelne Dateien für bestimmte Crawler oder alle Crawler zu sperren. Es gibt keine Garantie, dass sich ein Bot an die Anweisungen der robots.txt hält. Jedoch geben Google und Bing an, dass sie den Anweisungen Folge leisten.
Pro (Sub-)Domain kann es nur eine robots.txt Datei geben. Sie wird im Root-Verzeichnis der Domain abgelegt und muss exakt so benannt werden. Sie stellt zudem das erste Dokument dar, das ein Bot aufruft, der eine Website besucht. Ein robots.txt Generator kann dabei helfen eine solche Datei anzulegen. Wer in der robots.txt die XML-Sitemap der eigenen Webseite auflistet, stellt zudem sicher, dass der Google-Bot diese beim Crawlen auch findet.
Aufbau einer robots.txt Datei
Beispiele für den Aufbau
Kein Suchmaschinen-Bot erhält Zugriff auf die Website:
User-agent: *
Disallow: /
„*“ bedeutet, dass alle Bots von der folgenden Anweisung betroffen sind. „/“ bedeutet, dass das Root-Verzeichnis und alle Unterverzeichnisse gesperrt sind.
Allen Bots Zugriff auf die Website gewähren:
User-agent: *
Disallow:
Durch das Fehlen einer Angabe hinter „Disallow:“ wird nichts gesperrt.
Für einen bestimmten Bot ein bestimmtes Verzeichnisses und Datei sperren:
User-agent: Bingbot
Disallow: /wishlist/
Disallow: /admin.html
Für den Bot von Bing ist das Verzeichnis „/wishlist/“ und die Seite „/admin.html“ gesperrt.
Weiter ist es möglich, den Zugriff auf spezifische Dateien oder Verzeichnisse explizit zu erlauben:
User-Agent: *
Disallow: /
Allow: /images/
Hier ist es den Bots nur erlaubt, auf das Verzeichnis „/images/“ zuzugreifen, der Rest der Website ist gesperrt.
Anbei eine Liste einiger bekannter Bots mit den dazugehörigen User-Agent Bezeichnungen.
Crawler | User-agent |
---|---|
Googlebot | |
Googlebot für Nachrichten | Googlebot-News |
Googlebot für Bilder | Googlebot-Image |
Googlebot für Videos | Googlebot-Video |
Yahoo | Slurp |
Bing | Bingbot |
MSN | Msnbot |
Weitere Bot Bezeichnungen finden sich hier:
Google: https://support.google.com/webmasters/answer/1061943?hl=de
Yahoo: https://help.yahoo.com/kb/sln2213.html
Bing: https://www.bing.com/webmaster/help/which-crawlers-does-bing-use-8c184ec0
Wildcards
In der robots.txt können zwei verschiedene Wildcards genutzt werden:
* = ersetzt beliebig viele Zeichen
$ = drückt ein Zeilenende aus
Ein Beispiel hierzu:
User-agent: *
Disallow: /wishlist*/
Disallow: /*tellafriend/
Disallow: /*.raw$
Hier werden alle Verzeichnisse gesperrt, die mit „wishlist“ beginnen, alle Verzeichnisse, die „tellafriend“ beinhalten und alle Dateien, die auf „.raw“ enden.
Hinterlegen der XML-Sitemap
Neben dem Sperren spezifischer (Teil-)Bereiche für Bots haben Sie in der robots.txt zudem die Möglichkeit, die URI zur XML-Sitemap zu hinterlegen. Im Gegensatz zur robots.txt muss diese auch nicht im Root-Verzeichnis abgelegt werden und kann einen beliebigen Namen tragen. Ein Plugin kann an dieser Stelle hilfreich sein; so kommen mit der robots.txt WordPress Nutzer aber auch Betreiber anderer Content Management Systeme bspw. TYPO3 schneller auf einen grünen Zweig.
Ein Beispiel für einen Verweis zur XML-Sitemap sieht folgendermaßen aus:
Sitemap: www.meinedomain.de/sitemap.xml
Nutzen von Kommentaren
Beginnt eine Zeile mit „#“ handelt es sich um eine Kommentarzeile. Diese wird von Bots ignoriert.
Beispiel für eine Kommentarzeile:
User-agent: *
Disallow: /wishlist/
# Wishlist gesperrt am 22.01.2018
Kontrolle der robots-Datei mit der Google Search Console
Mithilfe des „robots.txt-Tester“ in der Google Search Console (zu finden unter „Crawling“) kann die erstellte robots-Datei auf die korrekte Funktionalität geprüft werden. Zudem können Änderungen an der Datei mit dieser Funktion getestet werden.
Die Überprüfung der robots-Datei sollte unbedingt vorgenommen werden. Schon ein kleiner Buchstabendreher oder Tippfehler kann dafür sorgen, dass Bots von wichtigen Verzeichnissen oder gar Ihrer gesamten Website ausgeschlossen werden. Wir empfehlen den robots.txt Tester in jedem Fall nach jeder Änderung an der Datei.
Auswahl von zwei Anwendungsfälle
Das Sperren von User-spezifischen Seiten
Sind Sie Besitzer eines Online Shops stellt die robots Datei eine exzellente Möglichkeit dar, User-spezifische Seiten, die nicht im Index der Suchmaschinen landen sollen, vom Crawling auszuschließen. Oft dreht es sich dabei beispielsweise um Verzeichnisse wie /checkout/, /tellafriend/ oder /wishlist/.
Das Sperren von Testsystemen
Nutzen Sie ein Testsystem, um Änderungen an Ihrer Website vorab zu testen? Das Testsystem sollten Sie unbedingt für Suchmaschinen sperren. Schließlich möchten Sie nicht, dass unfertige Seiten im Index landen oder gar mit den Seiten Ihres Livesystems um Rankings konkurrieren.
Fazit – wichtige Bedeutung der robots.txt für SEO
Der robots Textdatei kommt in der Suchmaschinenoptimierung eine wichtige Bedeutung zu, da sie die Möglichkeit bietet, das Verhalten von Suchmaschinen-Bots zu steuern.
Jedoch birgt die Verwendung auch einige Risiken. Eine zu starke Einschränkung kann Rankingnachteile nach sich ziehen. Durch externe Backlinks ist es dennoch möglich, dass Seiten in den Suchergebnissen ausgespielt werden, die durch das robots-File gesperrt sind. Dann wird normalerweise ein nicht sehr ansprechender Platzhaltertext anstelle der Meta Description ausgespielt. Dieser lautete bis vor Kurzem noch „Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar.“ und lautet seit Ende 2017 „Für diese Seite sind keine Informationen verfügbar.“.
Dieser Darstellung in den Suchergebnissen verdeutlicht nochmals, dass die robots Textdatei dazu dient, das Crawling der Bots zu steuern, nicht aber die Indexierung Ihrer Seite. Um bereits indexierte Seiten aus dem Index zu entfernen, sollte stattdessen zum „noindex“ Robots Meta Tag gegriffen werden.
Eine zu offene Einschränkung kann bewirken, dass beispielsweise User-spezifische Seiten wie Wunschlisten oder viele Seiten mit ähnlichen oder identischen Inhalten indexiert werden. Diese würden in den Suchergebnissen dann gegeneinander konkurrieren und unter Umständen dafür sorgen, dass keine Ihrer Seiten gut rankt.
Besonders wichtig ist es auch auf die Korrektheit der Datei zu achten und diese vorab in der Google Search Console zu testen. Ein Fehler in der Datei kann fatale Auswirkungen auf Ihre Rankings haben. Um sicher zu gehen, dass die Datei ordnungsgemäß erstellt wurde, kann ein robots.txt Generator zur Hilfe genommen werden.
Die robots-Datei bietet Ihnen zudem die Möglichkeit, Ihr Crawling Budget effizient zu nutzen, indem Sie vorgeben, welche Inhalte unwichtig für Ihre Darstellung in den Suchergebnissen sind. Jede Website erhält eine gewisse Anzahl an Seiten, die Google dort crawlt. Nicht jede Seite erhält das gleiche Budget. Abhängig vom Crawl Budget ist auch, wie oft die wichtigsten Seiten einer Website gecrawlt werden.
Bei Fragen oder Anregungen freuen wir uns über Mails oder Kommentare. Benötigen Sie Hilfe bei der Erstellung einer robots.txt? Unsere Expert*innen in der SEO Agentur und der Webentwicklungsagentur helfen Ihnen gerne weiter.
Ihr Ansprechpartner
für SEO & SEA
Beyond Media hilft Ihnen dabei, sich von der Konkurrenz abzuheben und bringt Ihre Website mit den richtigen SEO- & SEA-Maßnahmen nach vorne. Gewinnen Sie mit unserer Hilfe und unserer Expertise neue Kunden und sichern Sie sich und Ihrem Unternehmen langfristige und nachhaltige Erfolge mit einem starken digitalen Auftritt!