Google Premier Partner Badge Microsoft Advertising Elite Partner Agenturtipp Siegel
Zum Inhalt springen

Die robots.txt
einfach und verständlich erklärt

Die robots.txt-Datei ist eine einfache Textdatei, die festlegt, welche Bereiche einer Website von Suchmaschinen-Crawlern (User-agents) besucht werden dürfen und welche nicht. Sie dient dazu, das Crawling-Verhalten von Suchmaschinen wie Google oder Bing zu steuern, um unnötiges Crawling zu vermeiden und das Crawl-Budget effizient zu nutzen.

Was ist die robots.txt Datei?

Die robots.txt Datei ist eine reine Textdatei, die Informationen darüber enthält, welche Bereiche einer Website von Robots (User-agent) besucht werden dürfen und welche nicht. Dabei kann je nach Bot unterschieden werden. Sie haben also beispielsweise die Möglichkeit über ebendiese Datei die Anweisung zu geben, dass der Googlebot Ihre komplette Seite crawlen darf und der Bingbot nur einen bestimmten Bereich.

Grundsätzlich ist die robtos.txt somit dazu gedacht die komplette Website, Verzeichnisse, Unterverzeichnisse oder einzelne Dateien für bestimmte Crawler oder alle Crawler zu sperren. Es gibt keine Garantie, dass sich ein Bot an die Anweisungen der robots.txt hält. Jedoch geben Google und Bing an, dass sie den Anweisungen Folge leisten.

Pro (Sub-)Domain kann es nur eine robots.txt Datei geben. Sie wird im Root-Verzeichnis der Domain abgelegt und muss exakt so benannt werden. Sie stellt zudem das erste Dokument dar, das ein Bot aufruft, der eine Website besucht. Ein robots.txt Generator kann dabei helfen eine solche Datei anzulegen. Wer in der robots.txt die XML-Sitemap der eigenen Webseite auflistet, stellt zudem sicher, dass der Google-Bot diese beim Crawlen auch findet.

Warum ist die robots.txt wichtig für SEO?

Die robots.txt-Datei spielt eine zentrale Rolle in der Suchmaschinenoptimierung (SEO), da sie beeinflusst, welche Seiten von Google & Co. gecrawlt werden dürfen. Eine korrekte Konfiguration kann dazu beitragen, dass:

✔ Wichtige Seiten regelmäßig gecrawlt werden
✔ Unwichtige oder doppelte Inhalte nicht unnötig gecrawlt werden
✔ Das Crawl-Budget optimal genutzt wird
✔ Testumgebungen und sensible Daten vor Suchmaschinen verborgen bleiben

Wichtige Einschränkung: Die robots.txt verhindert nicht die Indexierung einer Seite – sie steuert nur das Crawling! Wenn eine URL bereits bekannt ist (z. B. durch Backlinks), kann sie dennoch im Google-Index erscheinen. Um eine Seite tatsächlich aus dem Index zu entfernen, ist das noindex-Meta-Tag oder der X-Robots-Tag besser geeignet.

Aufbau und Syntax der robots.txt

Beispiele für Regeln in der robots.txt

Alle Crawler von der gesamten Website ausschließen

User-agent: * Disallow: /

* bedeutet „alle Bots“, / sperrt den Zugriff auf die gesamte Website.

Allen Bots den Zugriff erlauben

User-agent: * Disallow:

Keine Angabe hinter Disallow: bedeutet, dass keine Einschränkungen bestehen.

Bestimmte Seiten oder Verzeichnisse für bestimmte Bots sperren

User-agent: Bingbot Disallow: /wishlist/ Disallow: /admin.html

Der Bingbot darf das Verzeichnis /wishlist/ und die Datei /admin.html nicht crawlen.

Wildcards

In der robots.txt können zwei verschiedene Wildcards genutzt werden:
* = ersetzt beliebig viele Zeichen
$ = drückt ein Zeilenende aus

Ein Beispiel hierzu:
User-agent: *
Disallow: /wishlist*/
Disallow: /*tellafriend/
Disallow: /*.raw$
Hier werden alle Verzeichnisse gesperrt, die mit „wishlist“ beginnen, alle Verzeichnisse, die „tellafriend“ beinhalten und alle Dateien, die auf „.raw“ enden.

Hinterlegen der XML-Sitemap

Neben dem Sperren spezifischer (Teil-)Bereiche für Bots haben Sie in der robots.txt zudem die Möglichkeit, die URI zur XML-Sitemap zu hinterlegen. Im Gegensatz zur robots.txt muss diese auch nicht im Root-Verzeichnis abgelegt werden und kann einen beliebigen Namen tragen. Ein Plugin kann an dieser Stelle hilfreich sein; so kommen mit der robots.txt WordPress Nutzer aber auch Betreiber anderer Content Management Systeme bspw. TYPO3 schneller auf einen grünen Zweig.

Ein Beispiel für einen Verweis zur XML-Sitemap sieht folgendermaßen aus:
Sitemap: www.meinedomain.de/sitemap.xml

Nutzen von Kommentaren

Beginnt eine Zeile mit „#“ handelt es sich um eine Kommentarzeile. Diese wird von Bots ignoriert.

Beispiel für eine Kommentarzeile:
User-agent: *
Disallow: /wishlist/
# Wishlist gesperrt am 22.01.2018

 

Die Crawler und ihre User-agents

Crawler

Google

Googlebot für Nachrichten

Googlebot für Bilder

Googlebot für Videos

Yahoo

Bing

MSN

User-agent

Googlebot

Googlebot-News

Googlebot-Image

Googlebot-Video

Slurp

Bingbot

Msnbot

Kontrolle der robots-Datei mit der Google Search Console

Mithilfe des „robots.txt-Tester“ in der Google Search Console (zu finden unter „Crawling“) kann die erstellte robots-Datei auf die korrekte Funktionalität geprüft werden. Zudem können Änderungen an der Datei mit dieser Funktion getestet werden.

Die Überprüfung der robots-Datei sollte unbedingt vorgenommen werden. Schon ein kleiner Buchstabendreher oder Tippfehler kann dafür sorgen, dass Bots von wichtigen Verzeichnissen oder gar Ihrer gesamten Website ausgeschlossen werden. Wir empfehlen den robots.txt Tester in jedem Fall nach jeder Änderung an der Datei.

Typische Anwendungsfälle

Das Sperren von User-spezifischen Seiten
Sind Sie Besitzer eines Online Shops stellt die robots Datei eine exzellente Möglichkeit dar, User-spezifische Seiten, die nicht im Index der Suchmaschinen landen sollen, vom Crawling auszuschließen. Oft dreht es sich dabei beispielsweise um Verzeichnisse wie /checkout/, /tellafriend/ oder /wishlist/.

Das Sperren von Testsystemen
Nutzen Sie ein Testsystem, um Änderungen an Ihrer Website vorab zu testen? Das Testsystem sollten Sie unbedingt für Suchmaschinen sperren. Schließlich möchten Sie nicht, dass unfertige Seiten im Index landen oder gar mit den Seiten Ihres Livesystems um Rankings konkurrieren.

Wichtige SEO-Best Practices für die robots.txt

Steuerung des Crawl-Budgets
Jede Website erhält von Google ein begrenztes Crawl-Budget. Durch eine optimierte robots.txt kann verhindert werden, dass unnötige Seiten gecrawlt werden, während wichtige Inhalte häufiger besucht werden.

Nicht JavaScript & CSS sperren
Google benötigt Zugriff auf CSS- und JavaScript-Dateien, um Seiten korrekt darzustellen. Eine Sperrung kann dazu führen, dass Google die Seite nicht richtig indexiert.

 robots.txt ≠ Indexierungssteuerung
Um eine Seite wirklich aus dem Index zu entfernen, sollte noindex als Meta-Tag oder HTTP-Header verwendet werden.

robots.txt regelmäßig testen
Ein falscher Eintrag (z. B. Disallow: /) kann dazu führen, dass Google die gesamte Website nicht mehr crawlt. Die Datei sollte daher mit der Google Search Console (robots.txt-Tester) überprüft werden.

Fazit – wichtige Bedeutung der robots.txt für SEO

Die robots.txt ist ein wichtiges SEO-Tool, um das Crawling von Suchmaschinen zu steuern. Sie hilft, das Crawl-Budget zu optimieren, Testumgebungen zu schützen und doppelte Inhalte zu vermeiden. Allerdings muss sie korrekt konfiguriert sein – eine fehlerhafte Einstellung kann schwerwiegende SEO-Probleme verursachen.

Wichtig:

  • Die robots.txt verhindert das Crawling, aber nicht immer die Indexierung!
  • noindex ist das Mittel der Wahl, um Seiten aus dem Google-Index zu entfernen.
  • JavaScript, CSS und wichtige Inhalte sollten nicht blockiert werden.
  • Nach jeder Änderung: Test in der Google Search Console durchführen!

Weitere Artikel

    Jetzt unverbindlich anfragen!

    Hinweis: Sie können Ihre Einwilligung jederzeit für die Zukunft per E-Mail an info(at)beyond-media.de widerrufen.

    Für SEO & SEA

    Ihr Ansprechpartner

    Beyond Media hilft Ihnen dabei, sich von der Konkurrenz abzuheben und bringt Ihre Website mit den richtigen SEO- & SEA-Maßnahmen nach vorne. Gewinnen Sie mit unserer Hilfe und unserer Expertise neue Kunden und sichern Sie sich und Ihrem Unternehmen langfristige und nachhaltige Erfolge mit einem starken digitalen Auftritt!