Robots.txt Crawleranweisungen – SEO Suchmaschinen Befehle

von | 17. Mrz, 2021 | Onlinemarketing, SEO | 0 Kommentare

Mit der robots.txt kannst du dem Crawler der Suchmaschine diverse Anweisungen geben. Daher ist es unglaublich wichtig für deine SEO, sich mit den Befehlen auszukennen. Wenn hier die falsche Anweisung steht, dann wird deine Webseite niemals in der Suche der Suchmaschinen erscheinen. In diesem Beitrag zeige ich dir, was die robots.txt-Datei zu bedeuten hat. Welche Funktionen sie bietet und welche Anweisungen du geben kannst. Dazu musst du nicht programmieren können!

Was ist die robots.txt?

Die robots.txt ist eine Textdatei, welche Anweisungen für die Suchmaschine bereithält. Das kann beispielsweise die Anweisung sein, dass die Suchmaschine deine Webseite ignorieren soll. Oder aber nicht auf bestimmte Verzeichnisse zugreifen darf. Aber es gibt noch viel mehr Anweisungen, welche ich dir später alle ganz genau erklären werde.

Das Robots-Exclusion-Standard-Protokoll regelt, wie die meisten Suchmaschinen auf die Anweisungen einer robots.txt-Datei reagieren bzw. wie man das Verhalten der Suchmaschine für die jeweilige Domain beeinflussen kann. Auch ohne RFC (Request for Comments) ist dieses Protokoll der gegebene Standard.

Wozu brauche ich eine robots.txt?

Die robots.txt ist zwingend notwendig, damit der Robot der Suchmaschine versteht, was er mit deiner Webseite machen soll. Wenn dir das egal ist, dann kannst du sie natürlich weglassen. Aber ich habe noch keinen Webseitenbetreiber getroffen, dem egal wäre, ob seine Webseite in der Suche erscheint oder nicht. Damit deine Webseite nach deinen Wünschen behandelt wird, brauchst du eine robots.txt.

Achtung: Wichtig für dich ist, dass die Anweisungen in der robots.txt nicht verhindern, dass eine Suchmaschine sich nach deinen Wünschen richtet. Die großen Suchmaschinen wie Google halten sich an diese Anweisungen, aber es gibt auch eine Vielzahl an Programmen und Suchcrawlern, welche diese Anweisungen ignorieren. Also wenn du sicherstellen möchtest, dass kein Programm oder Mensch auf eine bestimmte Seite deiner Webseite oder vielleicht auch die gesamte Webseite zugreift, dann reicht die robots.txt hierfür nicht aus. Hier solltest du besser deinen Webserver entsprechend konfigurieren und die Seite mit einem Passwort schützen.

Unterschied zwischen Meta-Anweisungen und robots.txt

Es ist durchaus möglich, auch ohne robots.txt der Suchmaschine Anweisungen zu geben. Dies geschieht auf der jeweiligen HTML-Datei in den Meta-Tags. Aber die Macht solcher Meta-Tags sind auf die jeweilige Seite beschränkt und inkludieren keine Bilder. Also wenn du erreichen möchtest, dass eine gesamte Webseite, bestimmte Teile von ihr oder auch Bilder Anweisungen für die Suchmaschine enthalten, dann brauchst du eine robots.txt. Übrigens ist die beste Vorgehensweise, beides bereitzustellen. Also eine robots.txt und die Meta-Tags.

Denn wenn die Suchmaschine über einen Link einer externen Webseite zu dir gelangt und hier keine weiteren Anweisungen in den Meta-Tags vorliegen, dann kann es passieren, dass die Anweisungen der robots.txt ignoriert werden. Ein weiterer Grund: Da das RFC fehlt, kann es passieren, dass unterschiedliche Suchmaschinen auch unterschiedlich mit den Anweisungen umgehen. Die Syntax von den Robotern zur robots.txt ist nicht zwangsläufig einheitlich. Auch hier schaffen Meta-Tags Abhilfe.

Robots.txt erstellen – Wie richte ich eine robots.txt ein?

Pro Domain oder Subdomain darf es nur eine robots.txt geben. Diese Textdatei wird im Wurzel-Verzeichnis (Root) deiner Webseite bereitgestellt. Die Datei wäre demnach bei der Domain irgendeinewebseite.de unter folgender Adresse erreichbar: https://www.irgendeinewebseite.de/robots.txt. So stellst du sicher, dass jeder Crawler die Datei auch wirklich findet. Um die Datei ablegen zu können, brauchst du Server-Zugriff auf die Dateien deiner Webseite. Der FTP-Zugriff kann beispielsweise mit dem kostenlosen Programm FileZilla erfolgen.

Achtung: Wenn du einen Webspace-Baukasten nutzt, dann kann es passieren, dass du hierauf keinen Zugriff hast und folglich auch keine robots.txt hinterlegen bzw. diese bearbeiten kannst.

Da es sich bei der robots.txt lediglich um eine Textdatei handelt, brauchst du kein spezielles oder kostenpflichtiges Tool zum Erstellen der Datei. Gib in der Windowssuche einfach „Editor“ ein und öffne den Texteditor. Hier kannst du deine Datei schreiben, speichern und hochladen. Was du in die Datei reinschreibst, zeige ich dir im Folgenden.

Robots.txt Beispiel

Fangen wir mit einem leichten Beispiel an und sehen uns dann weitere Möglichkeiten an:


User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Hier sehen wir eine typische robots.txt einer WordPress-Webseite.

Der Begriff „User-Agent“ zeigt, für wen die Anweisung gilt. Das Sternchen ist ein Asterisk und es handelt sich hierbei um einen Platzhalter, welcher für alle Robots steht. Wenn die Anweisung für einen speziellen Robot gelten soll, dann muss dieser als User-Agent definiert werden.

Die Zeile „Disallow“ sagt aus, worauf die Robots nicht zugreifen dürfen. Hierbei handelt es sich um das Verzeichnis „/wp-admin“, also um den Adminstrationsbereich. Wobei im Anschluss mit „Allow“ ein erlaubter Bereich dieses Administrationsbereiches definiert wird, nämlich „/admin-ajax.php“.


# Beispiel für Anweisungen an mehrere Robots
User-agent: *
Disallow: /videos/

User-agent: irgendeinrobot
Allow: /fotos/public
Disallow: /fotos/

Hier haben wir eine robots.txt, in der mehrere Anweisungen stehen. Die Anweisungen an die unterschiedlichen Robots sind durch eine Leerzeile getrennt. Zum einen ist das Verzeichnis „/videos“ für alle Robots gesperrt. Das Verzeichnis „/fotos“ ist für  einen bestimmten Robot gesperrt, aber es wurde eine Ausnahme für das Unterverzeichnis „/fotos/public“ eingetragen. Das bedeutet der Robot „irgendeinrobot“ darf auf das Verzeichnis „fotos“ nicht zugreifen und die Inhalte indexieren, aber das Unterverzeichnis von „fotos“ nämlich „fotos/public“ ist für ihn freigegeben. Mit der Raute wird lediglich ein Kommentar gesetzt, dieses wird vom Robot ignoriert.

Anweisungen und Eigenschaften der Robots.txt

User-Agent, welcher Robot soll angesprochen werden?

Wie im Beispiel aufgeführt zeigt der User-Agent an, für welche Robots die Anweisung gilt. Hier sind die wichtigsten Bots:

  • Googlebot
  • Googlebot-Image
  • Googlebot-news
  • Adsbot-Google
  • Mediapartners-Google
  • Googlebot-Mobile
  • Bingbot
  • msnbot
  • adidxbot
  • Scooter
  • FAST-WebCrawler
  • ia_archiver

Durch den Asterisk * können auch einfach alle Bots angesprochen werden.

Disallow, was soll verboten werden?

Durch Disallow können Verzeichnisse gesperrt werden. Disallow wird direkt nach dem jeweiligen User-Agent definiert. Achte unbedingt darauf, dass dazwischen keine Leerzeile kommt. Ansonsten funktioniert die Anweisung nicht. Alle Inhalte von einem gesperrten Pfad werden nicht indiziert. Doppelte Anweisungen sind überflüssig, aber führen nicht zu einem Fehler. Beispiel:


# Beispiel für doppelte Sperrung

Disallow: /videos/
Disallow: /videos/festivalvideos
Disallow: /videos/hochzeitsvideos

Im Grunde sind die Verzeichnisse „festivalvideos“ und „hochzeitsvideos“ bereits durch die erste Anweisung gesperrt. Daher sind sie unnötig. Vorsicht ist hierbei mit Platzhaltern geboten, da sie nicht von jedem Suchmaschinen-Robot erkannt werden:


# Beispiel für Platzhalter

*
*.*

Allow, was ist erlaubt?

Welche Ausnahmen gibt es von den Verboten? Die Anweisung Allow ist erst später hinzugekommen. Es gibt sie seit 1996. Mit Allow kann die Sperrung von einem Verzeichnis für einen Teilbereich aufgehoben werden. Es ist nicht notwendig, ein Verzeichnis mit Allow freizugeben, wenn es keine Sperrung hierzu gibt, weil alle Inhalte ohnehin auf Allow stehen, bis sie gesperrt werden.

Übrigens arbeitet der Bot die robots.txt der Reihe nach ab, das bedeutet, dass eine Aufhebung der Sperrung vor der Sperrung angegeben werden sollte, weil sie ansonsten wirkungslos ist. Das kann von Suchmaschine zu Suchmaschine unterschiedlich sein. Bei Google ist bekannt, dass die Reihenfolge nicht wichtig ist, da der Googlebot erst alle Allow-Einträge durchgeht und dann erst die Disallow-Anweisungen. Wenn du sicherstellen möchtest, dass die Syntax bei allen Suchmaschinen zum richtigen Ergebnis führt, dann solltest du erst Allow eintragen und dann Disallow.

Platzhalter

Ein Platzhalter wird auch als Wildcard bezeichnet. Hierbei unterscheidet man zwischen dem Asterik und dem Dollar-Zeichen:


# * ist eine Variable für beliebig viele Zeichen
*

# $ ist ein Platzhalter am Zeilenende
$

# Beispiele:

Beispiel
User-agent: * # alle bots
Disallow: /fot*/ # alle Unterverzeichnisse, die mit "fot" beginnen, beispielsweise "/fotos/" und "/fotozubehör/"
Disallow: /*ide*/ # alle Unterverzeichnisse, die "ide" enthalten, wie beispielsweise "/videos/"
Disallow: /*.png$ # alle Dateien, die auf ".png" enden

Sitemap in der Robots.txt

Eine Sitemap hilft der Suchmaschine, alle Seiten deiner Webseite zu crawlen. Warum du eine Sitemap haben solltest, liest du in meinem Beitrag Sitemap. Du kannst Bots in der robots.txt darauf hinweisen, wo deine Sitemap zu finden ist. Da momentan Google die wichtigste Suchmaschine ist und du auch die Sitemap in der Search Console eintragen kannst (siehe Anleitung Search Console), ist es nicht zwingend erforderlich, diese nochmal in der robots.txt einzutragen, aber schaden kann es auch nicht.

Für kleinere Webseiten, welche eine solide Seitenstruktur aufweisen, ist auch eine Sitemap an sich nicht unbedingt erforderlich. Als Faustregel kannst du dir merken, wenn du eine kleine Webseite hast und der Benutzer innerhalb von vier Klicks jeden deiner Inhalte erreichen kann, dann kann das auch die Suchmaschine. Doch sehen wir uns kurz an, wie die Sitemap korrekt in der robots.txt angegeben wird:


# URL für die Sitemap in der robots.txt anzeigen

Sitemap: https://www.irgendeinewebseite.de/sitemap.xml

Der Pfad der Sitemap kann unterschiedlich aussehen. Es ist auch

https://www.irgendeinewebseite.de/sitemap_index.xml

oder eine andere Adresse denkbar. Mehr dazu in der erwähnten Anleitung.

Robots.txt und Meta-Tags für Google

Wie Anfangs beschrieben ist der beste Weg, bestimmte Inhalte nicht nur in der robots.txt für die Indizierung zu sperren, sondern auch in den Meta-Tags. Da für die Suchmaschinenoptimierung Google der wichtigste Regelgeber ist, kannst du dich bei deinen technischen Bemühungen auch voll und ganz auf diese Suchmaschine konzentrieren.

Google empfiehlt die Seiten sowohl in der robots.txt-Datei zu sperren, als auch in den Meta-Tags. Sobald die Suchmaschine über eine externe Verlinkung kommt, kann es passieren, dass die robots.txt ignoriert wird. Deshalb bindest du auf der jeweiligen zu sperrenden Seite folgenden Code ein:


# Meta Tags um die Indexierung einer Seite zu vermeiden
<meta name="robots" content="noindex">

Wenn du möchtest, dass deine Seite nicht im Google Index erscheint, dann setzt du den „noindex“-Metatag, aber gestattest den Zugriff auf die jeweilige Seite. Also mache nicht den Fehler, den Zugriff in der robots.txt zu verbieten. Am besten, du stellst eine nicht zu indexierende Seite auf „noindex“ und „follow“. So sagst du Google, dass die Seite durchsucht werden kann, aber nicht indexiert werden soll:

Robots noindex follow

Robots noindex follow

Solltest du beispielsweise eine PDF-Datei aussperren wollen, dann ist das auf den ersten Blick schwer möglich, da es sich hierbei nicht um ein HTML-Element handelt. In diesem Fall kannst du mit dem X-Robots-Tag arbeiten.

Robots.txt prüfen

Deine robots.txt kannst du nicht nur aufrufen und überprüfen, sondern die Anweisungen auch durch Google prüfen lassen. Das geht ganz einfach in der Search Console. Den Link und eine Anleitung erhältst du hier bei Google.

Fazit zur robots.txt

Die robots.txt-Datei ist ein mächtiges Werkzeug, dass bei falscher Handhabung fatale Auswirkungen haben kann. Wenn du mehr über das Thema Crawling und Indexierung wissen möchtest, dann folge dem Link. Solltest du Fragen haben, dann hinterlasse einen Kommentar.

5/5 - (4 votes)

Suchmaschinen – die wichtigsten Daten und Fakten

Heute sehen wir uns an, welche Suchmaschinen es gibt und lernen dazu jede Menge Fakten, die uns helfen, die Suchmaschinen und das Suchverhalten der Nutzer zu verstehen. In den letzten Beiträgen haben wir uns folgende Themen angeguckt: Suchmaschinenoptimierung - was...

Backlinks aufbauen: die zehn größten Fehler!

Der Linkaufbau ist der wohl wichtigste Teil der Off-Page-Optimierung. Wenn du hier Fehler machst, gehst du ein enorm großes Risiko ein, denn du kannst deine gesamte Sichtbarkeit verlieren. Ich erkläre dir heute die zehn größten Fehler beim Backlinks aufbauen! Ehe wir...

YouTube Analytics verstehen und nutzen

So nutzt du YouTube Analytics richtig! Wie du sie findest, welche Daten es gibt und wie du sie am besten nutzt.

Was ist Google Ads? Alle Infos zum Thema…

Heute sehen wir uns gemeinsam Google Ads an. Wenn du dich fragst, was Google Ads ist, dann hast du es vermutlich noch nicht genutzt. In Kurzform ist es eine seit über 18 Jahren bestehene Plattform von Google, auf der du im Internet Werbung schalten kannst. ...

Google Ads Kampagne löschen

Du möchtest deine Google Ads Kampagne löschen? In dieser Kurzanleitung findest du alle Informationen Schritt für Schritt. Wenn du keine Lust zum Lesen hast, dann gehe nach ganz unten und sieh dir das Video an. Kampagne auswählen Wahrscheinlich hast du mehrere...
Steffen Rust

Steffen Rust

Online-Marketing-Manager

Nutze unser kostenloses Erstgespräch. In diesem Kennenlerngespräch analysiere ich kurz deine Webseite und zeig dir dein Potenzial auf.

+49 30 754 482 14

Du willst mehr für deine Webseite?

Du benötigst Hilfe im Online-Marketing? Wir sind sofort für dich da! Hol dir Experten in den Bereichen Suchmaschinenoptimierung (SEO), Suchmaschinenwerbung (SEA) und Social-Media-Marketing (SMM). Nutze unser kostenloses Erstgespräch.

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Mehr Beiträge lesen…