Robots.txt Crawleranweisungen – SEO Suchmaschinen Befehle

von Steffen Rust | 17. Mrz, 2021 | Onlinemarketing, SEO | 0 Kommentare

Mit der robots.txtHinter dem Begriff Robots.text versteckt sich eine Datei. Diese Datei speichert man im Hauptverzeichnis der Domain. Hier findet der Crawler der Suchmaschine deine Robots.txt Datei und kann sie auslesen. Er erfährt so, welche Verzeichnisse und Dateien er crawlen soll und welche ggf. gesperrt sind. D Mehr kannst du dem CrawlerEin Crawler ist ein automatisiertes Computerprogramm, welches Webseiten und deren Informationen durchsucht. Suchmaschinen-Anbieter verwenden Crawler um aus den Informationen von Milliarden an Webseiten einen Index aufzubauen. Aus diesem Index werden dann die Suchergebnisse gespeist. Mehr Information Mehr der Suchmaschine diverse Anweisungen geben. Daher ist es unglaublich wichtig für deine SEO, sich mit den Befehlen auszukennen. Wenn hier die falsche Anweisung steht, dann wird deine WebseiteEine Webseite ist eine Seite im World Wide Web. Diese kann aus einer Einzelseite (Onepager) oder mehreren Unterseiten bestehen. Als Synonym kennt man auch die Begriffe Internetseite, Webpage, Website, Webpräsenz, Webauftritt, Internetpräsenz, Homepage oder einfach nur Seite. Eine Webseite liegt in niemals in der Suche der Suchmaschinen erscheinen. In diesem Beitrag zeige ich dir, was die robots.txt-Datei zu bedeuten hat. Welche Funktionen sie bietet und welche Anweisungen du geben kannst. Dazu musst du nicht programmieren können!

Was ist die robots.txt?
Wozu brauche ich eine robots.txt?
Unterschied zwischen Meta-Anweisungen und robots.txt
Robots.txt erstellen – Wie richte ich eine robots.txt ein?
Robots.txt Beispiel
Anweisungen und Eigenschaften der Robots.txt
Robots.txt und Meta-Tags für Google
Robots.txt prüfen
Fazit zur robots.txt

Inhaltsverzeichnis

Was ist die robots.txt?

Die robots.txt ist eine Textdatei, welche Anweisungen für die Suchmaschine bereithält. Das kann beispielsweise die Anweisung sein, dass die Suchmaschine deine Webseite ignorieren soll. Oder aber nicht auf bestimmte Verzeichnisse zugreifen darf. Aber es gibt noch viel mehr Anweisungen, welche ich dir später alle ganz genau erklären werde.

Das Robots-Exclusion-Standard-Protokoll regelt, wie die meisten Suchmaschinen auf die Anweisungen einer robots.txt-Datei reagieren bzw. wie man das Verhalten der Suchmaschine für die jeweilige DomainEine Domain ist im Grunde der Name eines Teilbereichs im Internet, also zum Beispiel einer Webseite. Es ist ein alphanumerischer Code, also eine Zusammensetzung von Buchstaben, der möglichst logisch ist, um die Findung für den Menschen leichter zu machen. Über den Namen, also die Domain, lassen s beeinflussen kann. Auch ohne RFC (Request for Comments) ist dieses Protokoll der gegebene Standard.

Wozu brauche ich eine robots.txt?

Die robots.txt ist zwingend notwendig, damit der Robot der Suchmaschine versteht, was er mit deiner Webseite machen soll. Wenn dir das egal ist, dann kannst du sie natürlich weglassen. Aber ich habe noch keinen Webseitenbetreiber getroffen, dem egal wäre, ob seine Webseite in der Suche erscheint oder nicht. Damit deine Webseite nach deinen Wünschen behandelt wird, brauchst du eine robots.txt.

Achtung: Wichtig für dich ist, dass die Anweisungen in der robots.txt nicht verhindern, dass eine Suchmaschine sich nach deinen Wünschen richtet. Die großen Suchmaschinen wie Google halten sich an diese Anweisungen, aber es gibt auch eine Vielzahl an Programmen und Suchcrawlern, welche diese Anweisungen ignorieren. Also wenn du sicherstellen möchtest, dass kein Programm oder Mensch auf eine bestimmte Seite deiner Webseite oder vielleicht auch die gesamte Webseite zugreift, dann reicht die robots.txt hierfür nicht aus. Hier solltest du besser deinen Webserver entsprechend konfigurieren und die Seite mit einem Passwort schützen.

Unterschied zwischen Meta-Anweisungen und robots.txt

Es ist durchaus möglich, auch ohne robots.txt der Suchmaschine Anweisungen zu geben. Dies geschieht auf der jeweiligen HTML-Datei in den Meta-Tags. Aber die Macht solcher Meta-Tags sind auf die jeweilige Seite beschränkt und inkludieren keine Bilder. Also wenn du erreichen möchtest, dass eine gesamte Webseite, bestimmte Teile von ihr oder auch Bilder Anweisungen für die Suchmaschine enthalten, dann brauchst du eine robots.txt. Übrigens ist die beste Vorgehensweise, beides bereitzustellen. Also eine robots.txt und die Meta-Tags.

Denn wenn die Suchmaschine über einen LinkEin Link ist eine Verknüpfung zu einer anderen Webseite oder zu einem anderen Ort im Internet. Ein Link kann in Text oder auf einem Bild auf einer Webseite verwendet werden, um eine Verbindung zu einer anderen Webseite herzustellen. Mehr einer externen Webseite zu dir gelangt und hier keine weiteren Anweisungen in den Meta-Tags vorliegen, dann kann es passieren, dass die Anweisungen der robots.txt ignoriert werden. Ein weiterer Grund: Da das RFC fehlt, kann es passieren, dass unterschiedliche Suchmaschinen auch unterschiedlich mit den Anweisungen umgehen. Die Syntax von den Robotern zur robots.txt ist nicht zwangsläufig einheitlich. Auch hier schaffen Meta-Tags Abhilfe.

Robots.txt erstellen – Wie richte ich eine robots.txt ein?

Pro Domain oder Subdomain darf es nur eine robots.txt geben. Diese Textdatei wird im Wurzel-Verzeichnis (Root) deiner Webseite bereitgestellt. Die Datei wäre demnach bei der Domain irgendeinewebseite.de unter folgender Adresse erreichbar: https://www.irgendeinewebseite.de/robots.txt. So stellst du sicher, dass jeder Crawler die Datei auch wirklich findet. Um die Datei ablegen zu können, brauchst du Server-Zugriff auf die Dateien deiner Webseite. Der FTP-Zugriff kann beispielsweise mit dem kostenlosen Programm FileZilla erfolgen.

Achtung: Wenn du einen Webspace-Baukasten nutzt, dann kann es passieren, dass du hierauf keinen Zugriff hast und folglich auch keine robots.txt hinterlegen bzw. diese bearbeiten kannst.

Da es sich bei der robots.txt lediglich um eine Textdatei handelt, brauchst du kein spezielles oder kostenpflichtiges Tool zum Erstellen der Datei. Gib in der Windowssuche einfach „Editor“ ein und öffne den Texteditor. Hier kannst du deine Datei schreiben, speichern und hochladen. Was du in die Datei reinschreibst, zeige ich dir im Folgenden.

Robots.txt Beispiel

Fangen wir mit einem leichten Beispiel an und sehen uns dann weitere Möglichkeiten an:


User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Hier sehen wir eine typische robots.txt einer WordPress-Webseite.

Der Begriff „User-Agent“ zeigt, für wen die Anweisung gilt. Das Sternchen ist ein Asterisk und es handelt sich hierbei um einen Platzhalter, welcher für alle Robots steht. Wenn die Anweisung für einen speziellen Robot gelten soll, dann muss dieser als User-Agent definiert werden.

Die Zeile „Disallow“ sagt aus, worauf die Robots nicht zugreifen dürfen. Hierbei handelt es sich um das VerzeichnisEin Verzeichnis kann auch als Register, Katalog, Ordner oder Auflistung bezeichnet werden. Hier werden Informationen in einer Liste mit einer definierten Sortierung aufgeführt. Die typische Standardsortierung ist alphabetisch. Bereits im Mittelalter wurden Verzeichnisse in der Verwaltung genutzt. A „/wp-admin“, also um den Adminstrationsbereich. Wobei im Anschluss mit „Allow“ ein erlaubter Bereich dieses Administrationsbereiches definiert wird, nämlich „/admin-ajax.php“.


# Beispiel für Anweisungen an mehrere Robots
User-agent: *
Disallow: /videos/

User-agent: irgendeinrobot
Allow: /fotos/public
Disallow: /fotos/

Hier haben wir eine robots.txt, in der mehrere Anweisungen stehen. Die Anweisungen an die unterschiedlichen Robots sind durch eine Leerzeile getrennt. Zum einen ist das Verzeichnis „/videos“ für alle Robots gesperrt. Das Verzeichnis „/fotos“ ist für einen bestimmten Robot gesperrt, aber es wurde eine Ausnahme für das Unterverzeichnis „/fotos/public“ eingetragen. Das bedeutet der Robot „irgendeinrobot“ darf auf das Verzeichnis „fotos“ nicht zugreifen und die Inhalte indexieren, aber das Unterverzeichnis von „fotos“ nämlich „fotos/public“ ist für ihn freigegeben. Mit der Raute wird lediglich ein Kommentar gesetzt, dieses wird vom Robot ignoriert.

Anweisungen und Eigenschaften der Robots.txt

User-Agent, welcher Robot soll angesprochen werden?

Wie im Beispiel aufgeführt zeigt der User-Agent an, für welche Robots die Anweisung gilt. Hier sind die wichtigsten Bots:

Googlebot
Googlebot-Image
Googlebot-news
Adsbot-Google
Mediapartners-Google
Googlebot-Mobile
Bingbot
msnbot
adidxbot
Scooter
FAST-WebCrawler
ia_archiver

Durch den Asterisk * können auch einfach alle Bots angesprochen werden.

Disallow, was soll verboten werden?

Durch Disallow können Verzeichnisse gesperrt werden. Disallow wird direkt nach dem jeweiligen User-Agent definiert. Achte unbedingt darauf, dass dazwischen keine Leerzeile kommt. Ansonsten funktioniert die Anweisung nicht. Alle Inhalte von einem gesperrten Pfad werden nicht indiziert. Doppelte Anweisungen sind überflüssig, aber führen nicht zu einem Fehler. Beispiel:


# Beispiel für doppelte Sperrung

Disallow: /videos/
Disallow: /videos/festivalvideos
Disallow: /videos/hochzeitsvideos

Im Grunde sind die Verzeichnisse „festivalvideos“ und „hochzeitsvideos“ bereits durch die erste Anweisung gesperrt. Daher sind sie unnötig. Vorsicht ist hierbei mit Platzhaltern geboten, da sie nicht von jedem Suchmaschinen-Robot erkannt werden:


# Beispiel für Platzhalter

*
*.*

Allow, was ist erlaubt?

Welche Ausnahmen gibt es von den Verboten? Die Anweisung Allow ist erst später hinzugekommen. Es gibt sie seit 1996. Mit Allow kann die Sperrung von einem Verzeichnis für einen Teilbereich aufgehoben werden. Es ist nicht notwendig, ein Verzeichnis mit Allow freizugeben, wenn es keine Sperrung hierzu gibt, weil alle Inhalte ohnehin auf Allow stehen, bis sie gesperrt werden.

Übrigens arbeitet der Bot die robots.txt der Reihe nach ab, das bedeutet, dass eine Aufhebung der Sperrung vor der Sperrung angegeben werden sollte, weil sie ansonsten wirkungslos ist. Das kann von Suchmaschine zu Suchmaschine unterschiedlich sein. Bei Google ist bekannt, dass die Reihenfolge nicht wichtig ist, da der Googlebot erst alle Allow-Einträge durchgeht und dann erst die Disallow-Anweisungen. Wenn du sicherstellen möchtest, dass die Syntax bei allen Suchmaschinen zum richtigen Ergebnis führt, dann solltest du erst Allow eintragen und dann Disallow.

Platzhalter

Ein Platzhalter wird auch als Wildcard bezeichnet. Hierbei unterscheidet man zwischen dem Asterik und dem Dollar-Zeichen:


# * ist eine Variable für beliebig viele Zeichen
*

# $ ist ein Platzhalter am Zeilenende
$

# Beispiele:

Beispiel
User-agent: * # alle bots
Disallow: /fot*/ # alle Unterverzeichnisse, die mit "fot" beginnen, beispielsweise "/fotos/" und "/fotozubehör/"
Disallow: /*ide*/ # alle Unterverzeichnisse, die "ide" enthalten, wie beispielsweise "/videos/"
Disallow: /*.png$ # alle Dateien, die auf ".png" enden

Sitemap in der Robots.txt

Eine Sitemap hilft der Suchmaschine, alle Seiten deiner Webseite zu crawlen. Warum du eine Sitemap haben solltest, liest du in meinem Beitrag Sitemap. Du kannst Bots in der robots.txt darauf hinweisen, wo deine Sitemap zu finden ist. Da momentan Google die wichtigste Suchmaschine ist und du auch die Sitemap in der Search Console eintragen kannst (siehe Anleitung Search Console), ist es nicht zwingend erforderlich, diese nochmal in der robots.txt einzutragen, aber schaden kann es auch nicht.

Für kleinere Webseiten, welche eine solide Seitenstruktur aufweisen, ist auch eine Sitemap an sich nicht unbedingt erforderlich. Als Faustregel kannst du dir merken, wenn du eine kleine Webseite hast und der Benutzer innerhalb von vier Klicks jeden deiner Inhalte erreichen kann, dann kann das auch die Suchmaschine. Doch sehen wir uns kurz an, wie die Sitemap korrekt in der robots.txt angegeben wird:


# URL für die Sitemap in der robots.txt anzeigen

Sitemap: https://www.irgendeinewebseite.de/sitemap.xml

Der Pfad der Sitemap kann unterschiedlich aussehen. Es ist auch

https://www.irgendeinewebseite.de/sitemap_index.xml

oder eine andere Adresse denkbar. Mehr dazu in der erwähnten Anleitung.

Robots.txt und Meta-Tags für Google

Wie Anfangs beschrieben ist der beste Weg, bestimmte Inhalte nicht nur in der robots.txt für die Indizierung zu sperren, sondern auch in den Meta-Tags. Da für die SuchmaschinenoptimierungSEO ist die Abkürzung für Search Engine Optimization. Auf Deutsch übersetzt bedeutet das Suchmaschinenoptimierung. SEO ist eine Möglichkeit, um die Sichtbarkeit in den Suchmaschinen zu verbessern. Hierbei werden unterschiedliche Optimierungen durchgeführt, welche man in Onpage-SEO und Offpage-S Mehr Google der wichtigste Regelgeber ist, kannst du dich bei deinen technischen Bemühungen auch voll und ganz auf diese Suchmaschine konzentrieren.

Google empfiehlt die Seiten sowohl in der robots.txt-Datei zu sperren, als auch in den Meta-Tags. Sobald die Suchmaschine über eine externe Verlinkung kommt, kann es passieren, dass die robots.txt ignoriert wird. Deshalb bindest du auf der jeweiligen zu sperrenden Seite folgenden Code ein:


# Meta Tags um die Indexierung einer Seite zu vermeiden
<meta name="robots" content="noindex">

Wenn du möchtest, dass deine Seite nicht im Google IndexIndex bedeutet aus dem lateinischen übersetzt so viel wie „Verzeichnis“. Es kann sich zum einen hierbei um ein Register handeln, welches man auch als Stichwortverzeichnis kennt, zum anderen aber auch wie beispielsweise bei Suchmaschinen um ein Datenbankverzeichnis, welches über Suchanfragen ab Mehr erscheint, dann setzt du den „noindex“-Metatag, aber gestattest den Zugriff auf die jeweilige Seite. Also mache nicht den Fehler, den Zugriff in der robots.txt zu verbieten. Am besten, du stellst eine nicht zu indexierende Seite auf „noindex“ und „follow“. So sagst du Google, dass die Seite durchsucht werden kann, aber nicht indexiert werden soll:

Robots noindexDas Meta-Tag "noindex" teilt der Suchmaschine mit, dass eine bestimmte URL oder Webseite nicht indexiert werden darf. Hieran halten sich die großen Suchmaschinen-Anbieter. Dadurch können Webseitenbetreiber bestimmen, welche Webseiten nicht in den Index der Suchmaschine geraten dürfen. Zusätzlich follow

Solltest du beispielsweise eine PDF-Datei aussperren wollen, dann ist das auf den ersten Blick schwer möglich, da es sich hierbei nicht um ein HTML-Element handelt. In diesem Fall kannst du mit dem X-Robots-Tag arbeiten.

Robots.txt prüfen

Deine robots.txt kannst du nicht nur aufrufen und überprüfen, sondern die Anweisungen auch durch Google prüfen lassen. Das geht ganz einfach in der Search Console. Den Link und eine Anleitung erhältst du hier bei Google.

Fazit zur robots.txt

Die robots.txt-Datei ist ein mächtiges Werkzeug, dass bei falscher Handhabung fatale Auswirkungen haben kann. Wenn du mehr über das Thema Crawling und Indexierung wissen möchtest, dann folge dem Link. Solltest du Fragen haben, dann hinterlasse einen Kommentar.

5/5 - (4 votes)

Suchmaschinen – die wichtigsten Daten und Fakten

von Steffen Rust | 11. Dezember 2020 | Onlinemarketing, SEO | 0 Kommentieren

Heute sehen wir uns an, welche Suchmaschinen es gibt und lernen dazu jede Menge Fakten, die uns helfen, die Suchmaschinen und das Suchverhalten der Nutzer zu verstehen. In den letzten Beiträgen haben wir uns folgende Themen angeguckt: Suchmaschinenoptimierung - was...

Backlinks aufbauen: die zehn größten Fehler!

von Karina Grupe | 21. Juni 2022 | Onlinemarketing, SEO | 0 Kommentieren

Der Linkaufbau ist der wohl wichtigste Teil der Off-Page-Optimierung. Wenn du hier Fehler machst, gehst du ein enorm großes Risiko ein, denn du kannst deine gesamte Sichtbarkeit verlieren. Ich erkläre dir heute die zehn größten Fehler beim Backlinks aufbauen! Ehe wir...

YouTube Analytics verstehen und nutzen

von Franziska Hörstgen | 17. Februar 2023 | Onlinemarketing | 0 Kommentieren

So nutzt du YouTube Analytics richtig! Wie du sie findest, welche Daten es gibt und wie du sie am besten nutzt.

Was ist Google Ads? Alle Infos zum Thema…

von Steffen Rust | 26. Dezember 2021 | Onlinemarketing, SEA | 0 Kommentieren

Heute sehen wir uns gemeinsam Google Ads an. Wenn du dich fragst, was Google Ads ist, dann hast du es vermutlich noch nicht genutzt. In Kurzform ist es eine seit über 18 Jahren bestehene Plattform von Google, auf der du im Internet Werbung schalten kannst. ...

Google Ads Kampagne löschen

von Steffen Rust | 2. April 2022 | Onlinemarketing, SEA | 0 Kommentieren

Du möchtest deine Google Ads Kampagne löschen? In dieser Kurzanleitung findest du alle Informationen Schritt für Schritt. Wenn du keine Lust zum Lesen hast, dann gehe nach ganz unten und sieh dir das Video an. Kampagne auswählen Wahrscheinlich hast du mehrere...

NEWSLETTER BESTELLEN

Kostenlose Anleitungen, super Angebote und viele Infos rund um das Thema Online-Marketing!

Steffen Rust

Online-Marketing-Manager

Nutze unser kostenloses Erstgespräch. In diesem Kennenlerngespräch analysiere ich kurz deine Webseite und zeig dir dein Potenzial auf.



+49 30 754 482 14

Kontakt

Du willst mehr für deine Webseite?

Du benötigst Hilfe im Online-Marketing? Wir sind sofort für dich da! Hol dir Experten in den Bereichen Suchmaschinenoptimierung (SEO), Suchmaschinenwerbung (SEA) und Social-Media-Marketing (SMM). Nutze unser kostenloses Erstgespräch.

Kostenloses Beratungsgespräch

0 Kommentare

Einen Kommentar abschicken Antworten abbrechen

Mehr Beiträge lesen…

Dokumentation für das JTL Plugin – LMN Artikelhinweis

von Steffen Rust | 22. Feb 2024 | JTL Dokumentation

Nutzungsvoraussetzungen Außer einer gültigen Plugin-Lizenz sind keine weiteren Voraussetzungen zu beachten. Systemvoraussetzungen Es ist erforderlich, dass ein JTL-Shop ab Version 5.2.4 vorliegt und mindestens die PHP-Version 8.3 installiert ist. Installation...

Google Ads – Effektives Management saisonaler Schwankungen

von Steffen Rust | 28. Jan 2024 | Onlinemarketing, SEA

Hey du, in deinem Business wirst du zwangsläufig mit Schwankungen in den Verkaufszahlen konfrontiert, und das liegt einfach mitunter an der Saisonalität. Mal steigen die Verkäufe, mal gehen sie in den Keller. Das zu managen, kann manuell verdammt knifflig sein. Zum...

10 Gründe, warum Du auf Google Ads Geld verbrennst

von Steffen Rust | 11. Dez 2023 | Onlinemarketing, SEA

Als Google Ads Agentur sehen wir viele Ads Konten und stellen bei Neukunden immer wieder die gleichen Fehler fest.

Diana Steib (design.osmosis.de)

24/02/2022

Fundierte professionelle Beratung zu allen SEO-Themen und Freundlichkeit! Sehr zu empfehlen und gerne wieder!

Alexander Kűppers

07/09/2021

Wir haben schon mehrere Projekte gemeinsam abgewickelt. Steffen ist sehr kreativ und liefert eine starke Leistung und hohe Qualität. Sowohl die designarbeiten, als auch die Marketingkampagnen sind alle zu unserer vollsten Zufriedenheit verlaufen. In Sachen Onlinemarketing ist Lemon Monkey Network unsere erste Wahl. Vielen Dank.

Aylin Sema Aydin

06/09/2021

Ich bin mit den erbrachten Leistungen mega zufrieden und werde Sie gerne weiterempfehlen. Lg

Leon Aydin

Für jeden empfehlenswert ! Einfach super !

Joanna Keiser

Marcel Mancic

SJS CARSTYLING

Top Service, sehr schnelle und gründliche Arbeit. Die Kommunikation war sehr angenehm, nur zu empfehlen.

Moritz Kamke

Onlinemarketing genau auf den Punkt. Starkes Setup und deutlich mehr Conversions.

Anton Kamke

05/09/2021

Top Beratung und durchgehend sehr guter Service. Auch persönlich sehr angenehm gewesen. Gerne wieder, nur zu empfehlen!

Tvd

04/09/2021

Lemon liefert starkes und kreatives Marketing und jede Menge Know-how. Klare Empfehlung.

Robots.txt Crawleranweisungen – SEO Suchmaschinen Befehle

Was ist die robots.txt?

Wozu brauche ich eine robots.txt?

Unterschied zwischen Meta-Anweisungen und robots.txt

Robots.txt erstellen – Wie richte ich eine robots.txt ein?

Robots.txt Beispiel

Anweisungen und Eigenschaften der Robots.txt

User-Agent, welcher Robot soll angesprochen werden?

Disallow, was soll verboten werden?

Allow, was ist erlaubt?

Platzhalter

Sitemap in der Robots.txt

Robots.txt und Meta-Tags für Google

Robots.txt prüfen

Fazit zur robots.txt

Suchmaschinen – die wichtigsten Daten und Fakten

Backlinks aufbauen: die zehn größten Fehler!

YouTube Analytics verstehen und nutzen

Was ist Google Ads? Alle Infos zum Thema…

Google Ads Kampagne löschen

NEWSLETTER BESTELLEN

Anmeldung erfolgreich. Bitte bestätige deine E-Mailadresse...

Steffen Rust

Online-Marketing-Manager

+49 30 754 482 14

Du willst mehr für deine Webseite?

0 Kommentare

Einen Kommentar abschicken Antworten abbrechen

Mehr Beiträge lesen…

Dokumentation für das JTL Plugin – LMN Artikelhinweis

Google Ads – Effektives Management saisonaler Schwankungen

10 Gründe, warum Du auf Google Ads Geld verbrennst

Google Ads Agentur

JTL Servicepartner

Shopify Partner

Brainstuff