Crawling und Indexierung – wie Suchmaschinen funktionieren

von | 1. Nov, 2020 | Onlinemarketing, SEO | 0 Kommentare

Heute sehen wir uns an, wie Suchmaschinen eigentlich funktionieren. Dabei werden wir lernen, was es mit Crawling und der Indexierung auf sich hat. Um deine Webseite für Google und auch alle anderen Suchanbieter zu optimieren, ist es entscheidend zu verstehen, wie die Suchmaschine arbeitet.

Crawling durch Milliarden Webseiten

Das Crawling wird von einem Crawler betrieben. Doch was ist eigentlich ein Crawler? Crawler werden von Suchmaschinen verwendet um das Internet nach Informationen zu durchsuchen, diese zu speichern, woraus sich ein Index ergibt. Aus diesem Index werden dann die Suchergebnisse gebildet. Crawler betreiben das Crawling automatisiert und können nach vielen unterschiedlichen Informationen und Dokumenten suchen, wie beispielsweise Bildern, Texten, E-Mailadressen, Preisen und vielem mehr. Crawler ist eigentlich eine Kurzform vom Namen Webcrawler, man kann sie auch Spider, Searchbot, Suchcrawler, Bot oder Robot nennen. Der wohl berühmteste Crawler ist der Googlebot.

Wenn der Crawler auf der zu durchsuchenden Webseite einen Link entdeckt, dann folgt er diesem Link (sofern ihm das Folgen nicht untersagt wird). So wächst der Index immer weiter an. Der Crawler startet also den nächsten Durchlauf immer mit den Informationen aus dem letzten Durchlauf. Das Programm überprüft hierbei unter anderem, ob neue Webseiten dazu gekommen sind, ob es an bestehenden Webseiten Änderungen gab und ob Links veraltet sind. Übrigens ist genau festgelegt, welche Webseiten zu welchem Zeitpunkt und in welchem Intervall untersucht werden. Dabei ist es auch wichtig, dass die Verzweigung der Webseite nicht zu tiefgehend ist, da das Crawling nur bis zu einer festgelegten Menge an Unterseiten crawlen wird.

Indexierung – Die Suchanfrage kommt rein

Jetzt wird es spannend, naja, so spannend auch nicht 🙂 Ein Internetnutzer gibt seine Suchanfrage bei Google ein. Google beginnt jetzt nicht Milliarden an Webseiten nach diesem Keyword zu durchsuchen. Das würde viel zu lange dauern, wahrscheinlich würde der Nutzer noch in einigen Wochen auf sein Suchergebnis warten. Nein, es wird der Index, den die Suchmaschine hat, nach bestimmten Filterkriterien durchsucht. Im Grunde ist dieser schon vorsortiert.

Das Ganze muss man sich so vorstellen, dass die Suchmaschine ein Restaurant ist und der Suchende ein hungriger Gast. Der Gast bestellt jetzt etwas zu essen, sprich die Suchanfrage geht zum Kellner und dann in die Küche. Damit der Gast nicht mehrere Stunden warten muss, hat das Restaurant vieles an Essen bereits vorbereitet und seine Küche ist mit allem Zubehör und Mitarbeitern schon bestens ausgestattet. Es würde keinen Sinn machen, dass der Kellner jetzt auf den Großmarkt rennt und die Zutaten einkauft, um dann die Kartoffeln zu schälen und das Essen zu kochen. Genauso macht es die Suchmaschine, sie weiß schon vorher, zu welchem Keyword sie welches Suchergebnis ausgeben wird. Wenn das Keyword noch nie eingegeben wurde, dann wird ein verwandtes Ergebnis ausgegeben.

Die Keywords kann man sich wie das Stichwort-Verzeichnis von einem Lexikon vorstellen. Hinten stehen die Keywords und wenn man das Keyword ausfindig gemacht hat, dann kann man gleich zur richtigen Seite blättern. Beim Indexieren einer Webseite fügt Google alle Wörter einer Webseite diesem Stichwort-Verzeichnis (Index) hinzu.

Hier ein Video von Google, wo der Vorgang von Matt Cutts noch deutlicher erklärt wird:

Google Search Console

Damit du als Webseitenbetreiber das Crawling des Googlebots nicht dem Zufall überlassen musst, hat Google dir ein mächtiges Tool an die Hand gegeben: Die Search Console, früher auch als Webmaster-Tool bezeichnet.

In der Search Console können wir das Crawling einer Webseite beantragen. Das kann für neue oder auch für bereits vorhandene URLs erfolgen. Übrigens kann man auch das Crawlen einer Webseite untersagen. Hierbei wird mit einer Datei die „robtos.txt“ genannt wird, dass ein Crawling nicht erwünscht ist. Google wird sich an diese Anweisung halten. Man sollte hierbei drauf achten, dass man (sofern eine Indexierung unerwünscht ist) die Seite auch auf „noindex“ setzt, da es ansonsten unter Umständen vorkommen kann, dass die Webseite zwar nicht gecrawlt wird, aber trotzdem indexiert. Unter Umständen kommt auch das Canonical Tag zum Einsatz.

Übrigens ist Google beim Crawlen und Indexieren vollkommen unabhängig und man kann nicht durch eine Zahlung erreichen, dass Google die eigene Webseite bevorzugt. Das ist gut, denn so hat jeder Mitspieler die gleichen Chancen.

Nachdem die Webseite gecrawlt wurde, kommt sie in den Index. Wenn sie relevant ist, dann wird sie bei der nächsten Suchanfrage ausgeliefert. Gerade bei neuen Webseiten ist häufig zu beobachten, dass die Suchmaschine an einigen „Testern“ die Webseite in der Suchmaschine nach oben schiebt, wenn sie positive Signale erhält, dann kann man mit einem relativ hohen Anfangsranking rechnen. Bleiben diese Signale aus, dann rankt die Seite schlecht oder gar nicht, zumindest nicht im messbaren Bereich.

Der Suchindex von Google umfasst laut eigener Aussage mehrere Milliarden Webseiten und hat eine Speichergröße von über 100.000.000 Gigabyte groß. Das bedeutet, das Crawling benötigt riesige Ressourcen an Servern, um zu speichern und auszuliefern.

Wer noch mehr dazu wissen möchte, findet hier einen Link zu Erklärung von Google.

Bedeutung von Crawling und Indexierung für SEO

Die Suchmaschinen legen bei Webseiten ein Maximum an Ressourcen fest, welche verwendet werden dürfen. Auch die Crawltiefe ist vorher fest definiert. Bei dem Maximum der Ressourcen spricht man vom Crawl-Budget. Als Webseitenbetreiber solltest du drauf achten, dass du dein Crawlbudget nicht verschwendest und deine Webseite nicht zu tief verschachtelst, weil der Bot diesen Seiten ansonsten nicht mehr folgt.

Wenn du eine große Webseite mit vielen URLs betreibst, dann musst du dir die Frage stellen, ob wirklich alle URLs wichtig sind und indexiert werden müssen. Du kannst die Wichtigkeit einzelner URLs erhöhen, indem du andere deindexierst (noindex). Das kann den entscheidenden Vorteil im SEO bringen.

Suchmaschinen crawlen bevorzugt Webseiten, die beliebt sind. Das Crawl-Budget erhöht sich durch Traffic, eingehenden Links und positive Interaktionssignale der Nutzer (Aufenthaltsdauer und Absprungrate).

Ist meine Webseite indexiert?

Ob eine Webseite indexiert ist, lässt sich auch ohne teure SEO-Tools herausfinden. Hierfür gibt es grundlegend zwei Möglichkeiten:

Site-Abfrage

Im Suchfeld von Google kann man einen Google-Hack durchführen und die eigen URL zusammen mit dem Präfix „site:“ eingeben. In unserem Beispiel würde das so aussehen: „site:steffen-rust.de“. Nun erscheinen alle indexierten Seiten. Wenn man eine bestimmte URL prüfen möchte, dann kann man die URL eingeben: „site:https://www.lmn1.de/kontakt/“.

Search Console

Wenn du deine Webseite in der Search Console angemeldet hast, dann kannst du dort im Suchfeld entweder einzelne URLs prüfen, oder im Abdeckungsbericht alle Informationen zur Indexierung sehen. Die Strafe hierfür kann auch ein Ausschluss aus dem Index sein.

Entfernung aus dem Index

Übrigens gibt es keine Garantien, dass die eigene Webseite dauerhaft im Index bleibt. Wenn die Suchmaschine keinen Zugriff mehr auf die Inhalte hat oder es die Seite nicht mehr gibt, dann wird sie aus dem Index genommen. Ein weiterer Grund kann sein, dass du gegen die Webmaster Guidelines von Google verstoßen hast.

Crawling Statistiken

Übrigens crawlt Google deine Webseite nicht heimlich im Dunkeln, sondern es gibt hierzu einen Bericht, der sich Crawling-Statistiken nennt. Hier findet man die Aktivität des Googlebot für die letzten 90 Tage. Um diese Informationen nutzen zu können, muss die eigene Webseite bestätigt sein.

Wenn man am Anfang noch eine relativ geringe Crawling-Frequenz sieht, dann muss man sich hierüber keine Sorgen machen. Je größer der Umfang der eigenen Webseite wird, desto häufiger wird der Web-Crawler zu Besuch sein.

Crawling Frequenz zu niedrig

Wenn du das Gefühl hast, dass die Crawling-Frequenz deiner Webseite nicht normal ist, dann kann es hierfür unterschiedliche Gründe geben:

  • Crawler durch robots.txt blockiert
  • HTML fehlerhaft – Webseite kann nicht geparst werden
  • Webseite besteht nur aus Bildern
  • Webseite zu langsam
  • Server-Fehlermeldungen
  • keine regelmäßige Aktualisierung der Webseite
  • schlechte Qualität der Webseite

Übrigens kann man mit dem URL-Prüftool sich ansehen, wie Google eine Webseite sieht. Hier findest du dazu weitere Informationen von Google. Hier findest du auch Informationen, was du tun kannst, wenn deine Webseite zu oft gecrawlt wird.

Crawler oder Scraper?

Neben dem klassischen Crawler gibt es noch den Scraper. Er kann ein wenig mehr als der Crawler. Scraping wird als Black-Hat-Technik gesehen, wobei Inhalte anderer Webseiten kopiert werden, um diese 1:1 oder abgewandelt auf einer anderen Webseite wieder zu platzieren. Es gibt einige schwarze Schafe, die ihren Webseiten-Content fast ausschließlich über diese Technik produzieren und pflegen.

Fazit zum Crawling

Jetzt weißt du alles, was man zum Crawling und der Indexierung wissen muss. Du weißt, wie man dieses Wissen für die Suchmaschinenoptimierung richtig nutzt. Wenn du Schwierigkeiten dabei hast oder Hilfe mit deiner Webseite brauchst, dann bin ich gerne für dich da. Nimm einfach Kontakt zu mir auf! Wenn dir mein Beitrag gefallen hat, dann freue ich mich über eine gute Bewertung. Übrigens findest du noch mehr Infos und praktische Beispiele in meinen Online-Kursen, schau doch mal rein.

5/5 - (5 votes)

Die 15 besten SEO Tools

Welche SEO-Tools gibt es und welche brauchst du unbedingt? Wir machen den großen Vergleich und zeigen dir alle wichtigen Daten.

Sistrix – das SEO Tool im Portrait

Was ist Sistrix eigentlich und warum ist das wichtig für SEO? Wir stellen die Toolbox un ihre Funktionen vor.

URL Aufbau – die richtige URL Struktur für SEO

Bei der Suchmaschinenoptimierung nimmt der URL Aufbau eine ganz besondere Rolle ein. Häufig wird dieser Aspekt stark unterschätzt, dabei lässt sich hierbei durch kleine technische Änderungen viel Potenzial entfalten. Damit dein URL Aufbau perfekt ist und die Struktur...

Was ist Content Marketing?

Was ist Content Marketing? Ist es sinnvoll? Wie funktioniert es? Wir beantworten deine Fragen ganz ausführlich.

Robots.txt Crawleranweisungen – SEO Suchmaschinen Befehle

Mit der robots.txt kannst du dem Crawler der Suchmaschine diverse Anweisungen geben. Daher ist es unglaublich wichtig für deine SEO, sich mit den Befehlen auszukennen. Wenn hier die falsche Anweisung steht, dann wird deine Webseite niemals in der Suche der...
Steffen Rust

Steffen Rust

Online-Marketing-Manager

Nutze unser kostenloses Erstgespräch. In diesem Kennenlerngespräch analysiere ich kurz deine Webseite und zeig dir dein Potenzial auf.

+49 30 754 482 14

Du willst mehr für deine Webseite?

Du benötigst Hilfe im Online-Marketing? Wir sind sofort für dich da! Hol dir Experten in den Bereichen Suchmaschinenoptimierung (SEO), Suchmaschinenwerbung (SEA) und Social-Media-Marketing (SMM). Nutze unser kostenloses Erstgespräch.

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Mehr Beiträge lesen…