Crawling und Indexierung – wie Suchmaschinen funktionieren

von Steffen Rust | 1. Nov., 2020 | Onlinemarketing, SEO | 0 Kommentare

Heute sehen wir uns an, wie Suchmaschinen eigentlich funktionieren. Dabei werden wir lernen, was es mit Crawling und der Indexierung auf sich hat. Um deine Webseite für Google und auch alle anderen Suchanbieter zu optimieren, ist es entscheidend zu verstehen, wie die Suchmaschine arbeitet.

Table of Contents

Crawling durch Milliarden Webseiten

Das Crawling wird von einem Crawler betrieben. Doch was ist eigentlich ein Crawler? Crawler werden von Suchmaschinen verwendet um das Internet nach Informationen zu durchsuchen, diese zu speichern, woraus sich ein Index ergibt. Aus diesem Index werden dann die Suchergebnisse gebildet. Crawler betreiben das Crawling automatisiert und können nach vielen unterschiedlichen Informationen und Dokumenten suchen, wie beispielsweise Bildern, Texten, E-Mailadressen, Preisen und vielem mehr. Crawler ist eigentlich eine Kurzform vom Namen Webcrawler, man kann sie auch Spider, Searchbot, Suchcrawler, Bot oder Robot nennen. Der wohl berühmteste Crawler ist der Googlebot.

Wenn der Crawler auf der zu durchsuchenden Webseite einen Link entdeckt, dann folgt er diesem Link (sofern ihm das Folgen nicht untersagt wird). So wächst der Index immer weiter an. Der Crawler startet also den nächsten Durchlauf immer mit den Informationen aus dem letzten Durchlauf. Das Programm überprüft hierbei unter anderem, ob neue Webseiten dazu gekommen sind, ob es an bestehenden Webseiten Änderungen gab und ob Links veraltet sind. Übrigens ist genau festgelegt, welche Webseiten zu welchem Zeitpunkt und in welchem Intervall untersucht werden. Dabei ist es auch wichtig, dass die Verzweigung der Webseite nicht zu tiefgehend ist, da das Crawling nur bis zu einer festgelegten Menge an Unterseiten crawlen wird.

Indexierung – Die Suchanfrage kommt rein

Jetzt wird es spannend, naja, so spannend auch nicht 🙂 Ein Internetnutzer gibt seine Suchanfrage bei Google ein. Google beginnt jetzt nicht Milliarden an Webseiten nach diesem Keyword zu durchsuchen. Das würde viel zu lange dauern, wahrscheinlich würde der Nutzer noch in einigen Wochen auf sein Suchergebnis warten. Nein, es wird der Index, den die Suchmaschine hat, nach bestimmten Filterkriterien durchsucht. Im Grunde ist dieser schon vorsortiert.

Das Ganze muss man sich so vorstellen, dass die Suchmaschine ein Restaurant ist und der Suchende ein hungriger Gast. Der Gast bestellt jetzt etwas zu essen, sprich die Suchanfrage geht zum Kellner und dann in die Küche. Damit der Gast nicht mehrere Stunden warten muss, hat das Restaurant vieles an Essen bereits vorbereitet und seine Küche ist mit allem Zubehör und Mitarbeitern schon bestens ausgestattet. Es würde keinen Sinn machen, dass der Kellner jetzt auf den Großmarkt rennt und die Zutaten einkauft, um dann die Kartoffeln zu schälen und das Essen zu kochen. Genauso macht es die Suchmaschine, sie weiß schon vorher, zu welchem Keyword sie welches Suchergebnis ausgeben wird. Wenn das Keyword noch nie eingegeben wurde, dann wird ein verwandtes Ergebnis ausgegeben.

Die Keywords kann man sich wie das Stichwort-Verzeichnis von einem Lexikon vorstellen. Hinten stehen die Keywords und wenn man das Keyword ausfindig gemacht hat, dann kann man gleich zur richtigen Seite blättern. Beim Indexieren einer Webseite fügt Google alle Wörter einer Webseite diesem Stichwort-Verzeichnis (Index) hinzu.

Hier ein Video von Google, wo der Vorgang von Matt Cutts noch deutlicher erklärt wird:

Google Search Console

Damit du als Webseitenbetreiber das Crawling des Googlebots nicht dem Zufall überlassen musst, hat Google dir ein mächtiges Tool an die Hand gegeben: Die Search Console, früher auch als Webmaster-Tool bezeichnet.

In der Search Console können wir das Crawling einer Webseite beantragen. Das kann für neue oder auch für bereits vorhandene URLs erfolgen. Übrigens kann man auch das Crawlen einer Webseite untersagen. Hierbei wird mit einer Datei die „robtos.txt“ genannt wird, dass ein Crawling nicht erwünscht ist. Google wird sich an diese Anweisung halten. Man sollte hierbei drauf achten, dass man (sofern eine Indexierung unerwünscht ist) die Seite auch auf „noindex“ setzt, da es ansonsten unter Umständen vorkommen kann, dass die Webseite zwar nicht gecrawlt wird, aber trotzdem indexiert. Unter Umständen kommt auch das Canonical Tag zum Einsatz.

Übrigens ist Google beim Crawlen und Indexieren vollkommen unabhängig und man kann nicht durch eine Zahlung erreichen, dass Google die eigene Webseite bevorzugt. Das ist gut, denn so hat jeder Mitspieler die gleichen Chancen.

Nachdem die Webseite gecrawlt wurde, kommt sie in den Index. Wenn sie relevant ist, dann wird sie bei der nächsten Suchanfrage ausgeliefert. Gerade bei neuen Webseiten ist häufig zu beobachten, dass die Suchmaschine an einigen „Testern“ die Webseite in der Suchmaschine nach oben schiebt, wenn sie positive Signale erhält, dann kann man mit einem relativ hohen Anfangsranking rechnen. Bleiben diese Signale aus, dann rankt die Seite schlecht oder gar nicht, zumindest nicht im messbaren Bereich.

Der Suchindex von Google umfasst laut eigener Aussage mehrere Milliarden Webseiten und hat eine Speichergröße von über 100.000.000 Gigabyte groß. Das bedeutet, das Crawling benötigt riesige Ressourcen an Servern, um zu speichern und auszuliefern.

Wer noch mehr dazu wissen möchte, findet hier einen Link zu Erklärung von Google.

Bedeutung von Crawling und Indexierung für SEO

Die Suchmaschinen legen bei Webseiten ein Maximum an Ressourcen fest, welche verwendet werden dürfen. Auch die Crawltiefe ist vorher fest definiert. Bei dem Maximum der Ressourcen spricht man vom Crawl-Budget. Als Webseitenbetreiber solltest du drauf achten, dass du dein Crawlbudget nicht verschwendest und deine Webseite nicht zu tief verschachtelst, weil der Bot diesen Seiten ansonsten nicht mehr folgt.

Wenn du eine große Webseite mit vielen URLs betreibst, dann musst du dir die Frage stellen, ob wirklich alle URLs wichtig sind und indexiert werden müssen. Du kannst die Wichtigkeit einzelner URLs erhöhen, indem du andere deindexierst (noindex). Das kann den entscheidenden Vorteil im SEO bringen.

Suchmaschinen crawlen bevorzugt Webseiten, die beliebt sind. Das Crawl-Budget erhöht sich durch Traffic, eingehenden Links und positive Interaktionssignale der Nutzer (Aufenthaltsdauer und Absprungrate).

Ist meine Webseite indexiert?

Ob eine Webseite indexiert ist, lässt sich auch ohne teure SEO-Tools herausfinden. Hierfür gibt es grundlegend zwei Möglichkeiten:

Site-Abfrage

Im Suchfeld von Google kann man einen Google-Hack durchführen und die eigen URL zusammen mit dem Präfix „site:“ eingeben. In unserem Beispiel würde das so aussehen: „site:steffen-rust.de“. Nun erscheinen alle indexierten Seiten. Wenn man eine bestimmte URL prüfen möchte, dann kann man die URL eingeben: „site:https://www.lmn1.de/kontakt/“.

Search Console

Wenn du deine Webseite in der Search Console angemeldet hast, dann kannst du dort im Suchfeld entweder einzelne URLs prüfen, oder im Abdeckungsbericht alle Informationen zur Indexierung sehen. Die Strafe hierfür kann auch ein Ausschluss aus dem Index sein.

Entfernung aus dem Index

Übrigens gibt es keine Garantien, dass die eigene Webseite dauerhaft im Index bleibt. Wenn die Suchmaschine keinen Zugriff mehr auf die Inhalte hat oder es die Seite nicht mehr gibt, dann wird sie aus dem Index genommen. Ein weiterer Grund kann sein, dass du gegen die Webmaster Guidelines von Google verstoßen hast.

Crawling Statistiken

Übrigens crawlt Google deine Webseite nicht heimlich im Dunkeln, sondern es gibt hierzu einen Bericht, der sich Crawling-Statistiken nennt. Hier findet man die Aktivität des Googlebot für die letzten 90 Tage. Um diese Informationen nutzen zu können, muss die eigene Webseite bestätigt sein.

Wenn man am Anfang noch eine relativ geringe Crawling-Frequenz sieht, dann muss man sich hierüber keine Sorgen machen. Je größer der Umfang der eigenen Webseite wird, desto häufiger wird der Web-Crawler zu Besuch sein.

Crawling Frequenz zu niedrig

Wenn du das Gefühl hast, dass die Crawling-Frequenz deiner Webseite nicht normal ist, dann kann es hierfür unterschiedliche Gründe geben:

Crawler durch robots.txt blockiert
HTML fehlerhaft – Webseite kann nicht geparst werden
Webseite besteht nur aus Bildern
Webseite zu langsam
Server-Fehlermeldungen
keine regelmäßige Aktualisierung der Webseite
schlechte Qualität der Webseite

Übrigens kann man mit dem URL-Prüftool sich ansehen, wie Google eine Webseite sieht. Hier findest du dazu weitere Informationen von Google. Hier findest du auch Informationen, was du tun kannst, wenn deine Webseite zu oft gecrawlt wird.

Crawler oder Scraper?

Neben dem klassischen Crawler gibt es noch den Scraper. Er kann ein wenig mehr als der Crawler. Scraping wird als Black-Hat-Technik gesehen, wobei Inhalte anderer Webseiten kopiert werden, um diese 1:1 oder abgewandelt auf einer anderen Webseite wieder zu platzieren. Es gibt einige schwarze Schafe, die ihren Webseiten-Content fast ausschließlich über diese Technik produzieren und pflegen.

Fazit zum Crawling

Jetzt weißt du alles, was man zum Crawling und der Indexierung wissen muss. Du weißt, wie man dieses Wissen für die Suchmaschinenoptimierung richtig nutzt. Wenn du Schwierigkeiten dabei hast oder Hilfe mit deiner Webseite brauchst, dann bin ich gerne für dich da. Nimm einfach Kontakt zu mir auf! Wenn dir mein Beitrag gefallen hat, dann freue ich mich über eine gute Bewertung. Übrigens findest du noch mehr Infos und praktische Beispiele in meinen Online-Kursen, schau doch mal rein.

5/5 - (5 votes)

YouTube Analytics verstehen und nutzen

von LMN1 | 17. Februar 2023 | Onlinemarketing | 0 Kommentieren

So nutzt du YouTube Analytics richtig! Wie du sie findest, welche Daten es gibt und wie du sie am besten nutzt.

Was ist Usability?

von LMN1 | 28. Oktober 2022 | Onlinemarketing | 0 Kommentieren

Was ist eigentlich Usability? Und was ist der Unterschied zur User Experience? Wir klären die wichtigsten Fakten!

Was ist ein SEO Keyword?

von LMN1 | 6. September 2022 | Onlinemarketing | 0 Kommentieren

Was ist eigentlich ein SEO Keyword? Welche Keyword Arten gibt es? Warum sind die so wichtig? Wir erklären alles ganz ausführlich.

Die Geschichte und Entstehung der Suchmaschinen

von Steffen Rust | 28. Dezember 2020 | Onlinemarketing, SEO | 0 Kommentieren

Heute gucken wir uns die Geschichte der Suchmaschinen an. Um ein SEO-Profi zu sein, muss man sie nicht zwingend wissen, aber sie bietet interessante Hintergrundinformationen, warum alles kam wie es heute ist. Heutzutage ist Google nicht mehr wegzudenken, doch bei der...

Google Ads Sprache umstellen – die Anleitung 2022

von Steffen Rust | 14. Mai 2022 | Onlinemarketing, SEA | 6 Kommentieren

Du möchtest bei Google Ads im Konto die Sprache umstellen? Ich zeige dir, wie einfach das geht. Bei Google Ads die Sprache umzustellen, ist ganz einfach. Wenn du die Sprache in Google änderst, dann ändert sich erst mal nichts an deiner Anzeigenschaltung. Lediglich die...

NEWSLETTER BESTELLEN

Kostenlose Anleitungen, super Angebote und viele Infos rund um das Thema Online-Marketing!

Steffen Rust

Online-Marketing-Manager

Nutze unser kostenloses Erstgespräch. In diesem Kennenlerngespräch analysiere ich kurz deine Webseite und zeig dir dein Potenzial auf.



+49 30 754 482 14

Kontakt

Du willst mehr für deine Webseite?

Du benötigst Hilfe im Online-Marketing? Wir sind sofort für dich da! Hol dir Experten in den Bereichen Suchmaschinenoptimierung (SEO), Suchmaschinenwerbung (SEA) und Social-Media-Marketing (SMM). Nutze unser kostenloses Erstgespräch.

Kostenloses Beratungsgespräch

0 Kommentare

Einen Kommentar abschicken Antworten abbrechen

Mehr Beiträge lesen…

Google Ads – Effektives Management saisonaler Schwankungen

von Steffen Rust | 28. Jan. 2024 | Onlinemarketing, SEA

Hey du, in deinem Business wirst du zwangsläufig mit Schwankungen in den Verkaufszahlen konfrontiert, und das liegt einfach mitunter an der Saisonalität. Mal steigen die Verkäufe, mal gehen sie in den Keller. Das zu managen, kann manuell verdammt knifflig sein. Zum...