Kurz erklärt
Die robots.txt ist eine Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern mitteilt, welche Bereiche sie aufrufen dürfen und welche nicht.
Die robots.txt ist eine einfache Textdatei, die im Stammverzeichnis einer Website liegt (erreichbar unter domain.de/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen darüber, welche Bereiche der Website sie aufrufen dürfen und welche sie ignorieren sollen. Die Datei folgt dem Robots Exclusion Protocol, einem seit 1994 bestehenden Standard.
Die Syntax der robots.txt ist unkompliziert. Mit „User-agent” bestimmen Sie, für welchen Crawler die Regel gilt (z. B. Googlebot). Mit „Disallow” schließen Sie bestimmte Verzeichnisse oder Seiten vom Crawling aus. Mit „Allow” können Sie Ausnahmen innerhalb blockierter Bereiche definieren. Eine zusätzliche „Sitemap”-Angabe verweist den Crawler auf Ihre XML-Sitemap.
Ein wichtiger Punkt: Die robots.txt verhindert nur das Crawling, nicht die Indexierung. Wenn andere Websites auf eine per robots.txt blockierte Seite verlinken, kann Google sie trotzdem in den Index aufnehmen – allerdings ohne den Inhalt zu kennen. Um eine Seite zuverlässig aus dem Index fernzuhalten, benötigen Sie zusätzlich einen noindex-Meta-Tag.
Bedeutung für Unternehmen
Eine korrekt konfigurierte robots.txt schützt sensible Bereiche Ihrer Website vor dem Crawler und hilft gleichzeitig, das Crawl-Budget effizient zu nutzen. Interne Suchseiten, Admin-Bereiche oder Staging-Umgebungen haben in den Suchergebnissen nichts verloren. Gleichzeitig ist eine fehlerhafte robots.txt eines der häufigsten technischen SEO-Probleme: Ein einziger falscher Eintrag kann dazu führen, dass wichtige Seiten nicht mehr gecrawlt werden und aus den Suchergebnissen verschwinden.
Praxisbeispiel
Ein Weiterbildungsanbieter wundert sich, warum seine neue Kursseite nach vier Wochen noch nicht in Google erscheint. Eine Prüfung der robots.txt zeigt, dass ein Eintrag aus der Entwicklungsphase noch aktiv ist: „Disallow: /” blockiert die gesamte Website für alle Crawler. Nach der Korrektur auf gezielte Ausschlüsse (nur Admin-Bereich und interne Suche) werden alle Kursseiten innerhalb weniger Tage gecrawlt und indexiert.
Das lernen Sie im Seminar
Im SEO Seminar lernen Sie, eine robots.txt korrekt zu erstellen und zu überprüfen. Sie erfahren, welche Bereiche Sie blockieren sollten und wie Sie typische Fehler vermeiden, die Ihre Sichtbarkeit gefährden.