Inhaltsverzeichnis
- 1. Was die robots.txt ist — und was sie nicht ist
- 2. Syntax im Detail
- 3. Meta-Robots-Tags — Indexierung pro Seite
- 4. robots.txt vs. Meta-Robots vs. X-Robots-Tag
- 5. Best Practices aus der Praxis
- 6. Komplette robots.txt für eine typische Leipziger Website
- 7. Sieben typische Fehler — und wie Sie sie vermeiden
- 8. Verwandte Beiträge
- 9. Fazit
- 10. FAQ
Ein Leipziger Verlag mit 40.000 Buchseiten, ein Online-Shop in Plagwitz mit Filter-Navigation und ein Messeveranstalter mit zehntausenden Aussteller-URLs — alle drei haben dasselbe Problem: ohne saubere Crawl-Steuerung verbringt Googlebot seine Zeit in Tag-Archiven, Druckansichten und Tracking-Parametern, statt die wichtigen Produkt-, Buch- oder Profilseiten zu indexieren. Die zwei Werkzeuge, die das verhindern, sind robots.txt und Meta-Robots-Tags. Beide sind technisch trivial — und werden in der Praxis erstaunlich oft falsch eingesetzt. Dieser Leitfaden aus unserer technischen SEO-Beratung zeigt die richtige Konfiguration mit Beispielen aus dem Sachsen-Wettbewerb.
Was die robots.txt ist — und was sie nicht ist
Die robots.txt ist eine einfache Textdatei im Stammverzeichnis Ihrer Domain (z. B. https://www.leipzig-shop.de/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche Ihrer Website gecrawlt werden dürfen.
Wichtig: Die robots.txt steuert das Crawling, nicht die Indexierung. Eine per robots.txt blockierte Seite kann trotzdem im Index landen, wenn externe Links darauf verweisen — Google sieht den Link, kann den Inhalt aber nicht lesen.
# Einfache robots.txt
User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /
Sitemap: https://www.leipzig-shop.de/sitemap.xml
Crawler rufen die Datei vor jedem Besuch ab. Fehlt sie oder ist sie fehlerhaft, crawlen Suchmaschinen grundsätzlich alles, was erreichbar ist.
Syntax im Detail
User-agent-Direktiven
Der User-agent legt fest, für welchen Bot die folgenden Regeln gelten. Ein Sternchen gilt für alle:
# Allgemeine Regeln
User-agent: *
Disallow: /intern/
# Spezifische Regeln nur für Google
User-agent: Googlebot
Disallow: /tmp/
# Spezifische Regeln für Bing
User-agent: Bingbot
Disallow: /archiv/
Spezifische User-agent-Blöcke haben Vorrang vor allgemeinen. Sind sowohl * als auch Googlebot definiert, folgt Googlebot ausschließlich seinem eigenen Block.
Allow- und Disallow-Regeln
Mit Disallow sperren Sie Pfade, mit Allow definieren Sie Ausnahmen innerhalb gesperrter Bereiche:
User-agent: *
# Gesamtes Admin-Verzeichnis sperren
Disallow: /admin/
# Aber den öffentlichen Login erlauben
Allow: /admin/login/
# URLs mit Query-Parametern sperren
Disallow: /*?
# PDFs sperren
Disallow: /*.pdf$
Bei Konflikten gilt die spezifischere Regel (längerer Pfad).
Sitemap-Verweis
Am Ende der robots.txt sollte immer ein Verweis auf Ihre XML-Sitemap stehen:
Sitemap: https://www.leipzig-shop.de/sitemap.xml
Sitemap: https://www.leipzig-shop.de/sitemap-news.xml
Der Sitemap-Verweis ist unabhängig vom User-agent und kann mehrfach vorkommen.
Crawl-delay
Bingbot und Yandex unterstützen Crawl-delay. Google ignoriert die Direktive komplett und nutzt stattdessen die Search Console:
User-agent: Bingbot
Crawl-delay: 10
User-agent: Googlebot
# Crawl-delay wird ignoriert — stattdessen GSC-Crawling-Rate
Meta-Robots-Tags — Indexierung pro Seite
Während die robots.txt das Crawling auf Verzeichnisebene steuert, erlauben Meta-Robots-Tags Kontrolle pro Einzelseite. Sie stehen im <head> einer HTML-Seite:
<!-- Seite nicht indexieren, Links nicht folgen -->
<meta name="robots" content="noindex, nofollow">
<!-- Seite indexieren, Links nicht folgen -->
<meta name="robots" content="index, nofollow">
<!-- Kein Snippet in Suchergebnissen -->
<meta name="robots" content="nosnippet">
<!-- Keine zwischengespeicherte Version -->
<meta name="robots" content="noarchive">
<!-- Bilder dieser Seite nicht indexieren -->
<meta name="robots" content="noimageindex">
<!-- Kombinationen -->
<meta name="robots" content="noindex, noarchive, nosnippet">
Direktiven im Überblick
| Direktive | Wirkung |
|---|---|
index | Seite darf indexiert werden (Standard) |
noindex | Seite NICHT indexieren |
follow | Links auf der Seite verfolgen (Standard) |
nofollow | Links NICHT verfolgen |
noarchive | Keine Cached-Version anbieten |
nosnippet | Kein Text-Snippet in der SERP |
noimageindex | Bilder nicht indexieren |
max-snippet:[n] | Maximale Snippet-Länge in Zeichen |
Sie können Meta-Robots auch nur für bestimmte Crawler setzen:
<meta name="googlebot" content="noindex">
<meta name="bingbot" content="noindex">
X-Robots-Tag (HTTP-Header)
Für Nicht-HTML-Dateien wie PDFs, Bilder oder Verlagskataloge nutzen Sie den X-Robots-Tag als HTTP-Header:
HTTP/1.1 200 OK
X-Robots-Tag: noindex, nofollow
In der Apache-Konfiguration (typisch bei Hetzner-Webhosting):
# PDFs von der Indexierung ausschließen
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>
robots.txt vs. Meta-Robots vs. X-Robots-Tag
| Eigenschaft | robots.txt | Meta Robots | X-Robots-Tag |
|---|---|---|---|
| Steuerungsebene | Verzeichnis / Pfad | Einzelne Seite | Einzelne Ressource |
| Steuert Crawling | |||
| Steuert Indexierung | |||
| Für HTML-Seiten | |||
| Für PDFs/Bilder | |||
| Granularität | Grob (Pfad-basiert) | Fein (pro Seite) | Fein (pro Ressource) |
| Umsetzung | Textdatei im Root | HTML <head>-Tag | HTTP-Header |
| noindex möglich | |||
| nofollow möglich | |||
| Von Google beachtet |
Best Practices aus der Praxis
Was Sie in Leipziger Projekten typischerweise blockieren
Sperren Sie Bereiche ohne SEO-Wert, die Crawl-Budget verschwenden:
- /wp-admin/, /admin/ — Backend-Bereiche
- /warenkorb/ und /checkout/ — Transaktionsseiten (typisch für Plagwitz-Shops)
- /suche/ und /?s= — interne Suchergebnisse
- /tag/ — Tag-Archive (häufig Thin Content, gerade bei Verlags-Blogs)
- /tmp/ und /cache/ — temporäre Dateien
- Tracking-Parameter wie
?utm_source=,?session=,?ref=
Was Sie nicht blockieren dürfen
Diese Ressourcen müssen für Googlebot zugänglich bleiben — sonst kann Google Ihre Seite nicht korrekt rendern:
- CSS- und JavaScript-Dateien
- Bilder (für Bildersuche und Page Experience)
- Die Sitemap selbst
- Seiten mit Canonical Tags — Canonical funktioniert nur, wenn Google die Seite crawlen darf
- Wichtige Verzeichnisse wie /leistungen/, /blog/, /produkte/
Testing in der Search Console
- Search Console öffnen
- Einstellungen → robots.txt aufrufen
- Den robots.txt-Tester für einzelne URLs nutzen
- Unter Indexierung → Seiten den Status prüfen
- URL-Prüfung für Detail-Diagnose einzelner Seiten
Komplette robots.txt für eine typische Leipziger Website
# robots.txt für www.leipzig-shop.de
# Letzte Aktualisierung: 2026-05-08
# Allgemeine Regeln für alle Crawler
User-agent: *
# Backend und Admin sperren
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /admin/
Disallow: /login/
# Interne Suche
Disallow: /suche/
Disallow: /*?s=
# Warenkorb und Checkout
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/
# Thin Content und Duplikate vermeiden
Disallow: /tag/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
# Technische Verzeichnisse
Disallow: /tmp/
Disallow: /cache/
Disallow: /cgi-bin/
# CSS, JS und Bilder explizit erlauben
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Allow: /assets/
# Sitemaps
Sitemap: https://www.leipzig-shop.de/sitemap.xml
Sitemap: https://www.leipzig-shop.de/sitemap-news.xml
Sieben typische Fehler — und wie Sie sie vermeiden
-
Disallow: /ohne Allow-Ergänzung — der häufigste und folgenschwerste Fehler. Komplette Domain verschwindet aus dem Index. Tritt klassisch nach Relaunches auf, wenn die Staging-robots.txt in die Produktion wandert. -
CSS und JavaScript blockieren — Google muss rendern können. Wenn Sie CSS/JS sperren, kann Google Ihre Seite nicht korrekt bewerten und Rankings leiden.
-
robots.txt für Indexierungssteuerung verwenden — robots.txt verhindert nur Crawling, nicht Indexierung. Eine blockierte Seite kann trotzdem im Index erscheinen. Für zuverlässige Deindexierung:
noindex. -
noindex UND robots.txt-Block kombinieren — wenn Google die Seite nicht crawlen darf, sieht es das noindex-Tag nicht. Die Seite bleibt im Index.
-
Wildcard-Regeln ohne Test — Regeln mit
*und$können unbeabsichtigt wichtige Seiten blockieren. Testen Sie jede Wildcard-Regel in der Search Console. -
Sitemap-Verweis vergessen — auch wenn Sie die Sitemap in der Search Console eingereicht haben, gehört der Verweis in die robots.txt als zusätzliche Absicherung.
-
Veraltete robots.txt nach Relaunch — URL-Strukturen ändern sich. Nach jedem größeren Update gehört die robots.txt auf den Prüfstand.
Verwandte Beiträge
- Crawl-Budget Optimierung
- XML-Sitemap optimieren
- Canonical URLs richtig setzen
- Duplicate Content vermeiden
Fazit
Die richtige Konfiguration von robots.txt und Meta-Robots-Tags ist Fundament jeder soliden technischen SEO-Strategie. Beide Werkzeuge ergänzen sich: robots.txt steuert Crawling auf Verzeichnisebene, Meta-Robots steuern die Indexierung pro Seite. Wer beide sauber kombiniert, lenkt Googlebot gezielt — und vermeidet, dass wichtige Seiten in der SERP fehlen, weil Crawl-Budget in unwichtigen Bereichen verschwendet wird.
Wir konfigurieren robots.txt-Strukturen seit Jahren für Leipziger Verlage, Online-Shops in Plagwitz, BMW-Zulieferer und Messeplattformen. Sprechen Sie uns an, wenn Sie Ihre Crawl-Steuerung systematisch aufstellen wollen — vertiefend zu strukturellen On-Page-Themen auch unsere Schwesterseite onpage-optimierung.de sowie seo-halle.com für die Region Sachsen-Anhalt.
FAQ
Was passiert ohne robots.txt?
Ohne robots.txt crawlen Suchmaschinen alle erreichbaren Seiten. Bei kleinen Domains unproblematisch. Bei größeren Sites — Verlagsdatenbanken, Filter-Shops, Messeplattformen — verschwendet das Crawl-Budget für Suchergebnisseiten, Filter-URLs und Admin-Bereiche. Eine basale robots.txt ist deshalb auch bei kleinen Sites empfohlen.
Kann ich mit robots.txt Seiten aus dem Index entfernen?
Nein. robots.txt verhindert nur das Crawling, nicht die Indexierung. Eine blockierte Seite kann via externe Links trotzdem im Index erscheinen — ohne Inhalt. Für Deindexierung: noindex Meta-Tag oder das URL-Removal-Tool in der Search Console.
Wie teste ich meine robots.txt?
In der Search Console unter Einstellungen → robots.txt. Sie können einzelne URLs testen und sehen, ob sie blockiert sind. Ergänzend liefert die URL-Prüfung Detail-Diagnosen pro Seite.
Gilt robots.txt auch für andere Suchmaschinen?
Für alle, die sich an das Robots Exclusion Protocol halten — Google, Bing, Yahoo, Yandex und die meisten anderen. Malware-Bots und Scraper ignorieren sie häufig. Echter Zugriffsschutz braucht serverseitige Maßnahmen wie Passwortschutz oder IP-Blocking.
Wie oft sollte ich die robots.txt aktualisieren?
Mindestens vierteljährlich, plus nach jedem Relaunch, nach strukturellen URL-Änderungen und bei Einführung neuer Bereiche (Blog, Shop, Magazin). Veraltete robots.txt blockiert versehentlich wichtige neue Seiten oder lässt irrelevante Bereiche offen.