robots.txt & Meta-Robots richtig einsetzen

Inhaltsverzeichnis

Ein Leipziger Verlag mit 40.000 Buchseiten, ein Online-Shop in Plagwitz mit Filter-Navigation und ein Messeveranstalter mit zehntausenden Aussteller-URLs — alle drei haben dasselbe Problem: ohne saubere Crawl-Steuerung verbringt Googlebot seine Zeit in Tag-Archiven, Druckansichten und Tracking-Parametern, statt die wichtigen Produkt-, Buch- oder Profilseiten zu indexieren. Die zwei Werkzeuge, die das verhindern, sind robots.txt und Meta-Robots-Tags. Beide sind technisch trivial — und werden in der Praxis erstaunlich oft falsch eingesetzt. Dieser Leitfaden aus unserer technischen SEO-Beratung zeigt die richtige Konfiguration mit Beispielen aus dem Sachsen-Wettbewerb.

Was die robots.txt ist — und was sie nicht ist

Die robots.txt ist eine einfache Textdatei im Stammverzeichnis Ihrer Domain (z. B. https://www.leipzig-shop.de/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche Ihrer Website gecrawlt werden dürfen.

Wichtig: Die robots.txt steuert das Crawling, nicht die Indexierung. Eine per robots.txt blockierte Seite kann trotzdem im Index landen, wenn externe Links darauf verweisen — Google sieht den Link, kann den Inhalt aber nicht lesen.

# Einfache robots.txt
User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /

Sitemap: https://www.leipzig-shop.de/sitemap.xml

Crawler rufen die Datei vor jedem Besuch ab. Fehlt sie oder ist sie fehlerhaft, crawlen Suchmaschinen grundsätzlich alles, was erreichbar ist.

Syntax im Detail

User-agent-Direktiven

Der User-agent legt fest, für welchen Bot die folgenden Regeln gelten. Ein Sternchen gilt für alle:

# Allgemeine Regeln
User-agent: *
Disallow: /intern/

# Spezifische Regeln nur für Google
User-agent: Googlebot
Disallow: /tmp/

# Spezifische Regeln für Bing
User-agent: Bingbot
Disallow: /archiv/

Spezifische User-agent-Blöcke haben Vorrang vor allgemeinen. Sind sowohl * als auch Googlebot definiert, folgt Googlebot ausschließlich seinem eigenen Block.

Allow- und Disallow-Regeln

Mit Disallow sperren Sie Pfade, mit Allow definieren Sie Ausnahmen innerhalb gesperrter Bereiche:

User-agent: *
# Gesamtes Admin-Verzeichnis sperren
Disallow: /admin/

# Aber den öffentlichen Login erlauben
Allow: /admin/login/

# URLs mit Query-Parametern sperren
Disallow: /*?

# PDFs sperren
Disallow: /*.pdf$

Bei Konflikten gilt die spezifischere Regel (längerer Pfad).

Sitemap-Verweis

Am Ende der robots.txt sollte immer ein Verweis auf Ihre XML-Sitemap stehen:

Sitemap: https://www.leipzig-shop.de/sitemap.xml
Sitemap: https://www.leipzig-shop.de/sitemap-news.xml

Der Sitemap-Verweis ist unabhängig vom User-agent und kann mehrfach vorkommen.

Crawl-delay

Bingbot und Yandex unterstützen Crawl-delay. Google ignoriert die Direktive komplett und nutzt stattdessen die Search Console:

User-agent: Bingbot
Crawl-delay: 10

User-agent: Googlebot
# Crawl-delay wird ignoriert — stattdessen GSC-Crawling-Rate

Meta-Robots-Tags — Indexierung pro Seite

Während die robots.txt das Crawling auf Verzeichnisebene steuert, erlauben Meta-Robots-Tags Kontrolle pro Einzelseite. Sie stehen im <head> einer HTML-Seite:

<!-- Seite nicht indexieren, Links nicht folgen -->
<meta name="robots" content="noindex, nofollow">

<!-- Seite indexieren, Links nicht folgen -->
<meta name="robots" content="index, nofollow">

<!-- Kein Snippet in Suchergebnissen -->
<meta name="robots" content="nosnippet">

<!-- Keine zwischengespeicherte Version -->
<meta name="robots" content="noarchive">

<!-- Bilder dieser Seite nicht indexieren -->
<meta name="robots" content="noimageindex">

<!-- Kombinationen -->
<meta name="robots" content="noindex, noarchive, nosnippet">

Direktiven im Überblick

Direktive	Wirkung
`index`	Seite darf indexiert werden (Standard)
`noindex`	Seite NICHT indexieren
`follow`	Links auf der Seite verfolgen (Standard)
`nofollow`	Links NICHT verfolgen
`noarchive`	Keine Cached-Version anbieten
`nosnippet`	Kein Text-Snippet in der SERP
`noimageindex`	Bilder nicht indexieren
`max-snippet:[n]`	Maximale Snippet-Länge in Zeichen

Sie können Meta-Robots auch nur für bestimmte Crawler setzen:

<meta name="googlebot" content="noindex">
<meta name="bingbot" content="noindex">

X-Robots-Tag (HTTP-Header)

Für Nicht-HTML-Dateien wie PDFs, Bilder oder Verlagskataloge nutzen Sie den X-Robots-Tag als HTTP-Header:

HTTP/1.1 200 OK
X-Robots-Tag: noindex, nofollow

In der Apache-Konfiguration (typisch bei Hetzner-Webhosting):

# PDFs von der Indexierung ausschließen
<FilesMatch "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

robots.txt vs. Meta-Robots vs. X-Robots-Tag

Eigenschaft	robots.txt	Meta Robots	X-Robots-Tag
Steuerungsebene	Verzeichnis / Pfad	Einzelne Seite	Einzelne Ressource
Steuert Crawling
Steuert Indexierung
Für HTML-Seiten
Für PDFs/Bilder
Granularität	Grob (Pfad-basiert)	Fein (pro Seite)	Fein (pro Ressource)
Umsetzung	Textdatei im Root	HTML <head>-Tag	HTTP-Header
noindex möglich
nofollow möglich
Von Google beachtet

Best Practices aus der Praxis

Was Sie in Leipziger Projekten typischerweise blockieren

Sperren Sie Bereiche ohne SEO-Wert, die Crawl-Budget verschwenden:

/wp-admin/, /admin/ — Backend-Bereiche
/warenkorb/ und /checkout/ — Transaktionsseiten (typisch für Plagwitz-Shops)
/suche/ und /?s= — interne Suchergebnisse
/tag/ — Tag-Archive (häufig Thin Content, gerade bei Verlags-Blogs)
/tmp/ und /cache/ — temporäre Dateien
Tracking-Parameter wie ?utm_source=, ?session=, ?ref=

Was Sie nicht blockieren dürfen

Diese Ressourcen müssen für Googlebot zugänglich bleiben — sonst kann Google Ihre Seite nicht korrekt rendern:

CSS- und JavaScript-Dateien
Bilder (für Bildersuche und Page Experience)
Die Sitemap selbst
Seiten mit Canonical Tags — Canonical funktioniert nur, wenn Google die Seite crawlen darf
Wichtige Verzeichnisse wie /leistungen/, /blog/, /produkte/

Testing in der Search Console

Search Console öffnen
Einstellungen → robots.txt aufrufen
Den robots.txt-Tester für einzelne URLs nutzen
Unter Indexierung → Seiten den Status prüfen
URL-Prüfung für Detail-Diagnose einzelner Seiten

Komplette robots.txt für eine typische Leipziger Website

# robots.txt für www.leipzig-shop.de
# Letzte Aktualisierung: 2026-05-08

# Allgemeine Regeln für alle Crawler
User-agent: *

# Backend und Admin sperren
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /admin/
Disallow: /login/

# Interne Suche
Disallow: /suche/
Disallow: /*?s=

# Warenkorb und Checkout
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/

# Thin Content und Duplikate vermeiden
Disallow: /tag/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=

# Technische Verzeichnisse
Disallow: /tmp/
Disallow: /cache/
Disallow: /cgi-bin/

# CSS, JS und Bilder explizit erlauben
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Allow: /assets/

# Sitemaps
Sitemap: https://www.leipzig-shop.de/sitemap.xml
Sitemap: https://www.leipzig-shop.de/sitemap-news.xml

Sieben typische Fehler — und wie Sie sie vermeiden

Disallow: / ohne Allow-Ergänzung — der häufigste und folgenschwerste Fehler. Komplette Domain verschwindet aus dem Index. Tritt klassisch nach Relaunches auf, wenn die Staging-robots.txt in die Produktion wandert.
CSS und JavaScript blockieren — Google muss rendern können. Wenn Sie CSS/JS sperren, kann Google Ihre Seite nicht korrekt bewerten und Rankings leiden.
robots.txt für Indexierungssteuerung verwenden — robots.txt verhindert nur Crawling, nicht Indexierung. Eine blockierte Seite kann trotzdem im Index erscheinen. Für zuverlässige Deindexierung: noindex.
noindex UND robots.txt-Block kombinieren — wenn Google die Seite nicht crawlen darf, sieht es das noindex-Tag nicht. Die Seite bleibt im Index.
Wildcard-Regeln ohne Test — Regeln mit * und $ können unbeabsichtigt wichtige Seiten blockieren. Testen Sie jede Wildcard-Regel in der Search Console.
Sitemap-Verweis vergessen — auch wenn Sie die Sitemap in der Search Console eingereicht haben, gehört der Verweis in die robots.txt als zusätzliche Absicherung.
Veraltete robots.txt nach Relaunch — URL-Strukturen ändern sich. Nach jedem größeren Update gehört die robots.txt auf den Prüfstand.

Fazit

Die richtige Konfiguration von robots.txt und Meta-Robots-Tags ist Fundament jeder soliden technischen SEO-Strategie. Beide Werkzeuge ergänzen sich: robots.txt steuert Crawling auf Verzeichnisebene, Meta-Robots steuern die Indexierung pro Seite. Wer beide sauber kombiniert, lenkt Googlebot gezielt — und vermeidet, dass wichtige Seiten in der SERP fehlen, weil Crawl-Budget in unwichtigen Bereichen verschwendet wird.

Wir konfigurieren robots.txt-Strukturen seit Jahren für Leipziger Verlage, Online-Shops in Plagwitz, BMW-Zulieferer und Messeplattformen. Sprechen Sie uns an, wenn Sie Ihre Crawl-Steuerung systematisch aufstellen wollen — vertiefend zu strukturellen On-Page-Themen auch unsere Schwesterseite onpage-optimierung.de sowie seo-halle.com für die Region Sachsen-Anhalt.

FAQ

Was passiert ohne robots.txt?

Ohne robots.txt crawlen Suchmaschinen alle erreichbaren Seiten. Bei kleinen Domains unproblematisch. Bei größeren Sites — Verlagsdatenbanken, Filter-Shops, Messeplattformen — verschwendet das Crawl-Budget für Suchergebnisseiten, Filter-URLs und Admin-Bereiche. Eine basale robots.txt ist deshalb auch bei kleinen Sites empfohlen.

Kann ich mit robots.txt Seiten aus dem Index entfernen?

Nein. robots.txt verhindert nur das Crawling, nicht die Indexierung. Eine blockierte Seite kann via externe Links trotzdem im Index erscheinen — ohne Inhalt. Für Deindexierung: noindex Meta-Tag oder das URL-Removal-Tool in der Search Console.

Wie teste ich meine robots.txt?

In der Search Console unter Einstellungen → robots.txt. Sie können einzelne URLs testen und sehen, ob sie blockiert sind. Ergänzend liefert die URL-Prüfung Detail-Diagnosen pro Seite.

Gilt robots.txt auch für andere Suchmaschinen?

Für alle, die sich an das Robots Exclusion Protocol halten — Google, Bing, Yahoo, Yandex und die meisten anderen. Malware-Bots und Scraper ignorieren sie häufig. Echter Zugriffsschutz braucht serverseitige Maßnahmen wie Passwortschutz oder IP-Blocking.

Wie oft sollte ich die robots.txt aktualisieren?

Mindestens vierteljährlich, plus nach jedem Relaunch, nach strukturellen URL-Änderungen und bei Einführung neuer Bereiche (Blog, Shop, Magazin). Veraltete robots.txt blockiert versehentlich wichtige neue Seiten oder lässt irrelevante Bereiche offen.

Schlagworte

#Robots.txt #Meta Robots #Crawling #Indexierung #Technisches SEO

Arnold Wender

SEO-Experte & Geschäftsinhaber

Arnold Wender ist Gründer und Geschäftsinhaber der Wender Media SEO-Agentur. Mit über 19 Jahren Erfahrung in der Suchmaschinenoptimierung hilft er Unternehmen in Sachsen und Mitteldeutschland, ihre Online-Sichtbarkeit nachhaltig zu verbessern und mehr qualifizierte Anfragen zu generieren.

Profil anzeigen

Technisches SEO

Cookie	Zweck	Dauer	Anbieter
cookieConsent	Speichert Ihre Cookie-Einstellungen	1 Jahr	Eigene Website
theme	Speichert Ihre Farbschema-Praeferenz	1 Jahr	Eigene Website
session	Sitzungsmanagement für Formulare	Sitzung	Eigene Website

Cookie	Zweck	Dauer	Anbieter
language	Speichert Ihre Spracheinstellung	1 Jahr	Eigene Website
region	Speichert Ihre Regionseinstellung	1 Jahr	Eigene Website

robots.txt und Meta-Robots richtig einsetzen: vollständiger Leitfaden

Was die robots.txt ist — und was sie nicht ist

Syntax im Detail

User-agent-Direktiven

Allow- und Disallow-Regeln

Sitemap-Verweis

Crawl-delay

Meta-Robots-Tags — Indexierung pro Seite

Direktiven im Überblick

X-Robots-Tag (HTTP-Header)

robots.txt vs. Meta-Robots vs. X-Robots-Tag

Best Practices aus der Praxis

Was Sie in Leipziger Projekten typischerweise blockieren

Was Sie nicht blockieren dürfen

Testing in der Search Console

Komplette robots.txt für eine typische Leipziger Website

Sieben typische Fehler — und wie Sie sie vermeiden

Verwandte Beiträge

Fazit

FAQ

Was passiert ohne robots.txt?

Kann ich mit robots.txt Seiten aus dem Index entfernen?

Wie teste ich meine robots.txt?

Gilt robots.txt auch für andere Suchmaschinen?

Wie oft sollte ich die robots.txt aktualisieren?

Schlagworte

Arnold Wender

XML-Sitemap erstellen und optimieren: kompletter Leitfaden

Duplicate Content vermeiden: Ursachen, Erkennung und Lösungen

Canonical URLs richtig setzen: Duplicate Content vermeiden

Inhaltsverzeichnis

Fragen zum Thema?

Essenzielle Cookies

Praeferenz-Cookies

robots.txt und Meta-Robots richtig einsetzen: vollständiger Leitfaden

Was die robots.txt ist — und was sie nicht ist

Syntax im Detail

User-agent-Direktiven

Allow- und Disallow-Regeln

Sitemap-Verweis

Crawl-delay

Meta-Robots-Tags — Indexierung pro Seite

Direktiven im Überblick

X-Robots-Tag (HTTP-Header)

robots.txt vs. Meta-Robots vs. X-Robots-Tag

Best Practices aus der Praxis

Was Sie in Leipziger Projekten typischerweise blockieren

Was Sie nicht blockieren dürfen

Testing in der Search Console

Komplette robots.txt für eine typische Leipziger Website

Sieben typische Fehler — und wie Sie sie vermeiden

Verwandte Beiträge

Fazit

FAQ

Was passiert ohne robots.txt?

Kann ich mit robots.txt Seiten aus dem Index entfernen?

Wie teste ich meine robots.txt?

Gilt robots.txt auch für andere Suchmaschinen?

Wie oft sollte ich die robots.txt aktualisieren?

Schlagworte

Arnold Wender

Verwandte Artikel

XML-Sitemap erstellen und optimieren: kompletter Leitfaden

Duplicate Content vermeiden: Ursachen, Erkennung und Lösungen

Canonical URLs richtig setzen: Duplicate Content vermeiden

Inhaltsverzeichnis

SEO-Newsletter

Fragen zum Thema?