Robots.txt-Leitfaden — Suchmaschinen-Crawler verwalten (2026)
Die Kommunikation einer Website mit Suchmaschinen geht weit ueber die Seiten hinaus, die Nutzer sehen. Wenn Suchmaschinen-Crawler (Bots) Ihre Website besuchen, ist die erste Datei, nach der sie suchen, die robots.txt. Diese kleine Textdatei fungiert wie ein Sicherheitsbeamter am Eingang Ihrer Website: Sie bestimmt, welche Crawler auf welche Bereiche zugreifen duerfen und welche fernbleiben sollen. Im Jahr 2026 beschraenkt sich die Bedeutung der robots.txt nicht mehr auf traditionelle Suchmaschinen wie Google und Bing — KI-Crawler wie GPTBot, ClaudeBot und PerplexityBot lesen diese Datei ebenfalls, um die Zugriffsregeln Ihrer Website zu erfahren.
In diesem Leitfaden werden wir alles gruendlich untersuchen — von der grundlegenden Struktur der robots.txt bis hin zu fortgeschrittenen Strategien, vom KI-Crawler-Management bis zu haeufigen Fehlern. Unser Ziel ist es, dass Sie nach dem Lesen dieses Artikels eine optimierte robots.txt-Datei fuer Ihre eigene Website schreiben koennen.
Was ist robots.txt?
Die robots.txt ist eine Klartextdatei, die sich im Stammverzeichnis (Root Directory) einer Website befindet. Sie basiert auf dem Robots Exclusion Protocol (REP), das 1994 von Martijn Koster vorgeschlagen wurde. Die Datei muss immer unter https://example.com/robots.txt erreichbar sein.
Der primaere Zweck dieser Datei besteht darin, Suchmaschinen-Crawlern mitzuteilen, welche Teile Ihrer Website sie crawlen duerfen und welche sie meiden sollen. Eine wichtige Unterscheidung: robots.txt ist empfehlend, nicht verpflichtend. Gutartige Crawler (Googlebot, Bingbot) respektieren diese Regeln, aber boesartige Bots koennen die Datei vollstaendig ignorieren. Daher sollte robots.txt nicht als Sicherheitsmechanismus zum Schutz sensibler Inhalte verwendet werden — nutzen Sie stattdessen Authentifizierung, Verschluesselung oder Zugriffskontrolle auf Serverebene.
Robots.txt-Syntax und Direktiven
Eine robots.txt-Datei besteht aus mehreren grundlegenden Direktiven. Jede Direktive erfuellt eine bestimmte Aufgabe:
User-agent
Legt fest, fuer welchen Crawler die Regeln gelten. Das Platzhalterzeichen (*) umfasst alle Crawler:
```
User-agent: *
Disallow: /admin/
User-agent: Googlebot
Disallow: /internal/
```
Der erste Block sperrt alle Crawler vom Verzeichnis /admin/. Der zweite Block definiert eine Regel speziell fuer Googlebot. Wenn ein Crawler sowohl spezifische als auch allgemeine (*) Regeln findet, wendet er die fuer ihn spezifischen Regeln an.
Disallow
Verhindert das Crawlen des angegebenen Pfads:
```
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /tmp/
```
Eine leere Disallow:-Zeile bedeutet keine Einschraenkungen — der Crawler kann die gesamte Website crawlen:
```
User-agent: *
Disallow:
```
Allow
Erlaubt das Crawlen bestimmter Unterpfade innerhalb eines gesperrten uebergeordneten Verzeichnisses. Google und Bing unterstuetzen diese Direktive:
```
User-agent: *
Disallow: /admin/
Allow: /admin/public-reports/
```
In diesem Beispiel ist das Verzeichnis /admin/ gesperrt, aber Seiten unter /admin/public-reports/ koennen trotzdem gecrawlt werden.
Sitemap
Gibt den Speicherort der XML-Sitemap-Datei an. Diese Direktive ist unabhaengig von User-agent-Bloecken und kann ueberall in der Datei platziert werden:
```
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml
```
Wenn Sie mehrere Sitemap-Dateien haben, koennen Sie jede in einer separaten Zeile angeben. Lesen Sie unseren ausfuehrlichen Leitfaden zur XML-Sitemap-Optimierung.
Crawl-delay
Teilt dem Crawler mit, wie viele Sekunden er zwischen aufeinanderfolgenden Anfragen warten soll:
```
User-agent: Bingbot
Crawl-delay: 10
```
Wichtiger Hinweis: Google unterstuetzt die Crawl-delay-Direktive nicht. Um die Crawl-Rate von Google zu steuern, verwenden Sie die Crawl-Rate-Einstellungen in der Google Search Console. Bing, Yandex und einige andere Crawler beachten diese Direktive jedoch.
Platzhalter und erweiterte Muster
Google und Bing unterstuetzen erweiterten Musterabgleich in robots.txt, einschliesslich Platzhalter (*) und Dollarzeichen ($):
Sternchen (*) — Beliebige Zeichenfolge
```
User-agent: *
Disallow: /*.pdf$
Disallow: /*/print/
Disallow: /search?*q=
```
/*.pdf$: Blockiert alle URLs, die mit.pdfenden./*/print/: Blockiertprint/-Unterpfade in jedem Verzeichnis./search?*q=: Blockiert Suchergebnisseiten.
Dollarzeichen ($) — URL-Ende
Das Dollarzeichen gibt an, dass die URL genau an diesem Punkt enden muss:
```
User-agent: *
Disallow: /*.php$
Allow: /index.php$
```
Diese Regel blockiert alle URLs, die mit .php enden, erlaubt aber die exakte URL /index.php. URLs mit Abfrageparametern wie /index.php?id=5 werden nicht blockiert, da sie die $-Bedingung (Ende) nicht erfuellen.
Gaengige Robots.txt-Muster
Untersuchen wir die in der Praxis am haeufigsten verwendeten robots.txt-Konfigurationen:
1. Admin-Bereiche sperren
```
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /dashboard/
Allow: /wp-admin/admin-ajax.php
```
Bei WordPress-Websites ist es wichtig, admin-ajax.php zuzulassen, da viele Frontend-Funktionen von dieser Datei abhaengig sind.
2. Suchergebnisseiten sperren
```
User-agent: *
Disallow: /search
Disallow: /suche
Disallow: /?s=
Disallow: /search?*
```
Suchergebnisseiten koennen minderwertigen, dynamischen Inhalt erzeugen, der Crawl-Budget verschwendet.
3. Staging-/Testumgebungen sperren
```
User-agent: *
Disallow: /staging/
Disallow: /test/
Disallow: /dev/
```
Alternativ, wenn Ihre Staging-Umgebung auf einer voellig separaten Subdomain liegt (staging.example.com), ist es besser, in der eigenen robots.txt dieser Subdomain den gesamten Zugriff zu sperren:
```
User-agent: *
Disallow: /
```
4. Parameterbasierte Filterseiten sperren
```
User-agent: *
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*&page=
Disallow: /*?color=
```
Auf E-Commerce-Websites koennen Sortier- und Filterparameter Tausende von Duplikatseiten erzeugen. Das Blockieren dieser Seiten ist eine der effektivsten Methoden zur Erhaltung des Crawl-Budgets.
Robots.txt vs Meta Robots vs X-Robots-Tag
Es gibt drei verschiedene Mechanismen zur Steuerung des Crawler-Verhaltens. Jeder hat einen unterschiedlichen Anwendungsbereich:
Robots.txt
- Umfang: Steuert die Crawling-Phase.
- Ort: Eine einzelne Datei im Stammverzeichnis der Website.
- Funktion: Teilt dem Crawler mit: "Crawle diese Seite nicht."
- Was es nicht tut: Verhindert nicht die Indexierung der Seite. Wenn andere Websites auf diese Seite verlinken, kann Google sie auch ohne Crawling indexieren.
- Idealer Einsatz: Crawl-Budget-Management, Verhinderung des Crawlens unnuetziger Seiten.
Meta-Robots-Tag
- Umfang: Steuert die Indexierungsphase.
- Ort: Im
-Bereich der HTML-Seite. - Funktion: Teilt dem Crawler mit: "Indexiere diese Seite nicht" oder "Folge den Links auf dieser Seite nicht."
- Werte:
noindex,nofollow,noarchive,nosnippet,max-snippet,max-image-preview,max-video-preview.
```html
```
- Idealer Einsatz: Entfernung bestimmter Seiten aus dem Index.
X-Robots-Tag HTTP-Header
- Umfang: Steuert die Indexierungsphase (wie Meta Robots).
- Ort: Im HTTP-Antwort-Header.
- Vorteil: Kann fuer Nicht-HTML-Dateien wie PDFs, Bilder und Videos verwendet werden.
```
HTTP/1.1 200 OK
X-Robots-Tag: noindex, nofollow
```
- Idealer Einsatz: Steuerung der Indexierung von Nicht-HTML-Ressourcen.
Vergleichstabelle
| Eigenschaft | robots.txt | Meta Robots | X-Robots-Tag |
|---|---|---|---|
| Blockiert Crawling | Ja | Nein | Nein |
| Blockiert Indexierung | Nein | Ja | Ja |
| Nicht-HTML-Dateien | Nein | Nein | Ja |
| Seitenspezifische Kontrolle | Begrenzt | Ja | Ja |
| Implementierung | Datei | HTML head | HTTP-Header |
Kritischer Fehler: Eine Seite mit robots.txt zu blockieren und gleichzeitig mit einem noindex-Meta-Tag aus dem Index zu entfernen, funktioniert nicht. Da der Crawler die Seite nicht crawlen kann, sieht er das Meta-Tag nie. Wenn Sie eine Seite aus dem Index entfernen moechten, blockieren Sie sie nicht mit robots.txt — lassen Sie die Seite crawlbar und verwenden Sie das noindex-Tag. Wir behandeln dies ausfuehrlich in unserem Technischen-SEO-Leitfaden.
Robots.txt testen
Das Testen Ihrer robots.txt-Datei vor der Bereitstellung ist entscheidend. Eine falsche Regel koennte dazu fuehren, dass Ihre gesamte Website aus dem Index verschwindet.
Google Search Console — Robots.txt-Tester
Das robots.txt-Testtool in der Google Search Console ermoeglicht es Ihnen zu sehen, wie die Regeln in Ihrer Datei auf bestimmte URLs angewendet werden:
- Melden Sie sich bei der Google Search Console an.
- Navigieren Sie im linken Menue zu "Einstellungen" > "robots.txt".
- Zeigen Sie Ihre aktuelle robots.txt-Datei an.
- Testen Sie bestimmte URLs, um den gesperrten/erlaubten Status zu ueberpruefen.
Bing Webmaster Tools
Bing Webmaster Tools bietet ebenfalls ein aehnliches robots.txt-Validierungstool. Es ist besonders nuetzlich, um zu ueberpruefen, wie Bing die Crawl-delay-Direktive interpretiert.
Kommandozeilentest
Um die Erreichbarkeit und den HTTP-Statuscode Ihrer robots.txt-Datei zu ueberpruefen:
```bash
curl -I https://example.com/robots.txt
```
Die erwartete Antwort sollte 200 OK sein. Ein 404 Not Found bedeutet, dass Suchmaschinen die gesamte Website als crawlbar betrachten. Ein 5xx-Fehler kann dazu fuehren, dass Crawler das Crawlen Ihrer Website vollstaendig einstellen — ein Problem, das schwer zu erkennen ist, aber schwerwiegende Folgen hat.
Python-Validierung
Pythons Standardbibliothek enthaelt das Modul urllib.robotparser zum Parsen von robots.txt-Dateien:
```python
from urllib.robotparser import RobotFileParser
rp = RobotFileParser()
rp.set_url("https://example.com/robots.txt")
rp.read()
Pruefen, ob eine bestimmte URL gecrawlt werden darf
print(rp.can_fetch("Googlebot", "https://example.com/admin/"))
False
print(rp.can_fetch("*", "https://example.com/blog/"))
True
```
KI-Crawler-Management (2026)
Im Jahr 2026 ist einer der aktuellsten und kritischsten Anwendungsfaelle fuer robots.txt die Verwaltung von KI-Crawlern. Grosse Sprachmodelle wie ChatGPT, Claude, Perplexity und Gemini verwenden spezialisierte Crawler, um Inhalte aus dem Web zu sammeln. Diese Crawler verpflichten sich, die robots.txt-Regeln zu respektieren.
Wichtige KI-Crawler und ihre User-agent-Namen
| Crawler | User-agent | Unternehmen | Zweck |
|---|---|---|---|
| GPTBot | GPTBot | OpenAI | ChatGPT-Trainingsdaten und Web-Browsing |
| ChatGPT-User | ChatGPT-User | OpenAI | ChatGPT-Echtzeit-Websuche |
| Google-Extended | Google-Extended | Gemini-KI-Trainingsdaten | |
| ClaudeBot | anthropic-ai | Anthropic | Claude-Trainingsdaten |
| PerplexityBot | PerplexityBot | Perplexity | KI-Suchmaschine |
| CCBot | CCBot | Common Crawl | Open-Source-Datensammlung |
| Bytespider | Bytespider | ByteDance | TikTok/ByteDance-KI-Modelle |
| Applebot-Extended | Applebot-Extended | Apple | Apple Intelligence |
Alle KI-Crawler blockieren
Wenn Sie nicht moechten, dass Ihre Inhalte als Trainingsdaten von KI-Modellen verwendet werden:
```
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Applebot-Extended
Disallow: /
```
Selektives KI-Crawler-Management
Sie moechten moeglicherweise einige KI-Crawler zulassen und andere blockieren. Beispielsweise Traffic von Perplexity und der Web-Suchfunktion von ChatGPT erhalten, waehrend die Sammlung von Trainingsdaten blockiert wird:
```
Echtzeit-KI-Suche — erlauben (bringt Traffic)
User-agent: ChatGPT-User
Disallow:
User-agent: PerplexityBot
Disallow:
Trainingsdatensammlung — blockieren
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: CCBot
Disallow: /
```
Teilweiser KI-Crawler-Zugriff
Halten Sie Ihre Blog-Inhalte fuer KI-Crawler offen, waehrend Premium- oder geschuetzte Inhalte blockiert werden:
```
User-agent: GPTBot
Disallow: /premium/
Disallow: /members-only/
Disallow: /api/
Allow: /blog/
Allow: /docs/
User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members-only/
Allow: /blog/
```
Strategisches Denken zum KI-Crawler-Management
Im Jahr 2026 kann die vollstaendige Blockierung von KI-Crawlern eine kostspielige Entscheidung in Bezug auf die Sichtbarkeit sein. Plattformen wie ChatGPT, Perplexity und Gemini sind zu Informationsquellen fuer Millionen von Nutzern geworden. Wenn Ihre Inhalte auf diesen Plattformen referenziert werden, kann dies einen neuen Traffic-Kanal schaffen. Bei der Festlegung Ihrer Strategie sollten Sie folgende Fragen beruecksichtigen:
- Stoert es Sie, wenn Ihre Inhalte als Trainingsdaten von KI-Modellen verwendet werden?
- Ist organischer Traffic von KI-Suchmaschinen fuer Ihr Geschaeftsmodell wertvoll?
- Sollten nur Premium-/kostenpflichtige Inhalte oder alle Inhalte geschuetzt werden?
Ein selektiver Ansatz basierend auf den Antworten auf diese Fragen ist in der Regel die sinnvollste Strategie.
Haeufige Robots.txt-Fehler
Fehler in robots.txt-Dateien koennen Probleme verursachen, die schwer zu erkennen sind, aber schwerwiegende Folgen haben. Untersuchen wir die haeufigsten Fehler und ihre Loesungen:
1. CSS- und JavaScript-Dateien blockieren
```
FALSCH — Tun Sie das nicht!
User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /assets/
```
Google benoetigt Zugriff auf CSS- und JavaScript-Dateien, um Ihre Seiten zu rendern (visuell zu interpretieren). Wenn Sie diese Dateien blockieren, kann Google Ihre Seite nicht richtig rendern, und Ihre Ranking-Performance wird erheblich sinken. Sie erhalten Warnungen "Ressourcen blockiert" in der Google Search Console.
2. Versehentlich die gesamte Website blockieren
```
GEFAEHRLICH — Ein einzelner Schraegstrich blockiert die gesamte Website!
User-agent: *
Disallow: /
```
Diese Regel verhindert, dass alle Crawler auf die gesamte Website zugreifen. Sie mag fuer Staging-Umgebungen geeignet sein, sollte aber niemals in der Produktion verwendet werden. Ein einzelner Zeichenfehler kann Ihre Website vollstaendig aus dem Index entfernen.
3. Gross-/Kleinschreibung
Robots.txt-Pfade beachten die Gross-/Kleinschreibung:
```
Disallow: /Admin/ # Blockiert nur /Admin/
Disallow: /admin/ # Blockiert nur /admin/ — das sind verschiedene Regeln
```
Selbst wenn Ihr Server nicht zwischen Gross- und Kleinschreibung unterscheidet, werden Pfade in der robots.txt als gross-/kleinschreibungssensitiv interpretiert. Beide Varianten hinzuzufuegen ist eine sichere Praxis.
4. Abschliessenden Schraegstrich vergessen
```
Disallow: /admin # Blockiert /admin, /admin.html, /administrator — alles mit /admin beginnend
Disallow: /admin/ # Blockiert nur das Verzeichnis /admin/ und dessen Inhalte
```
Ohne abschliessenden Schraegstrich stimmt Disallow: /admin mit allen URLs ueberein, die mit /admin beginnen. Dies kann zu unbeabsichtigten Folgen fuehren.
5. Leere Datei mit fehlender Datei verwechseln
- Keine Datei (404): Alle Crawler koennen die gesamte Website crawlen.
- Leere Datei (200, kein Inhalt): Alle Crawler koennen die gesamte Website crawlen.
- Datei mit Inhalt: Regeln werden angewendet.
Das Fehlen einer Datei und eine leere Datei haben praktisch die gleiche Wirkung, aber eine leere Datei repraesentiert eine bewusste Entscheidung und ist professioneller. Mindestens eine robots.txt-Datei mit der Sitemap-Direktive zu fuehren, ist Best Practice.
6. Robots.txt am falschen Ort platzieren
Die robots.txt funktioniert nur im Stammverzeichnis der Website:
```
Richtig: https://example.com/robots.txt
Falsch: https://example.com/pages/robots.txt
Unterschied: https://blog.example.com/robots.txt — gilt nur fuer blog.example.com
```
Jede Subdomain erfordert eine eigene robots.txt-Datei. www.example.com und example.com koennen unterschiedliche robots.txt-Dateien haben.
7. Protokollfehler in der Sitemap-URL
```
FALSCH
Sitemap: /sitemap.xml
RICHTIG
Sitemap: https://example.com/sitemap.xml
```
Die Sitemap-Direktive muss immer eine vollstaendige URL (Protokoll + Domain + Pfad) verwenden.
Robots.txt-Strategien fuer grosse Websites
Fuer Websites mit Hunderttausenden oder Millionen von Seiten ist robots.txt eines der wichtigsten Werkzeuge fuer das Crawl-Budget-Management.
Facettierte Navigationssteuerung
Auf E-Commerce-Websites erzeugen Filter-, Sortier- und Paginierungsparameter eine enorme Anzahl von URL-Kombinationen:
```
User-agent: *
Filterparameter
Disallow: /*?sort=
Disallow: /*?order=
Disallow: /*?filter=
Disallow: /*&color=
Disallow: /*&size=
Disallow: /*&brand=
Kreuzfilterung
Disallow: /?color=&size=
Disallow: /?brand=&color=
Druckfreundliche Seiten
Disallow: /*/print/
Disallow: /*?print=
Sitzungs- und Tracking-Parameter
Disallow: /*?session_id=
Disallow: /*?utm_
Disallow: /*?ref=
```
Crawl-Budget-Optimierung
Lenken Sie Ihr Crawl-Budget auf hochwertige Seiten, indem Sie minderwertige Seiten vom Crawling ausschliessen:
```
User-agent: *
Minderwertige Seiten
Disallow: /tag/
Disallow: /author/
Disallow: /archive/
Disallow: /page/
Hochwertige Seiten — Zugriff offen
Allow: /products/
Allow: /categories/
Allow: /blog/
```
Durch eine Log-Datei-Analyse koennen Sie ermitteln, welche Seiten unnoetig gecrawlt werden, und Ihre robots.txt-Regeln entsprechend optimieren.
Robots.txt-HTTP-Statuscodes und Crawler-Verhalten
Wenn robots.txt verschiedene HTTP-Statuscodes zurueckgibt, verhalten sich Crawler unterschiedlich:
| Statuscode | Crawler-Verhalten |
|---|---|
| 200 OK | Regeln werden gelesen und angewendet |
| 301/302 Weiterleitung | Das Weiterleitungsziel wird gelesen (bis zu 5 Weiterleitungen) |
| 404 Not Found | Keine Einschraenkungen, gesamte Website crawlbar |
| 410 Gone | Keine Einschraenkungen, gesamte Website crawlbar |
| 5xx Serverfehler | Google stoppt das Crawling voruebergehend (vollstaendige Einschraenkung) |
Der 5xx-Fehler ist besonders gefaehrlich. Wenn auf die robots.txt aufgrund eines Serverfehlers nicht zugegriffen werden kann, fuehrt Googles Prinzip "auf der sicheren Seite bleiben" dazu, dass das Crawling der gesamten Website eingestellt wird. Wenn dieser Zustand stundenlang andauert, kann er zu einem Indexverlust fuehren.
Robots.txt-Datei erstellen und verwalten
Grundlegende Vorlage
Eine geeignete Startvorlage fuer die meisten Websites:
```
Robots.txt — example.com
Letzte Aktualisierung: 2026-03-01
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /private/
Disallow: /tmp/
Disallow: /*?session_id=
Disallow: /*?utm_
KI-Crawler-Management
User-agent: GPTBot
Disallow: /premium/
Allow: /blog/
User-agent: Google-Extended
Disallow: /
User-agent: anthropic-ai
Disallow: /premium/
Allow: /blog/
Sitemap
Sitemap: https://example.com/sitemap.xml
```
Robots.txt fuer WordPress
```
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /?s=
Disallow: /search/
Sitemap: https://example.com/sitemap_index.xml
```
Robots.txt fuer Next.js / React-Anwendungen
```
User-agent: *
Disallow: /api/
Disallow: /_next/static/
Allow: /_next/image/
Disallow: /admin/
Disallow: /dashboard/
Sitemap: https://example.com/sitemap.xml
```
Robots.txt-Aenderungen ueberwachen
Die Ueberwachung von Aenderungen an Ihrer robots.txt-Datei ist entscheidend. Eine versehentliche Aenderung kann schwerwiegende Probleme verursachen:
- Verwenden Sie Versionskontrolle. Verfolgen Sie Ihre robots.txt-Datei mit Git.
- Richten Sie Aenderungsbenachrichtigungen ein. Benachrichtigen Sie Ihr Team, wenn die Datei geaendert wird.
- Fuehren Sie regelmaessige Audits durch. Ueberpruefen Sie Ihre robots.txt-Datei monatlich und nehmen Sie sie in Ihren SEO-Audit-Prozess auf.
- Ueberwachen Sie Google Search Console-Warnungen. Ueberpruefen Sie regelmaessig den Bericht "Durch robots.txt blockierte URLs".
Robots.txt-Checkliste 2026
Eine umfassende Checkliste zur Bewertung der robots.txt-Datei Ihrer Website:
Grundlegende Struktur:
- [ ] Datei ist unter
https://ihrewebsite.com/robots.txtmit Statuscode 200 erreichbar - [ ] UTF-8-Kodierung wird verwendet
- [ ] Dateigroesse liegt unter 500 KB (Google-Limit)
- [ ] Syntax ist fehlerfrei
Zugriffsregeln:
- [ ] CSS-, JavaScript- und Bilddateien sind nicht blockiert
- [ ] Wichtige Seiten sind nicht versehentlich blockiert
- [ ] Admin-/API-Verzeichnisse sind blockiert
- [ ] Suchergebnisseiten sind blockiert
- [ ] Parameterbasierte Duplikatseiten sind blockiert
Sitemap:
- [ ] Sitemap-Direktive enthaelt vollstaendige URL
- [ ] Sitemap-Datei ist erreichbar und gueltig
KI-Crawler:
- [ ] KI-Crawler-Strategie festgelegt (erlauben / teilweiser Zugriff / blockieren)
- [ ] Alle bekannten KI-Crawler-User-Agents beruecksichtigt
- [ ] KI-Zugriffsentscheidungen mit der Geschaeftsstrategie abgestimmt
Tests und Ueberwachung:
- [ ] Mit Google Search Console validiert
- [ ] Kritische URLs getestet
- [ ] Unter Versionskontrolle
- [ ] Regelmaessiger Audit geplant
Ueberpruefen Sie diese Checkliste monatlich. Wenn sich die Struktur Ihrer Website aendert — neue Verzeichnisse hinzugefuegt, Subdomains gestartet oder neue Inhaltstypen veroeffentlicht werden — vergessen Sie nicht, Ihre robots.txt-Datei zu aktualisieren.
Fazit
Die robots.txt ist einer der grundlegendsten Bausteine der technischen SEO. Eine korrekt konfigurierte robots.txt-Datei stellt sicher, dass Suchmaschinen Ihre Website effizient crawlen, schuetzt Ihr Crawl-Budget und verwaltet Ihre Beziehung zu KI-Crawlern. Im Jahr 2026 ist das KI-Crawler-Management zum dynamischsten und strategischsten Anwendungsfall fuer robots.txt geworden.
Denken Sie daran: robots.txt ist kein Sicherheitstool, sondern ein Kommunikationstool. Es vermittelt Crawlern Ihre Botschaft darueber, "was gecrawlt werden soll und was nicht." Diese Botschaft richtig zu uebermitteln, bildet das Fundament Ihrer organischen Sichtbarkeit.