Blog'a Dön
robots.txtteknik seocrawl budgetarama motoru tarayıcılarıai tarayıcırobots exclusion protocolgooglebot

Robots.txt Rehberi — Arama Motoru Tarayıcılarını Yönetme (2026)

SEOctopus14 dk okuma süresi

Bir web sitesinin arama motorlarıyla iletişimi, kullanıcıların gördüğü sayfaların çok ötesine geçer. Arama motoru tarayıcıları (crawler/bot) sitenizi ziyaret ettiğinde ilk baktıkları dosya robots.txt''dir. Bu küçük metin dosyası, sitenizin giriş kapısındaki güvenlik görevlisi gibi çalışır: hangi tarayıcının hangi bölümlere erişebileceğini, hangilerinin uzak durması gerektiğini belirler. 2026 itibarıyla robots.txt''in önemi yalnızca Google ve Bing gibi geleneksel arama motorlarıyla sınırlı değildir — GPTBot, ClaudeBot, PerplexityBot gibi yapay zekâ tarayıcıları da bu dosyayı okuyarak sitenize erişim kurallarını öğrenir.

Bu rehberde robots.txt''in temel yapısından ileri düzey stratejilere, AI tarayıcı yönetiminden yaygın hatalara kadar her şeyi derinlemesine inceleyeceğiz. Amacımız, siz bu makaleyi bitirdiğinizde kendi siteniz için optimize edilmiş bir robots.txt dosyası yazabilmenizi sağlamak.

Robots.txt Nedir?

Robots.txt, bir web sitesinin kök dizininde (root directory) bulunan düz metin dosyasıdır. Robots Exclusion Protocol (REP) standardına dayanır ve 1994 yılında Martijn Koster tarafından önerilmiştir. Dosya her zaman https://example.com/robots.txt adresinde erişilebilir olmalıdır.

Bu dosyanın temel amacı, arama motoru tarayıcılarına sitenin hangi bölümlerini tarayabileceklerini ve hangilerini taramaktan kaçınmaları gerektiğini bildirmektir. Önemli bir ayrım: robots.txt bir tavsiye niteliğindedir, bir zorunluluk değil. İyi niyetli tarayıcılar (Googlebot, Bingbot) bu kurallara uyar, ancak kötü niyetli botlar bu dosyayı tamamen görmezden gelebilir. Bu nedenle robots.txt, hassas içerikleri korumak için bir güvenlik mekanizması olarak kullanılmamalıdır — bunun için kimlik doğrulama, şifreleme veya sunucu düzeyinde erişim kontrolü tercih edilmelidir.

Robots.txt Söz Dizimi ve Direktifler

Robots.txt dosyası birkaç temel direktiften oluşur. Her direktif belirli bir görevi üstlenir:

User-agent

Kuralların hangi tarayıcıya uygulanacağını belirler. Joker karakter (*) tüm tarayıcıları kapsar:

```

User-agent: *

Disallow: /admin/

User-agent: Googlebot

Disallow: /internal/

```

İlk blok tüm tarayıcılara /admin/ dizinini yasaklar. İkinci blok ise yalnızca Googlebot''a özel bir kural tanımlar. Bir tarayıcı hem kendisine özel hem de genel (*) kurallar bulduğunda, kendisine özel kuralları uygular.

Disallow

Belirtilen yolun taranmasını engeller:

```

User-agent: *

Disallow: /admin/

Disallow: /private/

Disallow: /tmp/

```

Boş Disallow: satırı, hiçbir kısıtlama olmadığı anlamına gelir — tarayıcı tüm siteyi tarayabilir:

```

User-agent: *

Disallow:

```

Allow

Disallow ile engellenmiş bir üst dizin içindeki belirli alt yolların taranmasına izin verir. Google ve Bing bu direktifi destekler:

```

User-agent: *

Disallow: /admin/

Allow: /admin/public-reports/

```

Bu örnekte /admin/ dizini engellenmiş olsa da /admin/public-reports/ altındaki sayfalar taranabilir.

Sitemap

XML sitemap dosyasının konumunu bildirir. Bu direktif User-agent bloğundan bağımsızdır ve dosyanın herhangi bir yerine yazılabilir:

```

Sitemap: https://example.com/sitemap.xml

Sitemap: https://example.com/sitemap-images.xml

```

Birden fazla sitemap dosyanız varsa her birini ayrı satırda belirtebilirsiniz. XML sitemap optimizasyonu hakkında detaylı rehberimizi inceleyebilirsiniz.

Crawl-delay

Tarayıcıya art arda istekler arasında kaç saniye beklemesi gerektiğini söyler:

```

User-agent: Bingbot

Crawl-delay: 10

```

Önemli not: Google, Crawl-delay direktifini desteklemez. Google''ın tarama hızını kontrol etmek için Google Search Console''daki tarama hızı ayarlarını kullanmalısınız. Ancak Bing, Yandex ve bazı diğer tarayıcılar bu direktifi uygular.

Joker Karakterler ve Gelişmiş Kalıplar

Google ve Bing, robots.txt''de joker karakter (*) ve dolar işareti ($) gibi genişletilmiş kalıp eşleştirme desteği sunar:

Yıldız (*) — Herhangi bir Karakter Dizisi

```

User-agent: *

Disallow: /*.pdf$

Disallow: /*/print/

Disallow: /search?*q=

```

  • /*.pdf$: .pdf ile biten tüm URL''leri engeller.
  • /*/print/: Herhangi bir dizin altındaki print/ alt yollarını engeller.
  • /search?*q=: Arama sonuç sayfalarını engeller.

Dolar İşareti ($) — URL Sonu

Dolar işareti, URL''nin tam olarak o noktada bitmesi gerektiğini belirtir:

```

User-agent: *

Disallow: /*.php$

Allow: /index.php$

```

Bu kural .php ile biten tüm URL''leri engeller, ancak tam olarak /index.php olan URL''ye izin verir. /index.php?id=5 gibi sorgu parametreli URL''ler engellenmez çünkü URL $ (bitiş) koşulunu karşılamaz.

Yaygın Robots.txt Kalıpları

Pratikte en sık kullanılan robots.txt yapılandırmalarını inceleyelim:

1. Admin Panelini Engelleme

```

User-agent: *

Disallow: /admin/

Disallow: /wp-admin/

Disallow: /dashboard/

Allow: /wp-admin/admin-ajax.php

```

WordPress sitelerinde admin-ajax.php dosyasına izin vermek önemlidir çünkü birçok ön yüz işlevi bu dosyaya bağımlıdır.

2. Arama Sonuç Sayfalarını Engelleme

```

User-agent: *

Disallow: /search

Disallow: /arama

Disallow: /?s=

Disallow: /search?*

```

Arama sonuç sayfaları düşük kaliteli, dinamik içerik üretebildiğinden crawl budget israfına neden olabilir.

3. Hazırlık/Test Ortamını Engelleme

```

User-agent: *

Disallow: /staging/

Disallow: /test/

Disallow: /dev/

```

Alternatif olarak, hazırlık ortamı tamamen farklı bir subdomain üzerindeyse (staging.example.com), o subdomain''in kendi robots.txt dosyasında tüm erişimi engellemek daha doğrudur:

```

User-agent: *

Disallow: /

```

4. Parametre Tabanlı Filtreleme Sayfalarını Engelleme

```

User-agent: *

Disallow: /*?sort=

Disallow: /*?filter=

Disallow: /*&page=

Disallow: /*?color=

```

E-ticaret sitelerinde sıralama ve filtreleme parametreleri binlerce duplicate sayfa oluşturabilir. Bu sayfaların taranmasını engellemek crawl budget''i korumanın en etkili yollarından biridir.

5. Tüm Siteyi Tüm Tarayıcılara Açma

```

User-agent: *

Disallow:

Sitemap: https://example.com/sitemap.xml

```

En basit robots.txt yapılandırması: tüm tarayıcılara tüm erişim açık, sitemap konumu bildirilmiş.

[Görsel: GORSEL: Robots.txt direktiflerinin şematik gösterimi — User-agent, Disallow, Allow, Sitemap direktiflerinin birbirleriyle ilişkisi]

Robots.txt vs Meta Robots vs X-Robots-Tag

Tarayıcı davranışını kontrol etmek için üç farklı mekanizma vardır. Her birinin kullanım alanı ve kapsamı farklıdır:

Robots.txt

  • Kapsam: Tarama (crawling) aşamasını kontrol eder.
  • Konum: Sitenin kök dizininde tek bir dosya.
  • Yaptığı: Tarayıcıya "bu sayfayı tarama" der.
  • Yapmadığı: Sayfanın indekslenmesini engellemez. Eğer başka siteler o sayfaya link veriyorsa, Google sayfayı taramadan bile indeksleyebilir.
  • İdeal kullanım: Crawl budget yönetimi, gereksiz sayfaların taranmasının engellenmesi.

Meta Robots Etiketi

  • Kapsam: İndeksleme (indexing) aşamasını kontrol eder.
  • Konum: HTML sayfasının bölümünde.
  • Yaptığı: Tarayıcıya "bu sayfayı indeksleme" veya "bu sayfadaki linkleri takip etme" der.
  • Değerler: noindex, nofollow, noarchive, nosnippet, max-snippet, max-image-preview, max-video-preview.

```html

```

  • İdeal kullanım: Belirli sayfaların indeksten çıkarılması.

X-Robots-Tag HTTP Başlığı

  • Kapsam: İndeksleme aşamasını kontrol eder (meta robots ile aynı).
  • Konum: HTTP yanıt başlığında (response header).
  • Avantajı: PDF, görsel, video gibi HTML olmayan dosyalar için kullanılabilir.

```

HTTP/1.1 200 OK

X-Robots-Tag: noindex, nofollow

```

  • İdeal kullanım: HTML olmayan kaynakların indekslenmesinin kontrolü.

Karşılaştırma Tablosu

Özellikrobots.txtMeta RobotsX-Robots-Tag
Taramayı engellerEvetHayırHayır
İndekslemeyi engellerHayırEvetEvet
HTML dışı dosyalarHayırHayırEvet
Sayfa bazlı kontrolSınırlıEvetEvet
Uygulama yeriDosyaHTML headHTTP header

Kritik hata: Bir sayfayı robots.txt ile engelleyip aynı zamanda noindex meta etiketi ile indeksten çıkarmaya çalışmak çalışmaz. Tarayıcı sayfayı taramadığı için meta etiketi göremez. Bir sayfayı indeksten çıkarmak istiyorsanız, robots.txt ile engellemeyin — sayfayı taranabilir bırakın ve noindex etiketi kullanın. Teknik SEO rehberimizde bu konuyu detaylı ele alıyoruz.

Robots.txt''i Test Etme

Robots.txt dosyanızı yayımlamadan önce test etmek kritiktir. Yanlış bir kural, sitenizin tamamının indeksten düşmesine neden olabilir.

Google Search Console — robots.txt Tester

Google Search Console''daki robots.txt test aracı, dosyanızdaki kuralların belirli URL''lere nasıl uygulandığını görmenizi sağlar:

  1. Google Search Console''a giriş yapın.
  2. Sol menüden "Ayarlar" > "robots.txt" bölümüne gidin.
  3. Mevcut robots.txt dosyanızı görüntüleyin.
  4. Belirli URL''leri test ederek engellenen/izin verilen durumları kontrol edin.

Bing Webmaster Tools

Bing Webmaster Tools da benzer bir robots.txt doğrulama aracı sunar. Özellikle Bing''in Crawl-delay direktifini nasıl yorumladığını kontrol etmek için faydalıdır.

Komut Satırı ile Test

Robots.txt dosyanızın erişilebilirliğini ve HTTP durum kodunu kontrol etmek için:

```bash

curl -I https://example.com/robots.txt

```

Beklenen yanıt 200 OK olmalıdır. 404 Not Found durumunda arama motorları tüm siteyi taranabilir kabul eder. 5xx hata durumunda ise tarayıcılar genellikle siteyi taramayı durdurur — bu, fark edilmesi güç ama ciddi sonuçları olan bir sorundur.

Python ile Doğrulama

Python''un standart kütüphanesi robots.txt dosyalarını ayrıştırmak için urllib.robotparser modülünü içerir:

```python

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()

rp.set_url("https://example.com/robots.txt")

rp.read()

Belirli bir URL''nin taranabilirliğini kontrol et

print(rp.can_fetch("Googlebot", "https://example.com/admin/"))

False

print(rp.can_fetch("*", "https://example.com/blog/"))

True

```

AI Tarayıcı Yönetimi (2026)

2026''da robots.txt''in en güncel ve kritik kullanım alanlarından biri, yapay zekâ tarayıcılarını yönetmektir. ChatGPT, Claude, Perplexity, Gemini gibi büyük dil modelleri, web''den içerik toplamak için özel tarayıcılar kullanır. Bu tarayıcılar robots.txt kurallarına uymayı taahhüt eder.

Başlıca AI Tarayıcıları ve User-agent Adları

TarayıcıUser-agentŞirketAmaç
GPTBotGPTBotOpenAIChatGPT eğitim verisi ve web tarama
ChatGPT-UserChatGPT-UserOpenAIChatGPT''nin gerçek zamanlı web araması
Google-ExtendedGoogle-ExtendedGoogleGemini AI eğitim verisi
ClaudeBotanthropic-aiAnthropicClaude eğitim verisi
PerplexityBotPerplexityBotPerplexityAI arama motoru
CCBotCCBotCommon CrawlAçık kaynak veri toplama
BytespiderBytespiderByteDanceTikTok/ByteDance AI modelleri
Applebot-ExtendedApplebot-ExtendedAppleApple Intelligence

Tüm AI Tarayıcılarını Engelleme

İçeriğinizin AI modelleri tarafından eğitim verisi olarak kullanılmasını istemiyorsanız:

```

User-agent: GPTBot

Disallow: /

User-agent: ChatGPT-User

Disallow: /

User-agent: Google-Extended

Disallow: /

User-agent: anthropic-ai

Disallow: /

User-agent: PerplexityBot

Disallow: /

User-agent: CCBot

Disallow: /

User-agent: Bytespider

Disallow: /

User-agent: Applebot-Extended

Disallow: /

```

Seçici AI Tarayıcı Yönetimi

Bazı AI tarayıcılarına izin verip diğerlerini engellemek isteyebilirsiniz. Örneğin, Perplexity ve ChatGPT''nin web arama özelliğinden trafik almak isterken eğitim verisi toplamasını engellemek:

```

Gerçek zamanlı AI arama — izin ver (trafik getirir)

User-agent: ChatGPT-User

Disallow:

User-agent: PerplexityBot

Disallow:

Eğitim verisi toplama — engelle

User-agent: GPTBot

Disallow: /

User-agent: Google-Extended

Disallow: /

User-agent: anthropic-ai

Disallow: /

User-agent: CCBot

Disallow: /

```

AI Tarayıcılarına Kısmi Erişim

Blog içeriklerinizi AI tarayıcılarına açık tutarken premium veya giriş gerektiren içerikleri engellemek:

```

User-agent: GPTBot

Disallow: /premium/

Disallow: /members-only/

Disallow: /api/

Allow: /blog/

Allow: /docs/

User-agent: PerplexityBot

Disallow: /premium/

Disallow: /members-only/

Allow: /blog/

```

AI Tarayıcı Yönetiminde Stratejik Düşünce

2026''da AI tarayıcılarını tamamen engellemek, görünürlük açısından maliyetli bir karar olabilir. ChatGPT, Perplexity ve Gemini gibi platformlar milyonlarca kullanıcının bilgi kaynağı haline gelmiştir. İçeriğinizin bu platformlarda referans gösterilmesi, yeni bir trafik kanalı oluşturabilir. Stratejinizi belirlerken şu soruları sormanızda fayda var:

  • İçeriğiniz AI modelleri tarafından eğitim verisi olarak kullanıldığında bundan rahatsızlık duyuyor musunuz?
  • AI arama motorlarından organik trafik almak iş modeliniz için değerli mi?
  • Premium/ücretli içerikleriniz mi yoksa tüm içerikleriniz mi korunmalı?

Bu soruların cevaplarına göre seçici bir yaklaşım benimsemek genellikle en mantıklı stratejidir.

Yaygın Robots.txt Hataları

Robots.txt dosyasındaki hatalar, fark edilmesi güç ama sonuçları ağır sorunlara neden olabilir. En sık karşılaşılan hataları ve çözümlerini inceleyelim:

1. CSS ve JavaScript Dosyalarını Engelleme

```

YANLIŞ — Bunu yapmayın!

User-agent: *

Disallow: /css/

Disallow: /js/

Disallow: /assets/

```

Google, sayfalarınızı render etmek (görsel olarak yorumlamak) için CSS ve JavaScript dosyalarına erişim gerektirir. Bu dosyaları engellerseniz, Google sayfanızı düzgün render edemez ve sıralama performansınız ciddi şekilde düşebilir. Google Search Console''da "Kaynaklar engellendi" uyarısı alırsınız.

2. Tüm Siteyi Yanlışlıkla Engelleme

```

TEHLİKELİ — Tek bir slash tüm siteyi engeller!

User-agent: *

Disallow: /

```

Bu kural tüm tarayıcıların tüm siteyi taramasını engeller. Hazırlık ortamı için uygun olabilir ancak üretim (production) ortamında kesinlikle kullanılmamalıdır. Bir karakter hatası sitenizi tamamen indeksten düşürebilir.

3. Büyük/Küçük Harf Duyarlılığı

Robots.txt yolları büyük/küçük harf duyarlıdır:

```

Disallow: /Admin/ # Sadece /Admin/ engeller

Disallow: /admin/ # Sadece /admin/ engeller — bunlar farklı kurallardır

```

Sunucunuz büyük/küçük harf duyarsız çalışıyorsa bile, robots.txt''deki yollar büyük/küçük harf duyarlı olarak yorumlanır. Her iki varyasyonu da eklemek güvenlidir.

4. Sonuna Slash Koymayı Unutma

```

Disallow: /admin # /admin, /admin.html, /administrator hepsini engeller

Disallow: /admin/ # Sadece /admin/ dizini ve altındakileri engeller

```

Slash olmadan Disallow: /admin ifadesi, /admin ile başlayan tüm URL''leri eşleştirir. Bu istenmeyen sonuçlara yol açabilir.

5. Boş Dosya ile Dosya Yokluğunu Karıştırma

  • Dosya yok (404): Tüm tarayıcılar tüm siteyi tarayabilir.
  • Boş dosya (200, içerik yok): Tüm tarayıcılar tüm siteyi tarayabilir.
  • İçeriğe sahip dosya: Kurallar uygulanır.

Dosyanın mevcut olmamasıyla boş bir dosyanın bulunması pratikte aynı etkiye sahiptir, ancak boş bir dosya bilinçli bir kararı temsil eder ve daha profesyoneldir. En azından Sitemap direktifini içeren bir robots.txt dosyası bulundurmak en iyi pratiktir.

6. robots.txt''i Yanlış Konuma Yerleştirme

Robots.txt dosyası yalnızca sitenin kök dizininde çalışır:

```

✓ https://example.com/robots.txt — Doğru

✗ https://example.com/pages/robots.txt — Yanlış, çalışmaz

✗ https://blog.example.com/robots.txt — Bu sadece blog.example.com için geçerli

```

Her subdomain için ayrı bir robots.txt dosyası gerekir. www.example.com ve example.com farklı robots.txt dosyalarına sahip olabilir.

7. Sitemap URL''sinde Protokol Hatası

```

YANLIŞ

Sitemap: /sitemap.xml

DOĞRU

Sitemap: https://example.com/sitemap.xml

```

Sitemap direktifinde mutlaka tam URL (protokol + alan adı + yol) kullanılmalıdır.

Büyük Siteler İçin Robots.txt Stratejileri

Yüz binlerce veya milyonlarca sayfaya sahip sitelerde robots.txt, crawl budget yönetiminin en önemli araçlarından biridir.

Faceted Navigation Kontrolü

E-ticaret sitelerinde filtreleme, sıralama ve sayfalama parametreleri devasa sayıda URL kombinasyonu oluşturur:

```

User-agent: *

Filtreleme parametreleri

Disallow: /*?sort=

Disallow: /*?order=

Disallow: /*?filter=

Disallow: /*&color=

Disallow: /*&size=

Disallow: /*&brand=

Çapraz filtreleme

Disallow: /?color=&size=

Disallow: /?brand=&color=

Yazıcı dostu sayfalar

Disallow: /*/print/

Disallow: /*?print=

Oturum ve izleme parametreleri

Disallow: /*?session_id=

Disallow: /*?utm_

Disallow: /*?ref=

```

Crawl Budget Optimizasyonu

Düşük değerli sayfaları taramadan çıkararak tarama bütçenizi yüksek değerli sayfalara yönlendirin:

```

User-agent: *

Düşük değerli sayfalar

Disallow: /tag/

Disallow: /author/

Disallow: /archive/

Disallow: /page/

Yüksek değerli sayfalar — erişim açık

Allow: /products/

Allow: /categories/

Allow: /blog/

```

Log dosyası analizi yaparak hangi sayfaların gereksiz yere tarandığını tespit edebilir ve robots.txt kurallarınızı buna göre optimize edebilirsiniz.

Çok Dilli Siteler

Çok dilli sitelerde her dil versiyonunun taranabilir olduğundan emin olun. Yanlışlıkla dil dizinlerini engellemeyin:

```

User-agent: *

Disallow: /admin/

Disallow: /api/

Tüm dil versiyonları açık

Allow: /tr/

Allow: /en/

Allow: /de/

Sitemap: https://example.com/sitemap.xml

```

Robots.txt ve Güvenlik

Robots.txt dosyası güvenlik mekanizması değildir. Tarayıcılara tavsiye niteliğindedir ve herhangi biri dosyayı okuyarak sitenizin yapısı hakkında bilgi edinebilir. Bu nedenle:

  • Hassas dizinleri robots.txt''de listelemeyin. /secret-admin-panel/ gibi bir dizini Disallow ile listelemek, aslında o dizinin varlığını herkese duyurur.
  • Güvenlik için HTTP kimlik doğrulama, IP kısıtlama veya firewall kullanın.
  • Robots.txt''i keşif aracı olarak düşünün. Sitenize saldırmak isteyen biri, robots.txt''deki Disallow kurallarına bakarak ilginç hedefler bulabilir.

Doğru yaklaşım: Hassas dizinleri robots.txt''de listelemek yerine, sunucu düzeyinde erişim kontrolü uygulayın ve bu dizinleri robots.txt''den tamamen çıkarın.

Robots.txt HTTP Durum Kodları ve Tarayıcı Davranışı

Robots.txt dosyası farklı HTTP durum kodları döndürdüğünde tarayıcılar farklı davranır:

Durum KoduTarayıcı Davranışı
200 OKKurallar okunur ve uygulanır
301/302 YönlendirmeYönlendirilen hedef okunur (en fazla 5 yönlendirme)
404 Not FoundKısıtlama yok, tüm site taranabilir
410 GoneKısıtlama yok, tüm site taranabilir
5xx Sunucu HatasıGoogle taramayı geçici olarak durdurur (tam kısıtlama)

5xx hatası özellikle tehlikelidir. Sunucu hatası nedeniyle robots.txt''e erişilememesi, Google''ın "güvenli tarafta kalmak" ilkesiyle tüm siteyi taramayı durdurmasına neden olur. Bu durum saatlerce devam ederse indeks kaybına yol açabilir.

Robots.txt Dosyası Oluşturma ve Yönetme

Temel Şablon

Çoğu web sitesi için uygun bir başlangıç şablonu:

```

Robots.txt — example.com

Son güncelleme: 2026-03-01

User-agent: *

Disallow: /admin/

Disallow: /api/

Disallow: /private/

Disallow: /tmp/

Disallow: /*?session_id=

Disallow: /*?utm_

AI Tarayıcı Yönetimi

User-agent: GPTBot

Disallow: /premium/

Allow: /blog/

User-agent: Google-Extended

Disallow: /

User-agent: anthropic-ai

Disallow: /premium/

Allow: /blog/

Sitemap

Sitemap: https://example.com/sitemap.xml

```

WordPress için Robots.txt

```

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Disallow: /wp-includes/

Disallow: /wp-content/plugins/

Disallow: /wp-content/cache/

Disallow: /trackback/

Disallow: /feed/

Disallow: /comments/feed/

Disallow: /?s=

Disallow: /search/

Sitemap: https://example.com/sitemap_index.xml

```

Next.js / React Uygulamaları için Robots.txt

```

User-agent: *

Disallow: /api/

Disallow: /_next/static/

Allow: /_next/image/

Disallow: /admin/

Disallow: /dashboard/

Sitemap: https://example.com/sitemap.xml

```

Robots.txt Değişikliklerini İzleme

Robots.txt dosyanızda yapılan değişiklikleri izlemek kritiktir. Yanlışlıkla yapılan bir değişiklik büyük sorunlara yol açabilir:

  • Versiyon kontrolü kullanın. Robots.txt dosyanızı Git ile takip edin.
  • Değişiklik bildirimleri ayarlayın. Dosya değiştiğinde ekibinize bildirim gönderin.
  • Düzenli audit yapın. Ayda bir robots.txt dosyanızı gözden geçirin ve SEO audit sürecinize dahil edin.
  • Google Search Console uyarılarını izleyin. "Robots.txt tarafından engellenen URL''ler" raporunu düzenli kontrol edin.

2026 Robots.txt Kontrol Listesi

Sitenizin robots.txt dosyasını değerlendirmek için kapsamlı bir kontrol listesi:

Temel Yapı:

  • [ ] Dosya https://siteniz.com/robots.txt adresinde 200 durum kodu ile erişilebilir
  • [ ] UTF-8 kodlama kullanılıyor
  • [ ] Dosya boyutu 500 KB''ın altında (Google limiti)
  • [ ] Söz dizimi hatasız

Erişim Kuralları:

  • [ ] CSS, JavaScript ve görsel dosyaları engellenmemiş
  • [ ] Önemli sayfalar yanlışlıkla engellenmemiş
  • [ ] Admin/API dizinleri engellenmiş
  • [ ] Arama sonuç sayfaları engellenmiş
  • [ ] Parametre tabanlı duplicate sayfalar engellenmiş

Sitemap:

  • [ ] Sitemap direktifi tam URL ile bildirilmiş
  • [ ] Sitemap dosyası erişilebilir ve geçerli

AI Tarayıcıları:

  • [ ] AI tarayıcı stratejisi belirlenmiş (izin ver / kısmi erişim / engelle)
  • [ ] Tüm bilinen AI tarayıcı user-agent''ları ele alınmış
  • [ ] AI erişim kararları iş stratejisi ile uyumlu

Test ve İzleme:

  • [ ] Google Search Console ile doğrulanmış
  • [ ] Kritik URL''ler test edilmiş
  • [ ] Versiyon kontrolünde
  • [ ] Düzenli audit planlanmış

Bu kontrol listesini aylık olarak gözden geçirin. Sitenizin yapısı değiştiğinde — yeni dizinler eklendiğinde, subdomain''ler açıldığında veya yeni içerik türleri yayımlandığında — robots.txt dosyanızı güncellemeyi unutmayın.

Sonuç

Robots.txt, teknik SEO''nun en temel yapı taşlarından biridir. Doğru yapılandırılmış bir robots.txt dosyası, arama motorlarının sitenizi verimli taramasını sağlar, crawl budget''inizi korur ve AI tarayıcılarıyla ilişkinizi yönetir. 2026''da AI tarayıcı yönetimi, robots.txt''in en dinamik ve stratejik kullanım alanı haline gelmiştir.

Unutmayın: robots.txt bir güvenlik aracı değil, bir iletişim aracıdır. Tarayıcılara "neyi tarayın, neyi taramayın" mesajınızı iletir. Bu mesajı doğru vermek, organik görünürlüğünüzün temelini oluşturur.

İlgili Makaleler

Markanızın AI Görünürlüğünü Takip Edin

ChatGPT, Perplexity ve diğer AI arama motorlarında markanızın nasıl göründüğünü keşfedin.