robots.txt Cho AI Crawlers: Đừng Bị Vô Hình Trước ChatGPT, Claude, Perplexity

Câu trả lời nhanh

robots.txt quyết định AI crawlers (GPTBot, ClaudeBot, PerplexityBot) có thể đọc site bạn hay không. 60% website Việt Nam đang chặn AI bots mà không biết. Bài viết hướng dẫn cấu hình robots.txt cho phép AI crawlers, duy trì kiểm soát vớicrawl-delay, và test hiệu quả.

Những Câu Hỏi Thường Gặp

Tại sao cần quan tâm đến robots.txt cho AI crawlers?

Vì nếu robots.txt block AI crawlers, nội dung của bạn sẽ không bao giờ xuất hiện trong câu trả lời của ChatGPT, Claude, Perplexity, hay Gemini. Bạn vô hình trước hàng trăm triệu người dùng AI. Và theo khảo sát, phần lớn website đang vô tình block AI crawlers mà không biết.

Cho phép AI crawlers có bị lấy dữ liệu training không?

Có sự khác biệt giữa crawler dùng cho search/retrieval (OAI-SearchBot, Claude-User) và crawler dùng cho training (GPTBot, ClaudeBot). Bạn có thể cho phép search crawlers và block training crawlers nếu muốn bảo vệ nội dung.

llms.txt là gì, có cần làm không?

llms.txt là file text đặt ở root directory giúp AI systems hiểu cấu trúc site. Tương tự robots.txt nhưng dành cho LLMs. Chưa được adopt rộng rãi nhưng đang trending. Implement sớm cho lợi thế.

Có mất tiền nếu AI crawlers quét site nhiều không?

Có thể, nếu hosting tính phí theo bandwidth. AI crawlers có thể tạo ra 20%+ tổng crawler traffic. Giải pháp: rate limiting trong robots.txt hoặc server config.


Đây là statistic đáng suy nghĩ: theo dữ liệu từ late 2024, GPTBot và ClaudeBot đã tạo ra volume request tương đương 20% Googlebot. Đến 2026, tổng AI crawler traffic nhiều hơn nữa. Vậy mà phần lớn website chưa bao giờ kiểm tra xem AI crawlers có thể truy cập nội dung của mình hay không.

Kết quả: hàng triệu website đang vô hình trước ChatGPT, Claude, Perplexity, và các AI search engines đang phục vụ hàng trăm triệu queries mỗi ngày. Và chủ site không hề biết.

AI Crawlers Đang Tìm Gì Trên Site Bạn

AI crawlers hoạt động khác Googlebot. Googlebot crawl để index và rank. AI crawlers crawl để extract thông tin cho câu trả lời. Nghiệp vụ khác nhau, yêu cầu kỹ thuật khác nhau.

Danh sách AI crawlers chính cần biết:

  • GPTBot: OpenAI training crawler. Dùng để train future models
  • OAI-SearchBot: OpenAI search crawler. Dùng cho ChatGPT search answers
  • ClaudeBot: Anthropic training crawler
  • Claude-User: Anthropic retrieval crawler. Dùng khi Claude trả lời câu hỏi
  • PerplexityBot: Crawler cho Perplexity AI search
  • Google-Extended: Google’s AI training crawler (separate từ Googlebot)
  • Bytespider: ByteDance/TikTok crawler
  • BingBot: Microsoft crawler, cũng feed data cho Microsoft Copilot

Phân biệt quan trọng: search/retrieval crawlers (OAI-SearchBot, Claude-User, PerplexityBot) vs training crawlers (GPTBot, ClaudeBot, Google-Extended). Bạn có thể cho phép nhóm trước và block nhóm sau.

Checklist: Audit robots.txt Cho AI

Bước 1: Mở yourdomain.com/robots.txt trong browser. Đọc nội dung hiện tại.

Bước 2: Kiểm tra các pattern phổ biến gây vấn đề:

Pattern 1 — Block tất cả:

  • User-agent: * / Disallow: / → Block mọi crawler, kể cả AI. Rất phổ biến ở site staging hoặc site vừa migrate

Pattern 2 — Block AI crawlers cụ thể:

  • Nếu thấy User-agent: GPTBot / Disallow: / — ai đó đã chủ động block OpenAI. Có thể intentional, có thể copy paste từ template

Pattern 3 — Cho phép Google nhưng không cho AI:

  • Nhiều site cho phép Googlebot nhưng không add Allow rules cho AI bots. Trong cấu hình mặc định, AI bots bị block nếu User-agent: * / Disallow: /

Bước 3: Thêm Allow rules cho AI crawlers bạn muốn. Ví dụ tối ưu:

  • # Allow AI search/retrieval crawlers
  • User-agent: OAI-SearchBot / Allow: /
  • User-agent: Claude-User / Allow: /
  • User-agent: PerplexityBot / Allow: /
  • User-agent: BingBot / Allow: /
  • # Block AI training crawlers (optional — bảo vệ nội dung)
  • User-agent: GPTBot / Disallow: /private/ / Disallow: /admin/
  • User-agent: ClaudeBot / Disallow: /private/ / Disallow: /admin/
  • User-agent: Google-Extended / Disallow: /private/

Strategy ở đây: cho phép search crawlers truy cập toàn bộ (để AI trả lời có thể cite bạn), nhưng giới hạn training crawlers khỏi nội dung nhạy cảm. Bạn quyết định strategy phù hợp với business model.

llms.txt — File Mới Cho AI Systems

llms.txt là concept mới: file text đặt tại yourdomain.com/llms.txt, cung cấp mô tả cấu trúc site cho AI systems. Tương tự robots.txt nhưng thay vì crawl rules, nó cung cấp site overview.

Nội dung llms.txt nên có:

  • Tên site và mô tả ngắn
  • Cấu trúc chính (categories, sections)
  • Links đến pages quan trọng nhất
  • Thông tin liên hệ/about

Lưu ý: llms.txt chưa phải standard chính thức. Nhưng nhiều AI systems đang bắt đầu kiểm tra file này. Implement sớm cho lợi thế — minimal effort, potential upside.

AI Crawlers và Bandwidth

Một vấn đề thực tế: AI crawlers tốn bandwidth. Nếu hosting tính phí theo bandwidth hoặc có rate limit, bạn cần quản lý.

Chiến lược:

  • Rate limiting: Dùng Crawl-delay trong robots.txt hoặc server-side rate limiting. Note: không phải crawler nào respect Crawl-delay
  • Block images: Disallow image folders cho AI training crawlers. Giảm bandwidth đáng kể mà không ảnh hưởng text content citation
  • CDN caching: Dùng Cloudflare hoặc CDN khác để cache content, giảm load lên origin server
  • Monitor: Check server logs để thấy crawler traffic patterns. Điều chỉnh nếu cần

Xem thêm về chiến lược nội dung cho AI engines tại từ SEO truyền thống đến GEO.

WordPress Cụ Thể

Nếu dùng WordPress, đây là robots.txt tối ưu cho AI visibility:

  • User-agent: * / Allow: / / Disallow: /wp-admin/ / Disallow: /wp-includes/ / Disallow: /?s=
  • User-agent: OAI-SearchBot / Allow: /
  • User-agent: Claude-User / Allow: /
  • User-agent: PerplexityBot / Allow: /
  • # Sitemap
  • Sitemap: https://yourdomain.com/sitemap.xml

Lưu ý: WordPress tự generate virtual robots.txt. Nếu bạn tạo physical robots.txt file, nó sẽ override virtual version. Đặt file ở root directory.

Kiểm tra thêm cách tối ưu cho blog nhỏ tại hướng dẫn SEO & GEO cho blog cá nhân.

Góc Nhìn Cá Nhân

Khi tôi audit robots.txt cho blog, phát hiện ra nó đang block GPTBot và PerplexityBot — do dùng template mặc định của một plugin caching. Tôi thêm Allow rules, và trong 2 tuần, blog bắt đầu xuất hiện trong ChatGPT và Perplexity answers cho một số queries liên quan đến AI tools.

Không phải traffic khổng lồ — nhưng đây là traffic mà trước đó hoàn toàn mất. Zero cost fix, nonzero benefit. Đó là loại optimization tôi thích nhất.

Nếu bạn chưa kiểm tra robots.txt cho AI crawlers, hãy kiểm tra ngay. Mất 5 phút, ảnh hưởng dài hạn.

Minh Đức

Tôi là Minh Đức, làm SEO đã mấy năm. Ngày xưa tôi cũng nghĩ SEO chỉ là nhét từ khóa cho đủ tỷ lệ, đến khi tự tay đẩy vài site lên top mới hiểu nó phức tạp đến mức nào. Tôi thích tự test, tự đo, và chỉ tin khi có số liệu. Ngoài giờ thì tôi đọc sách, chơi cờ, và hay tranh luận với bạn bè về chuyện AI có giết chết SEO không.

Xem tất cả bài viết →

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *