robots.txt Cho AI Crawlers: Đừng Bị Vô Hình Trước ChatGPT, Claude, Perplexity

Mục lục Ẩn

1 Những Câu Hỏi Thường Gặp

2 AI Crawlers Đang Tìm Gì Trên Site Bạn

3 Checklist: Audit robots.txt Cho AI

4 llms.txt — File Mới Cho AI Systems

5 AI Crawlers và Bandwidth

6 WordPress Cụ Thể

7 Góc Nhìn Cá Nhân

Những Câu Hỏi Thường Gặp

Tại sao cần quan tâm đến robots.txt cho AI crawlers?

Vì nếu robots.txt block AI crawlers, nội dung của bạn sẽ không bao giờ xuất hiện trong câu trả lời của ChatGPT, Claude, Perplexity, hay Gemini. Bạn vô hình trước hàng trăm triệu người dùng AI. Và theo khảo sát, phần lớn website đang vô tình block AI crawlers mà không biết.

Cho phép AI crawlers có bị lấy dữ liệu training không?

Có sự khác biệt giữa crawler dùng cho search/retrieval (OAI-SearchBot, Claude-User) và crawler dùng cho training (GPTBot, ClaudeBot). Bạn có thể cho phép search crawlers và block training crawlers nếu muốn bảo vệ nội dung.

llms.txt là gì, có cần làm không?

llms.txt là file text đặt ở root directory giúp AI systems hiểu cấu trúc site. Tương tự robots.txt nhưng dành cho LLMs. Chưa được adopt rộng rãi nhưng đang trending. Implement sớm cho lợi thế.

Có mất tiền nếu AI crawlers quét site nhiều không?

Có thể, nếu hosting tính phí theo bandwidth. AI crawlers có thể tạo ra 20%+ tổng crawler traffic. Giải pháp: rate limiting trong robots.txt hoặc server config.

Đây là statistic đáng suy nghĩ: theo dữ liệu từ late 2024, GPTBot và ClaudeBot đã tạo ra volume request tương đương 20% Googlebot. Đến 2026, tổng AI crawler traffic nhiều hơn nữa. Vậy mà phần lớn website chưa bao giờ kiểm tra xem AI crawlers có thể truy cập nội dung của mình hay không.

Kết quả: hàng triệu website đang vô hình trước ChatGPT, Claude, Perplexity, và các AI search engines đang phục vụ hàng trăm triệu queries mỗi ngày. Và chủ site không hề biết.

AI Crawlers Đang Tìm Gì Trên Site Bạn

AI crawlers hoạt động khác Googlebot. Googlebot crawl để index và rank. AI crawlers crawl để extract thông tin cho câu trả lời. Nghiệp vụ khác nhau, yêu cầu kỹ thuật khác nhau.

Danh sách AI crawlers chính cần biết:

GPTBot: OpenAI training crawler. Dùng để train future models
OAI-SearchBot: OpenAI search crawler. Dùng cho ChatGPT search answers
ClaudeBot: Anthropic training crawler
Claude-User: Anthropic retrieval crawler. Dùng khi Claude trả lời câu hỏi
PerplexityBot: Crawler cho Perplexity AI search
Google-Extended: Google’s AI training crawler (separate từ Googlebot)
Bytespider: ByteDance/TikTok crawler
BingBot: Microsoft crawler, cũng feed data cho Microsoft Copilot

Phân biệt quan trọng: search/retrieval crawlers (OAI-SearchBot, Claude-User, PerplexityBot) vs training crawlers (GPTBot, ClaudeBot, Google-Extended). Bạn có thể cho phép nhóm trước và block nhóm sau.

Checklist: Audit robots.txt Cho AI

Bước 1: Mở yourdomain.com/robots.txt trong browser. Đọc nội dung hiện tại.

Bước 2: Kiểm tra các pattern phổ biến gây vấn đề:

Pattern 1 — Block tất cả:

User-agent: * / Disallow: / → Block mọi crawler, kể cả AI. Rất phổ biến ở site staging hoặc site vừa migrate

Pattern 2 — Block AI crawlers cụ thể:

Nếu thấy User-agent: GPTBot / Disallow: / — ai đó đã chủ động block OpenAI. Có thể intentional, có thể copy paste từ template

Pattern 3 — Cho phép Google nhưng không cho AI:

Nhiều site cho phép Googlebot nhưng không add Allow rules cho AI bots. Trong cấu hình mặc định, AI bots bị block nếu User-agent: * / Disallow: /

Bước 3: Thêm Allow rules cho AI crawlers bạn muốn. Ví dụ tối ưu:

# Allow AI search/retrieval crawlers
User-agent: OAI-SearchBot / Allow: /
User-agent: Claude-User / Allow: /
User-agent: PerplexityBot / Allow: /
User-agent: BingBot / Allow: /
# Block AI training crawlers (optional — bảo vệ nội dung)
User-agent: GPTBot / Disallow: /private/ / Disallow: /admin/
User-agent: ClaudeBot / Disallow: /private/ / Disallow: /admin/
User-agent: Google-Extended / Disallow: /private/

Strategy ở đây: cho phép search crawlers truy cập toàn bộ (để AI trả lời có thể cite bạn), nhưng giới hạn training crawlers khỏi nội dung nhạy cảm. Bạn quyết định strategy phù hợp với business model.

llms.txt — File Mới Cho AI Systems

llms.txt là concept mới: file text đặt tại yourdomain.com/llms.txt, cung cấp mô tả cấu trúc site cho AI systems. Tương tự robots.txt nhưng thay vì crawl rules, nó cung cấp site overview.

Nội dung llms.txt nên có:

Tên site và mô tả ngắn
Cấu trúc chính (categories, sections)
Links đến pages quan trọng nhất
Thông tin liên hệ/about

Lưu ý: llms.txt chưa phải standard chính thức. Nhưng nhiều AI systems đang bắt đầu kiểm tra file này. Implement sớm cho lợi thế — minimal effort, potential upside.

AI Crawlers và Bandwidth

Một vấn đề thực tế: AI crawlers tốn bandwidth. Nếu hosting tính phí theo bandwidth hoặc có rate limit, bạn cần quản lý.

Chiến lược:

Rate limiting: Dùng Crawl-delay trong robots.txt hoặc server-side rate limiting. Note: không phải crawler nào respect Crawl-delay
Block images: Disallow image folders cho AI training crawlers. Giảm bandwidth đáng kể mà không ảnh hưởng text content citation
CDN caching: Dùng Cloudflare hoặc CDN khác để cache content, giảm load lên origin server
Monitor: Check server logs để thấy crawler traffic patterns. Điều chỉnh nếu cần

Xem thêm về chiến lược nội dung cho AI engines tại từ SEO truyền thống đến GEO.

WordPress Cụ Thể

Nếu dùng WordPress, đây là robots.txt tối ưu cho AI visibility:

User-agent: * / Allow: / / Disallow: /wp-admin/ / Disallow: /wp-includes/ / Disallow: /?s=
User-agent: OAI-SearchBot / Allow: /
User-agent: Claude-User / Allow: /
User-agent: PerplexityBot / Allow: /
# Sitemap
Sitemap: https://yourdomain.com/sitemap.xml

Lưu ý: WordPress tự generate virtual robots.txt. Nếu bạn tạo physical robots.txt file, nó sẽ override virtual version. Đặt file ở root directory.

Kiểm tra thêm cách tối ưu cho blog nhỏ tại hướng dẫn SEO & GEO cho blog cá nhân.

Góc Nhìn Cá Nhân

Khi tôi audit robots.txt cho blog, phát hiện ra nó đang block GPTBot và PerplexityBot — do dùng template mặc định của một plugin caching. Tôi thêm Allow rules, và trong 2 tuần, blog bắt đầu xuất hiện trong ChatGPT và Perplexity answers cho một số queries liên quan đến AI tools.

Không phải traffic khổng lồ — nhưng đây là traffic mà trước đó hoàn toàn mất. Zero cost fix, nonzero benefit. Đó là loại optimization tôi thích nhất.

Nếu bạn chưa kiểm tra robots.txt cho AI crawlers, hãy kiểm tra ngay. Mất 5 phút, ảnh hưởng dài hạn.

Những Câu Hỏi Thường Gặp

AI Crawlers Đang Tìm Gì Trên Site Bạn

Checklist: Audit robots.txt Cho AI

llms.txt — File Mới Cho AI Systems

AI Crawlers và Bandwidth

WordPress Cụ Thể

Góc Nhìn Cá Nhân

Minh Đức

Bài viết liên quan

OpenAI Thuê 10 GW Data Center Ohio: 500 Tỷ USD…

Sakana Fugu Ultra: AI Orchestrator Nhật Bản Vượt Cả Opus…

Claude Opus 4.8 Dynamic Workflows: Migrate 750.000 Dòng Code Zig…