llms.txt Đã Chết? Dữ Liệu Ahrefs 137.000 Domain Tỏ Rõ 97% File Không Ai Đọc

Câu trả lời nhanh
Dữ liệu Ahrefs phân tích 137.000 domain cho thấy 97% file llms.txt không nhận một request nào. AI retrieval bot như ChatGPT và Perplexity chỉ chiếm 1% lượt fetch. John Mueller xác nhận llms.txt không giúp AI phân biệt website. SEOer không nên đầu tư thêm vào llms.txt cho mục đích AI visibility — tập trung vào HTML, internal linking, và schema markup.

Sự thật phũ phàng: llms.txt được SEOer vòng tay nhau tung hô suốt hơn một năm qua như “khúc dạo đầu cho GEO”, nhưng dữ liệu phân tích 137.000 domain vừa công bố cho thấy 97% file llms.txt không nhận được một lượt request nào. Không phải từ bot AI, không phải từ người dùng. Không ai.

Tôi đã theo dõi llms.txt từ khi nó còn là một ý tưởng trên GitHub, và phải nói rằng tuần vừa rồi là tuần dữ liệu “chốt hạ” cho cuộc tranh luận kéo dài. Cùng trong một tuần, Google phát biểu rõ ràng llms.txt không giúp AI phân biệt website, còn Ahrefs tung ra con số chứng minh bot AI hầu như không thèm đọc file này. Bài viết này sẽ bóc tách từng lớp dữ liệu để bạn hiểu chính xác chuyện gì đang xảy ra.

llms.txt Là Gì Và Tại Sao SEOer Latched Onto Nó?

llms.txt là một file markdown đặt ở thư mục gốc của website (tương tự robots.txt), liệt kê nội dung quan trọng nhất để các mô hình AI dễ đọc. Đề xuất xuất hiện vào nửa cuối 2024, nhanh chóng được cộng đồng SEO đón nhận như một “GEO hack” — nếu AI đọc file này, nội dung của bạn sẽ được cite nhiều hơn trong AI Overviews, ChatGPT, Perplexity.

Trên thực tế, nhiều SEOer dành hàng giờ đồng hồ tối ưu llms.txt, sinh tự động qua plugin, thậm chí thuê viết tay. Lý do đơn giản: ai cũng sợ bị bỏ lại trong làn sóng AI search. Khi Chrome Lighthouse thêm audit llms.txt vào tháng 5/2026, cơn sốt lại tăng thêm một bậc.

Dữ Liệu Ahrefs Nói Gì? 137.000 Domain Không Nói Dối

Ahrefs vừa công bố phân tích log file từ 137.000 domain, và kết quả khiến nhiều người ngỡ ngàng. Khoảng 28% domain trong mẫu có file llms.txt (tỷ lệ cao vì khách hàng Ahrefs thiên về technical). Nhưng con số quan trọng nằm ở phía sau.

Chỉ sốSố liệu
Tổng domain phân tích137.000
Domain có file llms.txt hợp lệ~38.000 (28%)
Domain có ít nhất 1 request đến llms.txt~1.100 (2,9%)
File llms.txt KHÔNG nhận request gì97%
Request từ AI retrieval bot (ChatGPT, Perplexity)1% tổng request

Để tôi diễn đạt cách khác: trong 38.000 domain bỏ công tạo llms.txt, chỉ khoảng 1.100 domain có ai đó (bot hoặc người) fetch file đó. Và ngay cả trong nhóm 1.100 domain may mắn đó, bot AI sinh citation chỉ chiếm 1% tổng request. Slackbot còn fetch llms.txt nhiều hơn cả PerplexityBot.

Ai Đang Đọc llms.txt Thực Sự?

Phân tích user agent trong log file cho thấy bức tranh khá bất ngờ. Dữ liệu Ahrefs phân loại request như sau:

Nhóm bot
Tỷ lệ request
SEO audit tools21%
Unidentified bots14%
Web crawlers (Googlebot, Bingbot)13%
Tech profiling tools (BuiltWith)11%
Coding agents (Claude-Code, Copilot)10%
Training crawlers5%
GEO/AEO readiness tools5%
Research bots (prompt injection survey)2%
AI assistants (ChatGPT, Perplexity)2%

Thấy chưa? Nhóm “AI” chiếm 19% tổng request, nhưng phần lớn là coding agent (10%) và training crawler (5%). Nhóm sinh citation trực tiếp — assistant như ChatGPT và Perplexity — chỉ đóng góp 2%. Và 12% request đến từ các tool đang “nghiên cứu” llms.txt chứ không sử dụng nó.

Tôi gọi đây là “hệ sinh thái tự nghiên cứu chính nó”: tool audit llms.txt tạo ra traffic cho file llms.txt, rồi báo cáo rằng llms.txt có traffic. Vòng lặp đẹp mắt nhưng không tạo ra giá trị thực.

John Mueller Phát Biểu Gì Và Tại Sao Quan Trọng?

Cùng tuần, trên podcast Search Off the Record (Episode 111), John Mueller của Google đã nói thẳng: llms.txt không thể giúp LLM phân biệt giữa các website. Lý do rất cơ bản — file này tự khai báo, nghĩa là bất kỳ ai cũng có thể viết “website của tôi là tốt nhất”. Hệ thống AI không thiết kế để tin lời tự khai.

Điểm thú vị hơn: Mueller tiết lộ đã nói chuyện với một trong những người tạo ra đề xuất llms.txt ban đầu. Người này xác nhận llms.txt chưa bao giờ được thiết kế cho discovery (khi AI tìm thấy website của bạn lần đầu). Mục đích gốc là: nếu một AI đã biết site của bạn và muốn khám phá thêm, llms.txt là bản đồ hướng dẫn.

Nghĩa là cộng đồng SEO đang dùng llms.txt sai mục đích gốc. Chúng ta đang nhồi hy vọng “được AI khám phá” vào một file sinh ra cho mục đích “hướng dẫn AI khi đã ở trên site”. Theo Mueller, discovery vẫn gắn liền với HTML thông thường và internal links.

SE Ranking Xác Nhận Từ Lâu: Không Có Tương Quan Giữa llms.txt Và AI Citation

Không chỉ Ahrefs, SE Ranking đã phân tích 300.000 domain trước đó và không tìm thấy mối liên hệ nào giữa việc có llms.txt và tần suất được AI cite. Dữ liệu Ahrefs giải thích lý do: bot sinh citation hầu như không fetch file này. Chrome Lighthouse audit llms.txt chỉ generate khoảng 22 request trên toàn bộ dataset của Ahrefs — tỷ lệ 1 trên 1.000.

Khi tôi ghép các nguồn dữ liệu lại, bức tranh rất rõ ràng: llms.txt không tác động đến AI visibility. Không phải vì ý tưởng tồi, mà vì hệ sinh thái bot AI chưa adopt nó ở quy mô đủ lớn. Còn coding agent và training crawler thì có đọc — nhưng đó là câu chuyện khác.

Vậy llms.txt Có Giá Trị Gì Không?

Có, nhưng trong phạm vi rất hẹp. Dữ liệu cho thấy coding agent như Claude-Code và Copilot đọc llms.txt nhiều nhất trong nhóm AI (10% request). Nếu bạn xây tool cho developer, llms.txt giúp coding agent hiểu nhanh cấu trúc tài liệu. Training crawler cũng fetch file này để đưa vào dữ liệu huấn luyện.

Tóm lại: llms.txt đáng duy trì nếu chi phí thấp (CMS tự sinh). Nhưng đừng kỳ vọng nó tăng AI visibility. Đó là sai lầm về mặt kỳ vọng mà dữ liệu đã chứng minh.

WebMCP Và ARD: Tương Lai Của Agentic Discovery?

Nếu llms.txt không phải câu trả lời, thì cái gì? Tuần vừa rồi chứng kiến hai đề xuất mới đáng chú ý. Thứ nhất, Google Cloud công bố Open Knowledge Format (OKF) — định dạng markdown đóng gói tri thức tổ chức (dataset, metric, runbook) cho AI agent đọc. Thứ hai, liên minh gồm Google, Microsoft, GitHub, Hugging Face, NVIDIA, Cisco, Salesforce công bố Agentic Resource Discovery (ARD) — draft spec cho phép AI agent tìm và xác thực tool, skill, agent khác trên web.

ARD hoạt động qua hai thành phần: catalog (file ai-catalog.json trên domain của bạn) và registry (crawl và index catalog). GitHub đã tung agent finder cho Copilot ngay trong ngày, Hugging Face cũng có Discover Tool. Đây là hướng đi thiết thực hơn llms.txt vì nó giải bài toán runtime discovery — agent tìm tool khi cần, thay vì hy vọng file tĩnh được đọc.

Nhưng cả OKF lẫn ARD đều ở giai đoạn draft (v0.1 và v0.9). Tôi khuyên bạn theo dõi nhưng chưa vội đầu tư. Lịch sử llms.txt là bài học: structured file chỉ có giá trị khi hệ sinh thái adopt đủ rộng.

UK CMA Ra Quy Định Mới: Google Phải Báo Trước Khi Đổi Ranking

Một tin quan trọng khác trong tuần: UK Competition and Markets Authority (CMA) ban hành hai yêu cầu mới cho Google Search tại Anh. Thứ nhất, fair ranking — Google phải xếp hạng organic result (bao gồm AI Overviews) theo tiêu chí khách quan, phi phân biệt đối xử. Phải thông báo trước khi có thay đổi lớn và tạo kênh khiếu nại cho doanh nghiệp. Thứ hai, data portability — công cụ UK Data Portability API trở thành nghĩa vụ pháp lý.

Đây là lần đầu tiên một chính phủ bắt Google minh bạch hóa quá trình thay đổi thuật toán. Nếu thành công tại Anh, EU và Mỹ có thể làm theo. SEOer tại Anh sẽ có “early warning system” mà cộng đồng toàn cầu chưa từng có. Google có 6 tháng để thực thi fair ranking, 3 tháng cho data portability.

5 Bước SEOer Nên Làm Ngay Sau Dữ Liệu Tuần Này

Sau khi tổng hợp toàn bộ dữ liệu, tôi rút ra 5 hành động cụ thể cho SEOer:

1. Đừng đầu tư thêm vào llms.txt. Nếu CMS tự sinh, giữ lại. Nếu đang thuê người viết tay, dừng lại. Dữ liệu Ahrefs chứng minh ROI gần như bằng không cho mục đích AI visibility.

2. Tập trung vào HTML và internal linking. Mueller đã nói rõ: discovery vẫn dựa trên HTML. Cấu trúc nội dung tốt, internal link mạnh, schema markup đúng — đây mới là nền tảng AI visibility.

3. Theo dõi OKF và ARD nhưng chưa commit. Cả hai đều draft, adoption chưa rõ. Đăng ký email cập nhật từ GitHub repo của ARD, theo dõi Google Cloud blog cho OKF. Khi registry đạt critical mass (khoảng 10.000+ catalog), bắt đầu đầu tư.

4. Dùng Bing Citation Share làm KPI tạm thời. Bing Webmaster Tools vừa ra Citation Share — tỷ lệ citation của bạn so với competitor trên cùng query. Dù chỉ cover Bing Copilot, đây là metric tốt nhất hiện có. Google Search Console Gen AI report chỉ cho impression, không có citation share.

5. Nếu audience của bạn là developer, duy trì llms.txt. Coding agent chiếm 10% request, nhiều hơn bất kỳ nhóm AI nào. Nếu bạn xây developer tool, API documentation, SDK — llms.txt giúp Claude Code và Copilot hiểu nhanh tài liệu của bạn.

Kết Luận: Dữ Liệu Luôn Thắng Lời Hứa

Tôi làm SEO đủ lâu để biết một quy luật: mỗi “thủ thuật mới” đều đi qua cycle hype — hy vọng — thất vọng — thực tế. llms.txt đang ở giai đoạn thất vọng, và đó là lúc dữ liệu thực tế xuất hiện để điều chỉnh kỳ vọng. 97% file không ai đọc là con số cần ghi nhớ.

Nhưng tôi cũng không nói llms.txt vô dụng hoàn toàn. Nó có một niche rõ ràng (coding agent) và chi phí duy trì thấp. Bài học lớn hơn là: khi một tiêu chuẩn mới xuất hiện, đừng vội all-in. Hãy đợi dữ liệu độc lập, đo lường thực tế, rồi mới quyết định. Đó là cách tôi tiếp cận mọi thay đổi trong SEO — và cách này chưa bao giờ làm tôi thất vọng.

Nếu bạn muốn thảo luận thêm về chiến lược GEO thực tế (không hype), hãy chia sẻ trải nghiệm của bạn với llms.txt ở phần bình luận. Tôi luôn muốn thấy dữ liệu từ nhiều góc nhìn khác nhau.

Minh Đức

Tôi là Minh Đức, làm SEO đã mấy năm. Ngày xưa tôi cũng nghĩ SEO chỉ là nhét từ khóa cho đủ tỷ lệ, đến khi tự tay đẩy vài site lên top mới hiểu nó phức tạp đến mức nào. Tôi thích tự test, tự đo, và chỉ tin khi có số liệu. Ngoài giờ thì tôi đọc sách, chơi cờ, và hay tranh luận với bạn bè về chuyện AI có giết chết SEO không.

Xem tất cả bài viết →

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *