Thay RAG Bằng Bash Terminal Cho AI Agents: Giảm 30% Chi Phí, Tăng 30% Độ Chính Xác

Mình từng nghĩ RAG là chân ái. Cho đến khi phát hiện ra nó đang lọc mất chính xác thứ agent cần tìm.

RAG (Retrieval-Augmented Generation) từ lâu đã là cách tiêu chuẩn để AI agents truy xuất thông tin. Nhưng một nghiên cứu mới đăng trên arXiv tháng 5/2026 chỉ ra vấn đề nghiêm trọng: RAG quyết định quá sớm thứ agent được phép thấy. Kết quả là những manh mối quan trọng bị lọc mất trước khi agent kịp phân tích.

Nghiên cứu đề xuất một hướng đi hoàn toàn khác: Direct Corpus Interaction (DCI). Thay vì chunk, embed, rồi tìm kiếm semantic, DCI cho agent một terminal bash. Agent tự grep, find, cat qua corpus trực tiếp. Kết quả bất ngờ: accuracy tăng từ 69% lên 80% trên BrowseComp-Plus, chi phí API giảm từ 1.440 USD xuống 1.016 USD.

Mục lục Ẩn

1 Direct Corpus Interaction (DCI) Là Gì?

2 Tại Sao RAG Đang Gặp Vấn Đề Với AI Agents?

3 Số Liệu Từ Nghiên Cứu: DCI So Với RAG

4 DCI-Agent-Lite vs DCI-Agent-CC: Hai Phiên Bản So Sánh

5 DCI Phù Hợp Cho Task Nào?

6 Cách Triển Khai DCI Cho AI Agents

7 DCI Có Những Hạn Chế Gì?

8 Mình Nghĩ Gì Về DCI Thay Thế RAG?

Direct Corpus Interaction (DCI) Là Gì?

DCI là kỹ thuật cho phép AI agent tương tác trực tiếp với corpus tài liệu qua command-line tools như grep, find, cat, sed. Thay vì dựa vào embedding model để lọc trước, agent tự quyết định xem gì, khi nào xem, và xem bao nhiêu.

Cách hoạt động:

Agent nhận query từ người dùng
Agent tự xây dựng search plan — dùng find để locate files, grep để search nội dung, head/tail để đọc context
Agent kết hợp nhiều lệnh qua shell pipeline để lọc chéo
Nếu cần, agent sửa search plan dựa trên kết quả trung gian
Agent trả lời dựa trên evidence trực tiếp từ corpus

Điểm mấu chốt: agent tự điều khiển quá trình tìm kiếm, thay vì bị giới hạn bởi top-k results từ vector database.

Tại Sao RAG Đang Gặp Vấn Đề Với AI Agents?

Mình đã dùng RAG cho nhiều project, và mình nhận ra đúng như nghiên cứu chỉ ra: RAG có 3 điểm yếu chí mạng với agentic workflows.

Thứ nhất, RAG quyết định quá sớm. Retriever lọc top-k snippets trước khi agent kịp phân tích. Nếu evidence quan trọng nằm ở vị trí thứ k+1, agent không bao giờ thấy nó, dù reasoning capability có mạnh đến đâu.

Thứ hai, semantic similarity không xử lý được exact match. Khi agent cần tìm exact error code, file path, version number, hay một số điện thoại cụ thể — embedding-based search hay trật. Dense retrieval tốt cho semantic recall, nhưng yếu ở long-tail details.

Thứ ba, stale data. Embedding index là snapshot tại một thời điểm. Trong enterprise, data thay đổi liên tục — daily reports, live logs, code commits. Agent dùng RAG có thể đang query trên data cũ 24 giờ.

Số Liệu Từ Nghiên Cứu: DCI So Với RAG

Nghiên cứu test DCI trên nhiều benchmark, so với cả open-weight lẫn proprietary retrievers.

Metric	RAG (Qwen3-Embedding)	DCI-Agent-CC (Claude Sonnet 4.6)	Thay đổi
BrowseComp-Plus accuracy	69.0%	80.0%	+11 điểm
API cost (BrowseComp-Plus)	1.440 USD	1.016 USD	-30%
Multi-hop QA accuracy	52.3%	83.0%	+30.7 điểm
Document recall	Cao hơn	Thấp hơn	–

Một chi tiết thú vị: DCI có recall thấp hơn RAG — nghĩa là nó tìm thấy ít documents hơn. Nhưng khi đã tìm thấy, nó extract nhiều thông tin hơn đáng kể từ mỗi document. Chất lượng thay số lượng.

DCI-Agent-Lite vs DCI-Agent-CC: Hai Phiên Bản So Sánh

Nghiên cứu đề xuất hai phiên bản.

DCI-Agent-Lite chạy trên GPT-5.4 nano, chỉ dùng raw bash commands. Phù hợp cho team ngân sách thấp. Mặc dù dùng model nhỏ, nó vẫn cạnh tranh được với OpenAI o3 dùng RAG truyền thống, nhưng tiết kiệm hơn 600 USD chi phí API.

DCI-Agent-CC chạy trên Claude Code với Claude Sonnet 4.6. Claude Code cung cấp context handling tốt hơn, tool orchestration mạnh hơn, phù hợp cho multi-step search phức tạp. Đây là phiên bản performance cao.

Mình test thử cả hai trên một task phân tích log, và kết quả đúng như paper: Agent-Lite đủ dùng cho simple lookup, nhưng Agent-CC rõ ràng tốt hơn khi task cần nhiều bước reasoning chéo.

DCI Phù Hợp Cho Task Nào?

Nghiên cứu chỉ ra DCI mạnh nhất ở các task cần exact evidence localization trong workspace động:

Debug production incidents — tìm exact error code trong hàng triệu dòng log
Search large codebases — locate specific function, trace call chains
Analyze logs — filter theo timestamp, error type, user ID
Compliance investigation — audit trail, chứng minh quy trình
Multi-document root cause analysis — kết nối manh mối từ nhiều nguồn

Ngược lại, DCI yếu hơn RAG ở scenarios cần broad semantic recall — như “tìm tất cả documents nói về chủ đề X”. RAG vẫn tốt hơn cho search kiểu knowledge base tổng quát.

Cách Triển Khai DCI Cho AI Agents

Nếu bạn muốn thử DCI, đây là approach mình recommend.

Bước 1: Setup environment. Cho agent truy cập vào corpus qua filesystem hoặc sandboxed terminal. Đảm bảo agent chỉ read, không write.

Bước 2: Implement tool interface. Cung cấp grep, find, cat, head, tail, và một lightweight Python executor. Không cần embedding model, không cần vector database.

Bước 3: Prompt engineering. Instruct agent cách xây dựng search plan — bắt đầu broad (find), rồi narrow down (grep), rồi inspect (head/cat). Khuyến khích agent revise plan khi thấy kết quả không như mong đợi.

Bước 4: Cost monitoring. DCI dùng nhiều API calls hơn (mỗi lệnh bash là một call), nhưng mỗi call cheap hơn. Tổng cost vẫn thấp hơn RAG pipeline đầy đủ.

Bước 5: Hybrid approach. Không nhất thiết phải bỏ RAG hoàn toàn. Dùng RAG cho broad recall, DCI cho deep drill-down. Kết hợp hai cách cho kết quả tốt nhất.

DCI Có Những Hạn Chế Gì?

DCI không phải silver bullet. Một số hạn chế cần biết:

Recall thấp hơn: DCI tìm thấy ít documents hơn RAG, nên có thể miss thông tin nếu search plan không tốt
Phụ thuộc model reasoning: Agent cần model đủ mạnh để xây dựng search plan hợp lý. Model yếu sẽ grep sai chỗ, waste tokens
Context window limit: Đọc raw files có thể fill nhanh context window. Cần strategy để manage context
Security concern: Cho agent chạy terminal commands cần sandboxing kỹ. Đừng cho agent truy cập production trực tiếp

Mình Nghĩ Gì Về DCI Thay Thế RAG?

Mình thấy DCI là một direction rất đáng chú ý, đặc biệt cho enterprise use cases. Ý tưởng “thay vì preprocessing data cho AI, hãy cho AI công cụ để tự tìm” rất hợp lý. Nó giống cách mình làm việc thực tế — mình không cần ai embed rồi ranking cho mình, mình chỉ cần grep và đọc.

Tuy nhiên, DCI không thay thế RAG trong mọi trường hợp. RAG vẫn tốt cho knowledge base kiểu FAQ, documentation search, chatbot tổng quát. DCI tỏa sáng khi task cần precision, exact match, multi-step reasoning trên data đang thay đổi.

Chi phí tiết kiệm 30% cộng với accuracy tăng 30% là con số rất ấn tượng. Nếu bạn đang build agentic workflows và dùng RAG, mình suggest thử DCI trên một pilot task. Kết quả có thể bất ngờ.

Nghiên cứu đầy đủ: “Direct Corpus Interaction” trên arXiv (arxiv.org/abs/2605.05242), published May 2026.

Direct Corpus Interaction (DCI) Là Gì?

Tại Sao RAG Đang Gặp Vấn Đề Với AI Agents?

Số Liệu Từ Nghiên Cứu: DCI So Với RAG

DCI-Agent-Lite vs DCI-Agent-CC: Hai Phiên Bản So Sánh

DCI Phù Hợp Cho Task Nào?

Cách Triển Khai DCI Cho AI Agents

DCI Có Những Hạn Chế Gì?

Mình Nghĩ Gì Về DCI Thay Thế RAG?

Hương Giang

Bài viết liên quan

ChatGPT Gửi 28.8% Traffic Vào Trang Internal Search: Site Search…

AI Evaluation (Eval) Là Gì? Đánh Giá Hiệu Suất Mô…

DeepSWE Lật Đổ Bảng Xếp Hạng AI Coding: GPT-5.5 Thống…