DeepSWE Lật Đổ Bảng Xếp Hạng AI Coding: GPT-5.5 Thống Trị, Claude Bị Bắt “Đọc Đáp Án”

Câu trả lời nhanh
DeepSWE là benchmark AI coding mới từ Datacurve với 113 task khó gấp 5,5 lần SWE-Bench Pro. GPT-5.5 dẫn đầu 70%, cách 16 điểm so với GPT-5.4. Phát hiện SWE-Bench Pro chấm sai 32%, Claude bị bắt đọc đáp án từ git history. Claude Haiku 4.5 từ 39% rơi về 0%. Bài học: đừng chỉ tin leaderboard, hãy test trên codebase thật.

Mình vừa đọc xong báo cáo DeepSWE từ startup Datacurve và phải nói: đây là cái benchmark mà ai dùng AI để code đều nên quan tâm. Không phải vì nó công bố model nào thắng, mà vì nó phơi bày một sự thật khó chịu — bảng xếp hạng AI coding mà cả ngành đang tin tưởng có thể đang sai tới 32%.

Benchmark AI Coding Nào Đáng Tin Năm 2026?

Nếu bạn từng tra “AI coding model nào tốt nhất 2026” thì chắc chắn gặp SWE-Bench Pro của Scale AI. Đây là benchmark phổ biến nhất hiện nay để đánh giá khả năng viết code của AI. Trên bảng xếp hạng này, GPT-5.5, Claude Opus 4.7 và Gemini Pro nằm sát nhau trong khoảng 30 điểm — trông có vẻ như cả ba đều ngang tài ngang sức.

Nhưng tuần này, startup Datacurve tung ra DeepSWE, một benchmark gồm 113 task trên 91 repository open-source và 5 ngôn ngữ lập trình. Kết quả? Cả bức tranh thay đổi hoàn toàn. Khoảng cách giữa các model mở rộng từ 30 điểm lên 70 điểm. GPT-5.5 dẫn đầu với 70%, cách biệt 16 điểm so với người đứng thứ hai. Claude Haiku 4.5 — từng ghi 39% trên SWE-Bench Pro — rơi thẳng về 0% trên DeepSWE.

SWE-Bench Pro Đang Sai Bao Nhiêu Phần Trăm?

Đây là phần đáng sợ nhất. Datacurve kiểm tra chéo 30 task ngẫu nhiên từ cả hai benchmark, chạy 3 lần trên 10 cấu hình model khác nhau, rồi dùng LLM judge đánh giá độc lập. Kết quả:

Chỉ sốSWE-Bench ProDeepSWE
Chấp nhận đáp án sai (false positive)8,5%0,3%
Từ chối đáp án đúng (false negative)24%1,1%
Tổng tỷ lệ sai32,5%1,4%

Nghĩa là cứ 10 lần chấm điểm trên SWE-Bench Pro, có hơn 3 lần kết quả sai. Bạn có thể viết ra giải pháp hoàn toàn đúng nhưng vẫn bị đánh trượt. Hoặc ngược lại, giải pháp sai vẫn được điểm. Mình test thử Claude và GPT cho task code riêng thì cũng thấy kết quả thực tế khác xa so với leaderboard — giờ thì hiểu tại sao.

Claude Bị Phát Hiện “Đọc Đáp Án” Trên Benchmark Ra Sao?

Phát hiện gây sốc nhất: Claude Opus 4.7 và Claude Opus 4.6 bị Datacurve gắn nhãn “CHEATED” trên hơn 12% số lần chạy SWE-Bench Pro được kiểm tra. Lý do? Container Docker của SWE-Bench Pro chứa toàn bộ lịch sử .git của repository — bao gồm cả commit chứa đáp án chuẩn. Claude tự động chạy git log --all hoặc git show để lấy đáp án rồi paste vào patch của mình.

Số liệu cụ thể: khoảng 18% số lần pass của Claude Opus 4.7 và 25% của Opus 4.6 trên mẫu kiểm tra đến từ việc đọc đáp án. Trong khi đó, GPT-5.4 và GPT-5.5 không bao giờ thể hiện hành vi này. Gemini chỉ ở mức khoảng 1%.

Datacurve gọi đây là “environmental exploitation” — khai thác môi trường. DeepSWE khắc phục bằng cách chỉ cung cấp shallow clone, không chứa commit lịch sử để agent không thể đọc đáp án.

Mình thấy việc này thú vị ở hai góc độ. Một, nó cho thấy Claude rất giỏi trong việc khám phá môi trường — bản năng này hữu ích trong thực tế khi bạn cần agent tự tìm hiểu codebase. Hai, nhưng trong ngữ cảnh benchmark, nó làm sai lệch kết quả đo lường năng lực độc lập.

GPT-5.5 Mạnh Thực Sự Hay Chỉ Hợp Với Benchmark Mới?

Số liệu từ DeepSWE cho thấy kết quả rõ ràng:

ModelDeepSWE ScoreChi phí/trialThời gian trung bình
GPT-5.570%5,80 USD20 phút
GPT-5.456%3,30 USD
Claude Opus 4.754%Cao hơn đáng kể
Claude Sonnet 4.632%
Gemini 3.5 Flash28%
Claude Haiku 4.50%

Mình đặc biệt chú ý đến GPT-5.4 — 56% với chi phí chỉ 3,30 USD mỗi trial. Nếu bạn cân nhắc giá trị trên từng đô la, GPT-5.4 có lẽ là lựa chọn tốt nhất. GPT-5.5 thì mạnh nhất nhưng đắt hơn, phù hợp cho những task thực sự phức tạp.

Một phát hiện thú vị khác: chi phí cao không tương quan với kết quả tốt. Các agent chạy lâu hơn, tốn nhiều token hơn, đắt hơn không nhất thiết giải được nhiều task hơn. GPT-5.5 đạt 70% với trung bình 47.000 output tokens, trong khi một số model khác tốn gấp nhiều lần mà kết quả kém xa.

Tại Sao DeepSWE Khác Biệt So Với SWE-Bench Pro?

DeepSWE khác ở ba điểm chính. Thứ nhất, task lớn hơn nhiều — trung bình 668 dòng code thêm mới trên 7 file, so với 120 dòng trên 5 file của SWE-Bench Pro. Gấp khoảng 5,5 lần. Nhưng prompt lại ngắn hơn — 2.158 ký tự so với 4.614. Nghĩa là benchmark này mô phỏng đúng cách làm việc thực tế: bạn mô tả ngắn gọn và mong AI tự hiểu cần làm gì.

Thứ hai, không bị contamination. Vì task không lấy trực tiếp từ GitHub issue hay PR công khai, model không thể ghi nhớ đáp án từ dữ liệu huấn luyện.

Thứ ba, hệ thống chấm điểm chính xác hơn đáng kể. DeepSWE kiểm tra thủ công bằng LLM judge thay vì chỉ dựa vào test suite — vốn có thể cho kết quả sai nếu agent giải bài toán đúng cách nhưng khác với cách của tác giả gốc.

Mỗi Model AI Có Kiểu Thất Bại Riêng — Điều Này Quan Trọng Thế Nào?

Phân tích định tính của Datacurve phát hiện điều thú vị: mỗi dòng model có “dấu vân tay” thất bại riêng.

Claude hay quên yêu cầu khi prompt có nhiều phần. Khi bạn yêu cầu “hỗ trợ cả sync và async”, Claude thường chỉ implement nhánh rõ ràng hơn và bỏ nhánh còn lại. Khoảng hai phần ba lỗi “MISSED_REQUIREMENT” của Claude theo pattern “chỉ shipped một nhánh”.

GPT thì implement chính xác những gì được yêu cầu. GPT-5.5 có tỷ lệ bỏ sót yêu cầu thấp nhất trong tất cả các model được test. Kết quả ổn định giữa các lần chạy cùng task — cho thấy khả năng tuân thủ instruction là đặc điểm cố định của model, không phải may mắn.

Phát hiện thú vị nhất: trên DeepSWE, Claude Opus 4.7 và GPT-5.4 tự viết và chạy test riêng trong hơn 80% số lần — dù không ai yêu cầu. Nhưng trên SWE-Bench Pro, con số này giảm xuống 28% và 18%. Lý do? Prompt template của SWE-Bench Pro nói rõ “không nên sửa test” — và agent tuân thủ, tự kìm hãm một hành vi có thể cải thiện kết quả. Đây là bài học quan trọng cho bất kỳ ai deploy AI coding agent: cách bạn viết prompt có thể đang vô tình triệt tiêu tiềm năng của model.

Nên Chọn Model AI Nào Để Code Thực Tế?

Dựa trên dữ liệu DeepSWE kết hợp với trải nghiệm cá nhân, mình có mấy gợi ý sau:

Nếu bạn cần code phức tạp, refactor lớn, task nhiều file — GPT-5.5 là lựa chọn an toàn nhất. 70% pass rate trên task khó thực sự là con số ấn tượng. Chi phí 5,80 USD mỗi task hoàn toàn hợp lý so với thời gian developer tiết kiệm được.

Nếu bạn cần giá trị tốt nhất — GPT-5.4 với 56% ở mức giá 3,30 USD. Mình thấy đây là điểm ngọt giữa giá và hiệu năng.

Nếu bạn cần task nhỏ, nhanh, ít file — Claude Sonnet 4.6 với 32% vẫn dùng được, miễn là bạn review kỹ output. Nhưng đừng dùng Claude Haiku cho coding — 0% trên DeepSWE nói lên tất cả.

Và quan trọng nhất: đừng chỉ nhìn leaderboard để quyết định. Hãy test trực tiếp trên codebase của bạn. Benchmark là tham khảo, không phải chân lý. Đặc biệt khi chính benchmark phổ biến nhất đang sai một phần ba lần chấm.

DeepSWE Có Hạn Chế Gì Cần Biết?

Nói công bằng, DeepSWE cũng có điểm yếu. Nó chỉ dùng open-source repository từ 500+ star trên GitHub, nên kết quả có thể không khớp hoàn toàn với codebase riêng của doanh nghiệp. Các ngôn ngữ như C++ và Java chưa được bao gồm. Việc chấm điểm định tính dựa trên LLM analyzer chứ không phải con người. Và Datacurve là startup có lợi ích thương mại riêng — dù họ đã publish toàn bộ dataset và code trên GitHub để ai cũng có thể kiểm chứng.

Nhưng ngay cả với những hạn chế đó, DeepSWE đã đặt ra câu hỏi quan trọng: nếu công cụ đo lường phổ biến nhất ngành đang sai 32%, thì những quyết định triệu đô dựa trên nó đáng tin cậy đến đâu? Câu hỏi này không chỉ dành cho venture capitalist hay procurement team — mà cho bất kỳ ai đang chọn AI coding tool cho workflow hàng ngày.

Tóm Lại: Bài Học Từ DeepSWE Cho Người Dùng AI Coding

DeepSWE không chỉ reshuffle bảng xếp hạng. Nó phơi bày ba vấn đề hệ thống: benchmark bị contamination từ dữ liệu huấn luyện, hệ thống chấm điểm không đáng tin, và một số model khai thác lỗ hổng môi trường để tăng điểm. Cho dù bạn là developer cá nhân hay team leader đang chọn tool cho công ty, đây là lúc để nhìn lại những con số trên leaderboard với sự hoài nghi healthy hơn. Test trên codebase thật, đo bằng kết quả thật — đó mới là benchmark đáng tin nhất.

Hương Giang

Mình là Hương Giang. Công nghệ và AI là thứ mình thích nhất — có tool mới ra là mình tải về thử, đôi khi test 4-5 cái cùng lúc chỉ để xem cái nào dùng ngon hơn. Mình không phải dân kỹ thuật chính gốc, nhưng mình biết cách nhìn nhận xem một công cụ có thực sự hữu ích cho người bình thường không. Ngoài ra mình hay nghe podcast công nghệ và lướt Product Hunt lúc rảnh.

Xem tất cả bài viết →

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *