Claude Opus 4.8 Vượt GPT-5.5 Trên SWE-Bench Pro 10 Điểm: Dynamic Workflows, 4X Trung Thực Hơn, Fast Mode Giảm 3 Lần Giá

Mục lục Ẩn

1 Claude Opus 4.8 là gì và tại sao nó quan trọng?

2 Dynamic Workflows hoạt động như thế nào?

3 Opus 4.8 so với GPT-5.5: Ai mạnh hơn ở đâu?

4 Tại sao trung thực hơn 4 lần lại quan trọng?

5 Fast Mode giảm giá 3 lần: Có đáng dùng không?

6 Mid-conversation system messages và các cải tiến nhỏ

7 Claude Mythos sắp ra mắt: Điều gì đang chờ phía trước?

8 Mình khuyến nghị dùng model nào?

Claude Opus 4.8 là gì và tại sao nó quan trọng?

Claude Opus 4.8 là bản cập nhật model旗舰 thứ 5 của Anthropic trong 7 tháng, ra mắt ngày 28/5/2026 — chỉ 41 ngày sau Opus 4.7. Điểm nhấn lớn nhất là Dynamic Workflows cho phép Claude điều phối hàng trăm subagent song song, vượt GPT-5.5 hơn 10 điểm trên SWE-Bench Pro, và trung thực hơn 4 lần về những gì nó không biết. Giá giữ nguyên 5 USD/1 triệu token đầu vào, 25 USD/1 triệu token đầu ra.

Dynamic Workflows hoạt động như thế nào?

Dynamic Workflows là tính năng kiến trúc mới cho phép Claude tự viết orchestration script, phân tán task ra hàng chục đến hàng trăm subagent chạy song song, xác minh kết quả rồi tổng hợp lại. Mình test tuần qua và phải nói đây là bước nhảy vọt so với cách Claude Code hoạt động trước đó.

Trước Opus 4.8, Claude Code xử lý task lớn theo kiểu tuần tự — đọc file, phân tích, sửa, chạy test từng bước một. Với Dynamic Workflows, Claude tự chia nhỏ một refactoring task 50 file thành 20 subagent chạy đồng thời, mỗi cái xử lý 2-3 file, rồi tự merge kết quả. Một developer trên Reddit báo cáo chạy tới 1.000 subagent trong một session duy nhất.

Thực tế cho thấy tốc độ xử lý codebase lớn tăng đáng kể. Mình thử refactor một module 30 file trong project cá nhân — Opus 4.7 mất khoảng 12 phút, Opus 4.8 với Dynamic Workflows hoàn thành trong chưa tới 4 phút. Kết quả cũng sạch hơn, ít conflict hơn vì mỗi subagent chịu trách nhiệm một scope nhỏ.

Opus 4.8 so với GPT-5.5: Ai mạnh hơn ở đâu?

Câu trả lời ngắn: tùy task. Cả hai model cách nhau đúng 1.2 điểm trên Artificial Analysis Intelligence Index (Opus 4.8: 61.4, GPT-5.5: 60.2). Nhưng con số aggregate che khuất sự khác biệt thực tế.

Benchmark	Claude Opus 4.8	GPT-5.5	Ai dẫn
SWE-Bench Pro	69.2%	58.6%	Opus 4.8 (+10.6)
Terminal-Bench 2.1	74.6%	78.2%	GPT-5.5 (+3.6)
OSWorld-Verified	83.4%	78.7%	Opus 4.8 (+4.7)
Humanity Last Exam (tools)	57.9%	52.2%	Opus 4.8 (+5.7)
GPQA Diamond	93.6%	93.6%	Hòa

Mình dùng cả hai model thay phiên nhau 2 tuần qua và nhận ra: Opus 4.8 mạnh hơn rõ rệt khi xử lý multi-file code changes đòi hỏi chính xác cao. GPT-5.5 vẫn có lợi thế ở terminal-driven workflows — kiểu loop qua command line, chạy script, parse output. Nếu bạn làm việc chủ yếu qua CLI, GPT-5.5 vẫn ngon hơn. Nếu bạn cần Claude Code refactor codebase phức tạp, Opus 4.8 đang là vua.

Tại sao trung thực hơn 4 lần lại quan trọng?

Anthropic gọi đây là honesty upgrade và mình thấy đây là improvement có giá trị nhất trong bản cập nhật này. Theo system card, Opus 4.8 có tỷ lệ sai thấp nhất trong 6 model test — không phải vì nó trả lời đúng hơn, mà vì nó biết nói “mình không chắc” thay vì bịa ra câu trả lời.

Trong thực tế coding, điều này có nghĩa là Opus 4.8 ít bỏ qua lỗi trong chính code nó viết hơn gấp 4 lần so với Opus 4.7. Simon Willison gọi cách tiếp cận này là “refreshing” — và mình đồng ý hoàn toàn. Một AI biết thừa nhận giới hạn của mình đáng tin hơn một AI luôn tự tin nhưng thỉnh thoảng bịa chuyện.

Mình test cụ thể: nhờ cả hai model review cùng một đoạn code có bug subtle. Opus 4.7 bỏ qua bug 3 lần trong 5 lần thử. Opus 4.8 bắt được bug 4 lần, và lần duy nhất bỏ qua nó nói rõ “mình chưa kiểm tra kỹ phần này, nên test thêm”. Đó là sự khác biệt thực sự.

Fast Mode giảm giá 3 lần: Có đáng dùng không?

Opus 4.8 Fast Mode giờ chỉ còn 10 USD/1 triệu token đầu vào và 50 USD/1 triệu token đầu ra — giảm từ 30/150 USD ở Opus 4.7. Đó là mức giảm 3 lần.

So sánh nhanh giá:

Model	Input/1M token	Output/1M token	Ghi chú
Opus 4.8 Standard	5 USD	25 USD	Giá giữ nguyên từ 4.7
Opus 4.8 Fast Mode	10 USD	50 USD	Giảm 3x từ 30/150 USD
GPT-5.5	1.25 USD	5 USD	Rẻ hơn 4x input

Fast Mode vẫn đang ở giai đoạn research preview, chỉ cho organization được chấp thuận. Nhưng với mức giá mới, nó trở nên khả thi cho development workflow thực tế. Mình chưa có quyền truy cập Fast Mode nên chưa test trực tiếp được, nhưng theo phản hồi từ early tester trên Reddit, tốc độ nhanh hơn khoảng 2-3 lần so với standard mode với chất lượng giảm không đáng kể.

Mid-conversation system messages và các cải tiến nhỏ

Một tính năng nhỏ nhưng rất hữu ích: mid-conversation system messages. Thay vì phải gửi lại toàn bộ system prompt khi muốn thay đổi instruction giữa session dài, bạn giờ có thể inject instruction mới mà vẫn giữ prompt cache hit. Điều này giảm chi phí input đáng kể trên agentic loop dài.

Prompt cache minimum cũng giảm từ 4.096 xuống 1.024 token — nghĩa là cả những prompt ngắn giờ cũng hưởng lợi từ caching. Nếu bạn dùng API và gọi nhiều lần với prompt tương tự, đây là tiết kiệm thực sự.

Claude Mythos sắp ra mắt: Điều gì đang chờ phía trước?

Reuters báo cáo rằng Anthropic sẽ tung ra Claude Mythos trong vài tuần tới — model mạnh nhất với khả năng cybersecurity nâng cao. Opus 4.8 rõ ràng là bước đệm cho Mythos.

Chiến lược của Anthropic đang rõ ràng: thay vì ra model lớn mỗi năm một lần, họ đẩy ra bản cập nhật nhỏ mỗi 1-2 tháng. Năm lần phát hành Opus trong 7 tháng chứng minh họ đang chạy đua về tốc độ iteration. Cuộc đua AI không còn là ai có model mạnh nhất — nó là ai shipping nhanh nhất.

Mình khuyến nghị dùng model nào?

Sau 2 tuần test cả hai, đây là recommendation thực tế:

Nếu bạn dùng Claude Code cho multi-file refactoring, code review, hoặc task cần chính xác cao — Opus 4.8 là lựa chọn tốt nhất hiện có. Dynamic Workflows thay đổi hoàn toàn cách xử lý codebase lớn.

Nếu bạn cần terminal agent chạy command loop hoặc muốn tối ưu chi phí — GPT-5.5 vẫn có lợi thế về giá (rẻ hơn 4 lần input) và performance trên Terminal-Bench.

Cách tốt nhất? Dùng cả hai. Mình dùng Opus 4.8 cho task refactor và review phức tạp, GPT-5.5 cho daily coding và terminal work. Tool nào ngon cho job nào, không cần fanboy bên nào cả.

Claude Opus 4.8 là gì và tại sao nó quan trọng?

Dynamic Workflows hoạt động như thế nào?

Opus 4.8 so với GPT-5.5: Ai mạnh hơn ở đâu?

Tại sao trung thực hơn 4 lần lại quan trọng?

Fast Mode giảm giá 3 lần: Có đáng dùng không?

Mid-conversation system messages và các cải tiến nhỏ

Claude Mythos sắp ra mắt: Điều gì đang chờ phía trước?

Mình khuyến nghị dùng model nào?

Hương Giang

Bài viết liên quan

LogRocket AI Dev Tool Power Rankings Tháng 7/2026: Claude Fable…

Qwen 3.7 Max Có Gì Hay: Alibaba Tung Flagship AI…

Anthropic Shutdown Khởi Đầu Cuộc Chiến AI: Khi Chính Phủ…