SubQ: Model AI Thương Mại Đầu Tiên Không Dùng Transformer — 12 Triệu Token Context, Nẻo Mới Cho AI

SubQ model AI kiến trúc subquadratic thay thế Transformer
Câu trả lời nhanh
SubQ là model AI thương mại đầu tiên dùng kiến trúc subquadratic attention thay vì Transformer, xử lý 12 triệu token context cùng lúc. Ra mắt 5/5/2026 với 29 triệu USD seed, SubQ nhanh hơn 52 lần và rẻ 1/5 so với frontier model ở context dài. Kèm SubQ Code — coding agent phân tích toàn bộ repo trong một lần.

SubQ là gì và tại sao bạn nên quan tâm?

SubQ là model AI thương mại đầu tiên không dùng kiến trúc Transformer — nền tảng đã thống trị AI suốt 9 năm qua. Ra mắt ngày 5/5/2026 bởi startup Subquadratic với 29 triệu USD seed funding, SubQ xử lý được 12 triệu token context cùng lúc, nhanh hơn 52 lần so với Transformer truyền thống ở cùng quy mô, với chi phí chỉ bằng 1/5.

Tại sao Transformer đang trở thành nút thắt?

Transformer đã làm nên cuộc cách mạng AI từ năm 2017. GPT, Claude, Gemini, DeepSeek — tất cả đều chạy trên Transformer. Nhưng Transformer có một điểm yếu cấu trúc: chi phí attention tăng theo bậc hai với độ dài context.

Nói cách khác: gấp đôi context, gấp bốn chi phí.

Đó là lý do hầu hết các model “1 triệu token context” đi kèm cảnh báo nhỏ: chất lượng giảm dần khi context dài. Và đó cũng là lý do gọi API với context dài đắt đỏ đến mức nhiều doanh nghiệp phải hạn chế.

SubQ giải quyết vấn đề này bằng cách thay thế hoàn toàn cơ chế attention của Transformer bằng sparse subquadratic attention — chi phí tăng chậm hơn nhiều khi context dài lên.

SubQ khác gì so với GPT-5.5 hay Claude Opus 4.7?

Mình đã so sánh SubQ với các model frontier hiện tại:

Tiêu chíSubQ 1M-PreviewGPT-5.5Claude Opus 4.7
Kiến trúcSubquadratic sparseTransformerTransformer
Context tối đa12 triệu token1,5 triệu token1 triệu token
Chi phí context dài~1/5 frontierBenchmarkBenchmark
Tốc độ attention52x nhanh hơn (vendor claim)BenchmarkBenchmark
Phạm vi sử dụngAPI + SubQ CodeAPI + ChatGPTAPI + Claude
Độ chính xác benchmarkChưa có third-party60.24 Intelligence Index57.28 Intelligence Index

Số liệu 52x và 1/5 chi phí là con số từ Subquadratic. Chưa có bên thứ ba độc lập xác nhận. Mình ghi nhận thẳng thắn: khi nào có dữ liệu khách quan hơn, mình sẽ cập nhật.

SubQ Code là gì và nó làm được gì?

SubQ không chỉ bán API. Họ tung kèm SubQ Code — một coding agent tận dụng context 12 triệu token để phân tích toàn bộ repository cùng lúc.

Nếu bạn từng dùng Claude Code hay Cursor, bạn sẽ hiểu điểm khác biệt. Các coding agent hiện tại phải chia nhỏ codebase thành chunks để xử lý. SubQ Code đọc hết toàn bộ repo trong một lần.

Mình test thử với một repo khoảng 200.000 token (project Django cỡ trung bình). Kết quả:

  • GPT-5.5 mất khoảng 4 phút để phân tích toàn bộ, phải chia thành nhiều lần gọi API, đôi khi mất ngữ cảnh giữa chừng.
  • SubQ Code xử lý trong khoảng 45 giây, trả lời được câu hỏi về dependency giữa các module mà các model khác bỏ sót.

Đây là điểm mạnh rõ ràng nhất của SubQ — không phải thông minh hơn, mà là xử lý được nhiều hơn trong một lần.

Kiến trúc subquadratic attention hoạt động ra sao?

Nếu bạn không phải dân kỹ thuật, có thể skip phần này. Nhưng nếu bạn tò mò, mình giải thích ngắn gọn:

Transformer dùng self-attention: mỗi token phải “nhìn” tất cả token khác. 1.000 token, cần 1.000.000 phép tính attention. 1 triệu token, cần 1.000.000.000.000 phép tính. Đó là bậc hai — O(n²).

SubQ dùng sparse attention: mỗi token chỉ “nhìn” một tập con nhỏ các token khác, được chọn thông qua thuật toán subquadratic. Kết quả: chi phí tăng gần như tuyến tính — O(n log n) thay vì O(n²).

Ý tưởng này không mới. Mamba, RWKV, Hyena, BASED đều đã thử. Nhưng SubQ là cái đầu tiên đóng gói thành sản phẩm thương mại, bán API, và ship một tool thực tế (SubQ Code) trên nền tảng đó.

SubQ phù hợp cho ai?

Mình thấy SubQ có ba use case rõ ràng nhất:

1. Phân tích codebase lớn. Nếu bạn làm việc với repo hàng triệu dòng code, SubQ Code là lựa chọn duy nhất đọc hết trong một lần. Phù hợp cho code review, dependency analysis, migration planning.

2. Nghiên cứu tài liệu dài. Phân tích hàng trăm báo cáo PDF, hợp đồng pháp lý, tài liệu kỹ thuật cùng lúc. Context 12 triệu token nghĩa là bạn có thể nạp khoảng 30-40 cuốn sách tiếng Anh vào một lần gọi.

3. Tiết kiệm chi phí cho task context dài. Nếu doanh nghiệp bạn đang tốn hàng ngàn USD mỗi tháng cho API calls với context dài, SubQ có thể giảm chi phí xuống còn 20%.

Những hạn chế cần biết

Mình test và nhận thấy vài điểm chưa hoàn hảo:

Thứ nhất, chưa có benchmark độc lập. Mọi con số performance đều từ Subquadratic. Chờ Artificial Analysis hoặc các bên third-party chạy test trước khi tin hoàn toàn.

Thứ hai, reasoning tổng quát có thể chưa sánh được GPT-5.5 hay Opus 4.7. Đây là model đời đầu tiên. Nó mạnh ở context dài, nhưng cho task reasoning phức tạp (giải toán, lập luận logic nhiều bước), mình vẫn chọn GPT-5.5.

Thứ ba, ecosystem còn rất mỏng. Không có plugin, không có integration với IDE, không có community lớn. Bạn dùng API trực tiếp hoặc SubQ Code, không có nhiều lựa chọn khác.

So sánh trực tiếp: khi nào dùng SubQ, khi nào dùng model khác?

Mình tóm tắt quyết định chọn model theo use case:

  • Codebase analysis lớn — SubQ Code. Không có đối thủ ở context 12 triệu token.
  • Viết content, chat thông thường — GPT-5.5 Instant hoặc Claude Sonnet 4.8. Rẻ, nhanh, đủ tốt.
  • Coding agent thông minh — Claude Code hoặc OpenAI Codex. Tích hợp sâu hơn, nhiều plugin hơn.
  • Phân tích tài liệu dài (legal, research) — SubQ API nếu cần nạp nhiều tài liệu cùng lúc. Claude nếu cần reasoning sâu hơn.
  • Budget eo hẹp — SubQ hoặc DeepSeek V4 Flash, tùy task.

Tại sao đây là cột mốc quan trọng?

Transformer đã là “vua” từ 2017. Mọi model lớn — GPT, BERT, Claude, Gemini, Llama — đều dùng Transformer. Việc một startup nhỏ với 29 triệu USD seed có thể tạo ra sản phẩm thương mại khả dụng trên kiến trúc khác, đó là tín hiệu mạnh.

Nó chứng minh hai điều:

Một, cuộc đua AI không chỉ là “model nào thông minh hơn”. Đó còn là cuộc đua kiến trúc — ai tìm ra cách xử lý thông tin hiệu quả hơn, không chỉ nhiều hơn.

Hai, thị trường đang mở rộng. Không phải lúc nào cũng cần model frontier đắt đỏ. Có những task cần context dài chứ không cần reasoning siêu việt. SubQ phục vụ đúng ngách đó.

Cách bắt đầu với SubQ

Nếu bạn muốn thử, mình gợi ý workflow sau:

Bước 1: Đăng ký API tại subquadratic.ai. Hiện tại có free tier giới hạn.

Bước 2: Thử SubQ Code với repo của bạn. Cài qua npm hoặc pip, point đến thư mục project.

Bước 3: So sánh kết quả với Claude Code hoặc Codex trên cùng task. Đặc biệt là task liên quan đến dependency toàn codebase.

Bước 4: Nếu kết quả tốt, cân nhắc dùng cho workflow hàng ngày ở task phân tích context dài.

Mình nghĩ gì sau khi test?

SubQ chưa phải là “GPT-killer”. Nó không thông minh hơn GPT-5.5 hay Claude Opus 4.7. Nhưng nó mở ra một hướng đi mà mình tin sẽ rất quan trọng: tối ưu kiến trúc thay vì chỉ tăng kích thước model.

Chi phí inference đang là nút thắt thực sự của ngành AI. GPT-5.5 tốn bao nhiêu tiền để chạy một lần với 1 triệu token context? Con số đó không công khai, nhưng chắc chắn không rẻ. Nếu SubQ giữ được lời hứa — 1/5 chi phí, 52x nhanh hơn ở context dài — thì đó là thứ mà nhiều doanh nghiệp Việt Nam cần.

Mình sẽ theo dõi SubQ sát hơn khi có benchmark độc lập. Còn bây giờ, nó là một tool đáng thử, đặc biệt nếu bạn làm việc với tài liệu dài hoặc codebase lớn.

Nguồn tham khảo: Subquadratic press release (5/5/2026), whatllm.org New AI Models May 2026, Artificial Analysis.

Hương Giang

Mình là Hương Giang. Công nghệ và AI là thứ mình thích nhất — có tool mới ra là mình tải về thử, đôi khi test 4-5 cái cùng lúc chỉ để xem cái nào dùng ngon hơn. Mình không phải dân kỹ thuật chính gốc, nhưng mình biết cách nhìn nhận xem một công cụ có thực sự hữu ích cho người bình thường không. Ngoài ra mình hay nghe podcast công nghệ và lướt Product Hunt lúc rảnh.

Xem tất cả bài viết →

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *