Một team 9 người ở Weibo — mạng xã hội Trung Quốc nổi tiếng hơn về drama celeb hơn là AI — vừa đăng paper lên arXiv khiến cả giới nghiên cứu AI sôi sục. Model của họ chỉ có 3 tỷ tham số, chạy được trên laptop, nhưng đạt 94.3 điểm AIME 2026 — ngang ngửa DeepSeek V3.2 (671 tỷ tham số) và vượt cả Gemini 3 Pro (91.7 điểm).
Mình đọc hết paper 14 trang, test thử model, và lướt qua hàng trăm bình luận trên X. Kết luận: đây là một kỳ thuật tuyệt vời, nhưng cũng mở ra cuộc tranh cãi lớn nhất năm về việc có ai còn tin benchmark nữa không.
VibeThinker-3B là gì và tại sao nó gây sốc?
VibeThinker-3B là model ngôn ngữ 3 tỷ tham số do team Weibo AI phát triển, build trên nền Qwen2.5-Coder-3B của Alibaba. Điểm gây sốc nằm ở benchmark: 94.3 trên AIME 2026 (toán), 80.2 Pass@1 trên LiveCodeBench v6 (code), 96.1% chấp nhận trên LeetCode weekly contest mới nhất.
Để bạn hình dung độ crazy của con số này: DeepSeek V3.2 có 671 tỷ tham số — gấp 224 lần VibeThinker-3B. Kimi K2.5 vượt 1 nghìn tỷ. Gemini 3 Pro của Google cũng hàng trăm tỷ. VibeThinker-3B đạt level tương đương trên toán và code, trong khi nhỏ hơn cả model chạy trên điện thoại.
Model 3 tỷ tham số chạy trên laptop đánh bại model 671 tỷ như thế nào?
Bí quyết nằm ở 4 giai đoạn training mà team gọi là “Spectrum-to-Signal Principle”. Giai đoạn 1: supervised fine-tuning theo curriculum — bắt đầu với data đa dạng, rồi chuyển sang bài khó. Giai đoạn 2: reinforcement learning bằng thuật toán MaxEnt-Guided Policy Optimization, tập trung vào bài toán ở biên giới khả năng của model. Giai đoạn 3: trích xuất reasoning trace chất lượng cao từ checkpoint RL, distill lại. Giai đoạn 4: RL trên instruction-following.
Điểm thông minh nhất là “Long2Short Math RL” — redistribution reward để ưu tiên lời giải ngắn đúng thay vì dài dòng. Model học cách suy nghĩ hiệu quả hơn, không chỉ suy nghĩ đúng.
Nhưng benchmark có phản ánh khả năng thực tế không?
Đây là phần thú vị nhất. Mình download model về test thử, và cộng đồng trên X cũng chia sẻ trải nghiệm. Kết quả khá chia rẽ.
Trên benchmark thì số đẹp ngoan mục. Nhưng user @politilols trên X test full precision và báo cáo: “Nó không biết uv script (công cụ Python phổ biến nhất) là gì. Chưa thấy LLM nào thiếu kiến thức này trong ít nhất 1 năm.” User khác báo cáo model chỉ trả lời tốt câu đầu tiên, câu sau nó trả lời câu trước đó.
Điều này đúng với những gì paper thừa nhận. Trên GPQA-Diamond — benchmark kiến thức khoa học cấp độ graduate — VibeThinker-3B chỉ đạt 70.2, trong khi Gemini 3 Pro đạt 91.9. Model rất giỏi reasoning có thể verify (toán, code), nhưng yếu kiến thức tổng hợp.
Parametric Compression-Coverage Hypothesis là gì?
Team Weibo giới thiệu một lý thuyết họ gọi là “Parametric Compression-Coverage Hypothesis”. Ý tưởng: reasoning verification (toán, code — nơi có thể check đúng/sai) là năng lực “parameter-dense”, có thể nén vào model nhỏ. Kiến thức mở (facts, concepts đa dạng) là “parameter-expansive”, cần nhiều tham số hơn.
Nói cách khác: model nhỏ có thể giỏi toán và code nếu train đúng cách, nhưng không thể thay thế model lớn cho task cần kiến thức rộng. Đây là nhận định hợp lý và khiêm tốn — paper không claim model 3B thay thế được GPT-5.5 cho mọi việc.
Benchmark có bị “benchmaxxing” không?
Nhiều người nghi ngờ benchmark contamination — model có thể đã “thấy” đề thi trong training data. Team Weibo nói họ đã làm benchmark decontamination bằng n-gram filtering. Thêm vào đó, LeetCode contest test (April-May 2026) — diễn ra sau training cutoff — cho kết quả 96.1% accept rate, vượt cả GPT-5.2 và Claude Opus 4.6.
Nhưng user @AvenirReym trên X đặt câu hỏi sắc bén: “Nếu nó giữ trên benchmark tạo sau training cutoff thì thật. Nếu chỉ thắng trên AIME-type sets lưu hành多年的 thì đó là data leakage.” LeetCode contest gần đây là tín hiệu tốt, nhưng AIME sets tồn tại nhiều năm nên khó loại trừ hoàn toàn.
Những benchmark vắng mặt cũng đáng chú ý: không có DeepSWE, không có SWE-Bench Pro, không có Terminal-Bench. Đây đều là benchmark mà các top provider dùng để test khả năng coding thực tế với codebase lớn.
VibeThinker-3B so với các model frontier khác ra sao?
Mình so sánh trực tiếp các model reasoning hàng đầu hiện tại:
- VibeThinker-3B (Weibo): 3 tỷ tham số, chạy trên laptop, AIME 94.3, miễn phí. Yếu kiến thức tổng hợp. Phù hợp: task toán/code cụ thể, chạy local.
- DeepSeek V3.2: 671 tỷ tham số (MoE, active 37 tỷ), AIME tương đương, API $0.27/M token. Mạnh kiến thức tổng hợp. Phù hợp: reasoning + kiến thức rộng, giá rẻ.
- GPT-5.5 (OpenAI): Tỉ lệ tham số không công bố, AIME không disclose, API $5/$30 per M token. Mạnh nhất reasoning tổng hợp + agentic. Phù hợp: production workflow phức tạp.
- Gemini 3 Pro (Google): AIME 91.7, API $2/$12 per M token. Mạnh multimodal + 2M context. Phù hợp: task cần xử lý context cực dài.
VibeThinker-3B không thay thế model nào trong danh sách trên. Nó chứng minh một điều: cho task reasoning hẹp, model nhỏ được train đúng cách có thể đạt performance ngang frontier. Điều này có ý nghĩa lớn cho chi phí inference và AI on-device.
Tại sao một mạng xã hội lại giỏi AI đến vậy?
Đây là phần mình thấy thú vị nhất. Sina Weibo — vốn listed trên Nasdaq, market cap đơn vị tỷ USD — không phải tên tuổi lớn trong giới AI research. Nhưng VibeThinker không phải sản phẩm nhất thời. Series này đã có bản 1.5B ra mắt tháng 11/2025, và giờ là 3B.
Weibo có lợi thế dữ liệu khổng lồ: hàng tỷ tương tác hàng ngày, nội dung đa dạng từ gossip đến technical. Nhưng quan trọng hơn, team 9 người này tiếp cận bài toán từ góc độ thực dụng — họ không cố build model lớn nhất, họ cố build model hiệu quả nhất cho task cụ thể.
Điều này phản ánh xu hướng rộng hơn ở AI Trung Quốc năm 2026: DeepSeek, Moonshot, Zhipu, và giờ là Weibo — tất cả đều chọn con đường efficiency thay vì brute-force scaling. Trong khi Mỹ đua model trillion tham số, Trung Quốc tìm cách làm nhiều hơn với ít hơn.
Bài học cho developer Việt Nam
Nếu bạn đang build sản phẩm AI, VibeThinker-3B mang lại 3 bài học thực tế:
Thứ nhất, không phải task nào cũng cần model tỷ tham số. Toán, code, logic reasoning — những task có verification signal rõ ràng — model nhỏ train đúng cách đủ xài. Tham khảo thêm về Quantization và Distillation để tối ưu chi phí inference.
Thứ hai, pipeline training quan trọng hơn model size. 4 giai đoạn của Weibo — curriculum SFT, targeted RL, trace distillation, instruct RL — có thể áp dụng cho fine-tune model Việt Nam trên task cụ thể. Không cần retrain từ scratch.
Thứ ba, luôn test thực tế thay vì tin benchmark. VibeThinker-3B đạt 80.2 trên LiveCodeBench nhưng user thực tế báo cáo nó không biết công cụ Python cơ bản. Benchmark là điểm tham khảo, không phải đảm bảo production-ready.
Model có thể tải miễn phí trên Hugging Face. Code training trên GitHub. Nếu bạn thử, nhớ test trên task thực tế của bạn trước khi quyết định deploy.
Câu hỏi lớn: Scaling hypothesis có còn đúng?
VibeThinker-3B không bác bỏ scaling hypothesis — paper thừa nhận model nhỏ không thay thế model lớn cho kiến thức tổng hợp. Nhưng nó cho thấy scaling không phải con đường duy nhất. Có một hướng đi khác: train thông minh hơn, tập trung vào task cụ thể, và chấp nhận trade-off về breadth.
Nếu xu hướng này tiếp tục, chúng ta sẽ thấy nhiều model nhỏ chuyên biệt xuất hiện — model chỉ giỏi toán, model chỉ giỏi legal, model chỉ giỏi medical — chạy local, rẻ, và đủ tốt cho production. Đó là tương lai mà cả developer và user đều hưởng lợi.
Còn benchmark thì… cứ thử rồi biết. Mình sẽ tiếp tục theo dõi và test thêm các model sắp ra. Biết đâu lần này các bạn sẽ test cùng mình.
