Train một foundation model từ số 0 thường tốn hàng triệu USD và hàng nghìn GPU. Nhưng Sapient Intelligence vừa chứng minh điều ngược lại: mô hình HRM-Text 1 tỷ tham số, train từ đầu, chi phí chỉ khoảng 1.500 USD trong chưa đầy 2 ngày.
Mình đọc paper và test qua model trên HuggingFace tuần qua, kết quả khá bất ngờ. Không phải kiểu “rẻ mà kém” — HRM-Text đạt 60,7% MMLU và 84,5% GSM8K, cạnh tranh trực tiếp với các mô hình 2B đến 7B tham số như Qwen, Gemma hay Llama. Bí quyết nằm ở kiến trúc hoàn toàn khác: không phải Transformer.
HRM-Text Là Gì Va Tại Sao No Khac Biet?
HRM-Text (Hierarchical Recurrent Model for Text) là mô hình do Sapient Intelligence phát triển, sử dụng kiến trúc phân tầng: module H chậm duy trì ngữ cảnh chiến lược, module L nhanh xử lý tinh chỉnh cục bộ. Khác với Transformer chạy next-token prediction trên toàn bộ raw text, HRM-Text chỉ train trên instruction-response pairs — tức dữ liệu có cấu trúc nhiệm vụ rõ ràng.
Điều này có nghĩa là mô hình không lãng phí compute để học thuộc Reddit threads hay bài báo ngẫu nhiên. Nó học cách tư duy thay vì học thuộc lòng internet.
Chi Phi Thuc Te: 1.500 USD Va 1.9 Ngay Tren 16 GPU
Theo GitHub chính thức của Sapient, bản XL (1 tỷ tham số) cần 16 GPU H100 trong khoảng 46 giờ, tổng chi phí ước tính 1.472 USD dựa trên giá 2 USD/giờ mỗi H100. Bản L (0,6 tỷ tham số) còn rẻ hơn: chỉ 8 H100 trong 50 giờ, khoảng 800 USD.
So sánh cho dễ hình dung: Llama 3 tiêu tốn hàng chục nghìn GPU trong vài tháng. GPT-4 ước tính hơn 100 triệu USD chi phí train. HRM-Text dùng ít hơn 100 đến 900 lần số token training và ít hơn 96 đến 432 lần compute so với các mô hình cùng tầm.
Khong Phai Transformer: Kien Truc HRM Co Gi Dac Biet?
HRM tách computation thành hai tầng. Module L (fast) chạy tinh chỉnh cục bộ ba lần, sau đó module H (slow) cập nhật ngữ cảnh chiến lược một lần. Hai chu kỳ như vậy tạo ra một vòng lặp tư duy sâu hơn so với Transformer thông thường.
Điểm kỹ thuật quan trọng: Sapient phát triển MagicNorm — kỹ thuật normalization đặc biệt giữ tín hiệu ổn định bất kể mô hình lặp bao nhiêu vòng. Kèm theo đó là phương pháp warm-up: đầu train chỉ cho reasoning loop nông, rồi tăng dần độ sâu. Không có hai yếu tố này, recurrent model 1 tỷ tham số sẽ vỡ vì gradient exploding hoặc vanishing.
Hieu Suat: HRM-Text 1B Co Thuc Su Vượt Qwen Va Gemma?
Trên benchmark, HRM-Text XL (1B) đạt: MMLU 60,7%, GSM8K 84,5%, MATH 56,5%, ARC-C 81,9%, DROP 82,3%. HRM-Text L (0,6B) cũng rất ấn tượng: MMLU 56,6%, GSM8K 77,6%.
Để so sánh, Qwen2.5-1.5B đạt khoảng 60% MMLU nhưng cần gấp nhiều lần data và compute. Gemma-2-2B đạt 51% MMLU. HRM-Text vượt cả hai với fewer parameters và ít hơn 150-900 lần training data. Không phải thắng tuyệt đối ở mọi benchmark, nhưng tỷ lệ hiệu quả trên mỗi đồng USD chi phí là ArgumentOutOfRangeException — tỷ lệ lệch xấp xỉ không tưởng.
Tai Sao No Anh Huong Den Doanh Nghiep Va Developer?
Ở góc độ doanh nghiệp, HRM-Text mở ra kịch bản mà trước đây chỉ Big Tech mới làm được: train foundation model riêng cho nghiệp vụ cụ thể. Một quỹ đầu tư, ngân hàng, hay công ty bảo hiểm có dữ liệu nội bộ nhạy cảm giờ có thể pretrain mô hình reasoning core với chi phí dưới 2.000 USD, chạy trong môi trường kiểm soát hoàn toàn.
CEO Sapient Guan Wang nói thẳng: vấn đề không phải mô hình不够 lớn, mà là industry bị nghiện scaling. Khi model fail thì giải pháp mặc định là “make it bigger” — nhưng đó là đường cong giảm lợi nhuận. Lập luận này hợp lý khi bạn nhìn vào thực tế: nhiều enterprise không cần mô hình thuộc lòng internet, họ cần reasoning engine hiểu logic nghiệp vụ.
HRM-Text Co The Thay The Transformer Duoc Khong?
Thành thật mà nói, chưa phải lúc nào cũng thay được. HRM-Text yếu hơn ở các task cần kiến thức广 (open-domain QA, creative writing) vì chỉ train trên 40 tỷ token so với hàng nghìn tỷ token của Llama hay Qwen. Mô hình được thiết kế làm reasoning core, kết hợp với external knowledge store (RAG, vector database) thay vì tự memorize mọi thứ.
Ngoài ra, HRM-Text yêu cầu Hopper-class GPU (H100) vì phụ thuộc FlashAttention 3. Nếu bạn chỉ có consumer GPU (RTX 4090), sẽ cần modify khá nhiều. Đây là rào cản nhỏ nhưng thực tế.
Bai Hoc Cho Developer Viet Nam
Nếu bạn đang build AI product ở Việt Nam, HRM-Text mở ra một hướng đi mới: thay vì dùng GPT-5.5 hay Claude cho mọi task, hãy cân nhắc train một reasoning core nhỏ cho domain cụ thể. Chi phí dưới 2.000 USD, chạy trong 2 ngày, model thuộc về bạn hoàn toàn.
Mình thấy use case rõ ràng nhất là: (1) phân tích tài chính, (2) tư vấn pháp lý, (3) xử lý văn bản nội bộ. Đây là những lĩnh vực cần reasoning mạnh nhưng không cần kiến thức百科 toàn thư. Kết hợp HRM-Text với RAG cho knowledge retrieval là combo rất mạnh.
Quan trọng hơn, điều này chứng minh rằng AI không còn là sân chơi độc quyền của Big Tech. Khi chi phí train foundation model giảm từ hàng chục triệu USD xuống dưới 2.000 USD, câu chuyện thay đổi hoàn toàn.
HRM-Text đã open-source toàn bộ trên GitHub và HuggingFace. Bạn có thể reproduce kết quả hoặc train phiên bản riêng cho domain của mình. Paper đầy đủ trên arXiv.
Theo mình, đây là một trong những paper đáng chú ý nhất tháng 6/2026. Không phải vì benchmark cao nhất, mà vì nó đặt câu hỏi về nguyên tắc căn bản: liệu brute-force scaling có phải con đường duy nhất? Sapient nói không. Và họ có số liệu để chứng minh.