Google DeepMind vừa ra mắt DiffusionGemma ngày 10/6/2026, và mình đã tải về test ngay trong tuần qua. Đây là model text generation đầu tiên dùng kỹ thuật diffusion thay vì autoregressive — kiểu thay vì viết từng chữ trái sang phải, nó “in” cả đoạn 256 token cùng lúc. Kết quả: nhanh hơn 4 lần so với model thông thường, chạy 1000+ token/giây trên H100.
Nhưng tốc độ không phải thứ khiến mình thực sự hào hứng. Đây là lần đầu tiên một open-weight model 26B tham số từ Google lại không dùng kiến trúc Transformer truyền thống. Và nó mở ra những khả năng mà autoregressive model không làm được — như giải Sudoku hay điền code vào giữa đoạn.
DiffusionGemma là gì và khác gì so với Gemma 4 thông thường?
DiffusionGemma là model thử nghiệm open-weight từ Google DeepMind, xây trên backbone của Gemma 4 nhưng thay đầu autoregressive bằng diffusion head. Thay vì sinh token tuần tự trái sang phải, nó sinh đồng thời 256 token trong một “canvas” rồi tinh chỉnh dần qua nhiều bước denoise. License Apache 2.0, 26B Mixture of Experts nhưng chỉ active 3.8B tham số khi inference.
Khác biệt cốt lõi: Gemma 4 chuẩn ưu tiên chất lượng, DiffusionGemma ưu tiên tốc độ. Google nói thẳng — nếu cần chất lượng cao nhất, hãy dùng Gemma 4. DiffusionGemma dành cho developer đang xây dựng ứng dụng tương tác real-time cần tốc độ phản hồi cực thấp.
Tại sao diffusion lại nhanh hơn autoregressive trên GPU?
Lý do nằm ở cách GPU hoạt động. Model autoregressive sinh token kiểu máy đánh chữ — một chữ rồi đến một chữ. Mỗi lần sinh, GPU phải load toàn bộ trọng số model từ VRAM ra, tính toán, rồi trả về 1 token. Quá trình này bị nghẽn ở memory bandwidth — GPU dành phần lớn thời gian chờ dữ liệu từ VRAM chứ không phải đang tính.
DiffusionGemma đảo ngược bài toán. Thay vì 1 token mỗi lần, nó đưa cho GPU một khối 256 token để tính đồng thời. Điều này chuyển bottleneck từ memory-bandwidth sang compute-bound — tận dụng tensor cores GPU vốn nằm không khi chạy autoregressive local. Kiểu như thay vì gõ từng chữ trên máy đánh chữ, bạn dùng máy in ép cả trang cùng lúc.
Hiệu năng thực tế: 1000+ token/giây trên GPU nào?
Mình đã xem benchmark và đây là con số thực tế. Trên NVIDIA H100, DiffusionGemma đạt 1000+ token/giây. Trên RTX 5090 — card đồ họa cao cấp nhất hiện nay cho consumer — nó đạt 700+ token/giây. So với Gemma 4 chạy autoregressive trên cùng phần cứng, đây là tốc độ nhanh hơn khoảng 4 lần.
Nhưng có một catch quan trọng: tốc độ này chỉ áp dụng cho local inference hoặc low-concurrency. Khi bạn chạy cloud serving với hàng nghìn request cùng lúc (high QPS), autoregressive model lại hiệu quả hơn vì có thể batch nhiều request lại để chia sẻ load. DiffusionGemma sinh giá trị nhất ở chế độ một vài user dùng local.
VRAM 18GB: DiffusionGemma chạy được trên card nào?
Với quantize 4-bit NVFP4, DiffusionGemma cần khoảng 18GB VRAM. Điều này nghĩa là RTX 4090 (24GB) và RTX 5090 (32GB) chạy thoải mái. RTX 3090 (24GB) cũng đủ nhưng tốc độ chậm hơn do tensor cores đời cũ hơn. Lưu ý: Apple Silicon (M-series) kém hiệu quả hơn vì kiến trúc unified memory bị memory-bandwidth-bound — đúng điểm yếu mà DiffusionGemma cố giải quyết trên GPU rời.
Context window 256K token — đủ cho hầu hết use case. Model hoạt động theo block: denoise 256 token xong, commit vào KV cache, rồi chuyển sang block tiếp theo. Kiểu block-autoregressive này kết hợp tốc độ song song của diffusion với tính ổn định tuần tự của autoregressive.
Bidirectional attention giải quyết bài toán gì mà autoregressive không làm được?
Đây mới là phần thú vị nhất. Trong model autoregressive, token thứ 10 không thể nhìn thấy token thứ 15 — nó chỉ nhìn được những token trước. DiffusionGemma thì khác: trong canvas 256 token, mọi token nhìn thấy tất cả các token khác. Đây gọi là bidirectional attention.
Việc này mở ra những use case mà autoregressive model bó tay. Ví dụ điển hình: giải Sudoku. Trong Sudoku, mỗi ô phụ thuộc vào tất cả ô khác — không thể giải tuần tự trái sang phải. Google demo fine-tune DiffusionGemma chơi Sudoku, đạt 80% success rate sau SFT. Model autoregressive gần như không giải được vì mỗi token phụ thuộc vào token tương lai.
Ứng dụng thực tế hơn: code infilling (điền code vào giữa đoạn), chỉnh sửa văn bản inline, sinh amino acid sequence, đồ thị toán học. Đây là những bài toán non-linear mà autoregressive model gặp khó khăn.
Self-correction hoạt động như thế nào?
Trong quá trình denoise, DiffusionGemma đánh giá toàn bộ canvas 256 token cùng lúc. Nếu phát hiện token nào confidence thấp, nó thay thế bằng random token và tinh chỉnh lại. Kiểu như viết nháp xong rồi tự soát lỗi — nhưng sửa trong khi đang viết chứ không đợi viết xong.
Đây là capability mà autoregressive model không có. Khi AR model sinh ra một token sai, nó “kẹt” với token đó mãi. DiffusionGemma có thể sửa lỗi trong quá trình, giúp giảm hallucination ở cấp độ block. Không phải hoàn hảo, nhưng đáng chú ý.
So sánh DiffusionGemma vs autoregressive model: mình chọn cái nào?
Mình test và so sánh hai hướng tiếp cận, kết quả rõ ràng:
DiffusionGema thắng ở: tốc độ inference local (nhanh 4x), bài toán non-linear (Sudoku, code infilling), khả năng self-correction, sử dụng GPU hiệu quả hơn ở low-concurrency.
Autoregressive (Gemma 4, Qwen, Llama) thắng ở: chất lượng output tổng thể, cloud serving high-QPS, ecosystem tooling trưởng thành, hỗ trợ đa dạng phần cứng (bao gồm Apple Silicon), reasoning phức tạp.
Google cũng nói thẳng: DiffusionGemma chất lượng thấp hơn Gemma 4 chuẩn. Nó không phải để thay thế, mà là tool bổ sung cho use case cụ thể. Nếu bạn xây chatbot cần reasoning sâu, vẫn nên dùng AR model. Nếu build app cần phản hồi real-time kiểu autocomplete hoặc interactive editing, DiffusionGemma worth thử.
So sánh với HRM-Text của Sapient — một model non-Transformer khác mình đã review trước đó — thì DiffusionGemma nhỏ hơn (26B vs 1B nhưng active 3.8B) và tập trung vào inference speed thay vì training cost. HRM-Text giải bài toán “train rẻ”, DiffusionGemma giải bài toán “chạy nhanh”.
Cách cài đặt và chạy DiffusionGemma
Google hợp tác với nhiều framework nên deployment khá dễ. Cách nhanh nhất là dùng vLLM:
vllm serve google/diffusiongemma-26B-A4B-it \\\n--max-model-len 262144 \\\n--max-num-seqs 4 \\\n--gpu-memory-utilization 0.85 \\\n--attention-backend TRITON_ATTN
Ngoài ra, model hỗ trợ Hugging Face Transformers, MLX (cho Apple Silicon, dù chậm hơn), Unsloth cho fine-tune, và NVIDIA NeMo. Bạn cũng có thể deploy qua Google Cloud Model Garden hoặc NVIDIA NIM.
weights tải miễn phí từ HuggingFace. NVIDIA tối ưu model cho RTX 4090/5090, H100, và Blackwell với kernel NVFP4 native.
Fine-tune DiffusionGemma: có đáng không?
Google phát hành Hackable Diffusion — toolbox JAX modular để fine-tune DiffusionGemma. Demo Sudoku cho thấy fine-tune có tác dụng rất lớn: từ 0% success rate (base model) lên 80% (sau SFT), đồng thời giảm số bước inference cần thiết.
Điều này nghĩa là DiffusionGemma có khả năng customize cao cho domain cụ thể. Nếu bạn làm việc trong lĩnh vực cần text generation với ràng buộc logic (y tế, pháp lý, kỹ thuật), fine-tune DiffusionGemma có thể mang lại kết quả mà AR model khó đạt được — nhờ bidirectional attention cho phép model nhìn toàn bộ ngữ cảnh khi sinh.
DiffusionGemma có đáng để dùng trong 2026?
Câu trả lời ngắn: đáng thử nếu bạn build app local-first cần tốc độ. Không đáng nếu bạn chỉ cần chatbot thông thường trên cloud.
Nhìn bức tranh lớn hơn, DiffusionGemma đại diện cho một hướng đi mới trong text generation. Autoregressive đã thống trị 5 năm qua, nhưng bottleneck memory-bandwidth ngày càng rõ khi model lớn hơn. Diffusion text generation chuyển sang compute-bound — đúng hướng khi GPU tensor cores ngày càng mạnh (xem thêm chip AI Tensordyne Napier mình review tuần qua cũng đi hướng compute-first).
Trade-off hiện tại: chất lượng thấp hơn AR model. Nhưng đây là model thế hệ đầu tiên — Google chỉ mới bắt đầu khám phá. Nếu comunidad đón nhận và fine-tune cải thiện chất lượng, diffusion text generation có thể trở thành standard cho local inference trong 1-2 năm tới.
Nguồn tham khảo chính thức: