Tensordyne, startup có trụ sở tại Đức và Mỹ, vừa công bố chip AI Napier — sử dụng toán logarit để biến phép nhân thành phép cộng, claim vượt Nvidia Blackwell 13 lần về throughput và 17 lần về hiệu suất trên mỗi watt. Mình đọc qua báo cáo kỹ thuật từ Forbes, IEEE Spectrum, The Next Platform và Wccftech, rồi tổng hợp lại ở bài này. Kết luận ngắn: claim rất ấn tượng, nhưng phải chờ đến cuối 2026 mới có beta để test thật.
Toán logarit là gì và tại sao nó lại quan trọng với chip AI?
Nguyên lý rất đơn giản: log(a x b) = log(a) + log(b). Thay vì làm phép nhân — tốn diện tích silicon và điện năng rất lớn — Napier chuyển số liệu sang không gian logarit rồi thực hiện phép cộng. Cộng rẻ hơn nhân rất nhiều về mặt hardware. Kết quả: chip gọn hơn, ít tốn điện hơn, nhưng vẫn tính được matrix multiplication — phép toán cốt lõi của neural network.
Đây không phải ý tưởng mới. John Napier, nhà toán học Scotland thế kỷ 16, đã phát minh ra logarit. Nvidia Chief Scientist Bill Dally cũng từng trình bày về log math tại HotChips 2023. Vấn đề là chưa ai giải được bài toán chuyển đổi giữa floating point và logarithmic number system đủ nhanh, đủ chính xác trên silicon. Tensordyne claim team engineer của họ đã tìm ra cách làm conversion “rất thanh lịch, rất chính xác và rẻ trên silicon.”
Thông số kỹ thuật Napier chip so với Nvidia Blackwell ra sao?
Mình đặt hai con số cạnh nhau để dễ hình dung:
- Napier: TSMC 3nm, 138 tỷ transistor, 300W TDP, 2.1 PFLOPS (FP8), 144GB HBM3e, 256MB SRAM, 48 log cores (1.33 GHz) + RISC-V cores (1.5 GHz)
- Nvidia B300: TSMC 4NP, ~208 tỷ transistor, 1.200W TDP, dụng lượng điện gấp 4 lần Napier
Điểm mình chú ý nhất: Napier chỉ tiêu 300W trong khi B300 ăn 1.200W. Tức là một rack 288 chip Napier (120kW) có thể làm nguội bằng không khí, không cần liquid cooling. Với data center truyền thống — ngân hàng, bảo hiểm, hedge fund — đây là advantage rất lớn vì họ không muốn đầu tư hạ tầng liquid cooling.
Một rack Napier bằng chín rack Rubin + Groq có thật không?
Theo số liệu Tensordyne công bố, một rack 4 pod (288 chip Napier) chạy model 2 nghìn tỷ tham số đạt 1.300 tokens/giây mỗi user, tiêu thụ 120kW. Để đạt số tương đương, cần 9 rack Nvidia Rubin + Groq LPX tiêu thụ 1.5MW. Chi phí inference: 11 USD mỗi triệu token với Napier so với 150 USD mỗi triệu token với Nvidia/Groq.
Mình muốn nhấn mạnh: đây là số liệu simulation của Tensordyne, chưa có bên thứ ba verify độc lập. Tuy nhiên, The Next Platform — publication chuyên sâu về hardware — đánh giá: “Nếu architecture này pan out, đây có thể là DeepSeek moment cho AI hardware.”
Tại sao Tensordyne xử lý cả prefill lẫn decode trong khi Nvidia phải chia ra?
Inference LLM có hai giai đoạn: prefill (xử lý input, tốn compute nặng) và decode (sinh token đầu ra, phụ thuộc memory bandwidth và network latency). Hiện tại Nvidia giải quyết bằng cách dùng Blackwell cho prefill + Groq 3 cho decode. AWS thì dùng Trainium cho prefill + Cerebras cho decode. Cả hai đều cần nhiều rack, nhiều vendor.
Tensordyne claim Napier làm được cả hai trong cùng một chip. Prefill nhờ log math compute dày đặc, decode nhờ 144GB HBM3e + TDN Link interconnect độ trễ dưới 1 microsecond. Đây là điểm khác biệt chiến lược: một vendor, một rack, xử lý end-to-end.
TDN72 Pod và rack system cấu trúc thế nào?
Một TDN72 Pod chứa 72 chip Napier + 8 Intel Xeon CPU + 64TB NVMe SSD. Bốn pod ghép thành một rack:
- 288 chip Napier tổng cộng
- 608 PFLOPS FP8 compute
- 42TB HBM3e
- 74MB SRAM
- 320 Xeon cores + 4.608 RISC-V cores
- 64 port 200GbE Ethernet
- 120kW total power, air-cooled
HPE Juniper Networks thiết kế interconnect TDN Link. Broadcom đảm nhận chip packaging. Với Broadcom là khách hàng mua HBM lớn thứ ba thế giới và mua wafers TSMC lớn thứ ba, Tensordyne claim không gặp vấn đề supply chain lớn hơn ai khác.
Đường đi thương mại của Tensordyne ra sao?
Tensordyne đã raise 176 triệu USD qua 3 vòng. Công ty có hơn 120 nhân sự. Napier chip vừa tape-out thành công trên TSMC 3nm, nghĩa là design đã xong và đang bắt đầu production. Lộ trình:
- Cuối 2026: beta cloud access cho khách hàng test
- Q1 2027: beta TDN Pod systems cho khách hàng
- Q2 2027: volume production
Tensordyne kỳ vọng hơn 200 triệu USD đơn hàng cho Napier system. Công ty nhắm vào AI cloud provider, data center truyền thống, và enterprise cần inference cost thấp.
Napier có điểm yếu nào cần lưu ý?
Mình thấy vài rủi ro đáng cân nhắc trước khi gọi đây là “Nvidia killer”:
- Claim chưa verify: Tất cả benchmark là simulation. Phải chờ silicon thật cuối 2026 mới biết chính xác.
- Software stack: Nvidia có CUDA — 17 năm xây dựng, hàng triệu developer quen thuộc. Tensordyne phải chứng minh developer không cần rewrite model, và TDN Math transparent với user.
- Inference only: Napier tập trung inference, không train model. Trong khi Nvidia GPU làm được cả hai. Doanh nghiệp muốn một chip cho mọi việc sẽ vẫn cần Nvidia.
- Adoption risk: Logarithmic number system là architecture mới. Model accuracy sau khi chạy qua log conversion cần kiểm chứng trên nhiều loại model khác nhau, không chỉ DeepSeek-R1 hay MoE.
- Nvidia không đứng yên: Rubin + Groq LPX sẽ production trước Napier. Nếu Nvidia tối ưu đủ tốt, window cạnh tranh có thể hẹp hơn dự kiến.
Tác động thực tế đến developer và doanh nghiệp Việt Nam
Mình nghĩ vài tác động cụ thể nếu Napier thực sự deliver đúng claim:
- Giá inference giảm mạnh: Nếu 11 USD/million tokens là thật, SaaS AI tại Việt Nam có thể giảm giá 60-80%. Các product wrap API AI sẽ có margin cao hơn đáng kể.
- On-premise AI khả thi hơn: Air-cooled, 120kW/rack, chi phí hợp lý — doanh nghiệp lớn có thể tự deploy thay vì phụ thuộc cloud. Ngân hàng, bệnh viện có thể chạy AI nội bộ mà không gửi data ra ngoài.
- Multi-vendor strategy: Đừng all-in Nvidia. Theo dõi Tensordyne beta cuối 2026, test trên workload thực tế của bạn.
- DeepSeek moment cho hardware: Giống như DeepSeek chứng minh không cần hàng chục tỷ USD để train model giỏi, Tensordyne chứng minh không cần 1.200W/chip để inference nhanh. Cả hai đều đả phá narrative “compute = Nvidia”.
So sánh tổng hợp: Tensordyne Napier vs Nvidia Blackwell vs Nvidia Rubin + Groq
Mình tóm tắt lại cho dễ nhìn:
- Throughput: Napier 13x nhanh hơn Blackwell (tokens/giây), 1 rack Napier = 9 rack Rubin + Groq
- Hiệu suất điện: Napier 17x tokens/watt so với Blackwell
- Chi phí inference: Napier 11 USD/million tokens, Nvidia/Groq 150 USD/million tokens
- Power/rack: Napier 120kW (air-cooled), Nvidia/Groq 1.500kW (liquid-cooled)
- Timeline: Napier beta cuối 2026, volume mid-2027. Rubin + Groq production trước đó.
- Tính linh hoạt: Nvidia làm train + inference. Napier chỉ inference.
- Ecosystem: Nvidia CUDA 17 năm. Tensordyne software stack mới ra, chưa kiểm chứng.
Nói thẳng: Tensordyne Napier là câu chuyện đáng theo dõi nhất trong AI hardware nửa cuối 2026. Không phải vì nó sẽ “giết” Nvidia — Nvidia quá lớn để bị hạ gục bởi một startup. Mà vì nó chứng minh có cách khác hiệu quả hơn để thiết kế chip AI. Cạnh tranh thực sự sẽ thúc đẩy innovation và giảm giá cho tất cả. Mình sẽ test ngay khi beta cloud mở cửa cuối năm.