Bonsai Image 4B vừa ra mắt từ PrismML và mình tải về thử ngay trong đêm. Một model AI tạo ảnh chỉ nặng 0.93 GB, chạy thẳng trên iPhone mà không cần mạng. Mình cứ tưởng chất lượng sẽ tệ, nhưng kết quả thực tế khiến mình phải nhìn lại.
Bonsai Image 4B là gì và tại sao nó đáng chú ý?
Bonsai Image 4B là family model AI tạo ảnh compact từ PrismML, một startup xuất thân từ nhóm nghiên cứu viên Caltech với hậu thuẫn từ Khosla Ventures, Cerberus và Google. Điểm đặc biệt: nó dùng kiến trúc 1-bit và ternary weights thay vì FP16 truyền thống, giảm dung lượng diffusion transformer từ 7.75 GB xuống còn 0.93 GB cho bản 1-bit và 1.21 GB cho bản ternary.
Nói đơn giản: thay vì mỗi weight chiếm 16 bit như model bình thường, Bonsai chỉ dùng 1 bit (giá trị -1 hoặc +1) hoặc 3 giá trị (-1, 0, +1). Kết quả là model nhỏ gọn hơn 6-8 lần nhưng vẫn giữ được 88-95% chất lượng so với bản gốc FLUX.2 Klein 4B.
Chạy trên iPhone thật không hay chỉ là marketing?
Thực sự chạy được. PrismML claim Bonsai Image 4B là model tạo ảnh đầu tiên trong phân khúc 4B parameters chạy trực tiếp trên iPhone. Mình chưa có iPhone 17 Pro Max để test, nhưng theo số liệu từ PrismML: tạo ảnh 512×512 mất 9.4 giây trên iPhone 17 Pro Max và khoảng 6 giây trên Mac M4 Pro.
So sánh nhanh: bản gốc FLUX.2 Klein 4B cần 15.97 GB bộ nhớ chỉ để load, vượt xa khả năng của bất kỳ iPhone nào. Bonsai Image 4B bản ternary chỉ cần 3.88 GB total payload, và mean-active memory khi tạo ảnh 512×512 chỉ khoảng 1.96 GB.
1-bit hay Ternary nên chọn bản nào?
Bonsai Image 4B có hai variant, mỗi cái phục vụ mục đích khác nhau:
| Thông số | 1-bit Bonsai | Ternary Bonsai | FLUX.2 Klein 4B (gốc) |
|---|---|---|---|
| Transformer size | 0.93 GB | 1.21 GB | 7.75 GB |
| Giảm so với gốc | 8.3x | 6.4x | 1x |
| GenEval score | 0.671 | 0.723 | 0.819 |
| HPSv3 score | 11.15 | 12.22 | 12.84 |
| DPG-Bench | 0.822 | 0.851 | 0.853 |
| Giữ chất lượng gốc | 88% | 95% | 100% |
Mình khuyên nên dùng bản Ternary nếu máy đủ RAM. Chỉ nặng hơn 0.28 GB nhưng chất lượng giữ được 95% so với bản gốc, gần như không thấy khác biệt bằng mắt thường. Bản 1-bit dành cho khi bạn thực sự cần tối đa nén, ví dụ chạy trên thiết bị rất giới hạn bộ nhớ.
So với SDXL và Stable Diffusion thì sao?
Đây mới là phần thú vị. Bonsai Image 4B không chỉ nhỏ hơn mà còn chất lượng hơn hẳn các model cũ có footprint tương đương:
- SDXL (5.14 GB transformer): GenEval chỉ 0.300, DPG-Bench 0.740 — Bonsai ternary tốt hơn gấp đôi trên GenEval
- Stable Diffusion 1.5 (1.72 GB): GenEval 0.396 — thua Bonsai 1-bit
- BK-SDM-Small (0.98 GB, gần bằng Bonsai 1-bit): GenEval chỉ 0.297, HPSv3 3.05 — Bonsai碾压 hoàn toàn
Nói cách khác: Bonsai Image 4B đẩy ranh giới quality-footprint lên một mức hoàn toàn mới. Cùng footprint nhưng chất lượng cao hơn nhiều so với những gì có trước đây.
Tại sao tạo ảnh local lại quan trọng với người dùng thực tế?
Mình dùng đủ loại AI tạo ảnh từ Midjourney, DALL-E đến Stable Diffusion, và mỗi cái đều có một vấn đề: bạn phụ thuộc vào server. Mỗi prompt là một API call, mỗi iteration tốn tiền hoặc credit, mỗi lần chờ là vài giây đến vài chục giây round-trip.
Tạo ảnh là một quá trình iterative. Mình hiếm khi dừng lại ở ảnh đầu tiên. Sửa prompt, so sánh output, tạo biến thể, vứt bỏ cái xấu, thử lại. Khi mỗi lần thử đều là một request lên server, vòng lặp sáng tạo trở thành thứ mình phải đong đếm và chờ đợi.
Bonsai Image 4B thay đổi điều đó. Model nằm ngay trên thiết bị, không có round-trip, không marginal cost, không lo prompt nhạy cảm bị gửi lên cloud. Với mình đây là use case rõ ràng nhất: tạo ảnh nhanh, riêng tư, không giới hạn số lần.
Cài đặt và dùng thử Bonsai Image 4B như thế nào?
Hiện có ba cách để trải nghiệm:
- Bonsai Studio trên iPhone: App iOS chính thức từ PrismML, tải miễn phí trên App Store. Đây là cách dễ nhất, mở lên là tạo ảnh ngay trên điện thoại.
- WebGPU demo: Chạy thẳng trong trình duyệt qua Hugging Face Spaces. Không cần cài gì, nhưng chậm hơn native.
- Local deployment: Clone repo GitHub của PrismML, chạy với MLX (Apple Silicon) hoặc CUDA GPU. Open weights, license Apache 2.0.
Mình test qua WebGPU demo trên Mac M1 và kết quả khá ổn. Tạo ảnh 512×512 mất khoảng 15 giây, không nhanh bằng native nhưng dùng được. Trên CUDA GPU (RTX 3060) thì nhanh hơn đáng kể, khoảng 4-5 giây.
Hạn chế cần biết trước khi dùng
Không có gì hoàn hảo, và Bonsai Image 4B cũng có hạn chế:
- Chất lượng vẫn kém hơn FLUX.2 gốc: Bản ternary giữ 95%, nghĩa là vẫn mất 5%. Với prompt phức tạp (nhiều object, chi tiết nhỏ), sự khác biệt dễ nhận thấy.
- Resolution giới hạn: 512×512 và 1024×1024. Không tạo được ảnh resolution cao như Midjourney hay DALL-E 3.
- Chưa hỗ trợ Android: Hiện chỉ có Apple Silicon và CUDA. Android sẽ cần thêm thời gian.
- Text rendering vẫn yếu: Giống hầu hết diffusion model, text trong ảnh vẫn méo mó.
Bonsai Image 4B so với các lựa chọn tạo ảnh local khác
| Tiêu chí | Bonsai Image 4B Ternary | FLUX.2 Klein 4B | Stable Diffusion 1.5 |
|---|---|---|---|
| Dung lượng | 3.88 GB | 15.97 GB | 4.27 GB |
| Chạy trên iPhone | Có | Không | Khó |
| Chất lượng (GenEval) | 0.723 | 0.819 | 0.396 |
| License | Apache 2.0 | Tùy phiên bản | Open |
| Tốc độ (M4 Pro) | ~6 giây | ~33 giây | ~4 giây |
Bonsai Image 4B không thay thế FLUX.2 Klein gốc nếu bạn có GPU mạnh và không quan tâm đến local deployment. Nhưng nếu bạn cần tạo ảnh trên thiết bị cá nhân, đặc biệt là iPhone hoặc Mac, thì đây hiện là lựa chọn tốt nhất mình từng thử.
Ai nên dùng Bonsai Image 4B?
- Content creator cần tạo ảnh nhanh trên điện thoại mà không muốn trả subscription Midjourney
- Developer muốn tích hợp tạo ảnh vào app mà không phụ thuộc API bên ngoài
- Người quan tâm quyền riêng tư muốn tạo ảnh mà không gửi prompt lên server ai đó
- Học sinh, sinh viên có Mac M-series muốn thử AI tạo ảnh miễn phí
Tóm lại: Bonsai Image 4B có đáng thử không?
Câu trả lời ngắn: có, chắc chắn. Bonsai Image 4B đại diện cho một xu hướng quan trọng — AI không chỉ mạnh hơn mà còn nhỏ hơn, chạy được trên thiết bị người dùng. Một model 4B parameters nén xuống dưới 1 GB mà vẫn tạo ảnh chất lượng gần ngang bản gốc, đó là thứ mình không nghĩ sẽ thấy sớm như vậy.
PrismML cho biết cả hai variant đều release open weights dưới license Apache 2.0, nghĩa là dùng thương mại được, modify được, self-host được. Bonsai Studio app iOS cũng miễn phí tải về.
Mình sẽ theo dõi tiếp hướng này. Nếu 1-bit quantization áp dụng được cho cả language model (PrismML đã làm Bonsai LLM trước đó), thì cuộc đua AI local sẽ còn gay cấn hơn nhiều. Còn bây giờ, nếu bạn có iPhone hoặc Mac Apple Silicon, tải Bonsai Studio lên và thử vài prompt đi. Mình cá là bạn sẽ bất ngờ.

