Google vừa đưa Gemini 3.5 Flash lên general availability hôm 27/5, và mình đã kịp test trong vài ngày qua. Kết quả: đây là model frontier nhanh nhất mình từng dùng, với giá mà gần như ai cũng tiếp cận được.
Gemini 3.5 Flash GA có gì mới?
Gemini 3.5 Flash được công bố tại Google I/O ngày 19/5 và vừa chính thức available trên toàn bộ ecosystem: Gemini API, Google AI Studio, Android Studio, Gemini app, và quan trọng nhất — nó đang thay thế model mặc định trong AI Mode Search, phục vụ hơn 1 tỷ user mỗi tháng.
Sundar Pichai gọi đây là khởi đầu của “agentic Gemini era.” Mình thấy đây không phải marketing nhảm. Con số nói lên tất cả.
Benchmark so sánh Gemini 3.5 Flash với GPT-5.5 và Claude ra sao?
Gemini 3.5 Flash đạt 76.2% Terminal-Bench 2.1 (coding), 1656 Elo GDPval-AA (agentic), 83.6% MCP Atlas (tool use), 84.2% CharXiv Reasoning. Nó vượt Gemini 3.1 Pro trên mọi benchmark, cạnh tranh ngang ngửa GPT-5.5 và Claude Opus 4.7 ở nhiều task, trong khi nhanh hơn 4 lần.
| Chỉ số | Gemini 3.5 Flash | Gemini 3.1 Pro | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|---|---|
| Terminal-Bench 2.1 (Coding) | 76.2% | ~62% | 70% | 68% |
| GDPval-AA (Agentic) | 1656 Elo | ~1400 | 1580 | 1550 |
| MCP Atlas (Tool Use) | 83.6% | ~70% | 78% | 76% |
| CharXiv Reasoning | 84.2% | ~75% | 82% | 80% |
| Tốc độ output | 4x frontier | Baseline | 1x | 1x |
Tại sao giá Gemini 3.5 Flash là deal tốt nhất hiện nay?
Gemini 3.5 Flash có giá $1.50 per million input token và $9.00 per million output token. Rẻ hơn GPT-5.5 khoảng 3-7 lần, rẻ hơn Claude Opus 4.7 gấp 8-10 lần. Với performance gần tương đương ở nhiều task, đây là lựa chọn tối ưu cho ai build application hay dùng API thường xuyên.
| Model | Input ($/M token) | Output ($/M token) |
|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 |
| GPT-5.5 | $10.00 | $30.00 |
| Claude Opus 4.7 | $15.00 | $75.00 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
Tiered thinking trên Gemini 3.5 Flash hoạt động thế nào?
Gemini 3.5 Flash dùng hệ thống tiered thinking với 4 mức: Minimal, Low, Medium, High. Medium là default, cân bằng tốt giữa chất lượng và tốc độ. Mình thích cơ chế này vì nó cho phép tune chi phí theo task cụ thể — task đơn giản dùng Minimal, task phức tạp dùng High, bạn chỉ trả cho đúng mức thinking cần thiết.
So sánh thực tế: Gemini 3.5 Flash vs GPT-5.5 vs Claude cho developer?
Mình test 3 model trên cùng batch task trong tuần qua. Về coding, Gemini 3.5 Flash bất ngờ tốt hơn kỳ vọng — task viết function, refactor code, debug đạt chất lượng ngang GPT-5.5 ở phần lớn case, chỉ thua ở task kiến trúc phức tạp rất lớn. Về writing, GPT-5.5 vẫn ổn hơn cho long-form content tiếng Anh, tiếng Việt cả ba đều khá, Claude hơi tự nhiên hơn. Về agentic task, đây là điểm mạnh nhất của Gemini 3.5 Flash — 1656 Elo trên GDPval-AA là số cao nhất ở bất kỳ model nào ở tầm giá này. Về tốc độ, Gemini nhanh hơn rõ ràng với response time trung bình ~1.2s so với GPT-5.5 ~4.5s và Claude Opus ~6s.
Context window 1 triệu token trên Gemini 3.5 Flash thực dụng không?
Gemini 3.5 Flash giữ context window 1 triệu token. Trong thực tế, bạn có thể nạp toàn bộ codebase nhỏ hoặc hàng trăm trang tài liệu vào một lần gọi API. Mình test với khoảng 200KB code Python — Gemini xử lý tốt, nhớ context xuyên suốt các câu hỏi follow-up. Với GPT-5.5 chỉ có 128K context, mình phải chia nhỏ và mất tính liên tục.
Gemini 3.5 Pro sắp ra có nên đợi không?
Google cho biết Gemini 3.5 Pro đang dùng nội bộ và dự kiến công khai tháng 6/2026. Pro sẽ mạnh hơn Flash nhưng chắc chắn đắt hơn nhiều. Góc nhìn của mình: nếu bạn cần model cho production ngay bây giờ, không nên đợi. Flash đã đủ cho 80-90% use case. Chỉ khi bạn xử lý task reasoning cực kỳ phức tạp mới cần chờ Pro.
Ai nên dùng Gemini 3.5 Flash?
Developer build AI app: đây là lựa chọn giá/performance tốt nhất hiện nay. Người dùng cá nhân qua Gemini app: trải nghiệm free đã tốt hơn nhiều nhờ Flash làm default. Doanh nghiệp cần agentic AI: 83.6% MCP Atlas + 1656 Elo GDPval-AA nghĩa là model đáng tin cậy cho workflow tự động. Ai đang dùng GPT-5.5 hay Claude Opus API: thử chuyển task phù hợp sang Flash, tiết kiệm 3-10 lần chi phí mà chất lượng tương đương.
Cách bắt đầu dùng Gemini 3.5 Flash
Ba cách tiếp cận: dùng qua Gemini app (đã available mặc định), dùng qua API (truy cập Google AI Studio, cần Google Cloud project với billing enabled), hoặc dùng qua AI Studio miễn phí (có free tier với rate limit, đủ cho testing). Mình khuyến nghị bắt đầu với AI Studio để test, rồi chuyển sang API khi build production. Documentation của Google khá rõ ràng, mình mất khoảng 15 phút setup xong từ đầu.
Gemini 3.5 Flash có đáng để chuyển từ GPT hay Claude không?
Gemini 3.5 Flash là model thay đổi luật chơi về giá. Frontier performance với giá flash — $1.50/$9 per million token, nhanh hơn 4x, context 1 triệu token. Mình chưa thấy deal nào tốt hơn ở thời điểm này. Nếu bạn đang trả $10-75/M token cho model frontier, tối thiểu hãy test Gemini 3.5 Flash cho use case của bạn. Khả năng cao là bạn sẽ chuyển ít nhất một phần workflow sang và tiết kiệm đáng kể.