Microsoft Hủy Claude Code Sau Khi Cháy Sạch Ngân Sách AI Cả Năm Chỉ Trong Vài Tháng

Microsoft Hủy Claude Code Sau Khi Cháy Sạch Ngân Sách AI Cả Năm Chỉ Trong Vài Tháng: Bài Học Về Chi Phí AI Agents

Cuối tháng 5/2026, The Verge đưa tin Microsoft sẽ chấm dứt hầu hết giấy phép Claude Code cho bộ phận Experiences and Devices (Windows, Microsoft 365, Teams, Outlook, Surface) trước 30/6. Lý do chính thức là “thống nhất toolchain”. Lý do thật: hàng nghìn kỹ sư dùng Claude Code quá nhiều, token billing cắn đứt ngân sách AI cả năm 2026 chỉ trong vài tháng. Đây cũng là bài học về chi phí khi áp dụng AI mà nhiều doanh nghiệp đang đối mặt.

Mình đã theo dõi câu chuyện coding agents từ đầu năm, và đây là case study thực tế nhất về vấn đề mà ít ai nói thẳng: AI coding agents quá hiệu quả, hiệu quả đến mức ngân sách không theo kịp.

Chi phí mỗi kỹ sư lên tới bao nhiêu?

Theo dữ liệu từ nhiều nguồn, mỗi kỹ sư dùng Claude Code tiêu tốn từ 500 đến 2.000 USD mỗi tháng, tùy cường độ sử dụng. Đó là mức chi phí mà ít team nào dự báo trước khi rollout.

Câu chuyện của Uber còn sốc hơn. CTO Praveen Neppalli Naga xác nhận: 5.000 kỹ sư được cấp Claude Code, tỷ lệ sử dụng tăng từ 32% lên 84% chỉ trong vài tháng. Khoảng 70% code được commit originate từ AI, và 10% backend update shipped hoàn toàn không có human oversight. Toàn bộ ngân sách AI 2026 của Uber — 3,4 tỷ USD — bị tiêu sạch trong 4 tháng.

Dùng nhiều thì tốn nhiều, đơn giản vậy. Nhưng vấn đề là billing model của LLM dựa trên token consumed, không phải per-seat license. Một kỹ sư chạy Claude Code nhiều session, nhiều thread, nhiều task reasoning phức tạp sẽ tạo chi phí theo cấp số nhân, không phải tuyến tính.

Tại sao token billing lại phá sản ở quy mô enterprise?

Mô hình giá truyền thống mà enterprise quen thuộc là per-seat hoặc flat rate. Bạn trả X USD/tháng cho mỗi user, dùng ít hay nhiều đều một giá. Salesforce, Jira, GitHub Copilot đều dùng mô hình này.

LLM thì khác. Mỗi lần Claude Code reasoning, mỗi lần đọc file, mỗi lần generate diff, mỗi lần chạy test, đều tiêu token. Với coding agent chạy 6-8 tiếng/ngày, con số token thoát khỏi tầm kiểm soát rất nhanh.

Bryan Catanzaro, VP deep learning research tại Nvidia, nói thẳng: chi phí compute giờ đã vượt chi phí nhân viên trong team của ông. Đây là lần đầu tiên trong lịch sử công nghệ, chi phí công cụ vượt chi phí người dùng công cụ.

Gartner ước tính 25% ngân sách AI dự kiến cho 2026 sẽ phải dời sang 2027, và chỉ 28% dự án hạ tầng AI đạt được business case như cam kết. Microsoft rút lui không phải case cá biệt. Đây là hệ quả của một mô hình kinh tế đang vỡ.

Microsoft chuyển sang Copilot có giải quyết được gì không?

Microsoft yêu cầu các team chuyển sang GitHub Copilot CLI. Nhưng bản chất vấn đề không nằm ở Claude Code hay Copilot. Nó nằm ở billing model.

Copilot có lợi thế nội bộ: Microsoft sở hữu GitHub, có thể internal-costing linh hoạt hơn. Nhưng nếu usage intensity giữ nguyên, chi phí inference vẫn sẽ tương đương. Dùng model khác rẻ hơn (như GPT-5.5 Flash) có thể giảm bill, nhưng trade-off là chất lượng reasoning giảm theo.

Theo mình thấy, đây là nước cờ chiến lược hơn là tiết kiệm. Microsoft đang build super app gộp Copilot Chat, GitHub Copilot, Cowork và Autopilot. Dùng sản phẩm của Anthropic — đối thủ trực tiếp — trong khi tự build stack riêng là mâu thuẫn về mặt chiến lược. Cháy ngân sách chỉ là cái cớ hợp lý.

Mình đã test chi phí coding agents thực tế

Mình dùng Claude Code và Codex CLI thay phiên nhau trong 2 tháng qua, và con số token thực tế đúng như báo cáo. Một session debug phức tạp (đọc 20-30 file, reasoning nhiều vòng, generate fix, chạy test) có thể tiêu 50.000-200.000 token. Nếu một kỹ sư chạy 5-10 session/ngày, bill hàng tháng dễ dàng vượt 1.000 USD.

Với gói subscription Claude Max 100 USD/tháng (5x rate limit), mình ước tính mình đang dùng tương đương 800-1.200 USD API cost mỗi tháng. Subscription subsidize chi phí rất nhiều. Nhưng cho enterprise dùng API trực tiếp thì con số thực tế hiện ra ngay.

Bảng so sánh chi phí coding agents phổ biến

Công cụ	Mô hình giá	Chi phí/kỹ sư/tháng	Ghi chú
Claude Code (API)	Per token	500-2.000 USD	Chi phí tăng theo usage, không có cap
GitHub Copilot	Per seat	19-39 USD	Flat rate, dùng bao nhiêu cũng một giá
Cursor Pro	Per seat	20 USD	Flat rate, có giới hạn request
Codex CLI (OpenAI)	Per token	200-800 USD	Tương tự Claude Code, billing theo usage
Copilot CLI (Microsoft)	Internal	Chi phí nội bộ	Microsoft tự absorb inference cost

Rõ ràng, flat-rate per-seat đang thắng về tính dự báo được chi phí. Nhưng trade-off là chất lượng: Claude Code vẫn là coding agent mạnh nhất hiện nay, và per-seat pricing không cover được inference cost thực tế nếu user dùng intensity cao.

Điều gì sẽ xảy ra tiếp theo?

Thứ nhất, hybrid pricing sẽ trở thành tiêu chuẩn. Unlimited per-seat sẽ nhường chỗ cho capped metered access: tier sử dụng, spending alerts, hard limits. Nhiều provider đã đang chuyển hướng.

Thứ hai, enterprise sẽ ưu tiên self-host model hoặc local AI cho workload lặp lại. Bài phân tích về local AI thay API mà mình đọc tuần trước trên Hacker News (236 điểm) chỉ ra rằng hybrid approach tiết kiệm 60-95% chi phí.

Thứ ba, Anthropic vẫn thắng trong ngắn hạn. Claude Code là standard cho AI coding. Microsoft chuyển sang Copilot CLI không phải vì Copilot tốt hơn, mà vì vấn đề chi phí và chiến lược. Anthropic vừa gọi vốn Series H 65 tỷ USD, định giá 965 tỷ. Doanh thu tăng 80x YoY. Việc Microsoft rút lui không ảnh hưởng đáng kể.

Bài học cho developer và team nhỏ

Nếu bạn đang dùng coding agent cho team, đây là 3 điều mình rút ra:

Một, đo lường token consumption trước khi rollout. Chạy pilot 2-4 tuần, track bill thực tế, rồi mới quyết định scale. Đừng lặp lại sai lầm của Microsoft.

Hai, xem xét hybrid approach. Dùng subscription (Claude Max, ChatGPT Pro) cho daily coding, API cho batch task. Mình dùng Claude Max 100 USD/tháng cho hầu hết việc code, và chỉ dùng API cho task cần context rất dài hoặc batch processing.

Ba, set budget alert. Hầu hết platform đều có spending limit. Thiết lập ngay từ đầu, không đợi bill bất ngờ.

Câu chuyện Microsoft hủy Claude Code không phải tin buồn cho Anthropic. Nó là tín hiệu rằng AI coding đã trở thành công cụ thiết yếu — đến mức ngân sách phải chạy theo, không phải ngược lại. Và đó là vấn đề mà toàn bộ ngành đang phải giải quyết.

Hương Giang

Bài viết liên quan

GEO Là Gì? Generative Engine Optimization Từ A Đến Z

Trump Ký Sắc Lệnh Đưa AI Tiên Tiến Nhất Vào…

Token Trong AI Là Gì? Giải Thích Đơn Vị Xử…