OpenAI ra mắt 3 model audio real-time mới và chính thức đưa Realtime API ra khỏi beta. GPT-Realtime-2 mang sức mạnh reasoning cấp GPT-5 vào cuộc hội thoại giọng nói liên tục — không còn pipeline chuyển đổi text trung gian.
GPT-Realtime-2 xử lý audio trong một luồng liên tục bằng một model duy nhất. Nó nghe audio trực tiếp, suy luận, và phản hồi bằng audio — không cần bước chuyển đổi giọng-thành-văn-bản rồi văn-bản-thành-giọng như các hệ thống trước đó.
Kết quả: độ trễ thấp hơn, xử lý được tông giọng, cảm xúc, ngắt lời, và tiếng ồn nền — những thứ bị mất trong pipeline truyền thống.
Đó chỉ là GPT-Realtime-2. OpenAI còn ra thêm hai model nữa trong cùng bộ ba, và mỗi cái phục vụ mục đích khác nhau.
Ba Model Audio Real-Time Mới Của OpenAI Là Gì?
OpenAI ra mắt đồng thời 3 model audio real-time vào ngày 7/5/2026, tất cả đã GA (Generally Available):
GPT-Realtime-2: Agent Giọng Nói Hội Thoại Đầy Đủ
Model chính của bộ ba. Xử lý audio liên tục, reasoning cấp GPT-5, phản hồi bằng audio.
Trường hợp sử dụng: tổng đài AI, chăm sóc khách hàng, coaching real-time, hệ thống IVR có khả năng suy luận thật, voice-controlled agents.
Giao diện API: WebSocket hoặc WebRTC qua Realtime API endpoint. Không cần suffix beta nữa.
Mình đã theo dõi sự tiến hóa của voice AI từ GPT-4o Realtime năm 2024, và lần nâng cấp này thực sự đáng kể. GPT-4o Realtime vẫn là preview — nó hay bị ngắt giữa chừng, xử lý ngắt lời kém, và reasoning yếu hơn nhiều. GPT-Realtime-2 với nền tảng GPT-5 là bước nhảy lớn.
GPT-Realtime-Translate: Phiên Dịch Đa Ngôn Ngữ Real-Time
Mỗi người nói ngôn ngữ riêng, model dịch và nói bằng ngôn ngữ đích trong thời gian thực. Hỗ trợ hơn 70 ngôn ngữ đầu vào, 13 ngôn ngữ đầu ra.
Trường hợp sử dụng: hỗ trợ khách hàng xuyên biên giới, cuộc gọi bán hàng quốc tế, dịch sự kiện trực tiếp, nền tảng giáo dục đa ngôn ngữ.
Deutsche Telekom đang test cho dịch vụ khách hàng đa ngôn ngữ. Vimeo dùng cho dịch video sản phẩm trực tiếp. Thực tế cho thấy model này hướng đến các tương tác thương mại khối lượng lớn, rủi ro trung bình — không phải thay thế thông dịch viên trong tòa án.
GPT-Realtime-Whisper: Phiên Âm Trực Tiếp (Streaming Transcription)
Phiên âm audio khi người nói đang nói, tạo phụ đề real-time thay vì đợi ghi âm xong mới transcribe.
Trường hợp sử dụng: phụ đề cuộc họp trực tiếp, transcription cuộc gọi khách hàng cho CRM, công cụ accessibility, phát sóng trực tiếp.
Khác biệt với Whisper gốc: Whisper cũ chỉ transcribe sau khi ghi âm xong. GPT-Realtime-Whisper transcribe khi người nói đang nói — có thể tích hợp vào workflow doanh nghiệp real-time.
So Sánh 3 Model OpenAI Realtime Mới
Continuous Stream Khác Gì So Với Pipeline Truyền Thống?
Đây là điểm mình muốn giải thích rõ, vì nhiều người vẫn nhầm lẫn.
Pipeline truyền thống (cách cũ): Audio → Speech-to-Text → LLM xử lý text → Text-to-Speech → Audio. Ba bước riêng biệt, mỗi bước thêm độ trễ. LLM ở giữa mất thông tin chỉ tồn tại trong audio — tông giọng, cảm xúc, tốc độ nói, ngắt lời, tiếng ồn nền.
GPT-Realtime-2 (cách mới): Audio → một model duy nhất xử lý liên tục → Audio. Không có bước chuyển đổi text trung gian. Model nghe trực tiếp, suy luận, và phản hồi.
Kết quả thực tế:
Bắt đầu phản hồi trước khi người nói nói xong. Hiểu được tông giọng và cảm xúc trong giọng nói. Xử lý ngắt lời tự nhiên — người dùng có thể ngắt giữa chừng. Nhận diện tiếng cười, khoảng lặng, tiếng ồn nền. Duy trì ngữ cảnh qua nhiều lượt hội thoại qua lại.
Mình test so sánh pipeline cũ với Realtime-2 thì sự khác biệt rất rõ. Pipeline cũ có độ trễ 2-4 giây, cảm giác như nói chuyện với người ở đầu dây bên kia đang chậm. Realtime-2 phản hồi gần như ngay lập tức, và có thể ngắt lại khi bạn muốn thêm thông tin.
Giá Cả Đắt Không Và Nên Bắt Đầu Từ Đâu?
Giá audio token cao hơn text token đáng kể vì cần nhiều compute hơn. Một cuộc gọi hỗ trợ khách hàng 1 tiếng với GPT-Realtime-2 có thể tốn vài USD.
GPT-Realtime-2: $40/M input, $80/M output — phù hợp cho tương tác giá trị cao (bán hàng enterprise, tư vấn y tế, pháp lý).
GPT-Realtime-Translate: $40/M input, $80/M output — phù hợp cho doanh nghiệp xuyên biên giới, cuộc gọi quốc tế.
GPT-Realtime-Whisper: $3/M input — điểm bắt đầu rẻ nhất. Nếu bạn chỉ cần phụ đề trực tiếp hoặc transcription cho CRM, bắt đầu từ đây.
Khuyến nghị của mình: nếu team bạn chưa dùng voice AI, hãy bắt đầu với GPT-Realtime-Whisper ($3/M tokens). Khi đã quen và thấy giá trị, nâng lên GPT-Realtime-2 cho use case cụ thể cần hội thoại hai chiều.
Developer Cần Migrate Gì Từ Bản Cũ?
Nếu bạn đang dùng GPT-4o Realtime (beta), đây là những thay đổi cần biết:
Thay model string: từ gpt-4o-realtime-preview sang gpt-realtime-2. Realtime API không còn beta — SLA và hỗ trợ sản xuất chính thức. Hỗ trợ cả WebSocket và WebRTC. Context window 128K tokens. Latency configurable, parallel tool calls. GPT-4o Realtime sẽ tiếp tục hoạt động nhưng không nhận thêm cập nhật.
Nếu build mới: dùng thẳng GPT-Realtime-2, không cần qua bản preview cũ.
Use Case Thực Tế Cho Doanh Nghiệp Việt Nam
Với thị trường Việt Nam, mình thấy 3 use case thực tế nhất:
Thứ nhất, chatbot tổng đài AI cho doanh nghiệp. Dùng GPT-Realtime-2 cho hệ thống tổng đài tự động. Khách gọi đến, AI nghe và trả lời trực tiếp bằng giọng nói. Tiết kiệm nhân sự tổng đài, hoạt động 24/7.
Thứ hai, phiên dịch trực tiếp cho meetings quốc tế. Dùng GPT-Realtime-Translate cho các cuộc họp với đối tác nước ngoài. Tiếng Việt vào, tiếng Anh ra — và ngược lại.
Thứ ba, transcription cuộc gọi cho CRM. Dùng GPT-Realtime-Whisper để ghi lại nội dung cuộc gọi khách hàng tự động. Không cần nhân viên gõ lại, data thẳng vào CRM.
Chi phí cho doanh nghiệp Việt Nam: Whisper $3/M tokens là rất hợp lý. Một cuộc gọi 15 phút tầm dưới $0.05. GPT-Realtime-2 đắt hơn nhưng vẫn rẻ hơn thuê nhân viên tổng đài 24/7.
Nên Chọn WebSocket Hay WebRTC?
WebRTC phù hợp ứng dụng browser, xử lý tự động codec negotiation, NAT traversal, jitter buffering.
WebSocket phù hợp ứng dụng server-side, mobile app cần custom audio handling, hoặc khi cần control nhiều hơn audio pipeline.
OpenAI hỗ trợ cả hai. Chọn dựa trên kiến trúc ứng dụng của bạn.
Realtime API GA Có Ý Nghĩa Gì Cho Xu Hướng Voice AI?
Mình nhận ra một điều: voice AI đang chuyển từ giai đoạn “cool demo” sang “sẵn sàng sản xuất”. Ba dấu hiệu cho thấy điều này.
API đã GA, không còn beta — OpenAI cam kết SLA. Giá cả rõ ràng, tính theo audio token. Enterprise đã dùng thật: Deutsche Telekom, Vimeo.
Điều này có nghĩa là 2026 sẽ là năm voice AI thực sự bùng nổ trong doanh nghiệp. Nếu bạn làm product, đây là lúc bắt đầu tích hợp.
So sánh nhanh với đối thủ: Google Gemini Live đã hỗ trợ voice từ lâu nhưng vẫn ở giai đoạn consumer-focused. Anthropic chưa có real-time audio. ElevenLabs mạnh TTS nhưng không có reasoning. GPT-Realtime-2 là model đầu tiên kết hợp reasoning GPT-5 với audio real-time.
Tóm Lại
OpenAI Realtime API đã GA với 3 model: GPT-Realtime-2 ($40/$80), Translate ($40/$80), Whisper ($3/M). Architecture continuous stream loại bỏ pipeline text trung gian. Bắt đầu với Whisper nếu cần tiết kiệm, nâng lên Realtime-2 khi cần hội thoại hai chiều. Developer dùng GPT-4o Realtime cần migrate sang gpt-realtime-2.