GPT-5.6 Lộ Diện Trong Codex Logs Chỉ 3 Tuần Sau GPT-5.5: Vấn Đề Yêu Tinh Và Điều Gì Sắp Đến

Câu trả lời nhanh
GPT-5.6 lộ diện trong Codex backend logs chỉ 3 tuần sau GPT-5.5, với codename ember-alpha và beacon-alpha. Polymarket đặt 89% ra trước 30/6. Nguyên nhân OpenAI gấp: GPT-5.5 bị "goblin contamination" — RLHF reward leak khiến model ám ảnh yêu tinh, tăng 3.881%. GPT-5.6 dự kiến context 1.5M token, UltraFast mode 2-5x, redesigned reward pipeline.

GPT-5.5 mới ra đúng 3 tuần, chưa kịp nghỉ tản mạn thì GPT-5.6 đã lộ diện trong Codex backend logs của OpenAI. Không phải press release, không phải system card — mà là một dòng routing mapping duy nhất, bị researcher Haider phát hiện trước khi biến mất. Polymarket đang đặt 89% xác suất GPT-5.6 ra công khai trước 30/6.

Mình theo dõi chuyện này từ đầu tuần và phải nói: lần này OpenAI gấp gáp hơn bình thường. Lý do thì nghe hài mà thật — GPT-5.5 đang bị ám ảnh bởi yêu tinh.

GPT-5.6 Xuất Hiện Trong Codex Logs Như Thế Nào?

Ngày 13/5/2026, researcher Haider phát hiện một entry trong Codex rollout mapping tham chiếu đến gpt-5.6, trong khi phần lớn traffic vẫn route qua gpt-5.5. Entry xuất hiện ngắn rồi biến mất — Haider gọi đó là “hơi giống bug hơn là cố ý tiết lộ.”

Hai thứ log entry này chứng minh:

  • GPT-5.6 tồn tại dưới dạng runnable artifact, có thể nhận Codex prompts. Nghĩa là đã vượt qua giai đoạn “đang train” sang giai đoạn test thử.
  • Model được wire vào hạ tầng rollout của Codex, cho thấy coding/agentic là mục tiêu đánh giá chính — đúng với định vị GPT-5.5 là model agentic coding mạnh nhất OpenAI (82.7% Terminal-Bench 2.0).

Hai thứ nó không cho biết: không gì về parameter count hay kiến trúc, và không gì về thời điểm release.

Ngoài ra, logs cũng lộ codename ember-alphabeacon-alpha — cho thấy OpenAI đang test nhiều variant cùng lúc. Developer qua ChatGPT Pro OAuth reportedly gọi model với context lên tới 1.5 triệu token, tăng 43% so với GPT-5.5.

Tại Sao OpenAI Vội Vã Như Vậy? Câu Chuyện “Goblin Problem”

Đây mới là phần hay. Ngày 30/4/2026, OpenAI công bố bài post-mortem tựa “Where the Goblins Came From” — và nội dung đúng như tên gọi.

GPT-5.5 đã phát triển ám ảnh thống kê với yêu tinh (goblins), gremlin, raccoon, troll, ogre và pigeon. Không phải thỉnh thoảng nhắc — mà measurable, trên hàng trăm triệu responses.

Số liệu từ chính post-mortem của OpenAI:

  • Lượt nhắc “goblin” trong persona Nerdy so với baseline GPT-5.2: tăng 3.881%.
  • Persona Nerdy chiếm 66.7% tổng lượt nhắc goblin — dù chỉ chiếm 2.5% traffic.
  • Tăng trưởng nhắc goblin từ sau GPT-5.1: +175%.
  • Tăng trưởng nhắc gremlin cùng kỳ: +52%.
  • 76.2% dataset RLHF chấm cao output chứa yêu tinh.

Mình đọc xong phần này thì phải đọc lại hai lần cho chắc. Cụ thể chuyện xảy ra thế nào: trong quá trình training personality customization, reward model của OpenAI cho điểm cao hơn một cách hệ thống cho creature metaphors khi response style là “Nerdy.” Reward shape bị leak — từ persona chiếm 2.5% traffic lan ra toàn model.

Output giàu yêu tinh được chọn vào rollout pool. Rollout đó quay lại thành supervised fine-tuning data cho training cycle tiếp. Hành vi bình thường hóa. Lúc ai nhận ra thì GPT-5.5 đã bắt đầu train, và contamination đã lan sang hàng loạt tic-word khác — raccoon, troll, ogre, pigeon.

Cách fix tạm thời? OpenAI nhét vào system prompt của Codex một keyword block lặp bốn lần: “Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.”

Một frontier lab phải lặp 4 lần keyword block trong system prompt production. Mình không biết nên cười hay lo.

OpenAI cũng xóa hoàn toàn persona Nerdy từ tháng 3/2026.

GPT-5.6 Sẽ Có Gì So Với GPT-5.5?

Dựa trên dữ kiện hiện có — log traces, codename leaks, và bối cảnh goblin incident — mình tóm tắt dưới dạng bảng cho dễ so sánh:

Yếu tốGPT-5.5 (hiện tại)GPT-5.6 (dự kiến)
Context window~1 triệu tokenLên tới 1.5 triệu token (đã test)
Tốc độFast mode 1.5xUltraFast mode 2-5x (beacon-alpha)
Coding/Agentic82.7% Terminal-Bench 2.0Incremental improvement
Reward alignmentGoblin contamination, prompt patchRedesigned reward audit pipeline
Persona customizationNerdy bị xóaCó thể quay lại dạng redesigned
Giá API$1.25/$10 per 1M tokenGiữ nguyên
Thời điểm23/4/202689% trước 30/6 (Polymarket)

Mình đánh giá: đây không phải bản leap, mà là bản clean-up có mục đích rõ ràng. Công việc thật sự của GPT-5.6 không glamor — reward signal sạch hơn, persona-isolation chặt hơn, SFT pipeline không recycle contaminated rollouts. Không gì trong số đó làm sáng benchmark, nhưng nó quyết định GPT-5.7 có kế thừa “yêu tinh” hay không.

GPT-5.6 Đua Với Claude Code Như Thế Nào?

OpenAI đang chịu áp lực nặng từ Anthropic trong mảng coding agents. GPT-5.5 dẫn Terminal-Bench 2.0 với 82.7%, nhưng Claude Code đang là daily driver cho rất nhiều developer. OpenAI reportedly subsidize Codex access cho enterprise chuyển từ Claude Code.

GPT-5.6 với UltraFast mode (2-5x nhanh hơn) rõ ràng nhắm thẳng vào workflow coding cần latency thấp. Anthropic vừa tung Claude Haiku 4.5 rất nhanh và rẻ. Cuộc đua lúc này không chỉ là thông minh hơn — mà là nhanh hơn và rẻ hơn.

Người Dùng Thường Cần Quan Tâm Gì?

Nếu bạn dùng ChatGPT Plus/Pro: GPT-5.6 sẽ tự động update, không cần làm gì. UltraFast mode có thể dành riêng Codex/Pro trước.

Nếu bạn dùng API: Giá khả năng giữ nguyên. Test lại output quality sau khi chuyển, đặc biệt nếu app của bạn sensitive với personality/hallucination.

Nếu bạn đang chọn giữa ChatGPT và Claude: Cả hai đều đang iterate cực nhanh. Đừng lock-in vào một bên. GPT-5.6 có thể mạnh hơn coding, Claude vẫn tốt ở writing và reasoning. Mình dùng cả hai và switch theo task.

Nếu bạn làm SEO/content: GPT-5.6 với reward pipeline sạch hơn có thể thay đổi cách model generate nội dung. Monitor output quality sát hơn trong 2-3 tuần đầu.

Tổng Kết

GPT-5.6 lộ diện nhanh hơn bất kỳ ai dự đoán — 3 tuần sau GPT-5.5, bị đẩy bởi một trong những alignment failure hài hước nhất lịch sử AI: vấn đề yêu tinh. Polymarket đặt 89% ra trước 30/6. Mình cá là đầu hoặc giữa tháng 6.

Cái hay của chuyện này không phải model mạnh hơn bao nhiêu. Mà là nó cho thấy RLHF training pipeline vẫn đang có bug kỳ lạ — và cách fix quyết định chất lượng model tiếp theo nhiều hơn bất kỳ benchmark nào.

Hương Giang

Mình là Hương Giang. Công nghệ và AI là thứ mình thích nhất — có tool mới ra là mình tải về thử, đôi khi test 4-5 cái cùng lúc chỉ để xem cái nào dùng ngon hơn. Mình không phải dân kỹ thuật chính gốc, nhưng mình biết cách nhìn nhận xem một công cụ có thực sự hữu ích cho người bình thường không. Ngoài ra mình hay nghe podcast công nghệ và lướt Product Hunt lúc rảnh.

Xem tất cả bài viết →

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *