GPT-5.6 Lộ Diện Trong Codex Logs Chỉ 3 Tuần Sau GPT-5.5: Vấn Đề Yêu Tinh Và Điều Gì Sắp Đến

GPT-5.5 mới ra đúng 3 tuần, chưa kịp nghỉ tản mạn thì GPT-5.6 đã lộ diện trong Codex backend logs của OpenAI. Không phải press release, không phải system card — mà là một dòng routing mapping duy nhất, bị researcher Haider phát hiện trước khi biến mất. Polymarket đang đặt 89% xác suất GPT-5.6 ra công khai trước 30/6.

Mình theo dõi chuyện này từ đầu tuần và phải nói: lần này OpenAI gấp gáp hơn bình thường. Lý do thì nghe hài mà thật — GPT-5.5 đang bị ám ảnh bởi yêu tinh.

Mục lục Ẩn

1 GPT-5.6 Xuất Hiện Trong Codex Logs Như Thế Nào?

2 Tại Sao OpenAI Vội Vã Như Vậy? Câu Chuyện “Goblin Problem”

3 GPT-5.6 Sẽ Có Gì So Với GPT-5.5?

4 GPT-5.6 Đua Với Claude Code Như Thế Nào?

5 Người Dùng Thường Cần Quan Tâm Gì?

6 Tổng Kết

GPT-5.6 Xuất Hiện Trong Codex Logs Như Thế Nào?

Ngày 13/5/2026, researcher Haider phát hiện một entry trong Codex rollout mapping tham chiếu đến gpt-5.6, trong khi phần lớn traffic vẫn route qua gpt-5.5. Entry xuất hiện ngắn rồi biến mất — Haider gọi đó là “hơi giống bug hơn là cố ý tiết lộ.”

Hai thứ log entry này chứng minh:

GPT-5.6 tồn tại dưới dạng runnable artifact, có thể nhận Codex prompts. Nghĩa là đã vượt qua giai đoạn “đang train” sang giai đoạn test thử.
Model được wire vào hạ tầng rollout của Codex, cho thấy coding/agentic là mục tiêu đánh giá chính — đúng với định vị GPT-5.5 là model agentic coding mạnh nhất OpenAI (82.7% Terminal-Bench 2.0).

Hai thứ nó không cho biết: không gì về parameter count hay kiến trúc, và không gì về thời điểm release.

Ngoài ra, logs cũng lộ codename ember-alpha và beacon-alpha — cho thấy OpenAI đang test nhiều variant cùng lúc. Developer qua ChatGPT Pro OAuth reportedly gọi model với context lên tới 1.5 triệu token, tăng 43% so với GPT-5.5.

Tại Sao OpenAI Vội Vã Như Vậy? Câu Chuyện “Goblin Problem”

Đây mới là phần hay. Ngày 30/4/2026, OpenAI công bố bài post-mortem tựa “Where the Goblins Came From” — và nội dung đúng như tên gọi.

GPT-5.5 đã phát triển ám ảnh thống kê với yêu tinh (goblins), gremlin, raccoon, troll, ogre và pigeon. Không phải thỉnh thoảng nhắc — mà measurable, trên hàng trăm triệu responses.

Số liệu từ chính post-mortem của OpenAI:

Lượt nhắc “goblin” trong persona Nerdy so với baseline GPT-5.2: tăng 3.881%.
Persona Nerdy chiếm 66.7% tổng lượt nhắc goblin — dù chỉ chiếm 2.5% traffic.
Tăng trưởng nhắc goblin từ sau GPT-5.1: +175%.
Tăng trưởng nhắc gremlin cùng kỳ: +52%.
76.2% dataset RLHF chấm cao output chứa yêu tinh.

Mình đọc xong phần này thì phải đọc lại hai lần cho chắc. Cụ thể chuyện xảy ra thế nào: trong quá trình training personality customization, reward model của OpenAI cho điểm cao hơn một cách hệ thống cho creature metaphors khi response style là “Nerdy.” Reward shape bị leak — từ persona chiếm 2.5% traffic lan ra toàn model.

Output giàu yêu tinh được chọn vào rollout pool. Rollout đó quay lại thành supervised fine-tuning data cho training cycle tiếp. Hành vi bình thường hóa. Lúc ai nhận ra thì GPT-5.5 đã bắt đầu train, và contamination đã lan sang hàng loạt tic-word khác — raccoon, troll, ogre, pigeon.

Cách fix tạm thời? OpenAI nhét vào system prompt của Codex một keyword block lặp bốn lần: “Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.”

Một frontier lab phải lặp 4 lần keyword block trong system prompt production. Mình không biết nên cười hay lo.

OpenAI cũng xóa hoàn toàn persona Nerdy từ tháng 3/2026.

GPT-5.6 Sẽ Có Gì So Với GPT-5.5?

Dựa trên dữ kiện hiện có — log traces, codename leaks, và bối cảnh goblin incident — mình tóm tắt dưới dạng bảng cho dễ so sánh:

Yếu tố	GPT-5.5 (hiện tại)	GPT-5.6 (dự kiến)
Context window	~1 triệu token	Lên tới 1.5 triệu token (đã test)
Tốc độ	Fast mode 1.5x	UltraFast mode 2-5x (beacon-alpha)
Coding/Agentic	82.7% Terminal-Bench 2.0	Incremental improvement
Reward alignment	Goblin contamination, prompt patch	Redesigned reward audit pipeline
Persona customization	Nerdy bị xóa	Có thể quay lại dạng redesigned
Giá API	$1.25/$10 per 1M token	Giữ nguyên
Thời điểm	23/4/2026	89% trước 30/6 (Polymarket)

Mình đánh giá: đây không phải bản leap, mà là bản clean-up có mục đích rõ ràng. Công việc thật sự của GPT-5.6 không glamor — reward signal sạch hơn, persona-isolation chặt hơn, SFT pipeline không recycle contaminated rollouts. Không gì trong số đó làm sáng benchmark, nhưng nó quyết định GPT-5.7 có kế thừa “yêu tinh” hay không.

GPT-5.6 Đua Với Claude Code Như Thế Nào?

OpenAI đang chịu áp lực nặng từ Anthropic trong mảng coding agents. GPT-5.5 dẫn Terminal-Bench 2.0 với 82.7%, nhưng Claude Code đang là daily driver cho rất nhiều developer. OpenAI reportedly subsidize Codex access cho enterprise chuyển từ Claude Code.

GPT-5.6 với UltraFast mode (2-5x nhanh hơn) rõ ràng nhắm thẳng vào workflow coding cần latency thấp. Anthropic vừa tung Claude Haiku 4.5 rất nhanh và rẻ. Cuộc đua lúc này không chỉ là thông minh hơn — mà là nhanh hơn và rẻ hơn.

Người Dùng Thường Cần Quan Tâm Gì?

Nếu bạn dùng ChatGPT Plus/Pro: GPT-5.6 sẽ tự động update, không cần làm gì. UltraFast mode có thể dành riêng Codex/Pro trước.

Nếu bạn dùng API: Giá khả năng giữ nguyên. Test lại output quality sau khi chuyển, đặc biệt nếu app của bạn sensitive với personality/hallucination.

Nếu bạn đang chọn giữa ChatGPT và Claude: Cả hai đều đang iterate cực nhanh. Đừng lock-in vào một bên. GPT-5.6 có thể mạnh hơn coding, Claude vẫn tốt ở writing và reasoning. Mình dùng cả hai và switch theo task.

Nếu bạn làm SEO/content: GPT-5.6 với reward pipeline sạch hơn có thể thay đổi cách model generate nội dung. Monitor output quality sát hơn trong 2-3 tuần đầu.

Tổng Kết

GPT-5.6 lộ diện nhanh hơn bất kỳ ai dự đoán — 3 tuần sau GPT-5.5, bị đẩy bởi một trong những alignment failure hài hước nhất lịch sử AI: vấn đề yêu tinh. Polymarket đặt 89% ra trước 30/6. Mình cá là đầu hoặc giữa tháng 6.

Cái hay của chuyện này không phải model mạnh hơn bao nhiêu. Mà là nó cho thấy RLHF training pipeline vẫn đang có bug kỳ lạ — và cách fix quyết định chất lượng model tiếp theo nhiều hơn bất kỳ benchmark nào.

GPT-5.6 Xuất Hiện Trong Codex Logs Như Thế Nào?

Tại Sao OpenAI Vội Vã Như Vậy? Câu Chuyện “Goblin Problem”

GPT-5.6 Sẽ Có Gì So Với GPT-5.5?

GPT-5.6 Đua Với Claude Code Như Thế Nào?

Người Dùng Thường Cần Quan Tâm Gì?

Tổng Kết

Hương Giang

Bài viết liên quan

AI Agents Sẽ Thay Thế App? Vì Sao Bạn Nên…

Florida Kiện OpenAI và Sam Altman: Vụ Kiện Cấp Tiểu…

Microsoft Hủy Claude Code Sau Khi Cháy Sạch Ngân Sách…