học tăng cường

Học tăng cường (Reinforcement Learning) là nhánh AI học qua phản hồi. Ứng dụng từ AlphaGo đến RLHF trong huấn luyện ChatGPT. Giải thích dễ hiểu cho người mới.

2 bài viết