Diffusion Model (Mô Hình Khuếch Tán) Là Gì? Giải Thích Dễ Hiểu Cho Người Mới

Nếu bạn từng dùng DALL-E để tạo ảnh, nghịch Midjourney cho ra những bức tranh nghệ thuật, hay chạy Stable Diffusion trên máy tính của mình — thì bạn đã đang tương tác với Diffusion Model rồi. Đây chính là “bộ não” đằng sau hầu hết các công cụ tạo ảnh bằng AI hiện nay, và nó cũng đang mở rộng sang tạo video, tạo âm nhạc, thậm chí tạo cấu trúc protein cho y học.

Diffusion Model (Mô hình Khuếch tán) là một lớp mô hình generative — tức mô hình có khả năng sinh ra dữ liệu mới (ảnh, âm thanh, văn bản…) — dựa trên một ý tưởng khá lạ: thay vì học cách tạo ra thứ gì đó từ con số 0, nó học cách phá hủy dữ liệu bằng nhiễu rồi học cách khôi phục lại. Nghe có vẻ vòng vo, nhưng chính cách tiếp cận ngược đời này lại mang lại kết quả ấn tượng hơn hẳn so với nhiều phương pháp trước đó.

Trong bài này, mình sẽ giải thích Diffusion Model hoạt động như thế nào, nó khác gì với GAN, ứng dụng thực tế ra sao, và có những hạn chế gì. Bài viết dành cho người mới, nên mình sẽ cố gắng tránh công thức phức tạp và dùng ví dụ dễ hình dung nhất có thể.

Định nghĩa Diffusion Model bằng ngôn ngữ đơn giản

Hãy tưởng tượng bạn có một bức ảnh chụp phong cảnh rất đẹp. Bạn lấy một ít nhiễu (noise) — giống như hạt muối trên màn hình TV cũ — rắc lên bức ảnh đó. Lần đầu thì ảnh hơi mờ một chút. Rắc thêm lần nữa, ảnh mờ hơn. Rắc thêm nhiều lần nữa, đến khi bức ảnh hoàn toàn biến thành một mảng nhiễu trắng xóa, không nhận ra được gì cả.

Đó chính là forward process (quá trình thuận) của Diffusion Model: thêm nhiễu dần dần vào dữ liệu gốc cho đến khi nó trở thành nhiễu thuần túy.

Bây giờ, làm ngược lại: bắt đầu từ mảng nhiễu đó, từng bước một gỡ bỏ nhiễu để khôi phục lại bức ảnh gốc. Bạn đi từ nhiễu về hình ảnh rõ nét. Đó là reverse process (quá trình nghịch).

Diffusion Model thực chất là một mạng neural network được训练 để thực hiện reverse process đó. Nó học cách đi từ nhiễu về dữ liệu có nghĩa. Và khi đã học được điều này, bạn có thể cho nó một mảng nhiễu hoàn toàn ngẫu nhiên — và nó sẽ “khôi phục” thành một bức ảnh hoàn toàn mới, chưa từng tồn tại. Đó chính là cách nó tạo ra ảnh mới.

Nếu bạn chưa quen với khái niệm mạng neural network, hãy đọc bài Neural Network (Mạng Nơ-ron) là gì? của mình để có nền tảng trước khi tiếp tục.

Diffusion Model hoạt động thế nào? Chi tiết hơn một chút

Ở phần trên mình đã mô tả ý tưởng chung. Bây giờ hãy đi sâu hơn vào cơ chế thực sự, nhưng vẫn giữ ở mức dễ hiểu.

Forward Process: Thêm nhiễu từng bước

Quá trình thuận bắt đầu với một bức ảnh gốc (gọi là x_0). Ở mỗi bước thời gian t, một lượng nhiễu nhỏ được thêm vào bức ảnh. Sau T bước (thường T rất lớn, có thể lên đến 1000), bức ảnh biến thành nhiễu Gaussian thuần túy (gọi là x_T).

Điều quan trọng là quá trình thêm nhiễu này được thiết kế sao cho nó có tính chất Markov: mỗi bước chỉ phụ thuộc vào bước ngay trước đó. Nói cách khác, trạng thái nhiễu ở bước t chỉ được quyết định bởi trạng thái ở bước t-1 và lượng nhiễu thêm vào. Điều này giúp quá trình có thể mô tả bằng toán học một cách gọn gàng.

Có một chi tiết thú vị: nhờ tính chất của phân phối Gaussian, bạn không cần phải chạy từng bước một từ đầu đến cuối. Bạn có thể nhảy thẳng từ bức ảnh gốc x_0 đến bất kỳ bước nhiễu nào x_t chỉ bằng một công thức. Điều này rất hữu ích khi huấn luyện mô hình, vì nó giúp tính toán nhanh hơn nhiều.

Reverse Process: Gỡ nhiễu từng bước

Đây là phần quan trọng nhất. Quá trình nghịch đi từ nhiễu thuần (x_T) ngược về bức ảnh rõ (x_0). Ở mỗi bước, mô hình dự đoán lượng nhiễu hiện có trong ảnh và gỡ bỏ một phần.

Mô hình được huấn luyện bằng cách: lấy một bức ảnh, thêm nhiễu ngẫu nhiên ở một bước t nào đó, rồi yêu cầu mô hình dự đoán nhiễu đó là gì. So sánh dự đoán với nhiễu thật, tính sai số, rồi cập nhật trọng số. Lặp đi lặp lại hàng triệu lần với hàng triệu bức ảnh, mô hình dần dần học được cách nhận biết và gỡ nhiễu.

Khi inference (tạo ảnh mới), quá trình diễn ra như sau:

Bắt đầu với nhiễu ngẫu nhiên hoàn toàn (x_T)
Mô hình dự đoán nhiễu ở bước T và gỡ bỏ một phần, được x_{T-1}
Lặp lại: dự đoán nhiễu ở bước T-1, gỡ bỏ, được x_{T-2}
Tiếp tục cho đến khi được x_0 — bức ảnh cuối cùng

Đây là lý do tại sao tạo ảnh bằng Diffusion Model thường mất khá nhiều thời gian (so với GAN): nó cần chạy qua hàng trăm đến hàng nghìn bước gỡ nhiễu. Các phương pháp như DDIM, DPM-Solver đã được phát triển để giảm số bước này xuống còn 20-50 bước mà vẫn giữ được chất lượng tốt.

Vai trò của Deep Learning

Diffusion Model không thể hoạt động nếu không có Deep Learning. Chính các mạng neural network sâu — đặc biệt là kiến trúc U-Net — đóng vai trò là “bộ não” nhận biết và dự đoán nhiễu ở mỗi bước. U-Net ban đầu được thiết kế cho phân đoạn ảnh y khoa, nhưng hóa ra lại rất phù hợp cho diffusion vì khả năng xử lý ảnh ở nhiều độ phân giải khác nhau đồng thời.

Gần đây, các kiến trúc Transformer cũng bắt đầu được sử dụng trong Diffusion Model (ví dụ: DiT — Diffusion Transformer được dùng trong Stable Diffusion 3), cho thấy sự kết hợp giữa hai dòng kiến trúc mạnh nhất hiện nay.

Ứng dụng thực tế của Diffusion Model

Diffusion Model không chỉ là một ý tưởng lý thuyết hay ho. Nó đang được sử dụng ở khắp nơi, và đây là những ứng dụng nổi bật nhất:

Tạo ảnh từ văn bản (Text-to-Image)

Đây là ứng dụng mà hầu hết mọi người biết đến Diffusion Model. Bạn gõ một câu mô tả, mô hình tạo ra bức ảnh tương ứng. DALL-E 2, DALL-E 3 (của OpenAI), Stable Diffusion (của Stability AI), Imagen (của Google), Midjourney — tất cả đều sử dụng Diffusion Model làm lõi.

Cách nó kết hợp văn bản với ảnh là thông qua một cơ chế gọi là conditioning: văn bản được mã hóa thành vector (thường bằng CLIP hoặc T5), rồi vector này điều hướng quá trình gỡ nhiễu sao cho bức ảnh cuối cùng phù hợp với mô tả.

Tạo và chỉnh sửa video

Runway Gen-2, Pika, Sora (của OpenAI) đều sử dụng diffusion để tạo video từ văn bản hoặc ảnh. Thách thức lớn hơn nhiều so với tạo ảnh đơn lẻ là phải đảm bảo tính nhất quán giữa các khung hình (temporal consistency). Các phương pháp diffusion 3D và 4D đang được nghiên cứu mạnh để giải quyết vấn đề này.

Tạo âm nhạc và âm thanh

Google MusicFX, Stable Audio dùng diffusion để tạo âm nhạc từ mô tả văn bản. Diffusion cũng được dùng để tạo âm thanh hiệu ứng (foley), giọng nói tổng hợp, và thậm chí phân tách nguồn âm (source separation) — tức tách giọng hát ra khỏi nhạc nền.

Thiết kế sản phẩm và kiến trúc

Nhiều nhà thiết kế công nghiệp đang dùng Stable Diffusion kết hợp với ControlNet để nhanh chóng phác thảo ý tưởng thiết kế sản phẩm. Kiến trúc sư dùng để tạo render phối cảnh từ bản vẽ thô. Game developer dùng để tạo texture, concept art, và asset.

Y học và khoa học

Trong y học, Diffusion Model được dùng để tái tạo ảnh MRI từ dữ liệu thô bị thiếu, giúp giảm thời gian chụp MRI mà vẫn giữ chất lượng ảnh. Trong sinh học cấu trúc, diffusion được dùng để dự đoán cấu trúc 3D của protein (RFdiffusion). Trong dự báo thời tiết, các mô hình như GenCast dùng diffusion để tạo dự báo xác suất.

Diffusion Model khác gì GAN?

GAN (Generative Adversarial Network) từng là “vua” trong lĩnh vực generative AI trước khi Diffusion Model trỗi dậy. Vậy hai phương pháp này khác nhau thế nào?

Cách huấn luyện: GAN huấn luyện hai mạng cạnh tranh với nhau — Generator tạo ảnh giả, Discriminator phân biệt thật giả. Quá trình huấn luyện GAN nổi tiếng là khó ổn định, dễ gặp mode collapse (mô hình chỉ tạo ra một vài kiểu ảnh lặp đi lặp lại). Diffusion Model huấn luyện đơn giản hơn nhiều — chỉ cần học dự đoán nhiễu — và ổn định hơn.

Chất lượng đầu ra: GAN thường tạo ảnh sắc nét nhanh, nhưng đa dạng kém hơn. Diffusion Model tạo ảnh đa dạng hơn, chi tiết hơn, và phù hợp với yêu cầu văn bản tốt hơn. Tuy nhiên, Diffusion Model tạo ảnh chậm hơn GAN nhiều.

Tốc độ: GAN tạo ảnh trong một lần forward pass (vài mili-giây). Diffusion Model cần nhiều bước gỡ nhiễu (vài giây đến vài chục giây). Đây từng là nhược điểm lớn nhất của diffusion, nhưng với các kỹ thuật sampling nhanh và蒸馏 (distillation), khoảng cách đang thu hẹp.

Kiều soát: Diffusion Model dễ điều khiển hơn thông qua conditioning (văn bản, ảnh tham chiếu, mask…). Các kỹ thuật như ControlNet, IP-Adapter cho phép kiểm soát cực kỳ chi tiết quá trình tạo ảnh. GAN cũng có thể điều khiển, nhưng thường phức tạp hơn và ít linh hoạt hơn.

Nói tóm lại: GAN nhanh nhưng khó huấn luyện và ít kiểm soát. Diffusion chậm hơn nhưng ổn định, đa dạng, và dễ điều khiển. Hiện nay, Diffusion Model đang là lựa chọn ưu tiên cho hầu hết ứng dụng tạo nội dung.

Hạn chế của Diffusion Model

Không có công nghệ nào hoàn hảo, và Diffusion Model cũng có những nhược điểm đáng kể:

Tốc độ sinh chậm: Đây là hạn chế lớn nhất. Dù đã có nhiều cải tiến, tạo ảnh bằng diffusion vẫn chậm hơn GAN từ 10 đến 1000 lần. Điều này đặc biệt problematic cho các ứng dụng cần thời gian thực như game hay video call.

Tốn tài nguyên tính toán: Huấn luyện Diffusion Model quy mô lớn đòi hỏi lượng GPU khổng lồ. Stable Diffusion được huấn luyện trên hàng nghìn GPU A100 trong nhiều tuần. Điều này tạo rào cản lớn cho các nhóm nghiên cứu nhỏ.

Khó kiểm soát chi tiết: Dù conditioning giúp điều khiển tốt, nhưng vẫn khó tạo ra chính xác những chi tiết cụ thể như “người cầm ly nước ở tay phải, ly có 3 viên đá.” Các mô hình thường hiểu đúng ý chung nhưng sai chi tiết nhỏ.

Vấn đề bản quyền và đạo đức: Vì được huấn luyện trên lượng dữ liệu khổng lồ từ internet, Diffusion Model có thể tạo ra ảnh giống với phong cách của nghệ sĩ cụ thể, gây tranh cãi về bản quyền. Đây là vấn đề chưa có giải pháp thỏa đáng.

Hallucination và artifacts: Diffusion Model vẫn tạo ra những lỗi kỳ lạ: bàn tay 6 ngón, văn bản vô nghĩa trên biển báo, vật thể hợp lại một cách phi lý. Đây là hệ quả của việc mô hình không thực sự “hiểu” thế giới vật lý mà chỉ học phân phối thống kê của pixel.

Diffusion Model liên quan đến những thuật ngữ nào?

Khi tìm hiểu về Diffusion Model, bạn sẽ gặp một loạt thuật ngữ liên quan. Mình liệt kê những cái quan trọng nhất:

Score-based Model: Một cách tiếp cận khác nhưng có liên hệ mật thiết với diffusion. Thực ra hai hướng này đã được chứng minh là tương đương về mặt toán học, và hiện nay thường được gộp chung lại.
Denoising Score Matching: Kỹ thuật huấn luyện cốt lõi cho diffusion, giúp mô hình học dự đoán score function (hướng giảm mật độ xác suất) tại mỗi bước nhiễu.
Latent Diffusion: Thay vì thao tác trực tiếp trên pixel space (không gian ảnh gốc), Latent Diffusion Model (LDM) nén ảnh vào latent space nhỏ hơn rồi mới chạy diffusion ở đó. Stable Diffusion chính là LDM. Cách này giảm chi phí tính toán rất nhiều.
Classifier-Free Guidance (CFG): Kỹ thuật giúp cân bằng giữa chất lượng và đa dạng của ảnh tạo ra. CFG scale cao cho ảnh đẹp nhưng ít đa dạng; CFG scale thấp cho ảnh đa dạng nhưng kém chất lượng hơn. Đây là tham số quan trọng nhất khi dùng Stable Diffusion.
ControlNet: Kiến trúc bổ sung cho phép điều khiển Diffusion Model bằng các điều kiện ngoài văn bản: edge map, depth map, pose skeleton, v.v. Rất mạnh cho kiểm soát chính xác composition.
LoRA (Low-Rank Adaptation): Kỹ thuật fine-tune Diffusion Model bằng cách chỉ huấn luyện một lượng tham số nhỏ (thường dưới 1% tổng số). Cho phép tùy chỉnh phong cách hoặc chủ đề với chi phí rất thấp.
DDPM (Denoising Diffusion Probabilistic Models): Bài viết nền tảng của Ho et al. (2020) khiến Diffusion Model thực sự phổ biến. DDPM và DDIM là hai sampling method cơ bản nhất.
Flow Matching / Rectified Flow: Hướng phát triển mới hơn, được xem là “thế hệ tiếp theo” của diffusion. Stable Diffusion 3 dùng Rectified Flow. Cách tiếp cận này đơn giản hóa quá trình huấn luyện và sampling.

Nếu bạn muốn hiểu bối cảnh rộng hơn về các khái niệm nền tảng, hãy đọc bài AI là gì? Giải thích dễ hiểu cho người mới để có cái nhìn tổng quan trước khi đi sâu vào các kỹ thuật cụ thể.

Có nên tìm hiểu sâu về Diffusion Model không?

Câu trả lời phụ thuộc vào mục tiêu của bạn, nhưng nói chung: có, đáng để đầu tư thời gian.

Nếu bạn là người dùng thông thường, chỉ cần hiểu ý tưởng cơ bản (thêm nhiễu rồi gỡ nhiễu) là đủ để dùng các công cụ tạo ảnh một cách có chủ đích hơn — biết chỉnh CFG scale cho phù hợp, hiểu tại sao một số prompt cho kết quả tốt hơn, và biết khi nào nên thử thay đổi sampler.

Nếu bạn là developer muốn xây dựng ứng dụng với Diffusion Model, bạn cần hiểu sâu hơn về latent space, các loại sampler (DDIM, DPM++, Euler), conditioning mechanism, và cách tối ưu inference. Framework như Diffusers (của Hugging Face) đã làm tốt việc trừu tượng hóa nhiều chi tiết, nhưng hiểu bên dưới vẫn giúp bạn debug và tinh chỉnh hiệu quả hơn.

Nếu bạn là researcher hoặc muốn đóng góp vào lĩnh vực này, toán học đằng sau diffusion là một chủ đề hấp dẫn. Nó liên quan đến stochastic differential equations (SDE), variational inference, score matching, và optimal transport. Các hướng nghiên cứu hot hiện nay bao gồm: tăng tốc sampling, video generation 3D-consistent, multi-modal diffusion, và ứng dụng trong khoa học.

Một điều đáng chú ý: lĩnh vực này đang phát triển với tốc độ chóng mặt. Những gì mình viết ở đây có thể đã hơi “lỗi thời” so với paper mới nhất ra tuần trước. Nhưng các nguyên lý cơ bản — thêm nhiễu, học gỡ nhiễu, tạo dữ liệu mới — vẫn sẽ còn đúng trong thời gian dài.

Tóm lại, Diffusion Model đã thay đổi cách chúng ta nghĩ về khả năng sáng tạo của AI. Từ một ý tưởng toán học trừu tượng về quá trình khuếch tán nhiệt động lực học, nó đã trở thành nền tảng cho những công cụ sáng tạo mạnh mẽ nhất hiện nay. Dù bạn dùng nó như một công cụ hay nghiên cứu nó như một chủ đề học thuật, Diffusion Model đều đáng để bạn dành thời gian tìm hiểu.

Diffusion Model là gì? Vì sao bạn nên biết về nó?