机器学习基础算法

引言

扩散模型是近年来生成式AI领域最具突破性的技术之一，它通过模拟物理扩散过程，实现了从纯噪声生成高质量图像的神奇能力。从DALL-E到Stable Diffusion，这些令人惊叹的AI艺术创作背后都离不开扩散模型的支持。

本文将系统介绍扩散模型的核心概念：

前向加噪过程 - 如何将图像逐步转化为噪声
反向去噪过程 - 如何从噪声中重建图像
DDPM和DDIM算法 - 两种主要的扩散模型实现方式

理解扩散模型不仅有助于掌握现代生成式AI的工作原理，还能为后续学习更高级的文本到图像生成技术奠定基础。

基本原理

扩散模型的核心思想受到热力学中扩散过程的启发。想象一滴墨水在清水中扩散的过程：墨水分子从高浓度区域向低浓度区域随机运动，最终均匀分布在整个水中。扩散模型正是模拟了这个过程的逆过程。

两阶段过程

扩散模型包含两个关键阶段：

前向过程：逐步向原始数据添加高斯噪声，直到数据完全变成随机噪声
反向过程：学习如何从噪声中逐步恢复原始数据

图1: 扩散模型的前向加噪和反向去噪过程示意图

前向加噪过程

前向过程是一个马尔可夫链，在每一步都向数据添加少量高斯噪声。这个过程是确定性的，不需要学习任何参数。

数学表达

前向过程的数学表达式为：

\( q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I) \)

其中，\( \beta_t \)是噪声调度参数，控制每一步添加的噪声量。

直接采样

通过重参数化技巧，我们可以直接从原始数据\( x_0 \)采样任意时间步的噪声数据：

\( x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon \)

其中，\( \bar{\alpha}_t = \prod_{s=1}^t (1-\beta_s) \)，\( \epsilon \sim \mathcal{N}(0, I) \)。

反向去噪过程

反向过程是扩散模型的核心，它学习如何从噪声中逐步恢复原始数据。这个过程需要训练神经网络来预测每一步的噪声或均值。

反向过程定义

反向过程也是一个马尔可夫链：

\( p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t)) \)

其中，\( \mu_\theta \)和\( \Sigma_\theta \)是需要学习的神经网络参数。

训练目标

扩散模型的训练目标是简化版的变分下界：

\( L_{simple} = \mathbb{E}_{t,x_0,\epsilon}[\|\epsilon - \epsilon_\theta(x_t, t)\|^2] \)

网络学习预测添加到数据中的噪声\( \epsilon \)。

DDPM算法

DDPM（Denoising Diffusion Probabilistic Models）是扩散模型的经典实现，提出了简化的训练目标和采样过程。

算法特点

使用U-Net架构作为噪声预测网络
采用简化的均方误差损失函数
使用固定的方差调度
需要较多的采样步骤（通常1000步）

优缺点分析

优点：生成质量高，训练稳定，理论完备
缺点：采样速度慢，计算成本高

图2: DDPM模型架构示意图

DDIM算法

DDIM（Denoising Diffusion Implicit Models）是对DDPM的重要改进，它允许更快的采样而无需重新训练模型。

核心创新

DDIM的关键洞察是：扩散过程的前向过程不一定是马尔可夫的，这允许设计非马尔可夫的反向过程。

\( x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \left( \frac{x_t - \sqrt{1-\bar{\alpha}_t}\epsilon_\theta(x_t, t)}{\sqrt{\bar{\alpha}_t}} \right) + \sqrt{1-\bar{\alpha}_{t-1} - \sigma_t^2} \cdot \epsilon_\theta(x_t, t) + \sigma_t \epsilon \)

优缺点分析

优点：采样速度快（可减少到20-50步），保持生成质量
缺点：理论更复杂，需要仔细选择采样调度

代码实现

下面我们使用PyTorch实现一个简化的扩散模型。首先定义噪声调度和前向过程：

import torch
import torch.nn as nn
import numpy as np

class DiffusionModel:
    def __init__(self, timesteps=1000):
        self.timesteps = timesteps
        # 线性beta调度
        self.betas = torch.linspace(1e-4, 0.02, timesteps)
        self.alphas = 1. - self.betas
        self.alpha_bars = torch.cumprod(self.alphas, dim=0)
    
    def forward_noise(self, x0, t):
        """前向加噪过程"""
        sqrt_alpha_bar = torch.sqrt(self.alpha_bars[t])
        sqrt_one_minus_alpha_bar = torch.sqrt(1. - self.alpha_bars[t])
        epsilon = torch.randn_like(x0)
        xt = sqrt_alpha_bar * x0 + sqrt_one_minus_alpha_bar * epsilon
        return xt, epsilon

U-Net噪声预测器

实现一个简化的U-Net来预测噪声：

class SimpleUNet(nn.Module):
    def __init__(self):
        super().__init__()
        # 编码器
        self.enc1 = nn.Conv2d(3, 64, 3, padding=1)
        self.enc2 = nn.Conv2d(64, 128, 3, padding=1)
        # 解码器  
        self.dec1 = nn.Conv2d(128, 64, 3, padding=1)
        self.dec2 = nn.Conv2d(64, 3, 3, padding=1)
        self.pool = nn.MaxPool2d(2)
        self.upsample = nn.Upsample(scale_factor=2)
        
    def forward(self, x, t):
        # 时间嵌入
        x1 = torch.relu(self.enc1(x))
        x1_pool = self.pool(x1)
        x2 = torch.relu(self.enc2(x1_pool))
        x2_pool = self.pool(x2)
        
        # 解码
        x2_up = self.upsample(x2_pool)
        x1_dec = torch.relu(self.dec1(x2_up + x2))
        x1_up = self.upsample(x1_dec)
        output = self.dec2(x1_up + x1)
        return output

训练循环

实现训练过程：

def train_step(model, diffusion, x0, optimizer):
    """单步训练"""
    model.train()
    optimizer.zero_grad()
    
    # 随机选择时间步
    t = torch.randint(0, diffusion.timesteps, (x0.shape[0],))
    # 前向加噪
    xt, epsilon = diffusion.forward_noise(x0, t)
    # 预测噪声
    epsilon_pred = model(xt, t)
    # 计算损失
    loss = nn.MSELoss()(epsilon_pred, epsilon)
    loss.backward()
    optimizer.step()
    return loss.item()

结论

扩散模型代表了生成式AI的重要突破，它通过优雅的数学框架实现了高质量的图像生成。从DDPM到DDIM，再到后来的Latent Diffusion和Stable Diffusion，这一技术路线正在不断演进。

扩散模型的主要优势包括：

生成质量极高，细节丰富自然
训练过程稳定，不易出现模式崩溃
理论基础坚实，可解释性强

然而，扩散模型也面临采样速度慢、计算资源需求大等挑战。未来的研究方向包括更高效的采样算法、条件生成控制、以及与其他生成模型的结合。对于初学者来说，理解扩散模型的基本原理是进入AIGC领域的重要一步。

扩散模型：从噪声到图像的魔法之旅

摘要

引言

基本原理

两阶段过程

前向加噪过程

数学表达

直接采样

反向去噪过程

反向过程定义

训练目标

DDPM算法

算法特点

优缺点分析

DDIM算法

核心创新

优缺点分析

代码实现

U-Net噪声预测器

训练循环

结论