机器学习基础算法

引言

扩散模型是近年来在生成式AI领域引起轰动的技术，它通过逐步添加和去除噪声的方式生成高质量的图像。从DALL-E到Stable Diffusion，这些模型正在改变我们创造视觉内容的方式。

扩散模型的核心思想包括：

前向过程 - 逐步向数据添加噪声
反向过程 - 从噪声中重建原始数据
训练目标 - 学习噪声预测

这种渐进式的生成方式使得扩散模型能够产生细节丰富、质量极高的图像。

前向扩散过程

前向过程是一个马尔可夫链，它逐步向原始数据添加高斯噪声，直到数据完全变成随机噪声。这个过程是确定性的，可以通过数学公式精确描述。

噪声添加公式

在时间步t，数据x_t由前一时间步的数据x_{t-1}通过以下公式得到：

\( x_t = \sqrt{1-\beta_t} x_{t-1} + \sqrt{\beta_t} \epsilon_t \)

其中，\( \beta_t \)是噪声调度参数，\( \epsilon_t \sim \mathcal{N}(0, I) \)是标准高斯噪声。

图1: 扩散模型的前向噪声添加过程

反向生成过程

反向过程是扩散模型的核心，它学习如何从纯噪声中逐步恢复出有意义的图像。这个过程需要神经网络来预测每一步应该去除的噪声。

反向生成公式

在时间步t，从x_t生成x_{t-1}的公式为：

\( x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right) + \sigma_t z \)

其中，\( \epsilon_\theta \)是神经网络预测的噪声，\( z \sim \mathcal{N}(0, I) \)。

优缺点

优点：生成质量高，训练稳定，模式覆盖完整
缺点：推理速度慢，需要多步采样，计算成本高

训练方法

扩散模型的训练目标很简单：让神经网络学会预测添加到图像中的噪声。这种简化的训练目标使得模型训练更加稳定。

损失函数

扩散模型使用简单的均方误差损失：

\( L(\theta) = \mathbb{E}_{t,x_0,\epsilon} \left[ \| \epsilon - \epsilon_\theta(x_t, t) \|^2 \right] \)

其中，t从1到T均匀采样，x_0是原始数据，ε是真实噪声。

图2: 扩散模型的训练过程示意图

采样技术

采样是使用训练好的扩散模型生成新图像的过程。不同的采样方法在速度和质量之间有不同的权衡。

常用采样方法

DDPM - 原始采样方法，需要1000步
DDIM - 加速采样，减少步数同时保持质量
DPM-Solver - 更快的常微分方程求解器

现代采样技术已经能够将生成步数从1000步减少到20-50步，大大提高了实用性。

优势特点

相比其他生成模型如GAN和VAE，扩散模型具有独特的优势：

训练稳定性 - 不需要对抗训练，训练过程更稳定
模式覆盖 - 不会出现模式坍塌问题
生成质量 - 能够产生细节丰富、逼真的图像
灵活性 - 易于与其他技术结合，如条件生成

这些特点使得扩散模型在文本到图像生成、图像编辑等任务中表现出色。

代码实现

下面我们使用PyTorch实现一个简单的扩散模型。首先定义噪声调度和基本的UNet架构。

import torch
import torch.nn as nn
import math

class SimpleDiffusion:
    def __init__(self, timesteps=1000):
        self.timesteps = timesteps
        self.betas = self.linear_beta_schedule(timesteps)
        self.alphas = 1. - self.betas
        self.alpha_bars = torch.cumprod(self.alphas, dim=0)
    
    def linear_beta_schedule(self, timesteps):
        scale = 1000 / timesteps
        beta_start = scale * 0.0001
        beta_end = scale * 0.02
        return torch.linspace(beta_start, beta_end, timesteps)
    
    def forward_noise(self, x0, t):
        """前向加噪过程"""
        sqrt_alpha_bar = torch.sqrt(self.alpha_bars[t])
        sqrt_one_minus_alpha_bar = torch.sqrt(1 - self.alpha_bars[t])
        epsilon = torch.randn_like(x0)
        xt = sqrt_alpha_bar * x0 + sqrt_one_minus_alpha_bar * epsilon
        return xt, epsilon

UNet架构

定义用于噪声预测的UNet模型：

class SimpleUNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.encoder = nn.Sequential(
            nn.Conv2d(3, 64, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(64, 128, 3, padding=1),
            nn.ReLU(),
        )
        self.decoder = nn.Sequential(
            nn.Conv2d(128, 64, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(64, 3, 3, padding=1),
        )
        self.time_embed = nn.Linear(1, 128)
    
    def forward(self, x, t):
        # 时间嵌入
        t_embed = self.time_embed(t.unsqueeze(-1).float())
        t_embed = t_embed.unsqueeze(-1).unsqueeze(-1)
        
        # 编码器
        h = self.encoder(x)
        
        # 添加时间信息
        h = h + t_embed
        
        # 解码器
        return self.decoder(h)

训练循环

简单的训练循环实现：

def train_diffusion(model, diffusion, dataloader, epochs=100):
    optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
    
    for epoch in range(epochs):
        for batch in dataloader:
            x0 = batch  # 原始图像
            batch_size = x0.shape[0]
            
            # 随机采样时间步
            t = torch.randint(0, diffusion.timesteps, (batch_size,))
            
            # 前向加噪
            xt, noise = diffusion.forward_noise(x0, t)
            
            # 预测噪声
            predicted_noise = model(xt, t)
            
            # 计算损失
            loss = nn.MSELoss()(predicted_noise, noise)
            
            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

结论

扩散模型代表了生成式AI的一个重要里程碑，它通过简单而优雅的噪声添加和去除过程，实现了高质量的图像生成。

关键要点总结：

扩散过程将数据逐步转化为噪声
反向过程学习从噪声中重建数据
训练目标简单稳定，只需预测噪声
采样技术不断改进，提高生成效率

随着技术的不断发展，扩散模型将在创意艺术、医疗成像、科学发现等领域发挥越来越重要的作用。建议读者通过实践代码深入理解这一技术，并关注其在多模态生成等前沿方向的应用。

扩散模型：从噪声到图像的魔法之旅

摘要

引言