← 上一章 | 第5章 / 共14章 | 下一章 →

第5章：连续时间扩散模型 (PDE/SDE)

到目前为止，我们学习的扩散模型都是在离散时间步上定义的。但如果我们让时间步数趋于无穷，会发生什么？答案是：我们得到了一个更强大、更灵活的数学框架——随机微分方程（Stochastic Differential Equations, SDEs）。Song等人在2021年的工作《Score-Based Generative Modeling through Stochastic Differential Equations》中，将DDPM和NCSN等模型统一在SDE的视角下，开启了连续时间生成建模的新纪元。本章将深入探讨SDE框架，理解其与离散模型的联系，并介绍其对应的反向SDE、概率流ODE和Fokker-Planck方程等核心概念。

5.1 从离散到连续：SDE的极限之美

5.1.1 离散过程的极限

想象你在拍摄一个物体从清晰逐渐模糊的过程。如果你每秒拍一张照片，得到的是一个离散的序列；但如果拍摄速度越来越快，最终你会得到一个连续的视频。扩散模型从离散到连续的转变正是这样一个过程。

让我们回顾DDPM的离散前向过程： $x_k = \sqrt{1-\beta_k} x_{k-1} + \sqrt{\beta_k} z_{k-1}, \quad z_{k-1} \sim \mathcal{N}(0, I)$

这个过程有一个美妙的物理类比：想象一滴墨水在水中扩散。每一个时间步，墨水分子都会：

保持一部分原位置：这对应 $\sqrt{1-\beta_k} x_{k-1}$ 项，表示墨水的"惯性"
加入随机扰动：这对应 $\sqrt{\beta_k} z_{k-1}$ 项，表示分子的布朗运动

系数的深层含义

为什么选择 $\sqrt{1-\beta_k}$ 和 $\sqrt{\beta_k}$ 这样的系数？这不是随意的，而是基于深刻的数学考虑：

方差守恒原理：假设 $x_{k-1}$ 的方差为 $\sigma^2$，而 $z_{k-1}$ 是标准正态分布（方差为1）。那么 $x_k$ 的方差为： $$\text{Var}(x_k) = (1-\beta_k)\text{Var}(x_{k-1}) + \beta_k \cdot 1 = (1-\beta_k)\sigma^2 + \beta_k$$

当 $\sigma^2 = 1$ 时，我们得到 $\text{Var}(x_k) = 1$，方差保持不变！这种设计避免了数值不稳定：如果方差不断增长，最终会导致数值溢出；如果方差不断衰减，信号会消失在数值精度中。

信噪比的渐进衰减：定义信噪比（Signal-to-Noise Ratio, SNR）为： $$\text{SNR}_k = \frac{\text{信号强度}}{\text{噪声强度}} = \frac{\bar{\alpha}_k}{1-\bar{\alpha}_k}$$

其中 $\bar{\alpha}k = \prod{i=1}^k (1-\beta_i)$。随着 $k$ 增加，SNR单调递减，最终趋近于0，这意味着数据信号逐渐被噪声淹没。

泰勒展开与连续化

当 $\beta_k$ 很小时，过程变化缓慢，我们可以用泰勒展开来近似： $\sqrt{1 - \beta_k} \approx 1 - \frac{\beta_k}{2} - \frac{\beta_k^2}{8} + O(\beta_k^3)$

保留一阶项，更新步骤变为： $x_k - x_{k-1} \approx -\frac{\beta_k}{2} x_{k-1} + \sqrt{\beta_k} z_{k-1}$

💡 直觉理解：左边是位置的变化量，右边第一项是一个"向原点的拉力"（因为系数为负），第二项是随机扰动。这就像一个被橡皮筋拴在原点的粒子，在随机力的作用下运动。

这个近似的精度如何？让我们分析误差项：

二阶误差：$O(\beta_k^2)$ 项在实际应用中通常很小。例如，如果 $\beta_k = 0.0001$（典型值），则二阶误差约为 $10^{-8}$
累积误差：虽然单步误差很小，但经过 $N$ 步后，累积误差可能达到 $O(N\beta_k^2)$。这解释了为什么需要足够小的 $\beta_k$

现在进行时间的连续化。将时间区间 $[0, T]$ 分成 $N$ 份，令 $\Delta t = T/N$，并设 $\beta_k = b(t_k)\Delta t$，其中 $b(t)$ 是噪声调度函数。代入后： $\frac{x(t_k) - x(t_{k-1})}{\Delta t} \approx -\frac{b(t_{k-1})}{2} x(t_{k-1}) + \sqrt{b(t_{k-1})} \frac{z_{k-1}}{\sqrt{\Delta t}}$

白噪声的涌现

这里的关键洞察是：当 $\Delta t \to 0$ 时，

左边收敛到导数 $\frac{dx}{dt}$
右边第一项保持不变
右边第二项 $\frac{z_{k-1}}{\sqrt{\Delta t}}$ 看起来会爆炸！

但奇妙的是，这个"爆炸"的项正是白噪声的正确缩放。让我们深入理解这一点：

布朗运动的构造：考虑随机游走 $S_n = \sum_{i=1}^n X_i$，其中 $X_i$ 是独立同分布的随机变量，满足 $\mathbb{E}[X_i] = 0$，$\text{Var}(X_i) = 1$。根据中心极限定理： $$\frac{S_n}{\sqrt{n}} \xrightarrow{d} \mathcal{N}(0, 1)$$

在我们的设定中，$z_i \sim \mathcal{N}(0, 1)$ 是独立的，时间步长为 $\Delta t = T/N$。定义： $$W(t) = \sum_{i=1}^{\lfloor t/\Delta t \rfloor} \sqrt{\Delta t} \cdot z_i$$

当 $\Delta t \to 0$ 时，这个过程收敛到标准布朗运动！

白噪声的数学含义：形式上，白噪声 $\xi(t) = dW_t/dt$ 是布朗运动的"导数"。虽然布朗运动几乎处处不可导，但我们可以在分布意义下理解这个导数：

$\mathbb{E}[\xi(t)] = 0$（零均值）
$\mathbb{E}[\xi(t)\xi(s)] = \delta(t-s)$（瞬时相关）
在任意有限时间区间上的积分是高斯分布

因此，$z_k / \sqrt{\Delta t}$ 的极限正是白噪声 $\xi(t)$！

SDE的诞生

最终，我们得到了随机微分方程（SDE）： $dx_t = -\frac{b(t)}{2} x_t dt + \sqrt{b(t)} dW_t$

这就是DDPM在连续时间下的极限形式，被称为方差保持（Variance Preserving, VP）SDE。

🎯 为什么叫"方差保持"？ 让我们计算方差的演化。使用Itô公式，对于 $V(t) = \mathbb{E}[||x_t||^2]$： $$\frac{dV}{dt} = -b(t)V(t) + d \cdot b(t)$$

其中 $d$ 是数据维度。当 $V(0) = d$（标准化数据）时，稳态解为 $V(\infty) = d$，即方差保持不变！这避免了数值不稳定，是VP-SDE的一大优势。

噪声调度函数 $b(t)$ 的选择：

线性调度：$b(t) = \beta_{\min} + t(\beta_{\max} - \beta_{\min})/T$
余弦调度：$b(t) = \pi \sin(\pi t/T) / T$（更平滑的过渡）
对数调度：针对高分辨率图像设计，在早期阶段噪声增长更慢

每种调度都对应着不同的扩散速度和生成质量权衡。

深入探索：从离散到连续的数学严格性

上述推导虽然直观，但数学上需要更严格的处理：

收敛性：需要证明离散过程 ${x_k}$ 在某种意义下（如弱收敛）收敛到连续过程 ${x_t}$
唯一性：需要证明极限SDE有唯一解
正则性：需要保证系数函数 $b(t)$ 满足某些条件（如Lipschitz连续性）

5.1.2 SDE的统一框架

SDE为我们提供了一个统一的语言来描述各种扩散模型。一个通用的前向SDE可以写成： $dx_t = f(x_t, t) dt + g(t) dW_t$

这个方程包含两个关键组件：

漂移系数 $f(x_t, t)$：描述了数据演化的确定性趋势，像是一个"力场"在引导数据的运动
扩散系数 $g(t)$：控制着随机噪声的强度，决定了过程的随机性程度

三大SDE家族的深入理解

定义：SDE家族

1. VP-SDE (Variance Preserving) - 方差保持型

对应DDPM，其形式为： $dx_t = -\frac{1}{2} \beta(t) x_t dt + \sqrt{\beta(t)} dW_t$

其中 $\beta(t)$ 是噪声调度函数。VP-SDE的精妙之处在于：

物理直觉：像是一个弹簧振子在粘性介质中的运动，既有回复力（$-\frac{1}{2}\beta(t)x_t$），又有随机扰动

方差特性：如果 $\mathbb{E}[x_0^Tx_0] = d$（$d$ 是数据维度），那么对于适当的 $\beta(t)$，有 $\mathbb{E}[x_t^Tx_t] \approx d$

数值稳定性：避免了数值爆炸或消失，特别适合深度网络训练

2. VE-SDE (Variance Exploding) - 方差爆炸型

对应NCSN，其形式为： $dx_t = \sqrt{\frac{d[\sigma^2(t)]}{dt}} dW_t$

注意没有漂移项！这意味着：

物理直觉：纯粹的扩散过程，像是热传导或分子扩散

方差演化：$\mathbb{E}[||x_t||^2] = \mathbb{E}[||x_0||^2] + d\sigma^2(t)$，方差单调增长

多尺度特性：通过选择 $\sigma(t) = \sigma_{\min} \left(\frac{\sigma_{\max}}{\sigma_{\min}}\right)^t$，可以覆盖多个噪声尺度

3. sub-VP-SDE - 次方差保持型

这是VP-SDE的改进版本： $dx_t = -\frac{1}{2} \beta(t) x_t dt + \sqrt{\beta(t)(1-e^{-2\int_0^t \beta(s)ds})} dW_t$

理论优势：保证了精确的方差守恒，而不是近似

实践意义：在长时间演化中更稳定

SDE选择的艺术

选择哪种SDE并非随意，而是要考虑数据特性和计算效率：

数据分布的考虑：
- 如果数据天然具有单位方差（如标准化后的图像），VP-SDE是自然选择
- 如果数据分布在多个尺度上（如自然图像的多分辨率结构），VE-SDE可能更合适
训练稳定性：
- VP-SDE通常更稳定，因为方差有界
- VE-SDE需要仔细设计 $\sigma(t)$ 的增长速度
采样效率：
- VP-SDE的轨迹更"直"，可能需要更少的采样步数
- VE-SDE的轨迹更"曲"，但可能探索空间更充分

实践经验分享：

在实际应用中，选择SDE类型往往需要实验验证。以下是一些经验法则：

图像生成：VP-SDE在大多数情况下表现良好，特别是配合余弦噪声调度
音频生成：由于音频信号的动态范围大，VE-SDE可能更合适
3D点云：数据分布不均匀，可以考虑自适应的SDE设计
分子生成：需要保持物理约束，可能需要特殊设计的SDE

SDE的数值求解：

在实践中，我们需要离散化SDE来进行数值求解。最简单的是Euler-Maruyama方法： $$x_{t+\Delta t} = x_t + f(x_t, t)\Delta t + g(t)\sqrt{\Delta t} \cdot z_t$$

其中 $z_t \sim \mathcal{N}(0, I)$。PyTorch中的实现通常使用：

torch.randn_like() 生成噪声
torch.sqrt() 计算平方根
自适应步长控制提高精度

高级话题：设计新的SDE

SDE的设计空间远不止VP和VE。一些前沿研究方向包括：

数据适应型SDE：
- 根据数据的局部几何结构调整 $f$ 和 $g$
- 例如：$f(x,t) = -\nabla U(x,t)$，其中 $U$ 是学习到的势能函数
流形上的SDE：
- 当数据位于低维流形上时，标准SDE可能效率低下
- 可以设计保持在流形上的SDE：$dx_t = P_x f(x,t)dt + P_x g(t)dW_t$
- 其中 $P_x$ 是投影到切空间的算子
各向异性SDE：
- 让扩散系数依赖于方向：$g(t) \to G(x,t)$（矩阵值函数）
- 可以更好地适应数据的协方差结构
时间反演对称性：
- 设计满足某种对称性的SDE，使得前向和反向过程更相似
- 可能导致更高效的采样

PyTorch中相关的工具：

torch.nn.functional.normalize - 用于方差归一化
torch.autograd - 计算分数函数
torchdiffeq - 求解SDE/ODE

💡 开放问题：

最优SDE设计：给定数据分布，是否存在某种意义下"最优"的SDE？优化目标可能包括采样效率、训练稳定性、生成质量等。
SDE的组合：能否在不同时间段使用不同的SDE（如开始用VE探索，后期用VP精调）？
离散数据的SDE：如何为文本、图等离散数据设计合适的"连续化"SDE？

练习 5.1：理解SDE的极限过程

验证方差保持性质：对于VP-SDE $dx_t = -\frac{1}{2}b(t)x_t dt + \sqrt{b(t)}dW_t$，证明当 $x_0$ 满足 $\mathbb{E}[||x_0||^2] = d$ 时，存在合适的 $b(t)$ 使得 $\mathbb{E}[||x_t||^2] \approx d$ 对所有 $t$ 成立。

提示：使用Itô公式计算 $d\mathbb{E}[||x_t||^2]$。
比较不同的噪声调度：实现并比较三种噪声调度函数：
- 线性：$b(t) = \beta_{\min} + t(\beta_{\max} - \beta_{\min})/T$
- 余弦：$b(t) = \pi \sin(\pi t/T) / T$
- 指数：$b(t) = \beta_{\min} e^{t \log(\beta_{\max}/\beta_{\min})/T}$
分析它们对应的信噪比 $\text{SNR}(t)$ 的衰减曲线。
探索极限行为：考虑离散过程 $x_{k+1} = \sqrt{1-\beta}x_k + \sqrt{\beta}z_k$，其中 $\beta = b\Delta t$。
- 当 $\Delta t \to 0$ 时，证明这个过程收敛到VP-SDE
- 数值实验：对于不同的 $\Delta t$，比较离散过程和连续SDE的轨迹
- 分析收敛速度：误差如何随 $\Delta t$ 变化？
研究扩展：
- 如果噪声不是高斯的（如Lévy噪声），极限过程会是什么？
- 对于非马尔可夫过程（有记忆），如何推导连续时间极限？
- 探索分数布朗运动（fractional Brownian motion）在扩散模型中的应用

5.2 反向时间SDE：学习去噪

如果前向SDE描述了数据如何被噪声破坏，那么我们如何构建一个反向的过程来从噪声中恢复数据呢？这个问题的答案揭示了扩散模型的深刻数学结构。

5.2.1 时间反演的魔法

想象你在看一段视频：墨水在清水中扩散，从一个集中的墨滴逐渐弥漫开来。现在，如果你倒放这段视频，会看到什么？分散的墨水神奇地聚集回原点！这正是反向SDE要实现的：时间的反演。

但这里有一个关键问题：在物理世界中，扩散是不可逆的（热力学第二定律）。那么数学上如何实现这种"反熵"过程呢？答案是：我们需要额外的信息——分数函数。

定理：Anderson反向时间SDE (1982)

对于前向SDE： $dx = f(x, t)dt + g(t)dW_t, \quad t \in [0, T]$

其对应的反向时间SDE（从时间 $T$ 到 $0$）为： $dx_t = [f(x_t, t) - g(t)^2 \nabla_{x_t} \log p_t(x_t)] dt + g(t) d\bar{W}_t$

其中：

$d\bar{W}_t$ 是反向时间的布朗运动（独立于前向的 $dW_t$）

$\nabla_{x_t} \log p_t(x_t)$ 是时刻 $t$ 的分数函数

$p_t(x)$ 是前向过程在时刻 $t$ 的边缘概率密度

5.2.2 直觉理解：为什么需要分数？

反向SDE的漂移项可以分解为两部分： $$\underbrace{f(x_t, t)}{\text{原始漂移}} - \underbrace{g(t)^2 \nabla{x_t} \log p_t(x_t)}_{\text{分数修正项}}$$

原始漂移项：如果只有这一项，时间反演后的过程仍会向同一方向演化（想象一个向下流的河流，倒放视频它还是向下流）
分数修正项：这是使过程真正反向的关键！
- 分数 $\nabla \log p_t$ 指向概率密度增加最快的方向
- 系数 $g(t)^2$ 确保修正强度与噪声强度匹配
- 负号使得过程向高概率区域移动

🎯 物理类比：想象粒子在一个势能场中运动：

前向过程：粒子从势能低处（数据）滚向高处（噪声），同时受到随机扰动
反向过程：粒子需要知道"哪里是下坡"（分数函数），才能滚回原处

5.2.3 分数函数的核心地位

Anderson定理揭示了一个深刻的事实：扩散模型的本质是学习分数函数。这统一了看似不同的两种方法：

DDPM视角：训练网络预测噪声 $\epsilon_\theta(x_t, t)$
Score Matching视角：训练网络预测分数 $s_\theta(x_t, t) \approx \nabla \log p_t(x_t)$

它们之间的关系是： $$s_\theta(x_t, t) = -\frac{\epsilon_\theta(x_t, t)}{\sqrt{1 - \bar{\alpha}_t}}$$

推导这个关键关系

这个关系的推导基于一个关键观察：在VP-SDE下，$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$，因此：

步骤1：条件分布的分数 给定 $x_0$，$x_t$ 的条件分布是高斯分布： $$p(x_t|x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$$

其对数和分数为： $$\log p(x_t|x_0) = -\frac{||x_t - \sqrt{\bar{\alpha}_t} x_0||^2}{2(1-\bar{\alpha}t)} + \text{const}$$ $$\nabla{x_t} \log p(x_t|x_0) = -\frac{x_t - \sqrt{\bar{\alpha}_t} x_0}{1-\bar{\alpha}_t} = -\frac{\epsilon}{\sqrt{1-\bar{\alpha}_t}}$$

步骤2：边缘分数与条件分数的关系 利用贝叶斯定理和分数的性质： $$\nabla_{x_t} \log p(x_t) = \nabla_{x_t} \log \int p(x_t|x_0) p(x_0) dx_0$$

使用重参数化技巧和 denoising score matching 的结果，可以证明： $$\nabla_{x_t} \log p(x_t) = \mathbb{E}{x_0 \sim p(x_0|x_t)}[\nabla{x_t} \log p(x_t|x_0)]$$

当神经网络 $\epsilon_\theta$ 能够准确预测噪声时，上述期望可以近似为单点估计，从而得到了DDPM和Score Matching的等价性。

分数函数的几何意义

分数函数 $\nabla \log p(x)$ 有着深刻的几何含义：

梯度场视角：分数定义了一个向量场，每一点的向量指向概率密度增加最快的方向
能量视角：如果定义能量 $E(x) = -\log p(x)$，则分数 $\nabla \log p(x) = -\nabla E(x)$ 是负能量梯度
最优传输视角：分数场定义了将任意分布传输到数据分布的最优路径

可视化理解：

低概率区域 ←←←← 分数场 →→→→ 高概率区域
    噪声                        数据

分数函数的性质与挑战

理论性质：

Stein恒等式：对于光滑函数 $\phi$ 满足一定衰减条件，有 $$\mathbb{E}_{x \sim p}[\nabla \cdot \phi(x) + \phi(x) \cdot \nabla \log p(x)] = 0$$ 这是score matching的理论基础。
分数的奇异性：在数据分布的支撑集边界，分数可能不连续甚至无穷大。这解释了为什么需要添加噪声来"平滑"分布。
维度诅咒：在高维空间中，分数函数的估计变得极其困难。扩散模型通过多尺度噪声巧妙地缓解了这个问题。

实践挑战：

数值稳定性：当 $t \to 0$ 时，$1-\bar{\alpha}_t \to 0$，分数可能爆炸
边界效应：真实数据往往位于低维流形上，在流形外分数定义不明确
多模态分布：分数在模态之间的低密度区域可能指向错误方向

5.2.4 实现细节与挑战

⚡ 实现挑战：

分数函数的参数化：
- 直接参数化：$s_\theta(x_t, t)$ 直接输出分数
- 噪声参数化：$\epsilon_\theta(x_t, t)$ 预测噪声，然后转换为分数
- 实践中噪声参数化通常更稳定
时间编码：
- 网络需要知道当前时间 $t$ 以给出正确的分数
- 常用方法：正弦编码、可学习的嵌入、FiLM层
数值稳定性：
- 在 $t \approx 0$ 时，分数可能很大（概率集中）
- 在 $t \approx T$ 时，分数接近零（接近标准正态）
- 需要合适的归一化和数值技巧

深入探索：反向SDE的推导思路

Anderson定理的证明涉及高深的随机分析，但核心思想可以这样理解：

Girsanov定理：描述了如何通过改变漂移项来改变概率测度
时间反演公式：对于马尔可夫过程，存在时间反演的一般理论
Doob's h-transform：通过乘以一个正函数来构造新的马尔可夫过程

关键步骤：

定义反向时间过程 $\hat{x}s = x{T-s}$
使用Bayes定理计算反向转移概率
应用Girsanov定理得到反向SDE的形式

这个推导的美妙之处在于，它将看似不可能的任务（时间反演）转化为一个可学习的问题（估计分数函数）。

练习 5.2：推导反向SDE

VP-SDE的反向过程：给定前向VP-SDE：$dx = -\frac{1}{2} \beta(t) x dt + \sqrt{\beta(t)} dW_t$

应用Anderson定理，写出反向SDE： $dx_t = [-\frac{1}{2} \beta(t) x_t - \beta(t) \nabla_{x_t} \log p_t(x_t)] dt + \sqrt{\beta(t)} d\bar{W}_t$

简化为：$dx_t = \frac{1}{2} \beta(t) [x_t + 2\nabla_{x_t} \log p_t(x_t)] dt + \sqrt{\beta(t)} d\bar{W}_t$
与DDPM的联系：在DDPM框架下，$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$，其中 $\epsilon \sim \mathcal{N}(0, I)$。

利用这个重参数化，证明：
- $\nabla_{x_t} \log p_t(x_t|x_0) = -\frac{\epsilon}{\sqrt{1-\bar{\alpha}_t}}$
- 因此，如果 $\epsilon_\theta(x_t, t) \approx \epsilon$，则 $s_\theta(x_t, t) = -\frac{\epsilon_\theta(x_t, t)}{\sqrt{1-\bar{\alpha}_t}}$
研究思路：
- 光滑性要求：Anderson定理要求 $p_t$ 足够光滑。探索什么条件保证这一点
- 各向异性扩散：当 $g(t) = G(x,t)$ 是矩阵时，反向SDE变为： $dx_t = [f(x_t,t) - \nabla \cdot (G(x_t,t)G(x_t,t)^T) - G(x_t,t)G(x_t,t)^T \nabla \log p_t(x_t)]dt + G(x_t,t)d\bar{W}_t$
- 非马尔可夫情况：如果前向过程有记忆，反向过程会如何变化？

练习 5.3：分数函数的性质探索

验证Stein恒等式：对于标准正态分布 $p(x) = \mathcal{N}(0, I)$，验证Stein恒等式： $$\mathbb{E}_{x \sim p}[x \cdot \phi(x) - \nabla \cdot \phi(x)] = 0$$

其中 $\phi$ 是任意光滑且增长不太快的向量场。
分数函数的估计误差：假设我们有分数的近似 $s_\theta(x) \approx \nabla \log p(x)$，定义Fisher散度： $$D_F(p_\theta || p) = \mathbb{E}{x \sim p}[||s\theta(x) - \nabla \log p(x)||^2]$$

证明：当使用这个近似分数进行Langevin采样时，稳态分布与真实分布的KL散度受Fisher散度控制。
多尺度分数匹配：考虑不同噪声水平 ${\sigma_i}{i=1}^L$ 下的加噪数据分布 $p{\sigma_i}(x) = \int p(y) \mathcal{N}(x; y, \sigma_i^2 I) dy$。
- 推导 $\nabla \log p_{\sigma_i}(x)$ 与原始分布的关系
- 解释为什么需要多个噪声尺度
- 设计一个加权方案来组合不同尺度的分数
流形上的分数：如果数据位于 $d$ 维空间中的 $k$ 维流形 $\mathcal{M}$ 上（$k < d$），分析：
- 分数函数在流形上和流形外的行为
- 如何修改分数匹配目标以适应流形结构
- 探索"投影分数"：$P_{T_x\mathcal{M}} \nabla \log p(x)$ 的性质

5.3 概率流ODE：确定性的生成路径

SDE的采样过程是随机的，意味着从同一个噪声 $x_T$ 出发，每次得到的 $x_0$ 都会略有不同。这种随机性有时是优点（增加多样性），有时是缺点（难以复现、调试困难）。是否存在一种确定性的路径，也能将噪声映射到数据呢？

5.3.1 从随机到确定：概率流的发现

想象一条河流中的叶子。每片叶子的轨迹都是随机的（受到涡流影响），但整体的流动模式是确定的。概率流ODE捕捉的正是这种"平均流动"。

定义：概率流ODE

对于SDE：$dx_t = f(x_t, t) dt + g(t) dW_t$

存在唯一的ODE，使得其解的分布与SDE相同： $dx_t = \left[f(x_t, t) - \frac{1}{2} g(t)^2 \nabla_{x_t} \log p_t(x_t)\right] dt$

这个ODE被称为概率流（Probability Flow）ODE。注意：

没有随机项 $dW_t$，完全确定性

漂移项 = 原始漂移 - (1/2) × 扩散强度 × 分数

边缘分布 $p_t(x)$ 与原SDE完全相同

5.3.2 为什么概率流ODE有效？

这个结果初看令人惊讶：随机过程和确定性过程怎么会有相同的分布演化？关键在于理解两种不同的视角：

粒子视角（SDE）：
- 跟踪单个粒子的随机轨迹
- 每个粒子受到随机力的影响
- 多次运行得到不同结果
流体视角（ODE）：
- 跟踪概率密度的演化
- 描述"概率流体"的速度场
- 确定性的演化规律

数学上，这两种视角通过Fokker-Planck方程联系起来。SDE和其对应的概率流ODE都满足同一个Fokker-Planck方程，因此具有相同的密度演化。

🎨 可视化理解：

SDE轨迹（多条随机路径）：        概率流ODE（确定性流线）：
    噪声                              噪声
     ↓ ～～～                          ↓
     ↓   ～～                          ↓
     ↓ ～～～                          ↓
     ↓   ～～                          ↓
    数据                             数据

5.3.3 概率流ODE的推导直觉

概率流ODE中的修正项 $-\frac{1}{2}g(t)^2\nabla\log p_t$ 从何而来？这里有一个优美的解释：

从Fokker-Planck方程出发

考虑前向SDE：$dx_t = f(x_t, t)dt + g(t)dW_t$

其对应的Fokker-Planck方程描述了概率密度的演化： $$\frac{\partial p_t}{\partial t} = -\nabla \cdot (f p_t) + \frac{1}{2}g(t)^2 \Delta p_t$$

现在，我们寻找一个ODE $dx_t = v(x_t, t)dt$，使得其密度演化也满足同样的Fokker-Planck方程。对于ODE，密度演化由连续性方程描述： $$\frac{\partial p_t}{\partial t} + \nabla \cdot (v p_t) = 0$$

比较两个方程，我们需要： $$-\nabla \cdot (v p_t) = -\nabla \cdot (f p_t) + \frac{1}{2}g(t)^2 \Delta p_t$$

使用恒等式 $\Delta p_t = \nabla \cdot (\nabla p_t) = \nabla \cdot (p_t \nabla \log p_t)$，得到： $$v p_t = f p_t - \frac{1}{2}g(t)^2 p_t \nabla \log p_t$$

因此： $$v(x_t, t) = f(x_t, t) - \frac{1}{2}g(t)^2 \nabla \log p_t(x_t)$$

这就是概率流ODE的速度场！

物理直觉：扩散引起的漂移

在SDE中，随机项 $g(t)dW_t$ 造成了两种效应：

扩散效应：使分布变宽
漂移效应：由于扩散的不均匀性产生的净流动

让我们通过一个具体例子理解漂移效应：

例子：一维高斯分布 考虑密度 $p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-x^2/(2\sigma^2)}$，其分数为： $$\nabla \log p(x) = -\frac{x}{\sigma^2}$$

在 $x > 0$ 区域：

左边（靠近原点）的密度更高
扩散使粒子向两边随机移动
但由于左边密度高，更多粒子从左边扩散过来
净效果：粒子向右漂移

这个净漂移正是由 $-\frac{1}{2}g^2 \nabla \log p$ 项描述的！当 $x > 0$ 时，$\nabla \log p < 0$，所以漂移方向为正，与直觉一致。

概率流ODE的深层含义

概率流ODE揭示了一个深刻的事实：随机性可以被确定性的向量场完全捕捉。这个向量场不仅包含了原始的漂移，还包含了由于随机扩散的不均匀性产生的"有效漂移"。

数学视角：概率流ODE定义了一个保测度的流（measure-preserving flow），将初始分布 $p_0$ 传输到最终分布 $p_T$。这与最优传输理论有深刻联系。

计算视角：概率流ODE提供了一种确定性的采样方法，这带来了许多优势：

确定性采样：从一个 $x_T$ 出发，总能得到完全相同的 $x_0$。这对于需要可复现生成的任务非常有用。
更快的采样：作为ODE，我们可以使用各种现成的高阶数值求解器：
- Euler法：一阶精度，最简单
- Heun法：二阶精度，需要两次函数评估
- RK4：四阶精度，经典选择
- 自适应求解器：如Dormand-Prince，自动调整步长
使用高阶求解器，可以用比SDE求解器少得多的步数（例如20-50步 vs 1000步）得到高质量的样本。
精确的似然计算：通过瞬时变量变换公式（instantaneous change of variables），可以精确计算对数似然： $$\log p_0(x_0) = \log p_T(x_T) - \int_0^T \nabla \cdot v(x_t, t) dt$$

其中轨迹 ${x_t}$ 由概率流ODE生成。

概率流ODE与神经ODE的联系

概率流ODE可以看作是一种特殊的神经ODE（Neural ODE），其中：

速度场 $v(x,t)$ 由神经网络参数化
网络通过预测分数函数来隐式定义速度场
整个系统可以端到端训练

这建立了扩散模型与连续归一化流（Continuous Normalizing Flows）的桥梁，开启了许多研究方向。

🌟 理论空白：SDE和ODE提供了两种不同的采样路径。SDE路径是随机的、高维的，而ODE路径是确定性的、低维的。这两种路径的几何性质有何不同？它们在数据流形上是如何移动的？理解这一点可能有助于设计出更优的采样算法。

练习 5.4：概率流ODE的性质与应用

验证概率流ODE保持边缘分布：对于VP-SDE和其对应的概率流ODE，验证它们在任意时刻 $t$ 的边缘分布 $p_t(x)$ 相同。

提示：证明两者满足相同的Fokker-Planck方程。
似然计算的实现：使用概率流ODE的瞬时变量变换公式： $$\log p_0(x_0) = \log p_T(x_T) - \int_0^T \nabla \cdot v(x_t, t) dt$$

其中 $v(x,t) = f(x,t) - \frac{1}{2}g(t)^2 \nabla \log p_t(x)$。
- 推导 $\nabla \cdot v(x,t)$ 的表达式
- 说明如何使用神经网络计算这个散度
- 讨论计算复杂度和数值稳定性
比较不同的ODE求解器：实现并比较以下求解器在概率流ODE上的表现：
- Euler法（一阶）
- Heun法（二阶）
- RK4（四阶）
分析：
- 不同步数下的生成质量
- 计算时间 vs 质量的权衡
- 数值误差的累积
SDE与ODE路径的几何分析：对于简单的2D数据分布（如双模态高斯混合），可视化并分析：
- SDE的多条随机轨迹
- ODE的确定性流线
- 两者在穿越低密度区域时的行为差异
- 轨迹的曲率和长度统计
研究扩展：最优传输视角：概率流ODE定义了一个传输映射 $T: x_T \mapsto x_0$。探索：
- 这个映射是否是某种意义下的"最优"？
- 与Monge-Kantorovich最优传输问题的联系
- 如何设计具有最优传输性质的新型ODE？

5.4 Fokker-Planck方程：从粒子到密度的演化

SDE和ODE描述了单个数据点（粒子）的轨迹。如果我们想从宏观上描述整个概率密度 $p_t(x)$ 的演化，就需要偏微分方程（Partial Differential Equation, PDE）的语言，这就是Fokker-Planck方程。

5.4.1 Fokker-Planck方程的物理直觉

想象一大群粒子在流体中运动。每个粒子既受到确定性的流动（漂移），又受到随机的分子碰撞（扩散）。Fokker-Planck方程描述的正是这群粒子的密度如何随时间演化。

定义：Fokker-Planck方程 对于一个SDE $dx = f(x,t)dt + g(t)dW_t$，其概率密度 $p_t(x)$ 的演化遵循Fokker-Planck方程： $$\frac{\partial p_t(x)}{\partial t} = -\nabla \cdot (f(x,t)p_t(x)) + \frac{1}{2} g(t)^2 \Delta p_t(x)$$ 其中 $\nabla \cdot$ 是散度算子，$\Delta$ 是拉普拉斯算子。

让我们深入理解这个方程的每一项：

第一项：漂移输运 $-\nabla \cdot (f(x,t)p_t(x))$

这项描述了由确定性漂移 $f(x,t)$ 引起的概率流动：

$f(x,t)p_t(x)$ 是概率流密度（probability flux）
$\nabla \cdot$ 计算流的散度，即净流出量
负号表示：流出导致密度减少

物理类比：想象河流中的染料。水流（$f$）携带染料（$p$）移动，某处的染料浓度变化取决于流入和流出的差额。

第二项：扩散平滑 $\frac{1}{2}g(t)^2 \Delta p_t(x)$

这项描述了随机扩散对密度的影响：

$\Delta p_t = \sum_i \frac{\partial^2 p_t}{\partial x_i^2}$ 衡量密度的"曲率"
在密度峰值处，$\Delta p < 0$，密度减少
在密度谷底处，$\Delta p > 0$，密度增加
总效果：密度被"抹平"

物理类比：墨水在静水中扩散，从高浓度区域向低浓度区域自发流动，最终趋于均匀。

5.4.2 Fokker-Planck方程的推导

从SDE到Fokker-Planck方程的推导基于一个关键思想：粒子守恒。

考虑任意测试函数 $\phi(x)$（光滑且紧支撑），其期望值的演化： $$\frac{d}{dt}\mathbb{E}[\phi(x_t)] = \mathbb{E}\left[\frac{d\phi(x_t)}{dt}\right]$$

使用Itô公式： $$d\phi(x_t) = \nabla\phi \cdot dx_t + \frac{1}{2}\text{tr}(gg^T \nabla^2\phi) dt$$ $$= \nabla\phi \cdot f dt + \nabla\phi \cdot g dW_t + \frac{1}{2}g^2 \Delta\phi dt$$

取期望（注意 $\mathbb{E}[dW_t] = 0$）： $$\frac{d}{dt}\mathbb{E}[\phi(x_t)] = \mathbb{E}[f \cdot \nabla\phi + \frac{1}{2}g^2 \Delta\phi]$$

另一方面，用密度表示期望： $$\frac{d}{dt}\int \phi(x) p_t(x) dx = \int \phi(x) \frac{\partial p_t}{\partial t} dx$$

因此： $$\int \phi(x) \frac{\partial p_t}{\partial t} dx = \int [f \cdot \nabla\phi + \frac{1}{2}g^2 \Delta\phi] p_t dx$$

使用分部积分（将导数从 $\phi$ 转移到 $p_t$）： $$\int \phi \frac{\partial p_t}{\partial t} dx = \int \phi [-\nabla \cdot (fp_t) + \frac{1}{2}g^2 \Delta p_t] dx$$

由于 $\phi$ 是任意的，我们得到Fokker-Planck方程！

5.4.3 特殊情况与解析解

例1：纯扩散（Ornstein-Uhlenbeck过程）

考虑VP-SDE：$dx = -\frac{1}{2}\beta x dt + \sqrt{\beta} dW$

Fokker-Planck方程变为： $$\frac{\partial p}{\partial t} = \frac{\beta}{2}\nabla \cdot (xp) + \frac{\beta}{2}\Delta p$$

对于初始条件 $p_0(x) = \delta(x-x_0)$，解为： $$p_t(x) = \mathcal{N}(x; x_0 e^{-\beta t/2}, \frac{1-e^{-\beta t}}{1}I)$$

这正是DDPM中的前向过程！

例2：稳态分布

当 $\frac{\partial p}{\partial t} = 0$ 时，得到稳态Fokker-Planck方程： $$\nabla \cdot (fp_{\infty}) = \frac{1}{2}g^2 \Delta p_{\infty}$$

对于VP-SDE，稳态分布是标准正态分布 $p_{\infty}(x) = \mathcal{N}(0, I)$。

5.4.4 Fokker-Planck方程的数值方法

虽然我们通常不直接求解Fokker-Planck方程来训练扩散模型，但理解其数值方法有助于深入理解模型行为：

有限差分法：将空间离散化为网格，用差分近似导数
有限元法：使用基函数展开密度，转化为ODE系统
粒子方法：用大量粒子的经验分布近似连续密度
谱方法：在频域求解，利用快速傅里叶变换

每种方法都有其优缺点，选择取决于问题的维度、边界条件和精度要求。

5.4.5 PDE视角的深刻洞察

Fokker-Planck方程揭示了扩散模型的几个深刻性质：

最大熵原理：扩散过程增加系统的熵，最终达到最大熵分布（高斯分布）
可逆性：知道分数函数 $\nabla \log p_t$ 后，可以反向求解Fokker-Planck方程，实现时间反演
变分原理：Fokker-Planck方程可以看作某个自由能泛函的梯度流： $$\frac{\partial p}{\partial t} = \nabla \cdot \left(p \nabla \frac{\delta \mathcal{F}[p]}{\delta p}\right)$$

其中 $\mathcal{F}[p]$ 是自由能，包含熵和势能项。
与量子力学的联系：通过Wick旋转，Fokker-Planck方程与薛定谔方程相关联，开启了量子-经典对应的研究

🔬 研究线索：Fokker-Planck方程与最优传输理论中的Wasserstein梯度流有深刻联系。扩散模型可以被看作是在概率分布空间中，沿着某种能量泛函的梯度方向进行演化。探索这种几何观点是当前理论研究的一大热点。

练习 5.5：Fokker-Planck方程的理解与应用

验证解析解：对于Ornstein-Uhlenbeck过程 $dx = -\gamma x dt + \sigma dW$：
- 写出对应的Fokker-Planck方程
- 验证 $p_t(x) = \mathcal{N}(x; x_0 e^{-\gamma t}, \frac{\sigma^2}{2\gamma}(1-e^{-2\gamma t}))$ 是其解
- 讨论 $t \to \infty$ 时的稳态分布
数值求解Fokker-Planck方程：实现一维Fokker-Planck方程的有限差分求解器：
- 使用中心差分近似空间导数
- 使用显式或隐式时间步进
- 与粒子模拟（求解对应SDE）的结果比较
考虑的测试案例：
- 双井势能：$f(x) = -\nabla U(x)$，其中 $U(x) = (x^2-1)^2$
- 验证稳态分布 $p_\infty(x) \propto e^{-2U(x)/g^2}$
熵的演化：定义Shannon熵 $H[p] = -\int p \log p dx$。
- 证明：对于Fokker-Planck方程，$\frac{dH}{dt} \geq 0$（熵增原理）
- 什么时候等号成立？
- 计算VP-SDE过程中熵的演化曲线
反向Fokker-Planck方程：推导反向时间SDE对应的Fokker-Planck方程：
- 从反向SDE出发，应用标准推导
- 验证它与前向Fokker-Planck方程的关系
- 解释为什么需要知道分数函数
研究扩展：Wasserstein梯度流： Fokker-Planck方程可以写成Wasserstein梯度流的形式： $$\frac{\partial p}{\partial t} = \nabla \cdot \left(p \nabla \frac{\delta \mathcal{F}[p]}{\delta p}\right)$$

探索：
- 对于不同的自由能 $\mathcal{F}[p]$，得到什么样的演化方程？
- 扩散模型对应的自由能是什么？
- 如何设计新的自由能来得到更好的生成模型？

练习 5.6：SDE, ODE, PDE的统一视角

综合本章所学，分析三种数学框架的联系：

统一框架：给定前向VP-SDE：$dx = -\frac{1}{2}\beta(t)x dt + \sqrt{\beta(t)}dW$
- 写出对应的概率流ODE
- 写出对应的Fokker-Planck方程
- 验证三者描述同一个概率演化过程
计算复杂度分析：比较三种方法在以下任务上的计算复杂度：
- 生成单个样本
- 计算似然 $p(x)$
- 训练模型参数
考虑维度 $d$、时间步数 $N$、样本数 $M$ 的影响。
选择指南：为以下应用场景选择最合适的框架（SDE/ODE/PDE）：
- 需要快速生成大量样本
- 需要精确计算似然进行模型选择
- 需要理论分析收敛性
- 需要可解释的生成过程
- 需要编辑已有样本
创新思考：
- 能否设计一个在不同阶段使用不同框架的混合算法？
- 如何利用PDE的理论洞察改进SDE/ODE的数值算法？
- 是否存在其他数学框架可以描述扩散过程？

本章小结

本章将我们对扩散模型的理解从离散时间步提升到了连续时间的SDE/PDE框架，这是一个更深刻、更统一的视角。

从离散到连续：我们展示了当时间步数趋于无穷时，离散的DDPM和NCSN过程如何自然地收敛到连续的SDE。
反向时间SDE：我们学习了Anderson定理，它揭示了反向去噪过程的核心是学习分数函数 $\nabla_{x_t} \log p_t(x)$ ，从而将DDPM和分数匹配统一起来。
概率流ODE：我们发现每个SDE都对应一个确定性的ODE，它不仅能实现更快的采样，还能进行精确的似然计算。
Fokker-Planck方程：我们引入了描述概率密度演化的PDE，为宏观理论分析提供了工具。

这个连续时间框架不仅统一了现有的模型，更为未来的创新（如设计新的SDE、开发更快的求解器）提供了无限可能。下一章，我们将探讨另一个优雅的连续时间框架——流匹配（Flow Matching），它从最优传输的视角为生成建模提供了新的思路。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

第5章：连续时间扩散模型 (PDE/SDE)

5.1 从离散到连续：SDE的极限之美

5.1.1 离散过程的极限

系数的深层含义

泰勒展开与连续化

白噪声的涌现

SDE的诞生

5.1.2 SDE的统一框架

三大SDE家族的深入理解

SDE选择的艺术

5.2 反向时间SDE：学习去噪

5.2.1 时间反演的魔法

5.2.2 直觉理解：为什么需要分数？

5.2.3 分数函数的核心地位

推导这个关键关系

分数函数的几何意义

分数函数的性质与挑战

5.2.4 实现细节与挑战

5.3 概率流ODE：确定性的生成路径

5.3.1 从随机到确定：概率流的发现

5.3.2 为什么概率流ODE有效？

5.3.3 概率流ODE的推导直觉

从Fokker-Planck方程出发

物理直觉：扩散引起的漂移

概率流ODE的深层含义

概率流ODE与神经ODE的联系

5.4 Fokker-Planck方程：从粒子到密度的演化

5.4.1 Fokker-Planck方程的物理直觉

第一项：漂移输运 $-\nabla \cdot (f(x,t)p_t(x))$

第二项：扩散平滑 $\frac{1}{2}g(t)^2 \Delta p_t(x)$

5.4.2 Fokker-Planck方程的推导

5.4.3 特殊情况与解析解

例1：纯扩散（Ornstein-Uhlenbeck过程）

例2：稳态分布

5.4.4 Fokker-Planck方程的数值方法

5.4.5 PDE视角的深刻洞察

本章小结

FilesExpand file tree

chapter5.md

Latest commit

History

chapter5.md

File metadata and controls

第5章：连续时间扩散模型 (PDE/SDE)

5.1 从离散到连续：SDE的极限之美

5.1.1 离散过程的极限

系数的深层含义

泰勒展开与连续化

白噪声的涌现

SDE的诞生

5.1.2 SDE的统一框架

三大SDE家族的深入理解

SDE选择的艺术

5.2 反向时间SDE：学习去噪

5.2.1 时间反演的魔法

5.2.2 直觉理解：为什么需要分数？

5.2.3 分数函数的核心地位

推导这个关键关系

分数函数的几何意义

分数函数的性质与挑战

5.2.4 实现细节与挑战

5.3 概率流ODE：确定性的生成路径

5.3.1 从随机到确定：概率流的发现

5.3.2 为什么概率流ODE有效？

5.3.3 概率流ODE的推导直觉

从Fokker-Planck方程出发

物理直觉：扩散引起的漂移

概率流ODE的深层含义

概率流ODE与神经ODE的联系

5.4 Fokker-Planck方程：从粒子到密度的演化

5.4.1 Fokker-Planck方程的物理直觉

第一项：漂移输运 $-\nabla \cdot (f(x,t)p_t(x))$

第二项：扩散平滑 $\frac{1}{2}g(t)^2 \Delta p_t(x)$

5.4.2 Fokker-Planck方程的推导

5.4.3 特殊情况与解析解

例1：纯扩散（Ornstein-Uhlenbeck过程）

例2：稳态分布

5.4.4 Fokker-Planck方程的数值方法

5.4.5 PDE视角的深刻洞察

本章小结