CVPR 2026 | C²FG：用分数差异分析提高条件生成中CFG的引导-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

CVPR 2026 | C²FG：用分数差异分析提高条件生成中CFG的引导

作者：互联网

2026-04-03

⼤语⾔模型脚本

本文入选 CVPR 2026

CVPR（IEEE/CVF Conference on Computer Vision and Pattern Recognition）IEEE国际计算机视觉与模式识别会议，主要内容是计算机视觉与模式识别技术。

论文主页：arxiv.org/abs/2603.08…

一、为什么固定 CFG scale 不够好？

标准 CFG： ${\hat{ϵ}}_{ω} (x_{t}, t, y) = {\hat{ϵ}}_{\emptyset} (x_{t}, t) + ω ({\hat{ϵ}}_{c} (x_{t}, t, y) - {\hat{ϵ}}_{\emptyset} (x_{t}, t)) . hatepsilon_omega(x_t,t,y)=hatepsilon_{emptyset}(x_t,t)+omegabig(hatepsilon_{c}(x_t,t,y)-hatepsilon_{emptyset}(x_t,t)big).$ 常见做法使用固定 $ω omega$ ，但它默认“条件/无条件差异在所有时间步同等重要”。我们的理论与实证显示：这种差异在扩散时间上是动态变化的，因此固定 $ω omega$ 难以同时兼顾早期结构形成与后期精确对齐。

二、核心理论（VP-SDE 重点）：score discrepancy 的严格上界（论文 Theorem 1）

VP-SDE 前向扩散： $d x_{t} = - \frac{1}{2} β (t) x_{t} d t + \sqrt{β (t)} d w_{t} . dx_t=-frac{1}{2}beta(t)x_tdt+sqrt{beta(t)}dw_t.$

Theorem 1（VP-SDE Score MSE Bound）

假设样本空间有界且闭。令 $p (x, t) p(x,t)$ 与 $\tilde{p} (x, t) tilde p(x,t)$ 为由初始分布 $p (x_{0}) p(x_0)$ 与 $\tilde{p} (x_{0}) tilde p(x_0)$ 诱导的时刻 $t t$ 的密度（论文中取 $\tilde{p} (x, t) = p (x, t ∣ y) tilde p(x,t)=p(x,tmid y)$ ）。则 score 差异满足一致上界： $∣ \nabla \log p (x, t) - \nabla \log \tilde{p} (x, t) ∣ \leq \frac{α (t)}{σ^{2} (t)} C, \forall x \in s u p p, t \geq 0, |nablalog p(x,t)-nablalog tilde p(x,t)| le frac{alpha(t)}{sigma^2(t)}C,quad forall xin mathrm{supp}, tge 0,$ 其中 $C C$ 为常数， $α (t) = \exp (- \frac{1}{2} \int_{0}^{t} β_{s} d s), σ (t) = α (t) \sqrt{\int_{0}^{t} \frac{β_{s}}{α^{2} (s)} d s} . alpha(t)=expBig(-frac{1}{2}int_0^tbeta_sdsBig),quad sigma(t)=alpha(t)sqrt{int_0^tfrac{beta_s}{alpha^2(s)}ds}.$ 重参数化 $t^{'} = \frac{1}{2} \int_{0}^{t} β_{s} d s t'=frac{1}{2}int_0^tbeta_sds$ 后（论文式(9)）： $∣ \nabla \log p (x, t) - \nabla \log p (x, t ∣ y) ∣ \leq \frac{e^{- t}}{1 - e^{- 2 t}} C, |nablalog p(x,t)-nablalog p(x,tmid y)| le frac{e^{-t}}{1-e^{-2t}}C,$ 当 $t t$ 较大时呈现 $O (e^{- t}) O(e^{-t})$ 的指数衰减趋势。

结论： 在前向扩散中，条件/无条件分布会逐步“趋同”，其 score 差异上界随时间衰减；对应到反向采样，越接近数据（ $t \to 0 tto 0$ ）越需要更强、更精细的条件引导。

三、方法：C²FG（指数控制的 time-dependent CFG）

我们将固定 $ω omega$ 替换为时间控制函数： $ω (t) = ω_{0} \exp (λ (1 - \frac{t}{t_{\max}})) . omega(t)=omega_0expBig(lambdaBig(1-frac{t}{t_{max}}Big)Big).$ 并在采样时使用：

{\hat{ϵ}}_{c}^{ω} (x t) = \hat{ϵ} \emptyset (x t) + ω (t) [\hat{ϵ} c (x t) - \hat{ϵ} \emptyset (x_{t})] . hat{boldsymbol{epsilon}}_{boldsymbol{c}}^omegaleft(boldsymbol{x}tright)=hat{boldsymbol{epsilon}}{varnothing}left(boldsymbol{x}tright)+omega(t)left[hat{boldsymbol{epsilon}}{boldsymbol{c}}left(boldsymbol{x}tright)-hat{boldsymbol{epsilon}}{varnothing}left(boldsymbol{x}_tright)right] .

为什么这种形式好用？

与理论与观测一致： 差异呈指数趋势，调度函数自然对齐；
连续可导更稳定： 比分段/线性更平滑；
只需两个超参： $ω_{0} omega_0$ （最大强度）与 $λ lambda$ （衰减速率）；
training-free、plug-and-play： 无需额外训练或外部分类器。

四、实验结果展示

Figure 1：理论预测的“时间趋势”在真实模型中成立

(a) 条件与无条件 score 的 MSE 随时间变化，并被一个随 $t \to + \infty tto+infty$ 逼近 0 的函数上界约束；
(b) 余弦相似度在反向采样过程中下降，说明二者在幅值与方向上都逐渐分离。

Figure 2：CFG vs.C²FG 的采样流程比较

CFG： $ω omega$ 为常数；
C $^{2}^2$ FG： $ω (t) omega(t)$ 为随时间变化的衰减控制函数。

Figure 3：C²FG的直观示意（并解释 interval guidance 可视为特例/可融合）

论文指出：区间 guidance 的“只在有效区间用引导”可以在我们的框架下得到解释；同时C²FG+ interval可以进一步减少不必要的模型评估开销（把引导放在更“有效”的阶段）。

Figure 4：2D Toy Example（更少 outliers，更贴近目标条件分布）

(b) EDM2（ $ω = 1 omega=1$ ）出现 outliers；
(c） $β beta$ -CFG（ $α = β = 2, ω = 1 alpha=beta=2, omega=1$ ）outliers 更多；
(d) C $^{2}^2$ FG（ $ω_{0} = 1, λ = 0.6 omega_0=1, lambda=0.6$ ）outliers 更少，匹配目标更好。