AdaGen：让AI学会为每张图片定制生成策略

AdaGen 是什么

你可能没意识到一个问题：当前的 AI 图像生成模型（Stable Diffusion、Midjourney 等）在生成每张图片时，都在用完全相同的策略。生成一张简单的风景图和一张复杂的人物肖像，模型执行的是同样的步骤、同样的参数配置。

这就像让厨师用完全相同的火候和时间烹饪牛排和蔬菜——显然不够合理。

AdaGen 是清华大学开源的通用框架，它通过强化学习训练一个轻量级"策略网络"，让图像生成模型学会观察当前状态，为每个样本自动选择最优参数。简单说：从"一刀切"升级为"量身定制"。

解决什么问题

当前主流的图像生成模型（扩散模型、自回归模型、掩码生成模型、流模型）都需要配置大量超参数：噪声水平、采样温度、引导尺度等。现有方法存在两个致命缺陷：

依赖人工调参：以 MaskGIT 为例，即使只生成 16 步也需要配置 64 个参数，极度依赖专家经验
静态策略僵化：所有样本共享同一套规则，无法适配不同图片的复杂度差异

AdaGen核心思想：从静态策略到自适应策略

左侧是传统方法：所有样本共享预定义的静态策略；右侧是 AdaGen：通过策略网络为每个样本动态生成定制化策略

核心技术亮点

1. 统一框架：一个算法适配四大生成范式

AdaGen 将不同的生成模型统一建模为马尔可夫决策过程（MDP），涵盖扩散模型（DiT）、自回归模型（VAR）、掩码生成模型（MaskGIT）、流模型（SiT）。这意味着你不需要为每种模型重新设计策略。

MDP 的核心组件：

状态：当前生成步数 + 中间结果（部分掩码的图、部分去噪的图等）
动作：策略参数（温度、引导尺度、噪声水平等）
奖励：最终生成图像的质量评分
策略网络：观察状态，自动输出最优参数

关键是：预训练的生成模型始终保持冻结，AdaGen 只训练一个极轻量的策略网络（仅增加 0.07%-0.40% 计算量）。

2. 对抗奖励建模：防止"刷指标"的投机行为

训练策略网络最大的挑战是：如何设计有效的奖励信号？论文测试了三种方案：

三种奖励设计的对比

（a）用 FID 作奖励：指标虽低但图像质量差；（b）用预训练奖励模型：保真度好但多样性不足；（c）AdaGen 的对抗奖励：保真度与多样性兼顾

最终方案：引入一个判别器作为奖励模型，与策略网络进行对抗训练。策略网络试图最大化奖励，判别器不断提高区分真假图像的标准，类似 GAN 的博弈过程。

AdaGen训练流程

训练算法简洁优雅：策略网络控制生成 → 奖励模型评估 → 两者交替进化

3. 动作平滑：驯服高维探索空间

当生成步数增加时（如从 8 步增加到 32 步），策略网络需要探索的参数空间急剧扩大，训练容易崩溃。

问题根源：强化学习探索时对每步独立添加随机噪声，导致策略序列剧烈抖动（像心电图的异常波形）。

解决方案：对策略输出施加指数移动平均（EMA）滤波，让参数变化更平滑。这个操作满足低通滤波（抑制高频波动）和因果性（不依赖未来信息）。

动作平滑前后对比

左侧未平滑时策略剧烈抖动（FID=3.5）；右侧平滑后策略合理稳定（FID=2.3）

实际效果

在 ImageNet 256×256 数据集上，AdaGen 在四大生成范式、六个模型上进行了验证：

性能提升：

在相同推理步数下，FID 指标提升 17% - 54%
在相同质量下，推理速度提升 1.6× - 3.6×

质量-效率权衡曲线

无论是理论计算量（TFLOPs）还是实际 GPU/CPU 推理时延，AdaGen 均能推进质量-效率前沿

额外开销：策略网络仅为生成器增加 0.07% - 0.40% 的计算量，几乎可以忽略不计。

适用场景

适合你，如果你：

正在开发图像生成相关的产品或服务
需要在有限算力下提升生成质量或加速推理
希望在自己的生成模型上实现性能突破

不适合你，如果你：

只是普通用户，想要开箱即用的图像生成工具（建议直接用 Midjourney 或 Stable Diffusion）
没有机器学习背景，无法理解强化学习和生成模型的基本原理

开始使用

论文地址：https://arxiv.org/abs/2603.06993
GitHub 仓库：https://github.com/LeapLabTHU/AdaGen

技术栈：

基于 PyTorch 实现
使用 PPO（Proximal Policy Optimization）算法训练策略网络
支持扩散模型（DiT）、自回归模型（VAR）、掩码生成模型（MaskGIT）、流模型（SiT）

核心要点：

AdaGen 不修改原始生成模型的权重，只添加一个轻量级策略网络
训练过程需要原始训练数据（如 ImageNet）和计算资源用于强化学习
训练完成后，推理时几乎无额外开销

依赖人工调参：以 MaskGIT 为例，即使只生成 16 步也需要配置 64 个参数，极度依赖专家经验
静态策略僵化：所有样本共享同一套规则，无法适配不同图片的复杂度差异

AdaGen核心思想：从静态策略到自适应策略

左侧是传统方法：所有样本共享预定义的静态策略；右侧是 AdaGen：通过策略网络为每个样本动态生成定制化策略