vivo联合浙大发布VeraRetouch轻量修图框架,基于0.6B视觉语言模型,支持自动修图、风格修图和参数修图,iPhone端13秒完成处理


vivo联合浙大发布VeraRetouch轻量修图框架,基于0.6B视觉语言模型,支持自动修图、风格修图和参数修图,iPhone端13秒完成处理
VeraRetouch 是 vivo BlueImage Lab 联合浙江大学、之江实验室发布的一个轻量级 AI 修图框架。它用 0.6B 参数的视觉语言模型(VLM)作为"修图大脑",配合全可微分的 Retouch Renderer 作为"修图执行器",能在手机端侧完成专业级的色调与色彩优化。总参数仅约 0.63B,远小于 Flux.1 Kontext 等主流方案。
现有 AI 修图方案存在几个关键痛点:
VeraRetouch 的关键创新在于:不再把专业修图工具当作外部黑盒,而是用一个全可微分的 Retouch Renderer 替代传统调色与调光操作。

VeraRetouch将0.6B VLM作为"修图大脑",Retouch Renderer作为"修图执行器"。
VeraRetouch 定义了三类修图任务,覆盖从"一键优化"到"精准控制"的完整需求:
用户只需输入一张照片,模型自动分析画面中的光影和色彩问题并生成修图方案。目标不是套滤镜,而是在保留原图内容的基础上提升整体观感。
用户可以用自然语言描述想要的风格,比如"温暖秋日感"、"冷调日系透明感"、"暗调情绪胶片风"。模型结合图像内容和文本意图,推理出具体调色方向。
模型根据明确的参数指令进行修图,例如对比度、曝光、色温、饱和度等。强调调整结果的可控性和可复现性。
研究团队将修图空间拆解为三个相对独立的控制维度:
这种拆解与专业修图流程高度一致,让模型输出更可解释、更稳定。
模型最后一层 hidden state 被送入 MLP Retouch Adaptor,对齐到 Retouch Renderer 可理解的连续控制 latent。整个修图过程在模型内部完成,支持端到端像素级训练。
通过格式奖励、图像相似性奖励和审美奖励,引导模型在保持指令一致性的同时生成更自然的修图结果。
为解决专业修图数据稀缺的问题,研究团队构建了百万级多任务专业修图数据集:
| 任务 | 指标 | VeraRetouch | vs. Flux.1 Kontext |
|---|---|---|---|
| Auto-Retouch (FiveK-Bench) | PSNR | 26.85 dB | +1.08 dB |
| Param-Retouch | PSNR | 30.18 dB | 明显超过 |
| Style-Retouch (Aether-Bench) | PSNR/SSIM/LPIPS | 多项最优 | 领先 |
| 平台 | VeraRetouch | Flux.1 Kontext | JarvisArt |
|---|---|---|---|
| H20 GPU (512p) | 6.90s | 16.78s | 14.31s |
| MacBook Air M4 | 约 7.46s | - | - |
| iPhone 16 Pro | 约 13.56s | - | - |

在FiveK-Bench上VeraRetouch-DAPO-AE达到26.85 dB PSNR,多项指标领先。

风格修图任务中,VeraRetouch在多项指标上取得最优表现。
38 名参与者盲评结果显示,VeraRetouch 在视觉美感、指令一致性和纹理保持方面均获得最高评分。DAPO-AE 后训练带来 61.62% 的偏好率。

用一句意图让 Codex 自主拆解任务、派生子智能体、18小时完成14个功能开发,附配置教程与避坑指南

上海AI实验室开源的轻量级 Agent 安全工具,用三维诊断分析执行轨迹风险,支持在线护栏部署

通过泄露的Fable 5系统级Prompt和--system-prompt-file参数,在Opus 4.8上注入Fable 5的'人格底稿',实现相近的输出效果