Google 发布 Gemini Omni,支持任意输入生成任意输出,视频编辑和多轮对话式修改是最大亮点,已面向订阅用户上线。


Google 发布 Gemini Omni,支持任意输入生成任意输出,视频编辑和多轮对话式修改是最大亮点,已面向订阅用户上线。
Google 在 I/O 2026 上发布了 Gemini Omni -- 一个能接受任意输入、生成任意输出的多模态模型。视频生成是它的第一步,但和 Seedance 这类纯视频生成模型不同,Omni 的核心卖点是"对话式视频编辑"。
Gemini Omni 整合了 Google 目前最先进的几款生成式媒体模型:图像模型 Nano Banana、视频生成模型 Veo、以及世界模型 Genie。它不是简单地生成视频,而是理解视频中的物理关系、运动关系和场景逻辑。
DeepMind CEO Demis Hassabis 亲自上台发布,定位是"世界模型"(World Model)。

这是 Omni 最实用的功能。上传你拍的视频,然后用自然语言告诉它怎么改。不是一次性生成,而是多轮对话,每条指令在前一条基础上继续操作。
演示案例:拍了一段手摸镜子的视频,告诉 Omni "当人触摸镜子时,让镜子像液体一样泛起涟漪,人的手臂变成反光材质"。视频没有被完全重绘,人物动作保留,但镜子的物理状态和手臂材质被精准替换。
关键特性:
Omni 能理解重力、流体力学等物理概念。让它生成"一条在连锁反应轨道上快速滚动的弹珠",它能展现出对动能和重力的精确理解,而不仅仅是视觉上的"看起来像"。

Omni 能结合 Gemini 的世界知识生成内容。比如输入"生成一个关于蛋白质折叠的黏土动画解释",它会把抽象科学概念转化成带有结构演示的教学视频,而不只是视觉匹配。

可以把图片、文本、视频、音频作为参考素材上传,Omni 会理解这些素材之间的关系,整合成一个连贯的输出。
Gemini Omni Flash 已上线,可通过以下入口使用:
Omni 提供 18 种预设风格,包括 80 年代 MV、蒙太奇、美漫、涂鸦特效、像素冒险等。
所有 Omni 生成的视频都包含肉眼不可见的 SynthID 数字水印,可以在 Gemini 应用和 Chrome 中验证来源。

iOS 27中Siri获得独立App形态,支持多轮对话和屏幕感知,Apple Intelligence深度整合灵动岛,但国行用户暂时无法使用

字节跳动开源Lance,仅3B激活参数的原生统一多模态模型,同时覆盖图像视频的理解、生成和编辑,开源即登Hugging Face Trending第一。

Anthropic发布Mythos级旗舰模型,Fable 5面向所有用户开放,软件工程基准SWE-bench Pro拿下80.3%,定价输入10美元/百万token。