Gemini Omni 上手体验：用自然语言对话就能改视频

Google 在 I/O 2026 上发布了 Gemini Omni -- 一个能接受任意输入、生成任意输出的多模态模型。视频生成是它的第一步，但和 Seedance 这类纯视频生成模型不同，Omni 的核心卖点是"对话式视频编辑"。

Gemini Omni 是什么

Gemini Omni 整合了 Google 目前最先进的几款生成式媒体模型：图像模型 Nano Banana、视频生成模型 Veo、以及世界模型 Genie。它不是简单地生成视频，而是理解视频中的物理关系、运动关系和场景逻辑。

DeepMind CEO Demis Hassabis 亲自上台发布，定位是"世界模型"（World Model）。

Gemini Omni 架构

核心能力

对话式视频编辑

这是 Omni 最实用的功能。上传你拍的视频，然后用自然语言告诉它怎么改。不是一次性生成，而是多轮对话，每条指令在前一条基础上继续操作。

演示案例：拍了一段手摸镜子的视频，告诉 Omni "当人触摸镜子时，让镜子像液体一样泛起涟漪，人的手臂变成反光材质"。视频没有被完全重绘，人物动作保留，但镜子的物理状态和手臂材质被精准替换。

关键特性：

角色、环境、物理效果和场景上下文在多轮修改中保持一致
可以修改特定元素，也可以改动整个场景
支持修改环境、角度、风格、细节

物理模拟

Omni 能理解重力、流体力学等物理概念。让它生成"一条在连锁反应轨道上快速滚动的弹珠"，它能展现出对动能和重力的精确理解，而不仅仅是视觉上的"看起来像"。

Gemini Omni 是什么

DeepMind CEO Demis Hassabis 亲自上台发布，定位是"世界模型"（World Model）。

核心能力

这是 Omni 最实用的功能。上传你拍的视频，然后用自然语言告诉它怎么改。不是一次性生成，而是多轮对话，每条指令在前一条基础上继续操作。

关键特性：

角色、环境、物理效果和场景上下文在多轮修改中保持一致

可以修改特定元素，也可以改动整个场景

支持修改环境、角度、风格、细节

全部

AI教程

AI产品

AI资源

Gemini Omni 上手体验：用自然语言对话就能改视频

Gemini Omni 上手体验：用自然语言对话就能改视频

Gemini Omni 是什么

核心能力

对话式视频编辑

物理模拟

作者

分类

相关文章

Codex 从安装到实战：给非程序员的完整上手指南

Gemini Omni 上手体验：用自然语言对话就能改视频

Gemini Omni 上手体验：用自然语言对话就能改视频

Gemini Omni 是什么

核心能力

对话式视频编辑

物理模拟

作者

分类

相关文章

Codex 从安装到实战：给非程序员的完整上手指南

扣子 3.0：让多个 AI Agent 组团给你打工

Kimi Work Beta：从写代码的 Agent 到干活的 Agent

知识驱动的视频生成

任意素材输入

怎么用

价格

适合谁