Google Gemini Omni：抢先看 Google 全新视频模型

Omnigen Editorialon a month ago

Gemini Omni 是什么？

2026 年 5 月 11 日，有用户在 Gemini 应用里发现一张标记为 "Omni" 的模型卡片，介绍写着："使用 Gemini Omni 进行创作：认识我们全新的视频模型，重新混剪你的视频、在对话中直接编辑、尝试模板，还有更多功能。"

这次泄露发生在 Google I/O 2026（5 月 19–20 日） 前一周左右，强烈暗示 Omni 就是 Google 下一代旗舰视频模型——它既是 Veo 系列的继任者，也是其补充，主打对话式编辑而非纯粹的文生视频。

Google 目前还没有官方声明。下文所有信息都基于应用内泄露和同期出现的早期 Demo，具体细节预计会在 I/O 主舞台上发生变化。

为什么叫 "Omni"？

这个命名本身就很说明问题。Veo 聚焦电影级生成，Imagen 专注静态图，而 Omni 似乎是一个覆盖完整视频工作流的统一模型：

文本生成视频
图生视频、视频再混剪
在聊天里直接编辑已有片段（替换物体、重写场景、去水印）
原生音频生成（对白、音效、环境声）
模板驱动的常见格式创作

换句话说，Omni 看起来不像一次单纯的模型发布，更像一个端到端的创意智能体——只不过下面恰好跑着一个全新的视频模型。

泄露的内容到底展示了什么？

在和模型卡片一起泄露的 Demo 里，有三个能力特别醒目：

1. 聊天框内的编辑

用户上传一段片段，然后用大白话让 Omni 替换物体、重写场景或去掉水印，就能在不离开对话的情况下拿到一个连贯的编辑结果。这是工作流上最大的升级：不用打开 NLE，不用画蒙版，也不用单独跑一遍 inpaint。

2. 模板与混剪

一个"模板"入口意味着 Google 押注以格式为先的创作——短视频、广告、解说类内容——用户选好模板，Omni 负责往里填内容。配合混剪能力，这显然是面向不想每次都从空提示词开始的创作者。

3. 原生音频升级

Veo 3.1 已经能生成同步对白、音效和环境声，但音质一直是相对竞争对手的短板。早期 Omni Demo 给人的感觉是这一块有明显进步，如果属实，就补上了 Google 在视频上最显眼的一块拼图。

它和竞品比起来怎么样？

基于早期 Demo 画面，大致格局如下：

模型	强项	短板
Gemini Omni	对话式编辑、工作流整合、模板、音频	单帧画质据说仍落后于头部
Seedance 2（字节跳动）	最佳的电影级质感和运动表现	缺少原生编辑 / 智能体式工作流
Sora 2（OpenAI）	物理表现强，长片连贯性好	聊天内可编辑面有限
Veo 3.1（Google）	原生音频好，生成质量稳健	内部正在被 Omni 取代

实话实说：Omni 的护城河在工作流，而不是像素本身。 如果你只想从一句提示词里拿到一张最逼真的画面，目前的证据更倾向于 Seedance 2。但如果你想像编辑文档那样编辑视频——通过对话不断迭代——Omni 就是这条赛道目前最有可能赢的选手。

分级、限额与分发渠道

从泄露界面里能看出几个信号：

大概率分级发布（Flash 和 Pro），与 Gemini 家族其他模型一致。
限额收得很紧：测试者反馈在 Google AI Pro 套餐下，生成两次视频就用掉了 86% 的当日额度。视频推理依然很贵。
三条分发线预计同时启用：Gemini 应用（消费者）、AI Studio（开发者）、Vertex AI（企业）——和 Veo 当年一致的打法。

Google I/O 2026 上要重点关注什么？

Google 主舞台上有几个细节值得盯紧：

定价与配额——Pro 套餐会不会真的给到够用的视频额度？还是又开了一个新档位？
片段长度与分辨率——目前的泄露并没有明确说法。
API 表面——聊天里的编辑能力会不会以真正的 API 形式暴露出来，还是初期只在 Gemini 应用里可用？
水印与溯源——SynthID 和 C2PA 会怎么处理生成与编辑后的片段？
Veo 的路线——Veo 会作为独立的电影向模型继续存在，还是被 Omni 悄悄合并掉？

结论

Gemini Omni 显然不打算去赢一场逐帧画质的比拼。它真正想做的，是让视频感觉像 Gemini 的其他形态一样——可以对话、可以聊出修改、可以不离开对话框就完成出片。 如果主题演讲确认了泄露里看到的那些能力——尤其是聊天内编辑和音频上的跃升——Omni 会是 2026 年最值得关注的视频模型发布之一，哪怕它不是画面最漂亮的那一个。

我们会在 Google 公布更多官方细节后持续更新本文。