Gemini Omni AI 视频生成器

Google 全新多模态 AI 视频模型，将文字、图片、音频和参考片段一键转换为带原生音频的视频——现在你可以在 Nano Banana 在线运行 Gemini Omni。

提示词*

0/5000

提示词*

0/5000

参考图片 (0/7)

点击或拖拽图片到这里

支持 PNG / JPG / WEBP，最多 7 张

单张图片不超过 10MB

45积分

正在加载视频任务…

Gemini Omni 可以做什么

无需拍摄的产品视频与电商广告

适用于 Shopify、Amazon、Etsy、TikTok Shop 卖家 · DTC 品牌

模式：图生视频 · 引擎：Gemini Omni · 输出：8秒, 9:16 / 1:1, 原生音频

你只有一张产品棚拍照，预算又请不起视频团队。但今天就要交付 5 个角度的素材，明天 Meta 和 TikTok 那边要做 A/B 测试。过去的做法是"拼幻灯片"，现在的做法是一张图 + 一句提示词 → 一段产品 360 度旋转、光影流动、背景音效自带的短片。参考图会锁定产品造型，让同一个 SKU 在所有变体中保持一致。

Prompt

Studio shot of the product on a marble surface, slow 360-degree turn, soft daylight from the left, subtle ambient music, 8 seconds, 9:16 vertical, cinematic.

A/B 测试节奏的广告创意

适用于付费社交媒体投手 · 效果营销人员 · 创意负责人

模式：文生视频 + 多参考 · 引擎：Gemini Omni · 输出：8秒, 9:16, 原生音频

你在测 Meta 或 TikTok 广告，明天就要 15 个变体，但设计师下个月之前都排满了。瓶颈从来不在创意——而在每个变体渲染要多久。Gemini Omni 把从提示词到成片的时间从几天压缩到几分钟：丢一句广告语、一张产品参考图、一段配音样本进去，输出就是带同步音轨的成片，直接进 Ads Manager。改提示词、重新生成、上线投放。

Prompt

30-something woman holding [product], looking at camera, sunlit kitchen, voiceover: 'I switched after one week.' 8 seconds, vertical, warm color grade.

人物一致的短视频内容

适用于 TikTok / Reels / YouTube Shorts 创作者 · 无脸账号 · meme 账号

模式：多参考 · 引擎：Gemini Omni · 输出：8-15秒, 9:16, 原生音频

你做一个无脸账号，"主持人"是一个 AI 角色。上周的视频用了参考图 A，本周需要同一个角色、同一套服装、换个场景、换种情绪。没有锁定身份的参考图，每条视频里的人都不像同一个。Gemini Omni 支持加载多个参考素材（人物、服装、地点、道具、音效），并在整段视频里保持稳定——你的系列内容才像真正的一个系列。

Prompt

[Reference: character.jpg] in a Tokyo arcade at night, neon reflections on her jacket, looking up at the camera, ambient city sound, 10 seconds, vertical.

影视分镜预览与动态预演

适用于独立电影人 · 动效设计师 · VFX 预演 · 摄影指导 · 视频工具开发者

模式：文生视频 + 多参考 · 引擎：Gemini Omni · 输出：8-15秒, 16:9, 原生音频

你要给导演讲一个镜头，希望他在订下拍摄日之前先看到推镜的感觉。过去分镜只能用静态画面表达，Gemini Omni 用带声音的动态画面去呈现。提示词里锁住运镜方式，参考图里锁住角色和场景，输出一段可播放的预演素材，成本比一次咖啡会议还低。独立开发者在做视频工具时，也用同样的流程在接 API 之前先验证运动效果。

Prompt

Wide shot of a lone figure on a coastal cliff at dusk, slow camera push-in, distant wave sound, golden hour lighting, 16:9 cinematic, 10 seconds.

知识解说与概念可视化

适用于教育工作者 · 课程作者 · YouTube 科普创作者 · 技术写作者

模式：文生视频 · 引擎：Gemini Omni · 输出：10-15秒, 16:9, 原生音频

你想讲一个画不出来的概念——蛋白质折叠、轨道力学、一段历史场景、一个化学反应。Google 自己的 Omni 演示就主推了这个场景（黏土风格的蛋白质折叠），因为这是多模态视频最能发挥价值的地方：你用日常语言描述抽象概念，用一张参考草图把它视觉化锚定，输出的短片是学生真的愿意看完的。多镜头叙事让解说真正"动起来"，而不是停在一帧上念稿。

Prompt

Sequence: a single water droplet falling, splash in slow motion, droplet rejoining a stream, narrated voiceover explaining surface tension, 15 seconds, 16:9.

如何使用 Gemini Omni

选择起始模态

打开顶部的生成器面板。如果你只有一段文字创意，停在「文生视频」标签页；如果你有产品图、人物设定图或参考帧，切换到「图生视频」；如果你需要最强的身份一致性（同一个角色、同一套服装、同一个场景跨多次生成），切到「多参考」模式，加载多个参考素材——图片、短片段、音频底噪都可以。

把提示词当作给导演的拍摄简报来写

公式：主体 + 场景 + 光线 + 运镜 + 音频 + 画幅 + 时长。六个槽位。任何一个留空，模型就会按统计平均值填。范例："夜晚雨中的涩谷十字路口，30 岁女性穿米色风衣，霓虹灯倒映在湿漉漉的路面，缓慢跟拍背影，环境城市音与远处车流声，9:16 竖屏，8 秒。"

生成、迭代、导出

设定时长和宽高比，点「生成」。渲染时间通常几分钟，视参数而定。出片后你可以直接发布，也可以把它当成对话的初稿来处理：改一处提示词、换一张参考图、再次生成。最后导出带音频的 MP4。

常见问题

视频时长最长多少？

目前 Gemini Omni Flash 在 Gemini App 和 Nano Banana 上都生成大约 10 秒以内的片段。Google 表示这是产品策略而非模型上限，更长时长正在路上。Google 一旦放开，Nano Banana 同步放开。

会生成声音吗，还是只有静音视频？

默认开启原生音频——Gemini Omni 在同一次渲染里就输出同步的配音、环境音和音乐。如果你打算导入 NLE 剪辑软件做后期，也可以在面板里关掉音频，输出纯静音视频。

生成的视频可以商用吗？

Nano Banana 付费套餐生成的视频可用于商业用途。免费额度用于功能评估。具体条款以《服务条款》为准——投入付费投放前请先确认。

可以上传哪些类型的参考素材？

多参考模式支持静态图（人物、服装、场景、产品、风格帧）、参考短视频（运动方向、构图）和音频片段（音色、背景音乐）。锚点越多，生成结果越可控——这一点在你做同一角色的系列内容时尤其重要。

如何实现类似 Omni 的"对话式编辑"？

保持参考素材不变，每次只改提示词的一处（只改光线，或只改运镜，或只改服装），然后重新生成。不要重写整段提示词——那会让你之前积累的一致性被清零。这和你在 Gemini App 聊天界面里用的迭代节奏是同一套。

怎样写提示词才能得到自然的运动？

三条原则。第一，明确写出运镜方式——"缓慢跟拍背影""固定机位""四秒内推近"。模糊的运动语言只会生成模糊的运动。第二，给画面一个物理锚点（一个真实的表面、一个真实的光源、一个有重量的物体）。第三，让动作时长匹配片段长度——把 30 秒的动作塞进 8 秒，渲染出来就是抖动。

在这里用 Gemini Omni 需要订阅 Google AI 吗？

不需要。Nano Banana 通过自己的积分系统提供 Gemini Omni——无需 Google AI Plus、Pro 或 Ultra 订阅。新用户注册即可获得免费积分。

Gemini Omni 和 Veo 有什么区别？

Veo 是 Google DeepMind 的专用视频模型，在电影感画面、布光和运镜上更强。Gemini Omni 是多模态模型，视频只是它支持的多种模态之一，并内建了对话式编辑能力。在 Gemini App 中，Omni 已取代 Veo。两者在 Nano Banana 都可用——如果你想要纯电影感输出、不需要多模态层，可以看我们的 Veo 生成器。

Gemini Omni 支持深度伪造或 AI 数字人吗？

Gemini Omni 提供了带防深度伪造机制的虚拟形象功能——用户必须先录制自己朗读一段数字序列，才能将自己生成为虚拟形象。在模型层面禁止编辑已有视频的语音内容作为安全措施。在 Nano Banana 上使用 Gemini Omni 时，这些安全机制同样适用。