🎁新用户注册即可获得免费积分

Gemini Omni AI 视频生成器

Google 全新多模态 AI 视频模型,将文字、图片、音频和参考片段一键转换为带原生音频的视频——现在你可以在 Nano Banana 在线运行 Gemini Omni。

0/5000
0/5000

点击或拖拽图片到这里

支持 PNG / JPG / WEBP,最多 7 张

单张图片不超过 10MB

45积分

正在加载视频任务…

Gemini Omni 可以做什么

无需拍摄的产品视频与电商广告

适用于 Shopify、Amazon、Etsy、TikTok Shop 卖家 · DTC 品牌

模式:图生视频 · 引擎:Gemini Omni · 输出:8秒, 9:16 / 1:1, 原生音频

你只有一张产品棚拍照,预算又请不起视频团队。但今天就要交付 5 个角度的素材,明天 Meta 和 TikTok 那边要做 A/B 测试。过去的做法是"拼幻灯片",现在的做法是一张图 + 一句提示词 → 一段产品 360 度旋转、光影流动、背景音效自带的短片。参考图会锁定产品造型,让同一个 SKU 在所有变体中保持一致。

Prompt
Studio shot of the product on a marble surface, slow 360-degree turn, soft daylight from the left, subtle ambient music, 8 seconds, 9:16 vertical, cinematic.

A/B 测试节奏的广告创意

适用于付费社交媒体投手 · 效果营销人员 · 创意负责人

模式:文生视频 + 多参考 · 引擎:Gemini Omni · 输出:8秒, 9:16, 原生音频

你在测 Meta 或 TikTok 广告,明天就要 15 个变体,但设计师下个月之前都排满了。瓶颈从来不在创意——而在每个变体渲染要多久。Gemini Omni 把从提示词到成片的时间从几天压缩到几分钟:丢一句广告语、一张产品参考图、一段配音样本进去,输出就是带同步音轨的成片,直接进 Ads Manager。改提示词、重新生成、上线投放。

Prompt
30-something woman holding [product], looking at camera, sunlit kitchen, voiceover: 'I switched after one week.' 8 seconds, vertical, warm color grade.

人物一致的短视频内容

适用于 TikTok / Reels / YouTube Shorts 创作者 · 无脸账号 · meme 账号

模式:多参考 · 引擎:Gemini Omni · 输出:8-15秒, 9:16, 原生音频

你做一个无脸账号,"主持人"是一个 AI 角色。上周的视频用了参考图 A,本周需要同一个角色、同一套服装、换个场景、换种情绪。没有锁定身份的参考图,每条视频里的人都不像同一个。Gemini Omni 支持加载多个参考素材(人物、服装、地点、道具、音效),并在整段视频里保持稳定——你的系列内容才像真正的一个系列。

Prompt
[Reference: character.jpg] in a Tokyo arcade at night, neon reflections on her jacket, looking up at the camera, ambient city sound, 10 seconds, vertical.

影视分镜预览与动态预演

适用于独立电影人 · 动效设计师 · VFX 预演 · 摄影指导 · 视频工具开发者

模式:文生视频 + 多参考 · 引擎:Gemini Omni · 输出:8-15秒, 16:9, 原生音频

你要给导演讲一个镜头,希望他在订下拍摄日之前先看到推镜的感觉。过去分镜只能用静态画面表达,Gemini Omni 用带声音的动态画面去呈现。提示词里锁住运镜方式,参考图里锁住角色和场景,输出一段可播放的预演素材,成本比一次咖啡会议还低。独立开发者在做视频工具时,也用同样的流程在接 API 之前先验证运动效果。

Prompt
Wide shot of a lone figure on a coastal cliff at dusk, slow camera push-in, distant wave sound, golden hour lighting, 16:9 cinematic, 10 seconds.

知识解说与概念可视化

适用于教育工作者 · 课程作者 · YouTube 科普创作者 · 技术写作者

模式:文生视频 · 引擎:Gemini Omni · 输出:10-15秒, 16:9, 原生音频

你想讲一个画不出来的概念——蛋白质折叠、轨道力学、一段历史场景、一个化学反应。Google 自己的 Omni 演示就主推了这个场景(黏土风格的蛋白质折叠),因为这是多模态视频最能发挥价值的地方:你用日常语言描述抽象概念,用一张参考草图把它视觉化锚定,输出的短片是学生真的愿意看完的。多镜头叙事让解说真正"动起来",而不是停在一帧上念稿。

Prompt
Sequence: a single water droplet falling, splash in slow motion, droplet rejoining a stream, narrated voiceover explaining surface tension, 15 seconds, 16:9.

如何使用 Gemini Omni

1

选择起始模态

打开顶部的生成器面板。如果你只有一段文字创意,停在「文生视频」标签页;如果你有产品图、人物设定图或参考帧,切换到「图生视频」;如果你需要最强的身份一致性(同一个角色、同一套服装、同一个场景跨多次生成),切到「多参考」模式,加载多个参考素材——图片、短片段、音频底噪都可以。

2

把提示词当作给导演的拍摄简报来写

公式:主体 + 场景 + 光线 + 运镜 + 音频 + 画幅 + 时长。六个槽位。任何一个留空,模型就会按统计平均值填。范例:"夜晚雨中的涩谷十字路口,30 岁女性穿米色风衣,霓虹灯倒映在湿漉漉的路面,缓慢跟拍背影,环境城市音与远处车流声,9:16 竖屏,8 秒。"

3

生成、迭代、导出

设定时长和宽高比,点「生成」。渲染时间通常几分钟,视参数而定。出片后你可以直接发布,也可以把它当成对话的初稿来处理:改一处提示词、换一张参考图、再次生成。最后导出带音频的 MP4。

常见问题

1

视频时长最长多少?

目前 Gemini Omni Flash 在 Gemini App 和 Nano Banana 上都生成大约 10 秒以内的片段。Google 表示这是产品策略而非模型上限,更长时长正在路上。Google 一旦放开,Nano Banana 同步放开。

2

会生成声音吗,还是只有静音视频?

默认开启原生音频——Gemini Omni 在同一次渲染里就输出同步的配音、环境音和音乐。如果你打算导入 NLE 剪辑软件做后期,也可以在面板里关掉音频,输出纯静音视频。

3

生成的视频可以商用吗?

Nano Banana 付费套餐生成的视频可用于商业用途。免费额度用于功能评估。具体条款以《服务条款》为准——投入付费投放前请先确认。

4

可以上传哪些类型的参考素材?

多参考模式支持静态图(人物、服装、场景、产品、风格帧)、参考短视频(运动方向、构图)和音频片段(音色、背景音乐)。锚点越多,生成结果越可控——这一点在你做同一角色的系列内容时尤其重要。

5

如何实现类似 Omni 的"对话式编辑"?

保持参考素材不变,每次只改提示词的一处(只改光线,或只改运镜,或只改服装),然后重新生成。不要重写整段提示词——那会让你之前积累的一致性被清零。这和你在 Gemini App 聊天界面里用的迭代节奏是同一套。

6

怎样写提示词才能得到自然的运动?

三条原则。第一,明确写出运镜方式——"缓慢跟拍背影""固定机位""四秒内推近"。模糊的运动语言只会生成模糊的运动。第二,给画面一个物理锚点(一个真实的表面、一个真实的光源、一个有重量的物体)。第三,让动作时长匹配片段长度——把 30 秒的动作塞进 8 秒,渲染出来就是抖动。

7

在这里用 Gemini Omni 需要订阅 Google AI 吗?

不需要。Nano Banana 通过自己的积分系统提供 Gemini Omni——无需 Google AI Plus、Pro 或 Ultra 订阅。新用户注册即可获得免费积分。

8

Gemini Omni 和 Veo 有什么区别?

Veo 是 Google DeepMind 的专用视频模型,在电影感画面、布光和运镜上更强。Gemini Omni 是多模态模型,视频只是它支持的多种模态之一,并内建了对话式编辑能力。在 Gemini App 中,Omni 已取代 Veo。两者在 Nano Banana 都可用——如果你想要纯电影感输出、不需要多模态层,可以看我们的 Veo 生成器。

9

Gemini Omni 支持深度伪造或 AI 数字人吗?

Gemini Omni 提供了带防深度伪造机制的虚拟形象功能——用户必须先录制自己朗读一段数字序列,才能将自己生成为虚拟形象。在模型层面禁止编辑已有视频的语音内容作为安全措施。在 Nano Banana 上使用 Gemini Omni 时,这些安全机制同样适用。