Gemini Omni AI 動画生成
Google の新しいマルチモーダル動画生成 AI が、テキスト・画像・音声・参照クリップをネイティブ音声付きの動画に変えます。Nano Banana なら Gemini Omni をブラウザ上ですぐに試せます。
クリックまたは画像をドロップ
PNG / JPG / WEBP、最大7枚
1枚あたり最大 10MB
動画タスクを読み込み中...
Gemini Omni で作れるもの
撮影不要の商品動画・購入導線広告
Shopify・Amazon・Etsy・TikTok Shop 出店者、D2C ブランド向け
モード:画像から動画 ・ エンジン:Gemini Omni ・ 出力:8秒、9:16 / 1:1、ネイティブ音声
手元には商品のスタジオ写真が1枚あるだけ。撮影クルーを呼ぶ予算はないけれど、Meta と TikTok で明日 A/B テストを回すために、今日中に5アングルの素材が必要——そんな状況です。これまでは「スライドショーを編集する」がワークフローでしたが、これからは画像1枚+プロンプト1本で、商品が回転し、光が動き、環境音まで重なった短尺クリップが生まれます。参照写真で商品ジオメトリを固定するので、同じ SKU は何度生成しても同じ SKU のまま、バリエーション全体で一貫します。
Studio shot of the product on a marble surface, slow 360-degree turn, soft daylight from the left, subtle ambient music, 8 seconds, 9:16 vertical, cinematic.
A/B テスト速度の広告クリエイティブ
ペイドソーシャルのバイヤー、パフォーマンスマーケター、クリエイティブリード向け
モード:テキストから動画 + マルチリファレンス ・ エンジン:Gemini Omni ・ 出力:8秒、9:16、ネイティブ音声
Meta や TikTok の広告をテストしたいのに、デザイナーは来月まで埋まっていて、明日までに15バリエーションが必要——アイデアではなく、1本ごとのレンダリング時間がいつもボトルネックでした。Gemini Omni は「プロンプトからバリエーション」までを日単位から分単位に圧縮します。フックの一文、商品参照画像、ナレーションサンプルを投げ込めば、音声同期済みのクリップが返ってきて、そのまま Ads Manager に流し込めます。プロンプトを微調整して再生成、そして即配信。
30-something woman holding [product], looking at camera, sunlit kitchen, voiceover: 'I switched after one week.' 8 seconds, vertical, warm color grade.
キャラクターが一貫するショート動画
TikTok / Reels / YouTube Shorts クリエイター、顔出しなしチャンネル、ミーム系アカウント向け
モード:マルチリファレンス ・ エンジン:Gemini Omni ・ 出力:8〜15秒、9:16、ネイティブ音声
顔出しなしのチャンネルを運営していて、「ホスト」役は AI キャラクター。先週の動画は参照画像 A を使い、今週は同じキャラクター・同じ衣装で、新しいシーン・新しい感情が必要——アイデンティティをロックする参照素材がなければ、毎回別人のような動画になってしまいます。Gemini Omni なら複数のリファレンス(キャラクター、衣装、ロケーション、小道具、BGM)を読み込み、クリップ全体で保持。シリーズが本当の意味で「シリーズ」になります。
[Reference: character.jpg] in a Tokyo arcade at night, neon reflections on her jacket, looking up at the camera, ambient city sound, 10 seconds, vertical.
プリビズ・絵コンテ・モーションモック
インディー映画制作者、モーションデザイナー、VFX プリビズ、撮影監督、動画ツールを作る開発者向け
モード:テキストから動画 + マルチリファレンス ・ エンジン:Gemini Omni ・ 出力:8〜15秒、16:9、ネイティブ音声
シーンをピッチしていて、撮影日を押さえる前にドリーインの寄せ感を監督に見せたい——絵コンテはこれまで静止画で済ませてきましたが、Gemini Omni は音付きの動く絵コンテを返してくれます。プロンプトでカメラの動きをロック、参照素材でキャラクターとロケーションをロックすれば、コーヒーミーティング以下のコストで再生可能なプリビズリールが完成。動画ツールを作る開発者は、API 連携に踏み切る前のモーション挙動プロトタイピングに同じループを使っています。
Wide shot of a lone figure on a coastal cliff at dusk, slow camera push-in, distant wave sound, golden hour lighting, 16:9 cinematic, 10 seconds.
解説動画とコンセプトビジュアライゼーション
教育者、コース制作者、YouTube エデュテイメント、テクニカルライター向け
モード:テキストから動画 ・ エンジン:Gemini Omni ・ 出力:10〜15秒、16:9、ネイティブ音声
描きにくい概念を説明するとき——タンパク質の折り畳み、軌道力学、歴史的シーン、化学反応。Google 自身の Omni デモがこのユースケース(クレイアニメ風のタンパク質フォールディング)を前面に押し出したのは、マルチモーダル動画が真価を発揮する領域だからです。抽象的なアイデアを普通の言葉で記述し、ラフスケッチでビジュアルを固定するだけで、生徒が実際に最後まで見てくれる短尺クリップが返ってきます。マルチショットのストーリーテリングを使えば、1フレームに留まらず、解説そのものを積み上げていけます。
Sequence: a single water droplet falling, splash in slow motion, droplet rejoining a stream, narrated voiceover explaining surface tension, 15 seconds, 16:9.
Gemini Omni の使い方
出発点となるモダリティを選ぶ
上の生成ウィジェットを開きます。テキストのアイデアしかない場合は「テキストから動画」タブのまま。商品写真・キャラクター設定資料・参照フレームがある場合は「画像から動画」に切り替えます。最も厳密にアイデンティティを固定したい場合(同じキャラクター、同じ衣装、同じロケーションを複数生成で維持)は、マルチリファレンスで複数の参照素材——画像、短いクリップ、BGM——を読み込ませてください。
監督に指示を出すようにプロンプトを書く
型は決まっています:被写体+舞台+ライティング+カメラワーク+音声+フォーマット+尺。スロットは6つ。空欄のまま残すと、モデルは統計的な平均値で埋めにいきます。例:「夜の渋谷スクランブル交差点を歩く、ベージュのトレンチコートを着た30歳の女性、濡れた路面に映るネオン、後方からのスロートラッキングショット、街の環境音と遠くの車の音、9:16 縦型、8秒。」
生成・調整・書き出し
尺とアスペクト比を設定し、「生成」をクリック。設定にもよりますが、レンダリングは通常数分で完了します。仕上がりはそのまま納品してもよし、チャット内会話の初稿のように扱って——プロンプトを微調整し、参照素材を1つだけ差し替え、再生成——でもよし。音声付き MP4 で書き出せます。
よくある質問
動画の長さはどれくらいですか?
Gemini Omni Flash は現在、Gemini アプリと Nano Banana 上で最大約10秒のクリップを生成できます。Google はこれをモデルのハードリミットではなく展開上の判断と説明しており、より長い尺も対応予定です。Google が上限を引き上げ次第、Nano Banana でも反映します。
音声も生成されますか?それとも無音動画ですか?
ネイティブ音声がデフォルトでオンになっています——Gemini Omni は同じレンダリングの中で、同期されたナレーション・環境音・音楽を一括生成します。NLE で編集するために無音クリップが必要な場合は、ウィジェット内で音声をオフにできます。
生成物は商用利用できますか?
Nano Banana の有料プランで生成した出力は、商用利用向けに書き出し可能です。無料クレジットは評価目的での提供となります。具体的な条件は利用規約に記載されているので、有料キャンペーンに投入する前に必ずご確認ください。
どのような参照素材を投入できますか?
マルチリファレンスモードは、静止画(キャラクター、衣装、ロケーション、商品、スタイルフレーム)、短い参照動画(モーションの方向、フレーミング)、音声クリップ(声のトーン、BGM)に対応しています。アンカーを増やすほどレンダリングは予測可能になり、シリーズもので同じキャラクターのバリエーションを量産する際に効いてきます。
「Omni らしい」会話型編集を引き出すには?
参照素材は読み込んだまま、プロンプトのスロットを一度に1つだけ変更(ライティングだけ、カメラワークだけ、衣装だけ)して再生成してください。プロンプトを丸ごと書き直したくなる衝動は抑える——それまでに積み上げた一貫性がリセットされてしまいます。これは Gemini アプリのチャット画面内で機能するイテレーションの作法と同じです。
リアルなモーションを引き出すプロンプトの書き方は?
ルールは3つ。1つ目、カメラワークを明示的に指定する——「後方からのスロートラッキングショット」「ロックオフの固定フレーム」「4秒かけてのドリーイン」など。曖昧なモーション表現は曖昧なモーションを返します。2つ目、シーンに物理的なアンカーを与える(実在する地面、実在する光源、実在する物の重量感)。3つ目、時間スケールをクリップ尺に合わせる——8秒に30秒分のアクションを詰め込むと、ジッターのような映像になります。
Gemini Omni を使うのに Google AI のサブスクリプションは必要ですか?
不要です。Nano Banana は独自のクレジット制で Gemini Omni を提供しており、Google AI Plus・Pro・Ultra のサブスクリプションは必要ありません。新規ユーザーはサインアップで無料クレジットを受け取れます。
Gemini Omni と Veo の違いは?
Veo は Google DeepMind の動画専用モデルで、シネマティックな質感・ライティング・カメラワークに強みがあります。Gemini Omni はマルチモーダルモデルで、動画出力は同じモデルが扱う複数モダリティのひとつであり、会話型編集が組み込まれています。Gemini アプリ内では Omni が Veo を置き換えています。両方とも Nano Banana で利用可能——マルチモーダル層なしで純粋にシネマティックな出力が欲しい場合は Veo ジェネレーターをご覧ください。
Gemini Omni はディープフェイクや AI アバターに対応していますか?
Gemini Omni には、ディープフェイク対策のガードレール付きでアバター機能(オプトイン)が用意されています——ユーザーは自身をアバターとして生成する前に、数字の連続を読み上げる録画を行う必要があります。既存動画の音声を編集する機能はモデルレベルで安全対策として保留されています。これらのガードレールは Nano Banana 上の Gemini Omni でも同様に適用されます。
