Gemini Omni KI-Video-Generator

Googles neues multimodales KI-Videomodell verwandelt Text, Bilder, Audio und Referenzclips in Videos mit nativem Ton – und mit Nano Banana kannst du Gemini Omni jetzt direkt online nutzen.

Prompt*

0/5000

Prompt*

0/5000

Referenzbilder (0/7)

Klicken oder Bilder hier ablegen

PNG / JPG / WEBP, bis zu 7 Bilder

Jedes Bild bis zu 10MB

45Credits

Videoaufgaben werden geladen …

Was du mit Gemini Omni erstellen kannst

Produktvideos & shoppbare Anzeigen ohne Drehtag

Für Shopify-, Amazon-, Etsy- und TikTok-Shop-Händler · DTC-Marken

Modus: Bild-zu-Video · Engine: Gemini Omni · Output: 8 s, 9:16 / 1:1, natives Audio

Du hast ein einziges Studiofoto des Produkts und ein Budget, das kein Videoteam hergibt. Bis zum Feierabend brauchst du 5 Perspektiven, damit Meta und TikTok sie morgen im A/B-Test laufen lassen können. Früher hieß die Lösung „Slideshow schneiden“ – heute reicht ein Bild plus ein Prompt: ein kurzer Clip, in dem sich das Produkt dreht, das Licht wandert und ein Ambient-Soundbett mitgebacken wird. Referenzbilder fixieren die Produktgeometrie über alle Renderings hinweg, sodass dieselbe SKU in jeder Variante dieselbe SKU bleibt.

Prompt

Studio shot of the product on a marble surface, slow 360-degree turn, soft daylight from the left, subtle ambient music, 8 seconds, 9:16 vertical, cinematic.

Ad-Creatives im Tempo des A/B-Tests

Für Paid-Social-Media-Buyer · Performance-Marketer · Creative Leads

Modus: Text-zu-Video + Multi-Referenz · Engine: Gemini Omni · Output: 8 s, 9:16, natives Audio

Du testest eine Anzeige auf Meta oder TikTok und brauchst bis morgen 15 Varianten, weil dein Designer für den nächsten Monat ausgebucht ist. Der Engpass war nie die Idee – sondern die Renderzeit pro Variante. Gemini Omni verkürzt den Weg vom Prompt zur fertigen Variante von Tagen auf Minuten: Hook-Zeile, Produkt-Referenzbild und Voiceover-Sample reinwerfen – fertig ist ein Clip mit synchronem Audio, einsatzbereit für den Ads Manager. Prompt anpassen, neu generieren, ausspielen.

Prompt

30-something woman holding [product], looking at camera, sunlit kitchen, voiceover: 'I switched after one week.' 8 seconds, vertical, warm color grade.

Short-Form-Content mit konsistenten Charakteren

Für TikTok-/Reels-/YouTube-Shorts-Creator · Faceless-Kanäle · Meme-Accounts

Modus: Multi-Referenz · Engine: Gemini Omni · Output: 8–15 s, 9:16, natives Audio

Du betreibst einen Faceless-Kanal und dein „Host“ ist ein KI-Charakter. Letzte Woche basierte das Video auf Referenzbild A; diese Woche brauchst du dieselbe Figur, dasselbe Outfit, eine neue Szene, eine neue Emotion. Ohne identitätsfeste Referenzen sieht jedes Video aus wie eine andere Person. Gemini Omni lädt mehrere Referenzen gleichzeitig (Charakter, Outfit, Location, Requisite, Soundbett) und hält sie über den gesamten Clip – so wirkt deine Serie endlich wie eine Serie.

Prompt

[Reference: character.jpg] in a Tokyo arcade at night, neon reflections on her jacket, looking up at the camera, ambient city sound, 10 seconds, vertical.

Pre-Visualization, Storyboards und Motion-Mockups

Für Indie-Filmemacher · Motion Designer · VFX-Previz · Kameraleute · Entwickler, die Videotools bauen

Modus: Text-zu-Video + Multi-Referenz · Engine: Gemini Omni · Output: 8–15 s, 16:9, natives Audio

Du pitchst eine Szene und musst dem Regisseur zeigen, wie sich die Dolly-Fahrt anfühlt, bevor der Drehtag gebucht ist. Früher hat das Storyboard das in Einzelbildern erledigt – Gemini Omni macht es in bewegten Bildern mit Ton. Die Kamerabewegung legst du im Prompt fest, Charakter und Location über Referenzen, und am Ende lieferst du ein abspielbares Previz-Reel, das weniger kostet als ein Kaffeetermin. Unabhängige Entwickler nutzen denselben Loop, um Bewegungsverhalten zu prototypen, bevor sie sich auf eine API-Integration festlegen.

Prompt

Wide shot of a lone figure on a coastal cliff at dusk, slow camera push-in, distant wave sound, golden hour lighting, 16:9 cinematic, 10 seconds.

Erklärvideos und Konzept-Visualisierungen

Für Lehrkräfte · Kursersteller · YouTube-Edutainment · technische Autoren

Modus: Text-zu-Video · Engine: Gemini Omni · Output: 10–15 s, 16:9, natives Audio

Du erklärst ein Konzept, das man schwer zeichnen kann – ein faltendes Protein, eine Orbitalmechanik, eine historische Szene, eine chemische Reaktion. Genau auf diesen Anwendungsfall hat Google im eigenen Omni-Demo gesetzt (Knetfilm-artige Proteinfaltung), weil multimodales Video hier wirklich liefert: Du beschreibst eine abstrakte Idee in normaler Sprache, verankerst sie visuell mit einer Referenzskizze und bekommst einen kurzen Clip zurück, den Schülerinnen und Schüler tatsächlich anschauen. Multi-Shot-Storytelling lässt das Erklärvideo aufbauen, statt nur auf einem Frame sitzenzubleiben.

Prompt

Sequence: a single water droplet falling, splash in slow motion, droplet rejoining a stream, narrated voiceover explaining surface tension, 15 seconds, 16:9.

So nutzt du Gemini Omni

Wähle deine Start-Modalität

Öffne das Generator-Widget oben. Wenn du nur eine Textidee hast, bleib im Reiter Text-zu-Video. Hast du ein Produktfoto, ein Character-Sheet oder ein Referenzbild, wechsle zu Bild-zu-Video. Für die strengste Identitätsbindung (gleiche Figur, gleiches Outfit, gleiche Location über mehrere Renderings hinweg) nutze Multi-Referenz und lade mehrere Referenz-Assets – Bilder, kurze Clips, Audio-Beds.

Schreibe den Prompt wie ein Briefing an einen Regisseur

Das Muster: Motiv + Setting + Licht + Kamerabewegung + Audio + Format + Dauer. Sechs Slots. Was du leer lässt, füllt das Modell mit dem statistischen Durchschnitt. Beispiel: „30-jährige Frau im beigen Trenchcoat überquert nachts eine regennasse Shibuya-Kreuzung, Neonreflexionen auf nassem Asphalt, langsame Verfolgerfahrt von hinten, urbaner Ambient-Sound und entfernter Verkehr, 9:16 vertikal, 8 Sekunden.“

Generieren, verfeinern, exportieren

Dauer und Seitenverhältnis einstellen, auf Generieren klicken. Das Rendering dauert je nach Einstellungen meist ein paar Minuten. Wenn der Clip da ist, kannst du ihn entweder direkt ausspielen oder wie den ersten Entwurf in einem Chat behandeln: Prompt anpassen, eine Referenz austauschen, neu generieren. Export als MP4 mit Audio.

Häufig gestellte Fragen

Wie lang können die Videos sein?

Gemini Omni Flash rendert in der Gemini App und auf Nano Banana aktuell Clips bis zu etwa 10 Sekunden. Google hat klargestellt, dass das eine Deployment-Entscheidung ist, kein hartes Modell-Limit – längere Laufzeiten sind in der Pipeline. Sobald Google die Grenze hebt, ziehen wir auf Nano Banana nach.

Erzeugt das Modell auch Ton oder nur stummes Video?

Natives Audio ist standardmäßig aktiv – Gemini Omni produziert synchrone Voiceovers, Umgebungsgeräusche und Musik im selben Render-Schritt. Im Widget kannst du Audio deaktivieren, wenn du einen stummen Clip für den Schnitt in einem NLE brauchst.

Darf ich den Output kommerziell nutzen?

Der Output aus dem Nano-Banana-Workflow ist in den kostenpflichtigen Plänen für die kommerzielle Nutzung exportierbar. Die Credits im Free-Tier sind zur Evaluierung gedacht. Die genauen Bedingungen stehen in den Nutzungsbedingungen – lies sie, bevor du den Output in eine bezahlte Kampagne übernimmst.

Welche Art von Referenzen kann ich hochladen?

Der Multi-Referenz-Modus akzeptiert Standbilder (Charakter, Outfit, Location, Produkt, Stilframe), kurze Referenzvideos (Bewegungsrichtung, Bildausschnitt) und Audioclips (Stimmfarbe, Musikbett). Je mehr Anker du setzt, desto vorhersehbarer wird das Rendering – entscheidend, wenn du Varianten derselben Figur über eine Serie hinweg produzierst.

Wie bekomme ich diese „Omni-typische“ dialogbasierte Bearbeitung?

Lass die gleichen Referenz-Assets geladen, ändere pro Iteration nur einen Slot im Prompt (nur das Licht, nur die Kamerabewegung oder nur die Garderobe) und generiere neu. Widersteh dem Drang, den kompletten Prompt umzuschreiben – das setzt die aufgebaute Konsistenz zurück. Es ist dieselbe Iterations-Disziplin, die auch im Chat der Gemini App funktioniert.

Wie schreibe ich einen Prompt, der realistische Bewegung liefert?

Drei Regeln. Erstens: Benenne die Kamerabewegung explizit – „langsame Verfolgerfahrt von hinten“, „statische, fixierte Einstellung“, „Dolly-Fahrt über vier Sekunden“. Vage Bewegungssprache produziert vage Bewegung. Zweitens: Gib der Engine einen physischen Anker in der Szene (eine reale Oberfläche, eine reale Lichtquelle, das reale Gewicht eines Objekts). Drittens: Halte die Zeitachse zur Cliplänge passend – 30 Sekunden Handlung in 8 Sekunden gepresst rendern als Jitter.

Brauche ich ein Google-AI-Abo, um Gemini Omni hier zu nutzen?

Nein. Nano Banana stellt den Zugang zu Gemini Omni über das eigene Credit-System bereit – kein Google AI Plus, Pro oder Ultra erforderlich. Neue Nutzer bekommen bei der Anmeldung kostenlose Credits.

Was ist der Unterschied zwischen Gemini Omni und Veo?

Veo ist das dedizierte Videomodell von Google DeepMind – stark bei filmischem Look, Lichtsetzung und Kamerabewegungen. Gemini Omni ist ein multimodales Modell, in dem Video-Output nur eine von mehreren Modalitäten desselben Modells ist, mit dialogbasierter Bearbeitung von Haus aus. In der Gemini App ersetzt Omni Veo. Beide sind auf Nano Banana verfügbar – schau dir den Veo-Generator an, wenn du puren filmischen Output ohne multimodale Ebene willst.

Macht Gemini Omni Deepfakes oder KI-Avatare?

Gemini Omni enthält eine Opt-in-Avatar-Funktion mit Anti-Deepfake-Schutzmechanismen – Nutzer müssen sich beim Vorlesen einer Zahlenfolge aufnehmen, bevor sie sich selbst als Avatar generieren dürfen. Das Bearbeiten der gesprochenen Tonspur eines bestehenden Videos ist als Sicherheitsmaßnahme auf Modell-Ebene gesperrt. Die gleichen Schutzmechanismen gelten bei der Nutzung von Gemini Omni auf Nano Banana.