Gemini Omni Flash Videobearbeitung ist live, aber die Audiobearbeitung wartet noch

Gemini Omni Flash Videobearbeitung ist live, aber die Audiobearbeitung wartet noch

Googles Familie multimodaler Modelle namens Gemini Omni ging auf der Google I/O 2026 live, wobei die erste Veröffentlichung — Gemini Omni Flash — sofort für kostenpflichtige Abonnenten und YouTube-Ersteller kostenlos verfügbar ist. Das Unternehmen beschreibt es als ein Modell, das darauf ausgelegt ist, alles aus jedem Input zu erstellen, obwohl die heutige Version ausschließlich auf Videogenerierung und -bearbeitung beschränkt ist. Audio- und Sprachmodifikationsfähigkeiten sind im Fahrplan enthalten, aber Google AI sagt, dass es noch testet, wie diese Funktionen verantwortungsvoll zu den Nutzern gebracht werden können.

Was Gemini Omni Flash Videobearbeitung derzeit bietet

Das Modell ist live über die Gemini-App, Google Flow und YouTube Shorts und YouTube Create App verfügbar — die letzten beiden kostenlos, was zu einer der breiteren kostenlosen Rollouts eines AI-Video-Tools bisher macht. Google AI Plus-, Pro- und Ultra-Abonnenten erhalten vollen Zugang über das Gemini-Ökosystem.

Google DeepMind-CEO Demis Hassabis kündigte das Modell an und präsentierte es als eine einheitliche Betriebsschicht über Text, Audio, Bilder und hochauflösendes Video. Die Direktorin für Produktmanagement bei Google DeepMind, Nicole Brichtova, beschrieb die Veröffentlichung als mehr als nur ein Update des bestehenden Veo-Videomodells von Google — und nannte es den nächsten Schritt zur Kombination der Intelligenz von Gemini mit den Rendering-Fähigkeiten des Unternehmens.

Auf seiner Website positioniert Google Omni als das Video-Äquivalent von Nano Banana — dem Bildgenerierungsmodell, das die Denkfähigkeit von Gemini in die Erstellung und Bearbeitung von Standbildern brachte. Das Unternehmen sagt, dass Omni auf das Wissen von Gemini zurückgreift, um Sprache, Bilder und Bedeutung auf eine Weise zu verbinden, die seiner Meinung nach über das Muster-Matching hinausgeht.

Das Modell gibt Video mit 24 FPS aus, wobei die Clips 10 Sekunden lang sind und 9 Frames pro Eingabeelement zugeordnet sind. Google veröffentlichte ein Demonstrationsvideo — Video 22 — neben einem Audio 3-Beispiel, um die Ausgabequalität zu veranschaulichen. Das Unternehmen demonstrierte auch die Konsistenz, indem es Video-Darstellungen aller 26 Buchstaben des Alphabets generierte — ein praktischer Test der Genauigkeit und Kohärenz des Modells über einen vollständigen Zeichensatz.

Konkrete Fähigkeiten und die von Google zugegebenen Einschränkungen

Google sagt, dass Nutzer vorhandenes Filmmaterial nehmen und Omni anweisen können, das Geschehen in einer Szene durch einfache Sprachbefehle zu ändern. Das Unternehmen beschreibt es so: Nehmen Sie ein Video, das Sie aufgenommen haben, und bitten Sie Omni, die Aktion zu ändern — und verwandeln Sie so das Quellmaterial in etwas, das der Nutzer selbst nie hätte filmen können. Dieser konversationsbasierte Bearbeitungsansatz ist strukturell anders als zeitleistenbasierte Tools, die eine manuelle Clip-Manipulation erfordern.

Das Modell behauptet auch eine verbesserte Physiksimulation. Google sagt, dass Omni ein besseres intuitives Verständnis von Kräften wie Schwerkraft, kinetischer Energie und Fluiddynamik hat — wodurch generierte Szenen plausibler aussehen, wenn Objekte fallen, kollidieren oder sich durch Flüssigkeiten bewegen. Dies ist eine direkte Antwort auf eine anhaltende Beschwerde über AI-Videos: dass sie an grundlegender physikalischer Realistik scheitern.

Die Avatare-Funktion ermöglicht es Nutzern, eine digitale Version von sich selbst für die Verwendung in generierten Inhalten zu erstellen. Alle AI-generierten Ausgaben sind mit SynthID wasserzeichen versehen, Googles digitales Identifikationssystem für AI-erstellte Medien; das Unternehmen hat seinen umfassenden Ansatz zur Kennzeichnung von AI-Inhalten in einem speziellen Beitrag zur verantwortungsvollen Identifizierung von AI-Medien veröffentlicht.

Die Lücke in der aktuellen Veröffentlichung ist Audio. Google AI gibt zu, dass es noch daran arbeitet, zu verstehen, wie Nutzer Audio und Sprache in Videos verantwortungsvoll ändern können. Das bedeutet, dass ein Ersteller Omni noch nicht verwenden kann, um zu ändern, was jemand in einem Clip sagt — eine Einschränkung, die stark einschränkt, was ‘alles bearbeiten’ derzeit in der Praxis bedeutet.

Wogegen Google eigentlich antritt — und was es aufbaut

Der Start von Omni findet innerhalb einer umfassenden Überarbeitung der Gemini-App statt, die als Googles Versuch gerahmt wird, den Assistenten in einen Allzweck-KI-Hub zu verwandeln, wobei ChatGPT und Claude als implizite Benchmarks dienen. Omni ist Teil dieser Neupositionierung, neben einer neuen ‘Daily Brief’-Funktion, die Aufgaben priorisiert und nächste Schritte vorschlägt, und einem persönlichen KI-Agenten namens Gemini Spark.

Auf der Seite der kreativen Tools erhält Google Flow dedizierte mobile Apps — zunächst für Android für die Videobearbeitung (in der Beta), gefolgt von iOS. Flow Music geht den umgekehrten Weg: iOS zuerst, Android später. Beide sind für die Erstellung auf dem Weg konzipiert und nicht für Desktop-Workflows, und Flow Music wird Omni verwenden, um Musikvideos mit nutzerkontrollierter Stilführung zu generieren.

Im Gegensatz zu Googles Genie-Modell — das hinter einem AI-Ultra-Abonnement gesperrt bleibt — ist Omni Flash für eine breite Distribution positioniert, einschließlich des kostenlosen Zugangs auf YouTube. Diese Preisstrategie deutet darauf hin, dass Google an Omni weniger als Premium-Upsell interessiert ist und mehr daran, es in Plattformen einzubetten, auf denen Hunderte von Millionen von Nutzern bereits Inhalte erstellen. Google-CEO Sundar Pichai hat das langfristige Ziel als ein einzelnes neuronales Netzwerk beschrieben, das über alle Medienformate trainiert ist und Ausgaben in jedem von ihnen generieren kann — eine Vision, an der das Unternehmen seit der ursprünglichen Einführung von Gemini vor drei Jahren arbeitet. Der volle Umfang dessen, was diese Woche gestartet wurde, ist in Googles I/O 2026-Entwicklerkollektion katalogisiert.

Was zu beobachten ist, während das Modell reift

Die Lücke bei der Audiobearbeitung ist die unmittelbarste Frage. Google hat keinen Zeitplan genannt, wann Nutzer in der Lage sein werden, Sprache oder Audio in Videos zu ändern, und die vorsichtige Formulierung des Unternehmens — Testen und besseres Verständnis für verantwortungsvolle Bereitstellung — deutet darauf hin, dass diese Funktion nicht unmittelbar bevorsteht. Wie Google diese Veröffentlichung handhabt, wird bestimmen, ob Omni sein Versprechen, alles zu erstellen, einlösen kann.

Breitere Fragen bleiben bezüglich der Bereitstellung in Branchen jenseits der Erstellung von Verbraucherinhalten: Werbung, Bildung, Rechtsdokumentation und Nachrichtenmedien tragen jeweils unterschiedliche Risiken für AI-generierte Videos. Das SynthID-Wasserzeichensystem adressiert die Identifizierung, aber Plattform-Level-Durchsetzungspolitiken nehmen noch Gestalt an.

Was klar ist, ist, dass die Gemini Omni Flash-Videobearbeitung live, funktionsfähig und breit zugänglich ist — aber die Version, die heute ausgeliefert wird, ist ein engeres Tool, als ihre Rahmung impliziert. Die verbleibenden Lücken, insbesondere im Audiobereich, sind der wahre Test dafür, ob die Architektur letztendlich dem Namen gerecht werden kann.

FAQ – Häufig gestellte Fragen

Wie wird Google sicherstellen, dass Nutzer die Avatare-Funktion nicht missbrauchen, um Deepfakes zu erstellen?

Google implementiert einen mehrschichtigen Ansatz, um den Missbrauch der Avatare-Funktion zu erkennen und zu verhindern, einschließlich fortschrittlicher KI-gestützter Überwachung und Nutzer-Melde-Mechanismen. Zusätzlich legt das Unternehmen klare Richtlinien und Nutzungsbedingungen für Nutzer fest, die Avatar-basierte Inhalte erstellen und teilen.

Wird Gemini Omni Flash auf anderen Plattformen als YouTube Shorts und YouTube Create App verfügbar sein?

Ja, Google plant, Gemini Omni Flash auf andere Plattformen auszuweiten, einschließlich Drittanbieter-Videobearbeitungs-Apps und Social-Media-Diensten, durch API-Integrationen und Partnerschaften. Das Unternehmen führt derzeit Gespräche mit mehreren großen Video-Content-Erstellern und -Verteilern, um Omni Flash auf ihre Plattformen zu bringen.

Welche Art von Unterstützung wird Google den Erstellern bieten, die Hilfe bei der Nutzung der erweiterten Funktionen von Gemini Omni Flash benötigen?

Google wird eine Reihe von Unterstützungsressourcen bereitstellen, einschließlich Online-Tutorials, Community-Foren und dedizierten Support-Teams für Google AI Plus-Abonnenten. Ersteller werden auch Zugang zu einer Wissensdatenbank und Troubleshooting-Anleitungen haben, um das Beste aus Omni Flash herauszuholen.

Laszlo Szabo / NowadAIs

Laszlo Szabo is an AI technology analyst with 6+ years covering artificial intelligence developments. Specializing in large language models, ML benchmarking, and Artificial Intelligence industry analysis

Categories

Follow us on Facebook!

OpenAI Codex Enterprise-Bereitstellung hängt von bestehender Dell-Infrastruktur ab
Previous Story

OpenAI Codex Enterprise-Bereitstellung hängt von bestehender Dell-Infrastruktur ab

Amerikanische Rebellion gegen KI verschärft sich, während die öffentliche Wut wächst
Next Story

Amerikanische Rebellion gegen KI verschärft sich, während die öffentliche Wut wächst

Latest from Blog

Malta ChatGPT-Plus-Rollout stellt Bildung vor Zugang

Malta ChatGPT-Plus-Rollout stellt Bildung vor Zugang

OpenAI und die Regierung von Malta haben ein Abkommen unterzeichnet, um allen maltesischen Einwohnern ein Jahr lang kostenloses ChatGPT Plus anzubieten – allerdings erst nach Abschluss eines strukturierten KI-Bildungskurses. Diese weltweit erste
Go toTop