Google
Google
Bildquelle: digidream, Lizenz

Google befeuert Text-zu-Video-Trend mit Imagen Video

Google stellt seine Software Imagen Video vor. Diese verwandelt Textkommandos in kurze HD-Videoclips und startet kurz nach Metas Make-A-Video.

Die Saison der generativen künstlichen Intelligenz (KI) ist offenbar eröffnet. Erst in der vergangenen Woche startete Meta mit seinem KI-Videogenerator-Tool Make-A-Video. Ein KI-System, mit dem Benutzer Textaufforderungen in kurze, qualitativ hochwertige und einzigartige Videoclips verwandeln können.

Direkt auf dem Fuße folgt Google aktuell mit seinem generativen KI-Modell Imagen Video für Text-zu-Video. Der Hype setzt sich damit fort und schließt sich direkt an die Text-zu-Bild-Technologie vom vergangenen Jahr mit DALL-E, MidJourney und Stable Diffusion an. Darüber informierte Google in seinem kürzlich veröffentlichten Artikel „Imagen Video: High Definition Video Generation with Diffusion Models“.

Google vs. Meta: Einführung von Text-zu-Video-KI

Nur sechs Monate nach dem Start des DALLE-2 Text-zu-Bild-Generators von OpenAI haben sich die Fortschritte auf dem Gebiet der KI-Modelle rasant entwickelt. Die Imagen Video-Ankündigung vom 5.10. diesen Jahres von Google erfolgt weniger als eine Woche, nachdem Meta sein Text-zu-Video-KI-Tool Make-A-Video vorgestellt hat.

Imagen Video baut auf Googles vorherigem Text-zu-Bild-System Imagen auf, das im Mai eingeführt wurde. Anstelle eines einzelnen Standbilds erstellt Imagen Video jedoch ein Video aus mehreren Ausgangsframes. Der Text-zu-Video-KI-Modus soll dabei in der Lage sein, 1280×768-Videos mit 24 Bildern pro Sekunde aus einer schriftlichen Aufforderung heraus zu generieren. Im Google-Forschungsbericht heißt es:

„Imagen Video erzeugt hochauflösende Videos mit kaskadierten Diffusionsmodellen. Der erste Schritt besteht darin, eine Eingabeaufforderung zu nehmen und sie mit einem T5-Textencoder in textuelle Einbettungen zu kodieren. Ein Basis-Video-Diffusionsmodell generiert dann ein 16-Bilder-Video mit einer Auflösung von 24×48 und drei Bildern pro Sekunde. Darauf folgen mehrere Modelle für zeitliche Superauflösung (TSR) und räumliche Superauflösung (SSR), um ein Upsampling vorzunehmen und ein endgültiges 128-Bilder-Video mit einer Auflösung von 1280×768 und 24 Bildern pro Sekunde zu generieren. Das Ergebnis sind 5,3 Sekunden hochauflösendes Video.“

Forschungsbericht deutet vielversprechende Ergebnisse an

Gemäß dem Forschungsbericht von Google umfasst Imagen Video gleich mehrere bemerkenswerte stilistische Fähigkeiten. Beispielsweise richten sie die Aufmerksamkeit auf das Erstellen von Videos, basierend auf den Werken berühmter Maler (z. B. die Gemälde von Vincent van Gogh). Gleichfalls bemerkenswert wären zudem das Erstellen von rotierenden 3D-Objekten unter Beibehaltung der Objektstruktur und die Darstellung von Text in einer Vielzahl von Animationsstilen.

Die Trainingsdaten für Google Imagen Video stammen aus einem internen Google-Datensatz aus 14 Millionen Video-Text-Samples und 60 Millionen Bild-Text-Paaren. Zudem verwendete man Informationen aus dem öffentlich zugänglichen LAION-400M-Bild-Text-Datensatz. Da generative Modelle auch missbraucht werden können, um gefälschte, hasserfüllte, explizite oder schädliche Inhalte zu generieren, informiert Google darüber, dass es mehrere Schritte unternommen hat, um solche Bedenken zu minimieren.

Durch interne Versuche bestätigte das Unternehmen, dass es in der Lage war, eine Eingabeaufforderungsfilterung für Text und eine Ausgabefilterung von Videoinhalten anzuwenden. Google warnte jedoch davor, dass noch einige wichtige Sicherheits- und ethische Herausforderungen zu bewältigen sind.

Imagen Video neige entsprechend immer noch dazu, Inhalte mit „sozialen Vorurteilen und Stereotypen“ zu erzeugen. Diese wären schwer zu filtern und zu erkennen. Es sei infolge noch nicht sicher, damit zu experimentieren, so Google. Im Gegensatz zu Meta werde man auch kein Anmeldeformular für Interessierte zur Verfügung stellen. Google betont:

„Wir haben entschieden, das Imagen Video-Modell oder seinen Quellcode nicht zu veröffentlichen, bis diese Bedenken ausgeräumt sind“.

Über

Antonia ist bereits seit Januar 2016 Autorin bei der Tarnkappe. Eingestiegen ist sie zunächst mit Buch-Rezensionen. Inzwischen schreibt sie bevorzugt über juristische Themen, wie P2P-Fälle, sie greift aber auch andere Netzthemen, wie Cybercrime, auf. Ihre Interessen beziehen sich hauptsächlich auf Literatur.