Google befeuert Text-zu-Video-Trend mit Imagen Video

07.10.2022 von Antonia Frank Lesezeit: 3 Min.

Google stellt seine Software Imagen Video vor. Diese verwandelt Textkommandos in kurze HD-Videoclips und startet kurz nach Metas Make-A-Video.

Die Saison der generativen künstlichen Intelligenz (KI) ist offenbar eröffnet. Erst in der vergangenen Woche startete Meta mit seinem KI-Videogenerator-Tool Make-A-Video. Ein KI-System, mit dem Benutzer Textaufforderungen in kurze, qualitativ hochwertige und einzigartige Videoclips verwandeln können.

Direkt auf dem Fuße folgt Google aktuell mit seinem generativen KI-Modell Imagen Video für Text-zu-Video. Der Hype setzt sich damit fort und schließt sich direkt an die Text-zu-Bild-Technologie vom vergangenen Jahr mit DALL-E, MidJourney und Stable Diffusion an. Darüber informierte Google in seinem kürzlich veröffentlichten Artikel „Imagen Video: High Definition Video Generation with Diffusion Models“.

Google vs. Meta: Einführung von Text-zu-Video-KI

Nur sechs Monate nach dem Start des DALLE-2 Text-zu-Bild-Generators von OpenAI haben sich die Fortschritte auf dem Gebiet der KI-Modelle rasant entwickelt. Die Imagen Video-Ankündigung vom 5.10. diesen Jahres von Google erfolgt weniger als eine Woche, nachdem Meta sein Text-zu-Video-KI-Tool Make-A-Video vorgestellt hat.

Imagen Video baut auf Googles vorherigem Text-zu-Bild-System Imagen auf, das im Mai eingeführt wurde. Anstelle eines einzelnen Standbilds erstellt Imagen Video jedoch ein Video aus mehreren Ausgangsframes. Der Text-zu-Video-KI-Modus soll dabei in der Lage sein, 1280×768-Videos mit 24 Bildern pro Sekunde aus einer schriftlichen Aufforderung heraus zu generieren. Im Google-Forschungsbericht heißt es:

„Imagen Video erzeugt hochauflösende Videos mit kaskadierten Diffusionsmodellen. Der erste Schritt besteht darin, eine Eingabeaufforderung zu nehmen und sie mit einem T5-Textencoder in textuelle Einbettungen zu kodieren. Ein Basis-Video-Diffusionsmodell generiert dann ein 16-Bilder-Video mit einer Auflösung von 24×48 und drei Bildern pro Sekunde. Darauf folgen mehrere Modelle für zeitliche Superauflösung (TSR) und räumliche Superauflösung (SSR), um ein Upsampling vorzunehmen und ein endgültiges 128-Bilder-Video mit einer Auflösung von 1280×768 und 24 Bildern pro Sekunde zu generieren. Das Ergebnis sind 5,3 Sekunden hochauflösendes Video.“

Forschungsbericht deutet vielversprechende Ergebnisse an

Gemäß dem Forschungsbericht von Google umfasst Imagen Video gleich mehrere bemerkenswerte stilistische Fähigkeiten. Beispielsweise richten sie die Aufmerksamkeit auf das Erstellen von Videos, basierend auf den Werken berühmter Maler (z. B. die Gemälde von Vincent van Gogh). Gleichfalls bemerkenswert wären zudem das Erstellen von rotierenden 3D-Objekten unter Beibehaltung der Objektstruktur und die Darstellung von Text in einer Vielzahl von Animationsstilen.

Die Trainingsdaten für Google Imagen Video stammen aus einem internen Google-Datensatz aus 14 Millionen Video-Text-Samples und 60 Millionen Bild-Text-Paaren. Zudem verwendete man Informationen aus dem öffentlich zugänglichen LAION-400M-Bild-Text-Datensatz. Da generative Modelle auch missbraucht werden können, um gefälschte, hasserfüllte, explizite oder schädliche Inhalte zu generieren, informiert Google darüber, dass es mehrere Schritte unternommen hat, um solche Bedenken zu minimieren.

Durch interne Versuche bestätigte das Unternehmen, dass es in der Lage war, eine Eingabeaufforderungsfilterung für Text und eine Ausgabefilterung von Videoinhalten anzuwenden. Google warnte jedoch davor, dass noch einige wichtige Sicherheits- und ethische Herausforderungen zu bewältigen sind.

Imagen Video neige entsprechend immer noch dazu, Inhalte mit „sozialen Vorurteilen und Stereotypen“ zu erzeugen. Diese wären schwer zu filtern und zu erkennen. Es sei infolge noch nicht sicher, damit zu experimentieren, so Google. Im Gegensatz zu Meta werde man auch kein Anmeldeformular für Interessierte zur Verfügung stellen. Google betont:

„Wir haben entschieden, das Imagen Video-Modell oder seinen Quellcode nicht zu veröffentlichen, bis diese Bedenken ausgeräumt sind“.

Android 16 mit IP-Leaks selbst bei aktiver VPN-App

Vorsicht vor IP-Leaks! Jede App auf aktuellen Android-Versionen kann Datenverkehr nach außen leiten und so die eigene IP-Adresse verraten.

Ein Buch bleibt offen so wie Wissen, das sich nicht einsperren lässt.

Anna’s Archive bleibt sichtbar: Googles Löschungen zeigen kaum Wirkung

Google hat 749 Millionen Links zu Anna’s Archive entfernt, 5 % aller DMCA-Löschanträge überhaupt. Doch Anna’s Archive bleibt sichtbar.

Google löscht auf Rekordniveau – stößt das DMCA-System an seine Grenzen?

Google löscht Milliarden Einträge aus ihrem Verzeichnis. Doch bei exakt 70 Mio. URLs pro Woche scheint Google ein Limit gesetzt zu haben.

Texas verklagt Meta: Kann WhatsApp doch verschlüsselte Chats mitlesen?

Texas klagt gegen Meta: Angeblich kann WhatsApp verschlüsselte Chats einsehen. Experten halten die Vorwürfe für fragwürdig.

Frau mit Smart Glasses vor einer Stadtkulisse. Grafische Einblendungen symbolisieren Gesichtserkennung, KI-Analyse und die Datenschutzrisiken moderner Kamerabrillen.

Smart Glasses: Die Überwachung trägt Brille

Smart Glasses filmen, hören mit und analysieren per KI. Datenschützer warnen vor Überwachung und Risiken für die Privatsphäre.

Meta überwacht die Stimmung, zeichnet Stimme auf, überwacht Medikamenteneinnahme

Meta überwacht mit einem angemeldeten Patent die Stimmung der Nutzer bei tragbaren Geräten und prüft, ob man die Medikamente eingenommen hat.

Ein KI-Bot im Routinebetrieb – technisch hochkomplex und nicht ohne Risiken.

Gemini 3 Jailbreak offenbart hochgefährliche Anleitungen

Ein schneller Jailbreak enthüllt, wie leicht Gemini 3 gefährliche Inhalte preisgibt und zeigt massive Schwächen in Googles KI-Schutzsystemen.

Karikatur eines Smart-TVs mit überquellendem Einkaufswagen, Werbung und Produkten, während ein Zuschauer per Fernbedienung auf YouTube einkauft.

YouTube Shopping-Falle: Impulskäufe per Fernbedienung

YouTube Shopping-Falle: Google macht Smart-TVs zur Verkaufsplattform. Produkte direkt per Fernbedienung kaufen ist perfekt für Impulskäufe.

Neue DMCA-Meldungen der FIFA sorgen für Verwunderung

Dubiose DMCA-Meldungen im Namen der FIFA werfen Fragen auf. Steckt eine KI, ein Dienstleister oder ein konkurrierender Pirat dahinter?

Meta führt Altersüberprüfung ohne Gesichtserkennung ein?

Meta führt KI-Tools zur Altersüberprüfung ein, um Minderjährige bei Facebook und Instagram zu überführen - angeblich ohne Gesichtserkennung.

WhatsApp-Verbot 2025: US-Kongress warnt vor Sicherheitsrisiken

WhatsApp wird auf Behördengeräten blockiert. Der US-Kongress zieht die Reißleine. Was bedeutet das Verbot für Europa?

Meta toleriert chinesische Abzocke-Werbung und verdient damit Milliarden

Meta hat 2024 über 3 Milliarden US-Dollar mit Abzocke-Werbung aus China verdient, die Betrug, Glücksspiel und Pornografie beinhaltet haben.

Reddit Answers: Kann Reddit Google Konkurrenz machen?

Reddit Answers: Kann Reddit mit seiner KI-Suche Google den Rang ablaufen? "Menschliche Perspektiven“ sollen die Suche revolutionieren.

Passwort-Phishing: Warnung für Gmail-, Facebook- & Amazon-Accounts

Eine neue Kaspersky-Analyse weist auf einen eklatanten Anstieg von Passwort-Phishing bei Google-, Facebook- und Amazon-Accounts hin.

APKs, Grüne Android-Figur auf weißem Hintergrund mit Smartphone

Google Restore Credentials: Smartphone-Wechsel leicht gemacht

Google revolutioniert mit "Restore Credentials" das Android-Erlebnis beim Wechsel auf ein neues Smartphone.

CreativeFuture kritisiert Meta wegen Untätigkeit

Während die UEFA mit den Anti-Piraterie-Maßnahmen von Meta zufrieden ist, kritisiert CreativeFuture den Betreiber von Facebook & Co.

Ein Smartphone bei dem das Betriebssystem aktualisiert wird

Google revolutioniert Diebstahlschutz und Datenschutz für Android

Google will mehr Sicherheit für Android. Ein neuer privater Bereich und ein KI-gestützter Diebstahlschutz sollen es Dieben schwerer machen.

WhatsApp zieht Grenzen: zwischen Spam-Schutz und stiller Kontrolle.

WhatsApp testet Nachrichtenlimit – Schutz vor Spam oder Zensur durch die Hintertür?

WhatsApp testet ein monatliches Nachrichtenlimit für unbeantwortete Nachrichten. Wird der Messenger damit wirklich vor Spam geschützt?