Meta hat am Donnerstag Make-A-Video angekündigt, ein Online-Tool, das kurze Filmclips basierend auf einer Textbeschreibung erstellt.
Die Facebook-Muttergesellschaft Meta hat ein neues KI-System entwickelt, das Videos aus Texteingabeaufforderungen erstellen kann. Zu Demonstrationszwecken erstellte der US-Konzern bereits einige skurrilen Videos, wie beispielsweise galoppieren Einhörner an einem Strand mit ihrem neuen KI-System, namens Make-A-Video.
Neben schriftlichen Aufforderungen kann Make-A-Video auch Videos basierend auf anderen Videos oder Bildern erstellen. Es kann einem statischen Bild Bewegung verleihen und zudem ein Video erstellen, das zwei Bilder verbindet. Hierbei nahm man beispielsweise ein Standbild einer Meeresschildkröte. Nach Verarbeitung durch das KI-Modell, sieht es dann so aus, als würde sie schwimmen.
Die Schlüsseltechnologie hinter Make-A-Video besteht darin, dass es auf bestehenden Forschungen mit Text-zu-Bild-Synthese aufbaut, die mit Bildgeneratoren wie DALL-E von OpenAI verwendet wird. Es nimmt eine schriftliche Aufforderung wie „ein Teddybär malt ein Porträt“ entgegen und gibt einen kurzen Videoclip zurück. Dieser stellt den optimalen Versuch des maschinellen Lernmodells dar, den Text nachzubilden. Wie die besten Text-zu-Bild-Generatoren arbeitet Make-A-Video mit einer Technik namens „Diffusion“. Es beginnt mit zufällig generiertem Rauschen und passt das Ergebnis dann schrittweise an, um näher an die Zielvorgabe heranzukommen. Die Genauigkeit der Resultate hängt maßgeblich von der Qualität der Trainingsdaten ab.
Die Forscher schreiben:
„In allen Aspekten, der räumlichen und zeitlichen Auflösung, der Texttreue und der Qualität, setzt Make-A-Video den neuen Stand der Technik bei der Text-zu-Video-Generierung, sowohl in qualitativer als auch in quantitativer Hinsicht um“.
Aktuell bestehen die Clips von Make-A-Video aus 16 Frames, die mit 64 x 64 Pixel ausgegeben werden und dann mit einem anderen KI-Modell auf 768 x 768 Pixel hochskaliert werden. Die Clips dauern fünf Sekunden und zeigen nur eine einzelne Aktion oder Szene. Derzeit ist man noch weit davon entfernt, dass eine KI einen Spielfilm von Grund auf neu erstellt. Jedoch beabsichtigen die Forscher von Meta, einige dieser technischen Grenzen mit zukünftiger Forschung zu überwinden.
Ruft Make-A-Video nächsten Hype hervor?
Mit dem Aufkommen von KI-Kunstwerkzeugen wie unter anderem DALL-E, Stable Diffusion und Midjourney löste ein plötzlicher Zustrom von KI-generierten Bildern in den vergangenen Monaten einen regelrechten Hype im Internet aus. Auch auf Twitter stellte Meta ihren KI-Videogenerierungsdienst Make-A-Video vor. Allein die Anzahl der Kommentare an nur einem Tag deutet darauf hin, dass den Hype um die KI-Bilderzeugung möglicherweise bald die KI-Videoerzeugung ablöst.
Meta räumt ein, dass die Möglichkeit, fotorealistische Videos auf Abruf zu erstellen, gewisse Gefahren birgt. Wie bei jeder generativen KI, die auf den Markt kommt, ist die Möglichkeit des Missbrauchs auch bei Make-a-Video gegeben. Um möglichen Missbrauch zuvorzukommen, hat das Forschungsteam den Make-a-Video-Trainingsdatensatz präventiv von NSFW-Bildern und anstößigen Formulierungen gesäubert. Der US-Konzern weist darauf hin, dass alle KI-generierten Videoinhalte von Make-A-Video ein Wasserzeichen enthalten. Damit will man „gewährleisten, dass die Zuschauer wissen, dass das Video eine KI erstellt hat und kein aufgenommenes Video ist“.
Meta hat bisher keine Ankündigung darüber gemacht, wann sie Make-A-Video der Öffentlichkeit zugänglich machen wollen oder wer darauf Zugriff erhält. Das Unternehmen bietet allerdings immerhin ein Anmeldeformular, das Benutzer ausfüllen können, wenn sie daran interessiert sind, das Tool in Zukunft auszuprobieren.