OpenAI, das Unternehmen hinter ChatGPT, hat seine neueste technologische Entwicklung vorgestellt: Sora, eine neue künstliche Intelligenz, die darauf ausgelegt ist, kinoreife Videos aus Text zu erstellen.
Diese KI kann Videos mit einer Länge von bis zu einer Minute generieren, dabei die visuelle Qualität beibehalten und den Anweisungen des Benutzers folgen.
In einer ersten Phase wird Sora von den Mitgliedern des OpenAI-Red Teams genutzt, um kritische Bereiche auf Schäden oder Risiken zu überprüfen.
Zudem wird ausgewählten Künstlern, Designern und Filmemachern Zugang gewährt, um Feedback zu sammeln, das hilft, das Modell zu verbessern und es für kreative Profis nützlicher zu machen.
“Wir teilen die Fortschritte unserer Forschung von Anfang an, um mit Personen außerhalb von OpenAI zu arbeiten und Feedback zu erhalten und der Öffentlichkeit einen Einblick in die zukünftigen KI-Fähigkeiten zu geben”, fügen sie hinzu.
Sora zeichnet sich durch seine Fähigkeit aus, komplexe Szenen mit mehreren Charakteren, spezifischen Bewegungstypen und genauen Details von Subjekt und Hintergrund zu generieren.
Zudem verfügt das Modell über tiefgehendes Sprachverständnis, was es ihm ermöglicht, Anweisungen präzise zu interpretieren und überzeugende Charaktere zu erschaffen, die Emotionen ausdrücken. Sora kann auch mehrere Einstellungen innerhalb eines einzigen generierten Videos erstellen und dabei Charaktere und visuellen Stil genau beibehalten.
Allerdings gibt es einige Schwächen im aktuellen Modell. Zum Beispiel kann es Schwierigkeiten haben, die Physik einer komplexen Szene genau zu simulieren oder spezifische Ursache-Wirkungs-Beziehungen zu verstehen.
Beispielsweise könnte jemand einen Keks beißen, aber danach zeigt der Keks möglicherweise keine Bissspur.
Ebenso könnte es räumliche Details einer Nachricht verwirren und Schwierigkeiten mit präzisen Beschreibungen von Ereignissen haben, die über die Zeit stattfinden.
Welche Sicherheitsstrategien implementiert OpenAI?
Es werden mehrere grundlegende Maßnahmen implementiert, bevor Sora in OpenAI-Produkten verfügbar ist. In diesem Sinne wird eng mit Mitgliedern des Red Teams zusammengearbeitet, Experten in Bereichen wie Desinformation, Hassinhalt und Vorurteile, die das Modell strengen adversativen Tests unterziehen werden.
Zudem werden Werkzeuge entwickelt, um täuschenden Inhalt zu erkennen, wie ein Erkennungsklassifikator, der identifizieren kann, wann Sora ein Video generiert hat. Es ist auch geplant, in Zukunft C2PA-Metadaten einzubeziehen, falls das Modell in einem OpenAI-Produkt eingesetzt wird.
Beispielsweise wird, sobald es in einem OpenAI-Produkt integriert ist, ein Textklassifikator implementiert, der Eingabeanweisungen überprüft und ablehnt, die gegen die Nutzungsrichtlinien verstoßen, wie solche, die extreme Gewalt, sexuellen Inhalt, Hassbilder, Prominentenähnlichkeit oder geistiges Eigentum Dritter anfordern.
Außerdem werden robuste Bildklassifikatoren entwickelt, um jeden Frame jedes generierten Videos zu überprüfen und sicherzustellen, dass sie den Nutzungsrichtlinien von OpenAI entsprechen, bevor sie dem Benutzer gezeigt werden.
Um eine sichere und verantwortungsbewusste Implementierung dieser Technologie zu gewährleisten, bindet OpenAI politische Entscheidungsträger, Pädagogen und Künstler aus aller Welt ein.
Obwohl umfangreiche Forschungen und Tests durchgeführt wurden, erkennt man an, dass nicht alle Arten der Nutzung dieser Technologie, sei sie gut oder schlecht, vorhergesehen werden können.
Daher ist es entscheidend, aus der realen Nutzung zu lernen, um kontinuierlich sicherere KI-Systeme im Laufe der Zeit zu verbessern und einzuführen.
Forschungstechniken, die in diesem neuen Werkzeug implementiert wurden
Bezüglich der Forschungstechniken präsentiert sich Sora als ein Diffusionsmodell, das schrittweise ein Video transformiert, beginnend mit dem, was wie statisches Rauschen erscheint, und dieses in mehreren Schritten entfernt.
Diese Fähigkeit wird erreicht, indem dem Modell eine Vorschau von mehreren Frames gleichzeitig bereitgestellt wird, was eine bedeutende Herausforderung löst, um sicherzustellen, dass ein Subjekt konsistent bleibt, selbst wenn es vorübergehend aus dem Blickfeld verschwindet.
Videos und Bilder werden als Sammlungen kleinerer Dateneinheiten, sogenannter „Patches“, dargestellt, die jeweils einem Token in GPT ähneln.
Diese Vereinheitlichung in der Datendarstellung ermöglicht es, Diffusionstransformatoren in einer breiteren Palette visueller Daten zu trainieren, die verschiedene Dauern, Auflösungen und Seitenverhältnisse umfassen.
Sora basiert auf früheren Forschungen zu DALL·E- und GPT-Modellen. Es verwendet die Untertiteltechnik von DALL·E 3, die die Erzeugung hochgradig beschreibender Untertitel für Trainingsdaten beinhaltet.
Dank dessen kann das Modell den Textanweisungen des Benutzers im generierten Video treuer folgen.
Neben seiner Fähigkeit, Videos ausschließlich aus Textanweisungen zu generieren, kann dieses Modell ein vorhandenes Standbild nehmen und daraus ein Video erstellen, indem es den Inhalt des Bildes genau animiert und auf kleine Details achtet. Es kann auch fehlende Frames in einem vorhandenen Video erweitern oder auffüllen.
No Responses