Das Unternehmen ChatGPT hat eine neue KI angekündigt die Videos erstellen kann

OpenAI, das Unternehmen hinter ChatGPT, hat seine neueste technologische Entwicklung vorgestellt: Sora, eine neue künstliche Intelligenz, die darauf ausgelegt ist, kinoreife Videos aus Text zu erstellen.

Diese KI kann Videos mit einer Länge von bis zu einer Minute generieren, dabei die visuelle Qualität beibehalten und den Anweisungen des Benutzers folgen.

In einer ersten Phase wird Sora von den Mitgliedern des OpenAI-Red Teams genutzt, um kritische Bereiche auf Schäden oder Risiken zu überprüfen.

Zudem wird ausgewählten Künstlern, Designern und Filmemachern Zugang gewährt, um Feedback zu sammeln, das hilft, das Modell zu verbessern und es für kreative Profis nützlicher zu machen.

“Wir teilen die Fortschritte unserer Forschung von Anfang an, um mit Personen außerhalb von OpenAI zu arbeiten und Feedback zu erhalten und der Öffentlichkeit einen Einblick in die zukünftigen KI-Fähigkeiten zu geben”, fügen sie hinzu.

Sora zeichnet sich durch seine Fähigkeit aus, komplexe Szenen mit mehreren Charakteren, spezifischen Bewegungstypen und genauen Details von Subjekt und Hintergrund zu generieren.

Zudem verfügt das Modell über tiefgehendes Sprachverständnis, was es ihm ermöglicht, Anweisungen präzise zu interpretieren und überzeugende Charaktere zu erschaffen, die Emotionen ausdrücken. Sora kann auch mehrere Einstellungen innerhalb eines einzigen generierten Videos erstellen und dabei Charaktere und visuellen Stil genau beibehalten.

Allerdings gibt es einige Schwächen im aktuellen Modell. Zum Beispiel kann es Schwierigkeiten haben, die Physik einer komplexen Szene genau zu simulieren oder spezifische Ursache-Wirkungs-Beziehungen zu verstehen.

Beispielsweise könnte jemand einen Keks beißen, aber danach zeigt der Keks möglicherweise keine Bissspur.

Ebenso könnte es räumliche Details einer Nachricht verwirren und Schwierigkeiten mit präzisen Beschreibungen von Ereignissen haben, die über die Zeit stattfinden.

Welche Sicherheitsstrategien implementiert OpenAI?

Es werden mehrere grundlegende Maßnahmen implementiert, bevor Sora in OpenAI-Produkten verfügbar ist. In diesem Sinne wird eng mit Mitgliedern des Red Teams zusammengearbeitet, Experten in Bereichen wie Desinformation, Hassinhalt und Vorurteile, die das Modell strengen adversativen Tests unterziehen werden.

Zudem werden Werkzeuge entwickelt, um täuschenden Inhalt zu erkennen, wie ein Erkennungsklassifikator, der identifizieren kann, wann Sora ein Video generiert hat. Es ist auch geplant, in Zukunft C2PA-Metadaten einzubeziehen, falls das Modell in einem OpenAI-Produkt eingesetzt wird.

Beispielsweise wird, sobald es in einem OpenAI-Produkt integriert ist, ein Textklassifikator implementiert, der Eingabeanweisungen überprüft und ablehnt, die gegen die Nutzungsrichtlinien verstoßen, wie solche, die extreme Gewalt, sexuellen Inhalt, Hassbilder, Prominentenähnlichkeit oder geistiges Eigentum Dritter anfordern.

Außerdem werden robuste Bildklassifikatoren entwickelt, um jeden Frame jedes generierten Videos zu überprüfen und sicherzustellen, dass sie den Nutzungsrichtlinien von OpenAI entsprechen, bevor sie dem Benutzer gezeigt werden.

Um eine sichere und verantwortungsbewusste Implementierung dieser Technologie zu gewährleisten, bindet OpenAI politische Entscheidungsträger, Pädagogen und Künstler aus aller Welt ein.

Obwohl umfangreiche Forschungen und Tests durchgeführt wurden, erkennt man an, dass nicht alle Arten der Nutzung dieser Technologie, sei sie gut oder schlecht, vorhergesehen werden können.

Daher ist es entscheidend, aus der realen Nutzung zu lernen, um kontinuierlich sicherere KI-Systeme im Laufe der Zeit zu verbessern und einzuführen.

Das Unternehmen ChatGPT hat eine neue KI angekündigt die Videos erstellen kann

Forschungstechniken, die in diesem neuen Werkzeug implementiert wurden

Bezüglich der Forschungstechniken präsentiert sich Sora als ein Diffusionsmodell, das schrittweise ein Video transformiert, beginnend mit dem, was wie statisches Rauschen erscheint, und dieses in mehreren Schritten entfernt.

Diese Fähigkeit wird erreicht, indem dem Modell eine Vorschau von mehreren Frames gleichzeitig bereitgestellt wird, was eine bedeutende Herausforderung löst, um sicherzustellen, dass ein Subjekt konsistent bleibt, selbst wenn es vorübergehend aus dem Blickfeld verschwindet.

Videos und Bilder werden als Sammlungen kleinerer Dateneinheiten, sogenannter „Patches“, dargestellt, die jeweils einem Token in GPT ähneln.

Diese Vereinheitlichung in der Datendarstellung ermöglicht es, Diffusionstransformatoren in einer breiteren Palette visueller Daten zu trainieren, die verschiedene Dauern, Auflösungen und Seitenverhältnisse umfassen.

Sora basiert auf früheren Forschungen zu DALL·E- und GPT-Modellen. Es verwendet die Untertiteltechnik von DALL·E 3, die die Erzeugung hochgradig beschreibender Untertitel für Trainingsdaten beinhaltet.

Dank dessen kann das Modell den Textanweisungen des Benutzers im generierten Video treuer folgen.

Neben seiner Fähigkeit, Videos ausschließlich aus Textanweisungen zu generieren, kann dieses Modell ein vorhandenes Standbild nehmen und daraus ein Video erstellen, indem es den Inhalt des Bildes genau animiert und auf kleine Details achtet. Es kann auch fehlende Frames in einem vorhandenen Video erweitern oder auffüllen.

Bewerte Diese Seite

Tags:

No Responses

Leave a Reply

Your email address will not be published. Required fields are marked *

BLOG

Prompt-Techniken Wie man das Beste aus künstlicher Intelligenz herausholt

Prompt-Techniken: Wie man das Beste aus künstlicher Intelligenz herausholt

Generative Künstliche Intelligenz, wie ChatGPT, Gemini, DALL-E, Midjourney oder Stable Diffusion, sind fortschrittliche Technologien, die in der Lage sind, Texte, Dokumente, Mindmaps, Tabellen, Kalkulationstabellen, Präsentationen, Bilder oder Videos zu erstellen. Sie benötigen jedoch präzise Anleitungen, klare, direkte Vorgaben und ausreichende Informationen, um das bestmögliche Ergebnis zu erzielen. Diese Anweisungen oder Leitfäden werden als Prompts bezeichnet, […]

Krankenschwestern in den USA protestieren gegen den Einsatz von KI in Krankenhäusern

Krankenschwestern in den USA protestieren gegen den Einsatz von KI in Krankenhäusern

Die Gewerkschaft “National Nurses United” erklärt in einer Mitteilung, dass künstliche Intelligenz (KI) keine “Lebens- oder Todesentscheidungen” ohne menschliche Bewertung und kritisches Denken treffen kann. Künstliche Intelligenz hat seit der Einführung von ChatGPT Ende 2022 unser Leben verändert, und seitdem haben die KI-Modelle verschiedener Technologieunternehmen – wie OpenAI, Meta, Microsoft, Google oder Apple – ihre […]

Funcas befürchtet dass ChatGPT Kundendaten der Banken stehlen könnte

Funcas befürchtet dass ChatGPT Kundendaten der Banken stehlen könnte

Die Stiftung der Sparkassen (Funcas) hat die Banken vor dem Einsatz von generativer Künstlicher Intelligenz (GenAI) wie ChatGPT gewarnt, wegen der Gefahr, die diese beim Schutz vertraulicher Kundendaten darstellen könnte. Insbesondere empfiehlt die Organisation dem Finanzsektor, eigene Programme mit dieser Technologie zu entwickeln, um Lecks zu verhindern und die Vertraulichkeit sicherer zu bewahren. Laut Funcas […]

Empfiehlt den Einsatz von ChatGPT in Tausenden wissenschaftlichen Studien

Empfiehlt den Einsatz von ChatGPT in Tausenden wissenschaftlichen Studien

Der Bibliothekar Andrew Gray machte eine “sehr überraschende” Entdeckung. Er analysierte fünf Millionen wissenschaftliche Studien, die im letzten Jahr veröffentlicht wurden, und stellte einen plötzlichen Anstieg in der Verwendung bestimmter Wörter fest, wie “meticulously” (um 137% mehr), “intricate” (117%), “commendable” (83%) und “meticulous” (59%), in ihren englischen Versionen. Gray, vom University College London, sieht nur […]

Googles KI holt gegenüber ChatGPT auf Gemini Pro 1.5 steigt auf ein neues Niveau

Googles KI holt gegenüber ChatGPT auf: Gemini Pro 1.5 steigt auf ein neues Niveau

Google kann auf seinem Weg, den Thron der künstlichen Intelligenz zurückzugewinnen, nicht aufgehalten werden, denn sein Prestige steht dabei auf dem Spiel. Obwohl wir die riesige Menge an Überraschungen, die uns beim nächsten Google I/O erwarten, noch nicht kennen, hat das Unternehmen bereits einen großen Teil seiner aktuellen Modelle weiterentwickelt. Es plant sogar, Gmail durch […]

Skoda beginnt mit der Herstellung des überarbeiteten Octavia mit integrierter ChatGPT

Skoda beginnt mit der Herstellung des überarbeiteten Octavia mit integrierter ChatGPT

Skoda hat die Serienproduktion des überarbeiteten Octavia in seinem Hauptwerk in Mladá Boleslav gestartet. Die aktualisierte vierte Generation des Bestsellers der Marke bietet einen neu gestalteten Skoda-Kühlergrill, neue Matrix-LED-Scheinwerfer der zweiten Generation und die Integration von ChatGPT in die Sprachassistenten des Fahrzeugs, unter anderem Verbesserungen. Mit der Verlagerung der Octavia-Produktion Ende dieses Jahres nach Kvasiny […]