Das Unternehmen ChatGPT hat eine neue KI angekündigt die Videos erstellen kann

OpenAI, das Unternehmen hinter ChatGPT, hat seine neueste technologische Entwicklung vorgestellt: Sora, eine neue künstliche Intelligenz, die darauf ausgelegt ist, kinoreife Videos aus Text zu erstellen.

Diese KI kann Videos mit einer Länge von bis zu einer Minute generieren, dabei die visuelle Qualität beibehalten und den Anweisungen des Benutzers folgen.

In einer ersten Phase wird Sora von den Mitgliedern des OpenAI-Red Teams genutzt, um kritische Bereiche auf Schäden oder Risiken zu überprüfen.

Zudem wird ausgewählten Künstlern, Designern und Filmemachern Zugang gewährt, um Feedback zu sammeln, das hilft, das Modell zu verbessern und es für kreative Profis nützlicher zu machen.

“Wir teilen die Fortschritte unserer Forschung von Anfang an, um mit Personen außerhalb von OpenAI zu arbeiten und Feedback zu erhalten und der Öffentlichkeit einen Einblick in die zukünftigen KI-Fähigkeiten zu geben”, fügen sie hinzu.

Sora zeichnet sich durch seine Fähigkeit aus, komplexe Szenen mit mehreren Charakteren, spezifischen Bewegungstypen und genauen Details von Subjekt und Hintergrund zu generieren.

Zudem verfügt das Modell über tiefgehendes Sprachverständnis, was es ihm ermöglicht, Anweisungen präzise zu interpretieren und überzeugende Charaktere zu erschaffen, die Emotionen ausdrücken. Sora kann auch mehrere Einstellungen innerhalb eines einzigen generierten Videos erstellen und dabei Charaktere und visuellen Stil genau beibehalten.

Allerdings gibt es einige Schwächen im aktuellen Modell. Zum Beispiel kann es Schwierigkeiten haben, die Physik einer komplexen Szene genau zu simulieren oder spezifische Ursache-Wirkungs-Beziehungen zu verstehen.

Beispielsweise könnte jemand einen Keks beißen, aber danach zeigt der Keks möglicherweise keine Bissspur.

Ebenso könnte es räumliche Details einer Nachricht verwirren und Schwierigkeiten mit präzisen Beschreibungen von Ereignissen haben, die über die Zeit stattfinden.

Welche Sicherheitsstrategien implementiert OpenAI?

Es werden mehrere grundlegende Maßnahmen implementiert, bevor Sora in OpenAI-Produkten verfügbar ist. In diesem Sinne wird eng mit Mitgliedern des Red Teams zusammengearbeitet, Experten in Bereichen wie Desinformation, Hassinhalt und Vorurteile, die das Modell strengen adversativen Tests unterziehen werden.

Zudem werden Werkzeuge entwickelt, um täuschenden Inhalt zu erkennen, wie ein Erkennungsklassifikator, der identifizieren kann, wann Sora ein Video generiert hat. Es ist auch geplant, in Zukunft C2PA-Metadaten einzubeziehen, falls das Modell in einem OpenAI-Produkt eingesetzt wird.

Beispielsweise wird, sobald es in einem OpenAI-Produkt integriert ist, ein Textklassifikator implementiert, der Eingabeanweisungen überprüft und ablehnt, die gegen die Nutzungsrichtlinien verstoßen, wie solche, die extreme Gewalt, sexuellen Inhalt, Hassbilder, Prominentenähnlichkeit oder geistiges Eigentum Dritter anfordern.

Außerdem werden robuste Bildklassifikatoren entwickelt, um jeden Frame jedes generierten Videos zu überprüfen und sicherzustellen, dass sie den Nutzungsrichtlinien von OpenAI entsprechen, bevor sie dem Benutzer gezeigt werden.

Um eine sichere und verantwortungsbewusste Implementierung dieser Technologie zu gewährleisten, bindet OpenAI politische Entscheidungsträger, Pädagogen und Künstler aus aller Welt ein.

Obwohl umfangreiche Forschungen und Tests durchgeführt wurden, erkennt man an, dass nicht alle Arten der Nutzung dieser Technologie, sei sie gut oder schlecht, vorhergesehen werden können.

Daher ist es entscheidend, aus der realen Nutzung zu lernen, um kontinuierlich sicherere KI-Systeme im Laufe der Zeit zu verbessern und einzuführen.

Das Unternehmen ChatGPT hat eine neue KI angekündigt die Videos erstellen kann

Forschungstechniken, die in diesem neuen Werkzeug implementiert wurden

Bezüglich der Forschungstechniken präsentiert sich Sora als ein Diffusionsmodell, das schrittweise ein Video transformiert, beginnend mit dem, was wie statisches Rauschen erscheint, und dieses in mehreren Schritten entfernt.

Diese Fähigkeit wird erreicht, indem dem Modell eine Vorschau von mehreren Frames gleichzeitig bereitgestellt wird, was eine bedeutende Herausforderung löst, um sicherzustellen, dass ein Subjekt konsistent bleibt, selbst wenn es vorübergehend aus dem Blickfeld verschwindet.

Videos und Bilder werden als Sammlungen kleinerer Dateneinheiten, sogenannter „Patches“, dargestellt, die jeweils einem Token in GPT ähneln.

Diese Vereinheitlichung in der Datendarstellung ermöglicht es, Diffusionstransformatoren in einer breiteren Palette visueller Daten zu trainieren, die verschiedene Dauern, Auflösungen und Seitenverhältnisse umfassen.

Sora basiert auf früheren Forschungen zu DALL·E- und GPT-Modellen. Es verwendet die Untertiteltechnik von DALL·E 3, die die Erzeugung hochgradig beschreibender Untertitel für Trainingsdaten beinhaltet.

Dank dessen kann das Modell den Textanweisungen des Benutzers im generierten Video treuer folgen.

Neben seiner Fähigkeit, Videos ausschließlich aus Textanweisungen zu generieren, kann dieses Modell ein vorhandenes Standbild nehmen und daraus ein Video erstellen, indem es den Inhalt des Bildes genau animiert und auf kleine Details achtet. Es kann auch fehlende Frames in einem vorhandenen Video erweitern oder auffüllen.

Tags:

No Responses

Leave a Reply

Your email address will not be published. Required fields are marked *

BLOG

GPT-5 und größerer Kontext

Während die Technologie mit atemberaubender Geschwindigkeit voranschreitet, sticht die künstliche Intelligenz als eine der faszinierendsten Grenzen der Innovation hervor. Inmitten dieses technologischen Wirbels taucht GPT-5, die neueste Iteration des Sprachmodells von OpenAI, als ein Thema heißer Erwartungen auf. Diese neue Version des bereits beeindruckenden GPT-4 verspricht, die Fähigkeit von Maschinen, menschliche Sprache zu verstehen und […]

Wie man ChatGPT verwendet, um Ihre Texte zusammenzufassen und umzuschreiben

In der heutigen Zeit ist die Fähigkeit, originelle und relevante Inhalte zu produzieren, unerlässlich, besonders wenn man sich inmitten der riesigen Menge an Informationen im Internet hervorheben möchte. Der Fortschritt der künstlichen Intelligenz (KI) hat Werkzeuge wie ChatGPT Talk hervorgebracht, die den Prozess des Umschreibens und Zusammenfassens von Texten nicht nur schneller, sondern auch dynamischer […]

Maximieren Sie Ihren Gewinn: So verdienen Sie mit der Chat-GPT-Technologie

Einführung: Wie man mit Chat-GPT Geld verdient Im ständig fortschreitenden Bereich der künstlichen Intelligenz und des maschinellen Lernens taucht ein Begriff immer wieder auf: GPT oder Generative Pre-Trained Transformers. Einfach ausgedrückt, GPT ist ein wesentlicher Bestandteil von KI-Modellen und darauf spezialisiert, menschenähnlichen Text zu verstehen und zu erzeugen. Die dynamischen Fortschritte in diesem Bereich haben […]

Navigieren in der Co-Evolution von KI und Menschheit

Die KI verwandelt uns von Schöpfern und Antwortenden in Kuratoren und Fragesteller. In diesem provokativen Gespräch mit Peter Deng, VP für Verbraucherprodukte und Leiter von ChatGPT bei OpenAI, werden wir die Rolle der Menschen im Zeitalter der KI erkunden. Was sind die praktischen und philosophischen Implikationen der KI? Wie wird sie unsere Wahrnehmung von uns […]

Entdecken Sie die 6 besten Möglichkeiten, Chat GPT jetzt zu nutzen, um online Geld zu verdienen!

Einführung in die Nutzung von Chat GPT zur Gewinnmaximierung Unsere Einführung in die Gewinnmaximierung mit den besten Methoden des Generativen Vortrainierten Transformators (GPT) enthüllt revolutionäre Innovationen in der künstlichen Intelligenz, die den E-Commerce und den Kundenservice revolutionieren. Die vielfältigen Anwendungen des GPT umfassen unter anderem Chatbots und die Textgenerierung. Die besten Wege, um Chat GPT […]

Prompt-Techniken Wie man das Beste aus künstlicher Intelligenz herausholt

Prompt-Techniken: Wie man das Beste aus künstlicher Intelligenz herausholt

Generative Künstliche Intelligenz, wie ChatGPT, Gemini, DALL-E, Midjourney oder Stable Diffusion, sind fortschrittliche Technologien, die in der Lage sind, Texte, Dokumente, Mindmaps, Tabellen, Kalkulationstabellen, Präsentationen, Bilder oder Videos zu erstellen. Sie benötigen jedoch präzise Anleitungen, klare, direkte Vorgaben und ausreichende Informationen, um das bestmögliche Ergebnis zu erzielen. Diese Anweisungen oder Leitfäden werden als Prompts bezeichnet, […]