Trainieren Meta, Google und OpenAI künstliche Intelligenz auf illegale Weise?

April 9, 2024 | 9:21 am

Am vergangenen Wochenende explodierte eine Bombe in der weltweiten Technologieindustrie, dank einer Untersuchung der Zeitung The New York Times: OpenAI, die Schöpfer von ChatGPT, wurden beschuldigt, ihr Künstliche-Intelligenz-Modell (KI) mit Transkriptionen von mehr als einer Million Stunden YouTube-Videos zu trainieren, ein Inhalt, der den Erstellern gehört.

Gleichzeitig würden Meta und Google ihre Richtlinien (Nutzungsbedingungen) verletzen, indem sie urheberrechtlich geschützte Informationen und sogar private Informationen ihrer Nutzer verwenden, um ihre eigenen KI-Modelle zu trainieren. Wie kann es sein, dass die wichtigsten Technologieunternehmen der Welt über ihr wertvollstes Gut hinweggehen?

Inhaltsverzeichnis

Eine erste Erklärung

Man muss den Aufstieg der KI, ihre Ursprünge und wie sie funktioniert, überprüfen. Am 20. Februar 1947 hielt der Engländer Alan Turing vor der London Mathematical Society, was möglicherweise der erste Vortrag war, in dem die Möglichkeit der Entwicklung künstlicher Intelligenzen erwähnt wurde.

“Wir wollen eine Maschine, die aus Erfahrung lernen kann”, sagte der Vater der Informatik in einem Moment, in dem seine Worte nicht mehr als Träume und Spekulationen waren, Jahrzehnte vor der Entwicklung des ersten Personalcomputers (1970).

Ohne dass der Rest der Welt es verstand, legte Turing an diesem Tag den Grundstein für den langen Weg der Künstlichen Intelligenz, einen Zweig der Wissenschaft, der sich auf die Entwicklung von Computersystemen konzentriert, die Aufgaben ausführen können, die normalerweise menschliche Intelligenz erfordern, das heißt, kognitive Prozesse in Maschinen zu replizieren, die nur ein Mensch durchführen könnte.

Von den ersten Schachprogrammen bis zu komplexen regelbasierten Systemen hat jeder Fortschritt in diesem Bereich ethische, moralische und sogar rechtliche Dilemmata mit sich gebracht, bezüglich der Grenzen, die die Technologie nicht überschreiten sollte.

Unter diesen Fortschritten haben Deep Learning Language Models (LLM) in den letzten Jahren eine Hauptrolle gespielt, als Basis für Systeme wie ChatGPT, entwickelt von OpenAI, oder Gemini von Google, die heute täglich von Tausenden von Menschen als Werkzeuge zur Texterzeugung, automatischen Übersetzung, Informationsanalyse, unter anderem, verwendet werden.

Die Fähigkeit, Inhalte ähnlich wie ein Mensch zu verstehen und zu generieren, hat die Popularität dieser Plattformen in verschiedenen Industrien in die Höhe geschossen, aber ihre Nutzung bringt eine Kontroverse mit sich, die in den Vereinigten Staaten, wo Unternehmen wie Google (Eigentümer von YouTube), Meta und OpenAI ansässig sind, immer mehr an Bedeutung gewinnt, wegen des möglichen Missbrauchs von urheberrechtlich geschützten Inhalten zur Schulung ihrer Plattformen.

Die aktuelle Kontroverse

Die Debatte gewann an Bedeutung, seitdem im vergangenen November die New York Times OpenAI und Microsoft verklagte, nachdem entdeckt wurde, dass Millionen ihrer journalistischen Artikel verwendet worden waren, um Chatbots zu trainieren, die jetzt paradoxerweise eine direkte Konkurrenz für dieses Kommunikationsmedium darstellen, aufgrund der Verwendung von ChatGPT und ähnlichen Plattformen in Redaktionen weltweit zur Erstellung von Inhalten.

Die Klage der Times stützt sich auf die Funktionsweise der LLM und das Konzept ihrer “Trainings” mit textuellen Daten oder Tokens. Während jedes Trainings erhalten diese Modelle riesige Mengen an Informationen aus Büchern, Nachrichtenartikeln und im Allgemeinen Texten, die im Internet verfügbar sind.

“Dieser Prozess ist intensiv und benötigt eine große Menge an Rechenressourcen. Zudem sind die Qualität und Vielfalt der Trainingsdaten entscheidend für die endgültige Leistung des Modells. Deshalb suchen Technologieunternehmen oft Zugang zu großen Datenmengen, um ihre KI-Modelle zu speisen”, beschreibt OpenAI in seinem Blog.

An diesem Punkt betreten Technologieunternehmen eine rechtliche Grauzone bei der Verwendung urheberrechtlich geschützter Daten, Datenschutz der Nutzer und der potenziellen Erzeugung und Replikation von Vorurteilen und Verzerrungen.

Die Diskussion flammte dieses Wochenende auf, als die NY Times eine Untersuchung veröffentlichte, die enthüllte, dass OpenAI und Google im Jahr 2021 ihre KI-Modelle mit Transkriptionen von YouTube-Videos trainiert haben, deren Inhalt den Erstellern und YouTubern gehört und durch Googles eigene Richtlinien geschützt ist. Es wird sogar gesagt, dass das Rechtsteam dieses Unternehmens (Google) die Formulierung seiner Nutzungsbedingungen geändert hat, um sich von möglichen rechtlichen Verantwortlichkeiten für diese Praxis zu befreien.

Beim Training ihres berühmten ChatGPT stießen die Ingenieure von OpenAI auf ein Informationsversorgungsproblem, mit dem ihre Plattform verbessert werden sollte.

Zu diesem Zeitpunkt hatte das KI-Labor die Datenbanken, zu denen es Zugang hatte und die hauptsächlich auf den Codearchiv der Website GitHub, Datenbanken von Schachzügen sowie Highschool-Prüfungen und Aufgaben auf der Seite Quizlet beschränkt waren, ausgeschöpft.

Die Trainingsmethode mit großen Datenbanken basiert auf einer Veröffentlichung von Januar 2020 von Jared Kaplan, einem theoretischen Physiker der Johns Hopkins University, der einen Artikel veröffentlichte, der das Paradigma der KI veränderte und den Appetit auf Online-Daten anheizte. Seine Schlussfolgerung war, dass je mehr Daten vorhanden waren, um ein Sprachmodell zu trainieren, desto besser würde es funktionieren. Die Qualität des Inhalts war nicht mehr so wichtig wie die Menge.

“Jeder war sehr überrascht, dass diese Trends, diese Skalengesetze, wie wir sie nennen, im Grunde genauso präzise waren wie das, was man in der Astronomie oder Physik sieht”, bemerkt Dr. Kaplan im Text.

Verzweifelt, um mit dem Großtraining fortzufahren, beschloss OpenAI, ein Spracherkennungswerkzeug namens Whisper zu entwickeln, das sie verwendeten, um mehr als eine Million Stunden YouTube-Videos zu transkribieren, wie Mitarbeiter des Unternehmens gegenüber der New York Times offenbarten.

Laut der Untersuchung hätte der Präsident von OpenAI, Greg Brockman, persönlich an dem Prozess teilgenommen.

Die von Whisper generierten Texte wurden offenbar verwendet, um GPT-4 zu unterrichten, in einer Handlung, die den von YouTube festgelegten Richtlinien widerspricht, wie der CEO dieser Plattform, Neal Mohan, kürzlich erklärte.

Tage vor der Enthüllung durch die New York Times gab der Geschäftsführer ein Interview mit Bloomberg und machte deutlich, dass die Verwendung seiner Videos zum Trainieren einer KI eine “klare Verletzung” seiner Richtlinien wäre.

Interessanterweise bezog sich Mohan nicht auf Whisper, dessen Existenz erst am Samstag bekannt wurde, sondern auf eine andere Künstliche Intelligenz, die OpenAI demnächst herausbringen wird, genannt Sora, die dafür entwickelt wurde, realistische Videos aus textuellen Beschreibungen der Nutzer zu produzieren und die anscheinend mit YouTube-Videos trainiert wurde.

Woher noch mehr Daten nehmen?

Weitere Zweifel und Kontroversen

Eine weitere Enthüllung der New York Times richtet das Augenmerk auf Google selbst, da Quellen mit Kenntnis der Materie behaupteten, dass Mitarbeiter von Google seit Monaten wussten, dass OpenAI YouTube-Videos gesammelt hatte, um Daten zu erhalten. Die Firma unternahm jedoch nichts, um sich vor der Verwendung ihrer Videoplattform zu schützen oder ihre Nutzer zu schützen, denn sie hatten ebenfalls Transkriptionen von YouTube-Videos verwendet, um ihre KI-Modelle (heute Bard genannt Gemini) zu trainieren, und dabei die Urheberrechte der Schöpfer ihrer Plattform verletzt.

“Wenn Google ein Aufsehen um OpenAI gemacht hätte, hätte das einen Bumerang-Effekt gegen ihre eigenen Methoden ausgelöst”, zitiert die Untersuchung der amerikanischen Zeitung.

Ende 2022, nachdem OpenAI ChatGPT eingeführt und ein frenetisches Rennen in dieser Branche ausgelöst hatte, diskutierten Google-Ingenieure, wie sie die Daten ihrer Nutzer am besten nutzen könnten, und überlegten, ob sie Milliarden von Wörtern in Google Docs, Google Sheets und anderen kostenlosen Anwendungen verwenden sollten. Die Datenschutzbeschränkungen des Unternehmens begrenzten jedoch, wie diese Daten verwendet werden konnten.

Die Lösung kam im Juni 2023, als die Rechtsabteilung von Google – mit ihrem Datenschutzteam – einen Text entwarf, der in ihre Nutzungsbedingungen aufgenommen wurde, um die Nutzung der Nutzerdaten durch das Unternehmen für ihre KI-Modelle und die Schaffung von Produkten und Funktionen wie Bard (jetzt Gemini) und KI-Fähigkeiten in der Cloud zu erweitern.

“Was ist das Endziel?”, sagt eine der internen E-Mails des Datenschutzteams. “Wie weit werden wir gehen?”, fragten sich die Google-Ingenieure selbst.

Diese Änderung blieb jedoch für die meisten Nutzer unbemerkt, da sie am Wochenende des 4. Juli, mitten im Unabhängigkeitstag-Feiertag in den Vereinigten Staaten, veröffentlicht wurde.

“Dies ist der größte Diebstahl in den Vereinigten Staaten, Punkt”, sagte kürzlich in einem Interview Justine Bateman, Filmemacherin und Autorin von zwei Büchern, die eine Beschwerde beim US-Urheberrechtsbüro einreichte, weil die KI-Modelle Inhalte, einschließlich ihrer Schriften und Filme, ohne Erlaubnis oder Bezahlung nutzen.

Meta, ein loses Rad

Das Sahnehäubchen ist Meta, früher bekannt als Facebook, ein weiteres Technologieunternehmen, das Große Sprachmodelle (LLM) und Künstliche Intelligenz entwickelt.

Die Untersuchung der amerikanischen Zeitung enthüllte, dass dieses Unternehmen sogar die Möglichkeit in Betracht gezogen hat, Verlage zu erwerben, um Zugang zu urheberrechtlich geschützten Werken zu erhalten, während es gleichzeitig Strategien erkundet, um öffentlich verfügbare Informationen online zu nutzen, ohne die Rechte der Schöpfer, das heißt, ihrer eigenen Nutzer, zu verletzen.

Außerdem hätten sie sich an das Internet gewandt, um eine große Menge an Daten zu sammeln, die sie für ihr noch in Entwicklung befindliches KI-System benötigen würden, ohne sich darum zu kümmern, ob diese Inhalte gesetzlich geschützt sind.

Um in diesem Rennen nicht zurückzufallen, hätte Mark Zuckerberg selbst sein Team gedrängt, diese Praxis zu wählen und die Kosten für Rechtsstreitigkeiten zu übernehmen, wie aus internen Aufnahmen hervorgeht, auf die das zitierte Medium Zugriff hatte.

Bis jetzt haben Google, OpenAI und Meta keine offiziellen Antworten auf diese Anschuldigungen gegeben, aber es wird bereits eine lange Kontroverse über das Gleichgewicht zwischen technologischer Innovation und dem Respekt vor individuellen Rechten und geistigem Eigentum erwartet.

Der Aufstieg der künstlichen Intelligenz hat eine Büchse der Pandora in der digitalen Welt geöffnet, die Debatte beginnt gerade erst.

Tags:

No tags

No Responses

Leave a Reply Cancel reply

GPT-5 und größerer Kontext

July 17, 2024 | 9:06 am

Während die Technologie mit atemberaubender Geschwindigkeit voranschreitet, sticht die künstliche Intelligenz als eine der faszinierendsten Grenzen der Innovation hervor. Inmitten dieses technologischen Wirbels taucht GPT-5, die neueste Iteration des Sprachmodells von OpenAI, als ein Thema heißer Erwartungen auf. Diese neue Version des bereits beeindruckenden GPT-4 verspricht, die Fähigkeit von Maschinen, menschliche Sprache zu verstehen und […]

Wie man ChatGPT verwendet, um Ihre Texte zusammenzufassen und umzuschreiben

July 10, 2024 | 9:39 am

In der heutigen Zeit ist die Fähigkeit, originelle und relevante Inhalte zu produzieren, unerlässlich, besonders wenn man sich inmitten der riesigen Menge an Informationen im Internet hervorheben möchte. Der Fortschritt der künstlichen Intelligenz (KI) hat Werkzeuge wie ChatGPT Talk hervorgebracht, die den Prozess des Umschreibens und Zusammenfassens von Texten nicht nur schneller, sondern auch dynamischer […]

Maximieren Sie Ihren Gewinn: So verdienen Sie mit der Chat-GPT-Technologie

July 3, 2024 | 8:58 am

Einführung: Wie man mit Chat-GPT Geld verdient Im ständig fortschreitenden Bereich der künstlichen Intelligenz und des maschinellen Lernens taucht ein Begriff immer wieder auf: GPT oder Generative Pre-Trained Transformers. Einfach ausgedrückt, GPT ist ein wesentlicher Bestandteil von KI-Modellen und darauf spezialisiert, menschenähnlichen Text zu verstehen und zu erzeugen. Die dynamischen Fortschritte in diesem Bereich haben […]

Navigieren in der Co-Evolution von KI und Menschheit

July 1, 2024 | 8:56 am

Die KI verwandelt uns von Schöpfern und Antwortenden in Kuratoren und Fragesteller. In diesem provokativen Gespräch mit Peter Deng, VP für Verbraucherprodukte und Leiter von ChatGPT bei OpenAI, werden wir die Rolle der Menschen im Zeitalter der KI erkunden. Was sind die praktischen und philosophischen Implikationen der KI? Wie wird sie unsere Wahrnehmung von uns […]

Entdecken Sie die 6 besten Möglichkeiten, Chat GPT jetzt zu nutzen, um online Geld zu verdienen!

June 28, 2024 | 1:06 am

Einführung in die Nutzung von Chat GPT zur Gewinnmaximierung Unsere Einführung in die Gewinnmaximierung mit den besten Methoden des Generativen Vortrainierten Transformators (GPT) enthüllt revolutionäre Innovationen in der künstlichen Intelligenz, die den E-Commerce und den Kundenservice revolutionieren. Die vielfältigen Anwendungen des GPT umfassen unter anderem Chatbots und die Textgenerierung. Die besten Wege, um Chat GPT […]

Prompt-Techniken: Wie man das Beste aus künstlicher Intelligenz herausholt

April 26, 2024 | 9:47 am

Generative Künstliche Intelligenz, wie ChatGPT, Gemini, DALL-E, Midjourney oder Stable Diffusion, sind fortschrittliche Technologien, die in der Lage sind, Texte, Dokumente, Mindmaps, Tabellen, Kalkulationstabellen, Präsentationen, Bilder oder Videos zu erstellen. Sie benötigen jedoch präzise Anleitungen, klare, direkte Vorgaben und ausreichende Informationen, um das bestmögliche Ergebnis zu erzielen. Diese Anweisungen oder Leitfäden werden als Prompts bezeichnet, […]

Trainieren Meta, Google und OpenAI künstliche Intelligenz auf illegale Weise?

Eine erste Erklärung

Die aktuelle Kontroverse

Weitere Zweifel und Kontroversen

Meta, ein loses Rad

No Responses

Leave a Reply Cancel reply

BLOG

GPT-5 und größerer Kontext

Wie man ChatGPT verwendet, um Ihre Texte zusammenzufassen und umzuschreiben

Maximieren Sie Ihren Gewinn: So verdienen Sie mit der Chat-GPT-Technologie

Navigieren in der Co-Evolution von KI und Menschheit

Entdecken Sie die 6 besten Möglichkeiten, Chat GPT jetzt zu nutzen, um online Geld zu verdienen!

Prompt-Techniken: Wie man das Beste aus künstlicher Intelligenz herausholt