Am vergangenen Wochenende explodierte eine Bombe in der weltweiten Technologieindustrie, dank einer Untersuchung der Zeitung The New York Times: OpenAI, die Schöpfer von ChatGPT, wurden beschuldigt, ihr Künstliche-Intelligenz-Modell (KI) mit Transkriptionen von mehr als einer Million Stunden YouTube-Videos zu trainieren, ein Inhalt, der den Erstellern gehört.
Gleichzeitig würden Meta und Google ihre Richtlinien (Nutzungsbedingungen) verletzen, indem sie urheberrechtlich geschützte Informationen und sogar private Informationen ihrer Nutzer verwenden, um ihre eigenen KI-Modelle zu trainieren. Wie kann es sein, dass die wichtigsten Technologieunternehmen der Welt über ihr wertvollstes Gut hinweggehen?
Eine erste Erklärung
Man muss den Aufstieg der KI, ihre Ursprünge und wie sie funktioniert, überprüfen. Am 20. Februar 1947 hielt der Engländer Alan Turing vor der London Mathematical Society, was möglicherweise der erste Vortrag war, in dem die Möglichkeit der Entwicklung künstlicher Intelligenzen erwähnt wurde.
“Wir wollen eine Maschine, die aus Erfahrung lernen kann”, sagte der Vater der Informatik in einem Moment, in dem seine Worte nicht mehr als Träume und Spekulationen waren, Jahrzehnte vor der Entwicklung des ersten Personalcomputers (1970).
Ohne dass der Rest der Welt es verstand, legte Turing an diesem Tag den Grundstein für den langen Weg der Künstlichen Intelligenz, einen Zweig der Wissenschaft, der sich auf die Entwicklung von Computersystemen konzentriert, die Aufgaben ausführen können, die normalerweise menschliche Intelligenz erfordern, das heißt, kognitive Prozesse in Maschinen zu replizieren, die nur ein Mensch durchführen könnte.
Von den ersten Schachprogrammen bis zu komplexen regelbasierten Systemen hat jeder Fortschritt in diesem Bereich ethische, moralische und sogar rechtliche Dilemmata mit sich gebracht, bezüglich der Grenzen, die die Technologie nicht überschreiten sollte.
Unter diesen Fortschritten haben Deep Learning Language Models (LLM) in den letzten Jahren eine Hauptrolle gespielt, als Basis für Systeme wie ChatGPT, entwickelt von OpenAI, oder Gemini von Google, die heute täglich von Tausenden von Menschen als Werkzeuge zur Texterzeugung, automatischen Übersetzung, Informationsanalyse, unter anderem, verwendet werden.
Die Fähigkeit, Inhalte ähnlich wie ein Mensch zu verstehen und zu generieren, hat die Popularität dieser Plattformen in verschiedenen Industrien in die Höhe geschossen, aber ihre Nutzung bringt eine Kontroverse mit sich, die in den Vereinigten Staaten, wo Unternehmen wie Google (Eigentümer von YouTube), Meta und OpenAI ansässig sind, immer mehr an Bedeutung gewinnt, wegen des möglichen Missbrauchs von urheberrechtlich geschützten Inhalten zur Schulung ihrer Plattformen.
Die aktuelle Kontroverse
Die Debatte gewann an Bedeutung, seitdem im vergangenen November die New York Times OpenAI und Microsoft verklagte, nachdem entdeckt wurde, dass Millionen ihrer journalistischen Artikel verwendet worden waren, um Chatbots zu trainieren, die jetzt paradoxerweise eine direkte Konkurrenz für dieses Kommunikationsmedium darstellen, aufgrund der Verwendung von ChatGPT und ähnlichen Plattformen in Redaktionen weltweit zur Erstellung von Inhalten.
Die Klage der Times stützt sich auf die Funktionsweise der LLM und das Konzept ihrer “Trainings” mit textuellen Daten oder Tokens. Während jedes Trainings erhalten diese Modelle riesige Mengen an Informationen aus Büchern, Nachrichtenartikeln und im Allgemeinen Texten, die im Internet verfügbar sind.
“Dieser Prozess ist intensiv und benötigt eine große Menge an Rechenressourcen. Zudem sind die Qualität und Vielfalt der Trainingsdaten entscheidend für die endgültige Leistung des Modells. Deshalb suchen Technologieunternehmen oft Zugang zu großen Datenmengen, um ihre KI-Modelle zu speisen”, beschreibt OpenAI in seinem Blog.
An diesem Punkt betreten Technologieunternehmen eine rechtliche Grauzone bei der Verwendung urheberrechtlich geschützter Daten, Datenschutz der Nutzer und der potenziellen Erzeugung und Replikation von Vorurteilen und Verzerrungen.
Die Diskussion flammte dieses Wochenende auf, als die NY Times eine Untersuchung veröffentlichte, die enthüllte, dass OpenAI und Google im Jahr 2021 ihre KI-Modelle mit Transkriptionen von YouTube-Videos trainiert haben, deren Inhalt den Erstellern und YouTubern gehört und durch Googles eigene Richtlinien geschützt ist. Es wird sogar gesagt, dass das Rechtsteam dieses Unternehmens (Google) die Formulierung seiner Nutzungsbedingungen geändert hat, um sich von möglichen rechtlichen Verantwortlichkeiten für diese Praxis zu befreien.
Beim Training ihres berühmten ChatGPT stießen die Ingenieure von OpenAI auf ein Informationsversorgungsproblem, mit dem ihre Plattform verbessert werden sollte.
Zu diesem Zeitpunkt hatte das KI-Labor die Datenbanken, zu denen es Zugang hatte und die hauptsächlich auf den Codearchiv der Website GitHub, Datenbanken von Schachzügen sowie Highschool-Prüfungen und Aufgaben auf der Seite Quizlet beschränkt waren, ausgeschöpft.
Die Trainingsmethode mit großen Datenbanken basiert auf einer Veröffentlichung von Januar 2020 von Jared Kaplan, einem theoretischen Physiker der Johns Hopkins University, der einen Artikel veröffentlichte, der das Paradigma der KI veränderte und den Appetit auf Online-Daten anheizte. Seine Schlussfolgerung war, dass je mehr Daten vorhanden waren, um ein Sprachmodell zu trainieren, desto besser würde es funktionieren. Die Qualität des Inhalts war nicht mehr so wichtig wie die Menge.
“Jeder war sehr überrascht, dass diese Trends, diese Skalengesetze, wie wir sie nennen, im Grunde genauso präzise waren wie das, was man in der Astronomie oder Physik sieht”, bemerkt Dr. Kaplan im Text.
Verzweifelt, um mit dem Großtraining fortzufahren, beschloss OpenAI, ein Spracherkennungswerkzeug namens Whisper zu entwickeln, das sie verwendeten, um mehr als eine Million Stunden YouTube-Videos zu transkribieren, wie Mitarbeiter des Unternehmens gegenüber der New York Times offenbarten.
Laut der Untersuchung hätte der Präsident von OpenAI, Greg Brockman, persönlich an dem Prozess teilgenommen.
Die von Whisper generierten Texte wurden offenbar verwendet, um GPT-4 zu unterrichten, in einer Handlung, die den von YouTube festgelegten Richtlinien widerspricht, wie der CEO dieser Plattform, Neal Mohan, kürzlich erklärte.
Tage vor der Enthüllung durch die New York Times gab der Geschäftsführer ein Interview mit Bloomberg und machte deutlich, dass die Verwendung seiner Videos zum Trainieren einer KI eine “klare Verletzung” seiner Richtlinien wäre.
Interessanterweise bezog sich Mohan nicht auf Whisper, dessen Existenz erst am Samstag bekannt wurde, sondern auf eine andere Künstliche Intelligenz, die OpenAI demnächst herausbringen wird, genannt Sora, die dafür entwickelt wurde, realistische Videos aus textuellen Beschreibungen der Nutzer zu produzieren und die anscheinend mit YouTube-Videos trainiert wurde.
Weitere Zweifel und Kontroversen
Eine weitere Enthüllung der New York Times richtet das Augenmerk auf Google selbst, da Quellen mit Kenntnis der Materie behaupteten, dass Mitarbeiter von Google seit Monaten wussten, dass OpenAI YouTube-Videos gesammelt hatte, um Daten zu erhalten. Die Firma unternahm jedoch nichts, um sich vor der Verwendung ihrer Videoplattform zu schützen oder ihre Nutzer zu schützen, denn sie hatten ebenfalls Transkriptionen von YouTube-Videos verwendet, um ihre KI-Modelle (heute Bard genannt Gemini) zu trainieren, und dabei die Urheberrechte der Schöpfer ihrer Plattform verletzt.
“Wenn Google ein Aufsehen um OpenAI gemacht hätte, hätte das einen Bumerang-Effekt gegen ihre eigenen Methoden ausgelöst”, zitiert die Untersuchung der amerikanischen Zeitung.
Ende 2022, nachdem OpenAI ChatGPT eingeführt und ein frenetisches Rennen in dieser Branche ausgelöst hatte, diskutierten Google-Ingenieure, wie sie die Daten ihrer Nutzer am besten nutzen könnten, und überlegten, ob sie Milliarden von Wörtern in Google Docs, Google Sheets und anderen kostenlosen Anwendungen verwenden sollten. Die Datenschutzbeschränkungen des Unternehmens begrenzten jedoch, wie diese Daten verwendet werden konnten.
Die Lösung kam im Juni 2023, als die Rechtsabteilung von Google – mit ihrem Datenschutzteam – einen Text entwarf, der in ihre Nutzungsbedingungen aufgenommen wurde, um die Nutzung der Nutzerdaten durch das Unternehmen für ihre KI-Modelle und die Schaffung von Produkten und Funktionen wie Bard (jetzt Gemini) und KI-Fähigkeiten in der Cloud zu erweitern.
“Was ist das Endziel?”, sagt eine der internen E-Mails des Datenschutzteams. “Wie weit werden wir gehen?”, fragten sich die Google-Ingenieure selbst.
Diese Änderung blieb jedoch für die meisten Nutzer unbemerkt, da sie am Wochenende des 4. Juli, mitten im Unabhängigkeitstag-Feiertag in den Vereinigten Staaten, veröffentlicht wurde.
“Dies ist der größte Diebstahl in den Vereinigten Staaten, Punkt”, sagte kürzlich in einem Interview Justine Bateman, Filmemacherin und Autorin von zwei Büchern, die eine Beschwerde beim US-Urheberrechtsbüro einreichte, weil die KI-Modelle Inhalte, einschließlich ihrer Schriften und Filme, ohne Erlaubnis oder Bezahlung nutzen.
Meta, ein loses Rad
Das Sahnehäubchen ist Meta, früher bekannt als Facebook, ein weiteres Technologieunternehmen, das Große Sprachmodelle (LLM) und Künstliche Intelligenz entwickelt.
Die Untersuchung der amerikanischen Zeitung enthüllte, dass dieses Unternehmen sogar die Möglichkeit in Betracht gezogen hat, Verlage zu erwerben, um Zugang zu urheberrechtlich geschützten Werken zu erhalten, während es gleichzeitig Strategien erkundet, um öffentlich verfügbare Informationen online zu nutzen, ohne die Rechte der Schöpfer, das heißt, ihrer eigenen Nutzer, zu verletzen.
Außerdem hätten sie sich an das Internet gewandt, um eine große Menge an Daten zu sammeln, die sie für ihr noch in Entwicklung befindliches KI-System benötigen würden, ohne sich darum zu kümmern, ob diese Inhalte gesetzlich geschützt sind.
Um in diesem Rennen nicht zurückzufallen, hätte Mark Zuckerberg selbst sein Team gedrängt, diese Praxis zu wählen und die Kosten für Rechtsstreitigkeiten zu übernehmen, wie aus internen Aufnahmen hervorgeht, auf die das zitierte Medium Zugriff hatte.
Bis jetzt haben Google, OpenAI und Meta keine offiziellen Antworten auf diese Anschuldigungen gegeben, aber es wird bereits eine lange Kontroverse über das Gleichgewicht zwischen technologischer Innovation und dem Respekt vor individuellen Rechten und geistigem Eigentum erwartet.
Der Aufstieg der künstlichen Intelligenz hat eine Büchse der Pandora in der digitalen Welt geöffnet, die Debatte beginnt gerade erst.
No Responses