Mit der Verabschiedung des AI Act beginnt nun ein anspruchsvoller Zeitplan für sein Inkrafttreten. Zunächst muss die Verordnung noch vom Rat der Europäischen Union und dem Europäischen Parlament ratifiziert werden, was voraussichtlich erst nach dem ersten Quartal 2024 geschehen wird. Von da an gibt es zwei Geschwindigkeiten: Die Verbote für inakzeptable Fälle treten in sechs Monaten in Kraft; der Rest des Gesetzes innerhalb von zwei Jahren.
Diese Zeit ist Gold wert für alle Anbieter und Unternehmen, die Tools und Lösungen für künstliche Intelligenz entwickeln. Denn bis heute erfüllen die meisten großen KI-Modelle, die wir alle kennen, nicht die Anforderungen des letzten bekannten Gesetzentwurfs.
Forscher des Center for Research on Foundation Models der Stanford University haben in einer Analyse, die vor einigen Monaten durchgeführt und der Initiatorin des AI Act, Staatssekretärin Carme Artigas, vorgelegt wurde, die zehn führenden Foundation-Modelle – wie ChatGPT, Llama, Bard usw. – bewertet, um festzustellen, ob sie den Vorgaben entsprechen, die die europäischen Regulierungsbehörden in das Ökosystem einführen werden. Die Antwort war ein deutliches Nein.
Diese Anbieter geben selten ausreichende Informationen über die Herkunft ihrer Daten, die Berechnung und Implementierung ihrer Modelle sowie die Schlüsselmerkmale der Modelle selbst preis. Insbesondere erfüllen sie nicht die Anforderungen, die Nutzung von urheberrechtlich geschützten Daten in der Ausbildung, die verwendete Hardware und die während dieser Ausbildung erzeugten Emissionen zu beschreiben. Auch bei der Bewertung und Prüfung der Modelle entsprechen sie nicht den Anforderungen.
Die Forscher haben das Verhalten von OpenAIs GPT-4, Cohere, Stable, Claude 1, PaLM 2 (genutzt von Google Bard), BLOOM, Facebooks Llama, Jurassic-2, Luminous und GPT-NeoX verglichen. Von allen erreicht nur BLOOM (betrieben von Hugging Face) 75% der Anforderungen, die das europäische KI-Gesetz auferlegen wird. GPT-NeoX ist der zweite, ebenfalls relativ unbekannte Wettbewerber, der eine knapp bestandene Note erreicht, obwohl er bereits auf 60% der Erfüllung herabgesunken ist.
Was ist mit den berühmtesten Modellen? GPT-4, der Motor hinter dem beliebten ChatGPT, erhält eine knapp bestandene Note, da es nur 52% der Bedenken abdeckt, die von den europäischen Regulierungsbehörden geäußert wurden. PaLM 2 von Google Bard ist etwas besser, deckt aber auch nur knapp 56% aller Anforderungen Brüssels ab.
Von da an geht es zu den Durchfallern: Keines der zehn analysierten Modelle deckt auch nur die Hälfte der EU-Forderungen in dieser Angelegenheit ab. Zum Beispiel erreicht Llama, das generative KI-Modell von Meta (ehemals Facebook), nur 44% der Erfüllung, so die Stanford-Experten. Sogar Claude 1, das Modell, das von Anthropic genau als Reaktion auf ein erhöhtes Bewusstsein und Verantwortung im Umgang mit KI entwickelt wurde, fällt dramatisch durch, indem es nur 15% der Anforderungen des neuen Standards erfüllt.
“Unsere Ergebnisse zeigen eine bemerkenswerte Bandbreite in der Einhaltung durch die Modellanbieter: Einige Anbieter erreichen weniger als 25% (AI21 Labs, Aleph Alpha, Anthropic) und nur ein Anbieter erreicht mindestens 75% (Hugging Face/BigScience) derzeit. Selbst für die Anbieter mit den höchsten Punktzahlen gibt es noch erheblichen Spielraum für Verbesserungen. Dies bestätigt, dass das Gesetz eine signifikante Veränderung im Ökosystem bewirken wird, indem es erhebliche Fortschritte in Richtung größerer Transparenz und Verantwortung erzielt”, schließen die Forscher von Stanford.
Offene ‘vs’ geschlossene Modelle
Die Stanford-Experten haben auch eine klare Dichotomie in der Erfüllung der EU-Anforderungen beobachtet, abhängig von der Veröffentlichungsstrategie. Obwohl diese Strategien nicht binär sind und auf einem Spektrum existieren, betrachten sie aus Gründen der Einfachheit offene Modelle (z. B. GPT-NeoX von EleutherAI, BLOOM von Hugging Face/BigScience, LLaMA von Meta) im Vergleich zu eingeschränkten/geschlossenen Produkten (wie PaLM 2 von Google, GPT-4 von OpenAI, Claude von Anthropic).
Und ihr Fazit ist klar: Offene Vorschläge erreichen in der Regel hohe Punktzahlen bei den Anforderungen zur Offenlegung von Ressourcen (sowohl bezüglich der Datenherkunft als auch der Berechnung), wobei EleutherAI in diesen Kategorien nahezu perfekte Punktzahlen erhält. Solche offenen Veröffentlichungen stellen jedoch Herausforderungen bei der Überwachung oder Kontrolle ihrer Implementierung dar, während eingeschränktere/geschlossene Veröffentlichungen zu besseren Punktzahlen bei implementierungsbezogenen Anforderungen führen. Beispielsweise erhält PaLM 2 von Google 11/12/2023 bei der Implementierung.
No Responses