Wenn du einen Chatbot benutzt, warum verwendest du diesen und nicht einen anderen? Es ist eine einfache Frage, aber die Antwort wird kaum endgültig sein. Normalerweise antworten die Nutzer, dass sie den Chatbot X (sei es ChatGPT, Copilot, Gemini, Claude oder ein anderer) verwenden, weil er für ihre Zwecke gut funktioniert, aber die Frage bleibt offen. Gibt es einen besseren für das, was ich machen möchte?
Es ist merkwürdig, dass wir das bis heute nicht wissen. Es gibt viele Benchmarks, die versuchen, die Leistung dieser KI-Modelle zu bewerten, aber was diese Tests uns sagen und was die tatsächliche Erfahrung zeigt, kann sehr unterschiedlich sein. Was für die einen eine gute Antwort ist, mag für andere nicht zutreffen, und jede Situation ändert sich, weil Chatbots nicht immer genau dasselbe antworten, wenn wir sie fragen.
In der New York Times wurde betont, wie oft ein Unternehmen sein neues KI-Modell mit subjektiven und schwer zu überprüfenden Behauptungen vorstellt, wie zum Beispiel, dass es “verbesserte Fähigkeiten” hat, ohne zu spezifizieren, warum.
Das ist ein echtes Problem der Branche. Wir wissen nicht, ob Gemini besser Code schreibt als ChatGPT oder Copilot. Oder ob ChatGPT Plus, das kostenpflichtig ist, wirklich die Qualität seiner Antworten wert ist. Oder welches Bildgenerierungsmodell besser darin ist, realistische Gesichter von Menschen zu erstellen, obwohl hier Subjektivität und persönliche Meinungen eine noch größere Rolle spielen.
Der A.I. Index, eine interessante aktuelle Studie des Institutes für auf den Menschen zentrierte KI an der Universität Stanford, betont genau dies im zweiten Abschnitt, in dem es um die technische Leistung der Modelle geht.
Die Forscher, die diesen umfassenden Bericht erstellt haben – leicht zu lesen und zu verstehen durch die Betonung des Visuellen – machten zunächst deutlich, dass Künstliche Intelligenz den Menschen in einigen Aufgaben überlegen ist, aber nicht in allen.
Dann wurde klar gemacht, dass die aktuellen KI-Modelle die derzeitigen Tests bereits sättigen. ImageNet, SQuAD oder SuperGLUE, die bis vor kurzem gute Maßstäbe für KI-Modelle waren, sind nicht mehr ausreichend: die Modelle sind einfach zu gut geworden.
Was jetzt gemacht wird, ist das Erstellen noch anspruchsvollerer Tests, wie SWE-bench für die Codegenerierung, HEIM für die Bildgenerierung, MMMU für allgemeines Reasoning, MoCa für moralisches Reasoning, AgentBench für das Verhalten von KI-Agenten und HaluEval, um zu analysieren, ob die Modelle “halluzinieren”.
Es gibt auch eine Metrik, die für die Nutzer immer wichtiger wird. Eine, die nicht synthetisch als solche ist, sondern sich gerade auf die Bewertung stützt, die wir Menschen diesen Modellen geben.
Ein Modell kann in einem Textgenerierungs-Benchmark sehr hoch punkten, aber was hält ein Nutzer davon, der es verwendet? Systeme wie Chatbot Arena Leaderboard, die das “öffentliche Gefühl” über einen Chatbot registrieren — jeder kann für seinen bevorzugten Chatbot stimmen —, werden immer relevanter, um zu überwachen, wie und wie viel diese KI-Modelle fortschreiten.
Das sahen wir kürzlich, als Claude 3 Opus erschien. Das neue Modell von Anthropic verhielt sich in Benchmarks so, dass es sogar GPT-4 — bis jetzt die Referenz — in einigen “synthetischen” Szenarien zu übertreffen schien. Wichtig war jedoch, dass es GPT-4 in der ELO-Bewertung auf dem genannten Chatbot Arena Leaderboard übertraf — inzwischen hat GPT-4 den Thron zurückerobert —, was im Grunde eine Sache bedeutete.
Die Leute “bevorzugen” Claude 3 Opus gegenüber GPT-4. Sie haben das Gefühl, dass es besser ist.
Das wird immer mehr zu einer Art, einem Chatbot zu “vertrauen” und nicht einem anderen. In der Welt der Prozessoren geben Benchmarks oft eine sehr klare Vorstellung davon, was wir von ihnen erwarten können. Es ist wahr, dass synthetische Tests auch eine Referenz sind und möglicherweise nicht genau mit der endgültigen Erfahrung übereinstimmen, aber wir können diesen Ergebnissen ziemlich vertrauen.
Mit KI-Modellen ist das nicht so klar, und das ist ein Problem. Eines, das anscheinend vorerst sehr schwer zu lösen sein wird.
No Responses