Es gibt keinen zuverlässigen Weg zu wissen, ob ChatGPT besser ist als Gemini, Copilot oder Claude

Wenn du einen Chatbot benutzt, warum verwendest du diesen und nicht einen anderen? Es ist eine einfache Frage, aber die Antwort wird kaum endgültig sein. Normalerweise antworten die Nutzer, dass sie den Chatbot X (sei es ChatGPT, Copilot, Gemini, Claude oder ein anderer) verwenden, weil er für ihre Zwecke gut funktioniert, aber die Frage bleibt offen. Gibt es einen besseren für das, was ich machen möchte?

Es ist merkwürdig, dass wir das bis heute nicht wissen. Es gibt viele Benchmarks, die versuchen, die Leistung dieser KI-Modelle zu bewerten, aber was diese Tests uns sagen und was die tatsächliche Erfahrung zeigt, kann sehr unterschiedlich sein. Was für die einen eine gute Antwort ist, mag für andere nicht zutreffen, und jede Situation ändert sich, weil Chatbots nicht immer genau dasselbe antworten, wenn wir sie fragen.

In der New York Times wurde betont, wie oft ein Unternehmen sein neues KI-Modell mit subjektiven und schwer zu überprüfenden Behauptungen vorstellt, wie zum Beispiel, dass es “verbesserte Fähigkeiten” hat, ohne zu spezifizieren, warum.

Das ist ein echtes Problem der Branche. Wir wissen nicht, ob Gemini besser Code schreibt als ChatGPT oder Copilot. Oder ob ChatGPT Plus, das kostenpflichtig ist, wirklich die Qualität seiner Antworten wert ist. Oder welches Bildgenerierungsmodell besser darin ist, realistische Gesichter von Menschen zu erstellen, obwohl hier Subjektivität und persönliche Meinungen eine noch größere Rolle spielen.

Der A.I. Index, eine interessante aktuelle Studie des Institutes für auf den Menschen zentrierte KI an der Universität Stanford, betont genau dies im zweiten Abschnitt, in dem es um die technische Leistung der Modelle geht.

Die Forscher, die diesen umfassenden Bericht erstellt haben – leicht zu lesen und zu verstehen durch die Betonung des Visuellen – machten zunächst deutlich, dass Künstliche Intelligenz den Menschen in einigen Aufgaben überlegen ist, aber nicht in allen.

Dann wurde klar gemacht, dass die aktuellen KI-Modelle die derzeitigen Tests bereits sättigen. ImageNet, SQuAD oder SuperGLUE, die bis vor kurzem gute Maßstäbe für KI-Modelle waren, sind nicht mehr ausreichend: die Modelle sind einfach zu gut geworden.

Was jetzt gemacht wird, ist das Erstellen noch anspruchsvollerer Tests, wie SWE-bench für die Codegenerierung, HEIM für die Bildgenerierung, MMMU für allgemeines Reasoning, MoCa für moralisches Reasoning, AgentBench für das Verhalten von KI-Agenten und HaluEval, um zu analysieren, ob die Modelle “halluzinieren”.

Es gibt keinen zuverlässigen Weg zu wissen, ob ChatGPT besser ist als Gemini, Copilot oder Claude

Es gibt auch eine Metrik, die für die Nutzer immer wichtiger wird. Eine, die nicht synthetisch als solche ist, sondern sich gerade auf die Bewertung stützt, die wir Menschen diesen Modellen geben.

Ein Modell kann in einem Textgenerierungs-Benchmark sehr hoch punkten, aber was hält ein Nutzer davon, der es verwendet? Systeme wie Chatbot Arena Leaderboard, die das “öffentliche Gefühl” über einen Chatbot registrieren — jeder kann für seinen bevorzugten Chatbot stimmen —, werden immer relevanter, um zu überwachen, wie und wie viel diese KI-Modelle fortschreiten.

Das sahen wir kürzlich, als Claude 3 Opus erschien. Das neue Modell von Anthropic verhielt sich in Benchmarks so, dass es sogar GPT-4 — bis jetzt die Referenz — in einigen “synthetischen” Szenarien zu übertreffen schien. Wichtig war jedoch, dass es GPT-4 in der ELO-Bewertung auf dem genannten Chatbot Arena Leaderboard übertraf — inzwischen hat GPT-4 den Thron zurückerobert —, was im Grunde eine Sache bedeutete.

Die Leute “bevorzugen” Claude 3 Opus gegenüber GPT-4. Sie haben das Gefühl, dass es besser ist.

Das wird immer mehr zu einer Art, einem Chatbot zu “vertrauen” und nicht einem anderen. In der Welt der Prozessoren geben Benchmarks oft eine sehr klare Vorstellung davon, was wir von ihnen erwarten können. Es ist wahr, dass synthetische Tests auch eine Referenz sind und möglicherweise nicht genau mit der endgültigen Erfahrung übereinstimmen, aber wir können diesen Ergebnissen ziemlich vertrauen.

Mit KI-Modellen ist das nicht so klar, und das ist ein Problem. Eines, das anscheinend vorerst sehr schwer zu lösen sein wird.

Bewerte Diese Seite

Tags:

No Responses

Leave a Reply

Your email address will not be published. Required fields are marked *

BLOG

Prompt-Techniken Wie man das Beste aus künstlicher Intelligenz herausholt

Prompt-Techniken: Wie man das Beste aus künstlicher Intelligenz herausholt

Generative Künstliche Intelligenz, wie ChatGPT, Gemini, DALL-E, Midjourney oder Stable Diffusion, sind fortschrittliche Technologien, die in der Lage sind, Texte, Dokumente, Mindmaps, Tabellen, Kalkulationstabellen, Präsentationen, Bilder oder Videos zu erstellen. Sie benötigen jedoch präzise Anleitungen, klare, direkte Vorgaben und ausreichende Informationen, um das bestmögliche Ergebnis zu erzielen. Diese Anweisungen oder Leitfäden werden als Prompts bezeichnet, […]

Krankenschwestern in den USA protestieren gegen den Einsatz von KI in Krankenhäusern

Krankenschwestern in den USA protestieren gegen den Einsatz von KI in Krankenhäusern

Die Gewerkschaft “National Nurses United” erklärt in einer Mitteilung, dass künstliche Intelligenz (KI) keine “Lebens- oder Todesentscheidungen” ohne menschliche Bewertung und kritisches Denken treffen kann. Künstliche Intelligenz hat seit der Einführung von ChatGPT Ende 2022 unser Leben verändert, und seitdem haben die KI-Modelle verschiedener Technologieunternehmen – wie OpenAI, Meta, Microsoft, Google oder Apple – ihre […]

Funcas befürchtet dass ChatGPT Kundendaten der Banken stehlen könnte

Funcas befürchtet dass ChatGPT Kundendaten der Banken stehlen könnte

Die Stiftung der Sparkassen (Funcas) hat die Banken vor dem Einsatz von generativer Künstlicher Intelligenz (GenAI) wie ChatGPT gewarnt, wegen der Gefahr, die diese beim Schutz vertraulicher Kundendaten darstellen könnte. Insbesondere empfiehlt die Organisation dem Finanzsektor, eigene Programme mit dieser Technologie zu entwickeln, um Lecks zu verhindern und die Vertraulichkeit sicherer zu bewahren. Laut Funcas […]

Empfiehlt den Einsatz von ChatGPT in Tausenden wissenschaftlichen Studien

Empfiehlt den Einsatz von ChatGPT in Tausenden wissenschaftlichen Studien

Der Bibliothekar Andrew Gray machte eine “sehr überraschende” Entdeckung. Er analysierte fünf Millionen wissenschaftliche Studien, die im letzten Jahr veröffentlicht wurden, und stellte einen plötzlichen Anstieg in der Verwendung bestimmter Wörter fest, wie “meticulously” (um 137% mehr), “intricate” (117%), “commendable” (83%) und “meticulous” (59%), in ihren englischen Versionen. Gray, vom University College London, sieht nur […]

Googles KI holt gegenüber ChatGPT auf Gemini Pro 1.5 steigt auf ein neues Niveau

Googles KI holt gegenüber ChatGPT auf: Gemini Pro 1.5 steigt auf ein neues Niveau

Google kann auf seinem Weg, den Thron der künstlichen Intelligenz zurückzugewinnen, nicht aufgehalten werden, denn sein Prestige steht dabei auf dem Spiel. Obwohl wir die riesige Menge an Überraschungen, die uns beim nächsten Google I/O erwarten, noch nicht kennen, hat das Unternehmen bereits einen großen Teil seiner aktuellen Modelle weiterentwickelt. Es plant sogar, Gmail durch […]

Skoda beginnt mit der Herstellung des überarbeiteten Octavia mit integrierter ChatGPT

Skoda beginnt mit der Herstellung des überarbeiteten Octavia mit integrierter ChatGPT

Skoda hat die Serienproduktion des überarbeiteten Octavia in seinem Hauptwerk in Mladá Boleslav gestartet. Die aktualisierte vierte Generation des Bestsellers der Marke bietet einen neu gestalteten Skoda-Kühlergrill, neue Matrix-LED-Scheinwerfer der zweiten Generation und die Integration von ChatGPT in die Sprachassistenten des Fahrzeugs, unter anderem Verbesserungen. Mit der Verlagerung der Octavia-Produktion Ende dieses Jahres nach Kvasiny […]