Es gibt keinen zuverlässigen Weg zu wissen, ob ChatGPT besser ist als Gemini, Copilot oder Claude

Wenn du einen Chatbot benutzt, warum verwendest du diesen und nicht einen anderen? Es ist eine einfache Frage, aber die Antwort wird kaum endgültig sein. Normalerweise antworten die Nutzer, dass sie den Chatbot X (sei es ChatGPT, Copilot, Gemini, Claude oder ein anderer) verwenden, weil er für ihre Zwecke gut funktioniert, aber die Frage bleibt offen. Gibt es einen besseren für das, was ich machen möchte?

Es ist merkwürdig, dass wir das bis heute nicht wissen. Es gibt viele Benchmarks, die versuchen, die Leistung dieser KI-Modelle zu bewerten, aber was diese Tests uns sagen und was die tatsächliche Erfahrung zeigt, kann sehr unterschiedlich sein. Was für die einen eine gute Antwort ist, mag für andere nicht zutreffen, und jede Situation ändert sich, weil Chatbots nicht immer genau dasselbe antworten, wenn wir sie fragen.

In der New York Times wurde betont, wie oft ein Unternehmen sein neues KI-Modell mit subjektiven und schwer zu überprüfenden Behauptungen vorstellt, wie zum Beispiel, dass es “verbesserte Fähigkeiten” hat, ohne zu spezifizieren, warum.

Das ist ein echtes Problem der Branche. Wir wissen nicht, ob Gemini besser Code schreibt als ChatGPT oder Copilot. Oder ob ChatGPT Plus, das kostenpflichtig ist, wirklich die Qualität seiner Antworten wert ist. Oder welches Bildgenerierungsmodell besser darin ist, realistische Gesichter von Menschen zu erstellen, obwohl hier Subjektivität und persönliche Meinungen eine noch größere Rolle spielen.

Der A.I. Index, eine interessante aktuelle Studie des Institutes für auf den Menschen zentrierte KI an der Universität Stanford, betont genau dies im zweiten Abschnitt, in dem es um die technische Leistung der Modelle geht.

Die Forscher, die diesen umfassenden Bericht erstellt haben – leicht zu lesen und zu verstehen durch die Betonung des Visuellen – machten zunächst deutlich, dass Künstliche Intelligenz den Menschen in einigen Aufgaben überlegen ist, aber nicht in allen.

Dann wurde klar gemacht, dass die aktuellen KI-Modelle die derzeitigen Tests bereits sättigen. ImageNet, SQuAD oder SuperGLUE, die bis vor kurzem gute Maßstäbe für KI-Modelle waren, sind nicht mehr ausreichend: die Modelle sind einfach zu gut geworden.

Was jetzt gemacht wird, ist das Erstellen noch anspruchsvollerer Tests, wie SWE-bench für die Codegenerierung, HEIM für die Bildgenerierung, MMMU für allgemeines Reasoning, MoCa für moralisches Reasoning, AgentBench für das Verhalten von KI-Agenten und HaluEval, um zu analysieren, ob die Modelle “halluzinieren”.

Es gibt keinen zuverlässigen Weg zu wissen, ob ChatGPT besser ist als Gemini, Copilot oder Claude

Es gibt auch eine Metrik, die für die Nutzer immer wichtiger wird. Eine, die nicht synthetisch als solche ist, sondern sich gerade auf die Bewertung stützt, die wir Menschen diesen Modellen geben.

Ein Modell kann in einem Textgenerierungs-Benchmark sehr hoch punkten, aber was hält ein Nutzer davon, der es verwendet? Systeme wie Chatbot Arena Leaderboard, die das “öffentliche Gefühl” über einen Chatbot registrieren — jeder kann für seinen bevorzugten Chatbot stimmen —, werden immer relevanter, um zu überwachen, wie und wie viel diese KI-Modelle fortschreiten.

Das sahen wir kürzlich, als Claude 3 Opus erschien. Das neue Modell von Anthropic verhielt sich in Benchmarks so, dass es sogar GPT-4 — bis jetzt die Referenz — in einigen “synthetischen” Szenarien zu übertreffen schien. Wichtig war jedoch, dass es GPT-4 in der ELO-Bewertung auf dem genannten Chatbot Arena Leaderboard übertraf — inzwischen hat GPT-4 den Thron zurückerobert —, was im Grunde eine Sache bedeutete.

Die Leute “bevorzugen” Claude 3 Opus gegenüber GPT-4. Sie haben das Gefühl, dass es besser ist.

Das wird immer mehr zu einer Art, einem Chatbot zu “vertrauen” und nicht einem anderen. In der Welt der Prozessoren geben Benchmarks oft eine sehr klare Vorstellung davon, was wir von ihnen erwarten können. Es ist wahr, dass synthetische Tests auch eine Referenz sind und möglicherweise nicht genau mit der endgültigen Erfahrung übereinstimmen, aber wir können diesen Ergebnissen ziemlich vertrauen.

Mit KI-Modellen ist das nicht so klar, und das ist ein Problem. Eines, das anscheinend vorerst sehr schwer zu lösen sein wird.

Tags:

No Responses

Leave a Reply

Your email address will not be published. Required fields are marked *

BLOG

GPT-5 und größerer Kontext

Während die Technologie mit atemberaubender Geschwindigkeit voranschreitet, sticht die künstliche Intelligenz als eine der faszinierendsten Grenzen der Innovation hervor. Inmitten dieses technologischen Wirbels taucht GPT-5, die neueste Iteration des Sprachmodells von OpenAI, als ein Thema heißer Erwartungen auf. Diese neue Version des bereits beeindruckenden GPT-4 verspricht, die Fähigkeit von Maschinen, menschliche Sprache zu verstehen und […]

Wie man ChatGPT verwendet, um Ihre Texte zusammenzufassen und umzuschreiben

In der heutigen Zeit ist die Fähigkeit, originelle und relevante Inhalte zu produzieren, unerlässlich, besonders wenn man sich inmitten der riesigen Menge an Informationen im Internet hervorheben möchte. Der Fortschritt der künstlichen Intelligenz (KI) hat Werkzeuge wie ChatGPT Talk hervorgebracht, die den Prozess des Umschreibens und Zusammenfassens von Texten nicht nur schneller, sondern auch dynamischer […]

Maximieren Sie Ihren Gewinn: So verdienen Sie mit der Chat-GPT-Technologie

Einführung: Wie man mit Chat-GPT Geld verdient Im ständig fortschreitenden Bereich der künstlichen Intelligenz und des maschinellen Lernens taucht ein Begriff immer wieder auf: GPT oder Generative Pre-Trained Transformers. Einfach ausgedrückt, GPT ist ein wesentlicher Bestandteil von KI-Modellen und darauf spezialisiert, menschenähnlichen Text zu verstehen und zu erzeugen. Die dynamischen Fortschritte in diesem Bereich haben […]

Navigieren in der Co-Evolution von KI und Menschheit

Die KI verwandelt uns von Schöpfern und Antwortenden in Kuratoren und Fragesteller. In diesem provokativen Gespräch mit Peter Deng, VP für Verbraucherprodukte und Leiter von ChatGPT bei OpenAI, werden wir die Rolle der Menschen im Zeitalter der KI erkunden. Was sind die praktischen und philosophischen Implikationen der KI? Wie wird sie unsere Wahrnehmung von uns […]

Entdecken Sie die 6 besten Möglichkeiten, Chat GPT jetzt zu nutzen, um online Geld zu verdienen!

Einführung in die Nutzung von Chat GPT zur Gewinnmaximierung Unsere Einführung in die Gewinnmaximierung mit den besten Methoden des Generativen Vortrainierten Transformators (GPT) enthüllt revolutionäre Innovationen in der künstlichen Intelligenz, die den E-Commerce und den Kundenservice revolutionieren. Die vielfältigen Anwendungen des GPT umfassen unter anderem Chatbots und die Textgenerierung. Die besten Wege, um Chat GPT […]

Prompt-Techniken Wie man das Beste aus künstlicher Intelligenz herausholt

Prompt-Techniken: Wie man das Beste aus künstlicher Intelligenz herausholt

Generative Künstliche Intelligenz, wie ChatGPT, Gemini, DALL-E, Midjourney oder Stable Diffusion, sind fortschrittliche Technologien, die in der Lage sind, Texte, Dokumente, Mindmaps, Tabellen, Kalkulationstabellen, Präsentationen, Bilder oder Videos zu erstellen. Sie benötigen jedoch präzise Anleitungen, klare, direkte Vorgaben und ausreichende Informationen, um das bestmögliche Ergebnis zu erzielen. Diese Anweisungen oder Leitfäden werden als Prompts bezeichnet, […]