Die Rivalen von GPT-4 haben es nie geschafft ihm die Stirn zu bieten

OpenAI ha dominado con mano de hierro el segmento de los modelos de IA generativa de texto. Desde que lanzó ChatGPT, la capacidad de su chatbot ha estado siempre por encima de sus competidores, que lo utilizaban como vara de medir: cada vez que salía un nuevo chatbot, este prometía que era mejor que ChatGPT según ciertos benchmarks.

Lo cierto es que aunque en pruebas sintéticas eso podía ser verdad, la experiencia de usuario decía lo contrario. La primera versión de ChatGPT, basada en GPT-3.5, ya mostraba sus poderes desde el principio, pero fue el lanzamiento de GPT-4 (usado en ChatGPT Plus y base también de Copilot, antes Bing Chat) el que puso claramente el LLM de OpenAI por encima del resto. Los demás iban a la zaga, y aunque mejoraban, no lograban “transmitir” un mejor comportamiento cuando los usábamos.

Eso acaba de cambiar según Chatbot Arena, un ranking cada vez más prestigioso que fue creado por la organización Large Model Systems (LMSYS ORG) en colaboración con varias instituciones académicas. Su calificación y clasificación de grandes modelos de lenguaje se ha convertido en todo un referente, y lo es porque es especialmente distinto de otras herramientas de este tipo.

Lo que se hace en Chatbot Arena es permitir que los usuarios voten por el modelo que mejor responde a sus consultas. Cualquiera puede participar, y gracias a ello este ranking permite tener en cuenta no solo parámetros técnicos de modelos como GPT-4, sino también la experiencia de usuario que ofrece. Así, lo que los usuarios piensan de cada chatbot acaba siendo tan importante como lo que dicen las pruebas sintéticas. O más.

Y como comentan nuestros compañeros de Genbeta, los votos de 400.000 usuarios han permitido dejar claro que hoy por hoy GPT-4 ha sido superado. Lo ha sido por Claude 3 Opus, el modelo que la firma Anthropic presentó hace pocas semanas y que es (por poco) el ganador en esa particular puntuación ELO —un concepto adaptado del mundo del ajedrez— que en Chatbot Arena asignan a cada modelo.

GPT-4

Es cierto que la diferencia con GPT-4 es muy pequeña, pero aún así esto representa un singular punto de inflexión que demuestra que hay una sana competencia en el mundo de los chatbots. Gemini Pro es el cuarto clasificado, mientras que Mistral, el chatbot de la startup francesa, ocupa la octava plaza. Es cierto que las variantes de GPT-4 copan el ranking, pero aún así el avance aquí de Anthropic es una excelente noticia para la competitividad en este mercado.

Otros estudios recientes parecen confirmar el auge de Claude 3. Lo hace por ejemplo el llamado Berkeley Function-Calling Leaderboard (BFCL), un nuevo conjunto de pruebas que no evalúan el comportamiento de preguntas y respuestas de los chatbots, sino su capacidad para convertirse en la base de los futuros y cada vez más populares agentes de IA.

En este benchmark Claude 3 Opus fue superior a GPT-4, que una vez más dominó el ranking aunque también se metía en esa particular clasificación Mistral. Parece por tanto que esa capacidad de “conectarse” con otros servicios a través de funciones en lenguajes como Java, JavaScript, Python, consultas SQL o llamadas a APIs REST es especialmente destacable en el modelo de Anthropic, que desde luego tiene un futuro prometedor.

Estos rankings, eso sí, no pararán de cambiar a corto y medio plazo: la evolución de estos LLMs sigue siendo frenética y de hecho los indicios apuntan a que GPT-5 está a la vuelta de la esquina. Mientras, los modelos que aprovechan licencias Open Source como Llama 2 o Grok —que acaba de estrenarse en ese apartado— podrían también comenzar a ganar enteros en todos estos apartados.

Bewerte Diese Seite

Tags:

No Responses

Leave a Reply

Your email address will not be published. Required fields are marked *

BLOG

Prompt-Techniken Wie man das Beste aus künstlicher Intelligenz herausholt

Prompt-Techniken: Wie man das Beste aus künstlicher Intelligenz herausholt

Generative Künstliche Intelligenz, wie ChatGPT, Gemini, DALL-E, Midjourney oder Stable Diffusion, sind fortschrittliche Technologien, die in der Lage sind, Texte, Dokumente, Mindmaps, Tabellen, Kalkulationstabellen, Präsentationen, Bilder oder Videos zu erstellen. Sie benötigen jedoch präzise Anleitungen, klare, direkte Vorgaben und ausreichende Informationen, um das bestmögliche Ergebnis zu erzielen. Diese Anweisungen oder Leitfäden werden als Prompts bezeichnet, […]

Krankenschwestern in den USA protestieren gegen den Einsatz von KI in Krankenhäusern

Krankenschwestern in den USA protestieren gegen den Einsatz von KI in Krankenhäusern

Die Gewerkschaft “National Nurses United” erklärt in einer Mitteilung, dass künstliche Intelligenz (KI) keine “Lebens- oder Todesentscheidungen” ohne menschliche Bewertung und kritisches Denken treffen kann. Künstliche Intelligenz hat seit der Einführung von ChatGPT Ende 2022 unser Leben verändert, und seitdem haben die KI-Modelle verschiedener Technologieunternehmen – wie OpenAI, Meta, Microsoft, Google oder Apple – ihre […]

Funcas befürchtet dass ChatGPT Kundendaten der Banken stehlen könnte

Funcas befürchtet dass ChatGPT Kundendaten der Banken stehlen könnte

Die Stiftung der Sparkassen (Funcas) hat die Banken vor dem Einsatz von generativer Künstlicher Intelligenz (GenAI) wie ChatGPT gewarnt, wegen der Gefahr, die diese beim Schutz vertraulicher Kundendaten darstellen könnte. Insbesondere empfiehlt die Organisation dem Finanzsektor, eigene Programme mit dieser Technologie zu entwickeln, um Lecks zu verhindern und die Vertraulichkeit sicherer zu bewahren. Laut Funcas […]

Empfiehlt den Einsatz von ChatGPT in Tausenden wissenschaftlichen Studien

Empfiehlt den Einsatz von ChatGPT in Tausenden wissenschaftlichen Studien

Der Bibliothekar Andrew Gray machte eine “sehr überraschende” Entdeckung. Er analysierte fünf Millionen wissenschaftliche Studien, die im letzten Jahr veröffentlicht wurden, und stellte einen plötzlichen Anstieg in der Verwendung bestimmter Wörter fest, wie “meticulously” (um 137% mehr), “intricate” (117%), “commendable” (83%) und “meticulous” (59%), in ihren englischen Versionen. Gray, vom University College London, sieht nur […]

Googles KI holt gegenüber ChatGPT auf Gemini Pro 1.5 steigt auf ein neues Niveau

Googles KI holt gegenüber ChatGPT auf: Gemini Pro 1.5 steigt auf ein neues Niveau

Google kann auf seinem Weg, den Thron der künstlichen Intelligenz zurückzugewinnen, nicht aufgehalten werden, denn sein Prestige steht dabei auf dem Spiel. Obwohl wir die riesige Menge an Überraschungen, die uns beim nächsten Google I/O erwarten, noch nicht kennen, hat das Unternehmen bereits einen großen Teil seiner aktuellen Modelle weiterentwickelt. Es plant sogar, Gmail durch […]

Skoda beginnt mit der Herstellung des überarbeiteten Octavia mit integrierter ChatGPT

Skoda beginnt mit der Herstellung des überarbeiteten Octavia mit integrierter ChatGPT

Skoda hat die Serienproduktion des überarbeiteten Octavia in seinem Hauptwerk in Mladá Boleslav gestartet. Die aktualisierte vierte Generation des Bestsellers der Marke bietet einen neu gestalteten Skoda-Kühlergrill, neue Matrix-LED-Scheinwerfer der zweiten Generation und die Integration von ChatGPT in die Sprachassistenten des Fahrzeugs, unter anderem Verbesserungen. Mit der Verlagerung der Octavia-Produktion Ende dieses Jahres nach Kvasiny […]