Die Rivalen von GPT-4 haben es nie geschafft ihm die Stirn zu bieten

OpenAI ha dominado con mano de hierro el segmento de los modelos de IA generativa de texto. Desde que lanzó ChatGPT, la capacidad de su chatbot ha estado siempre por encima de sus competidores, que lo utilizaban como vara de medir: cada vez que salía un nuevo chatbot, este prometía que era mejor que ChatGPT según ciertos benchmarks.

Lo cierto es que aunque en pruebas sintéticas eso podía ser verdad, la experiencia de usuario decía lo contrario. La primera versión de ChatGPT, basada en GPT-3.5, ya mostraba sus poderes desde el principio, pero fue el lanzamiento de GPT-4 (usado en ChatGPT Plus y base también de Copilot, antes Bing Chat) el que puso claramente el LLM de OpenAI por encima del resto. Los demás iban a la zaga, y aunque mejoraban, no lograban “transmitir” un mejor comportamiento cuando los usábamos.

Eso acaba de cambiar según Chatbot Arena, un ranking cada vez más prestigioso que fue creado por la organización Large Model Systems (LMSYS ORG) en colaboración con varias instituciones académicas. Su calificación y clasificación de grandes modelos de lenguaje se ha convertido en todo un referente, y lo es porque es especialmente distinto de otras herramientas de este tipo.

Lo que se hace en Chatbot Arena es permitir que los usuarios voten por el modelo que mejor responde a sus consultas. Cualquiera puede participar, y gracias a ello este ranking permite tener en cuenta no solo parámetros técnicos de modelos como GPT-4, sino también la experiencia de usuario que ofrece. Así, lo que los usuarios piensan de cada chatbot acaba siendo tan importante como lo que dicen las pruebas sintéticas. O más.

Y como comentan nuestros compañeros de Genbeta, los votos de 400.000 usuarios han permitido dejar claro que hoy por hoy GPT-4 ha sido superado. Lo ha sido por Claude 3 Opus, el modelo que la firma Anthropic presentó hace pocas semanas y que es (por poco) el ganador en esa particular puntuación ELO —un concepto adaptado del mundo del ajedrez— que en Chatbot Arena asignan a cada modelo.

GPT-4

Es cierto que la diferencia con GPT-4 es muy pequeña, pero aún así esto representa un singular punto de inflexión que demuestra que hay una sana competencia en el mundo de los chatbots. Gemini Pro es el cuarto clasificado, mientras que Mistral, el chatbot de la startup francesa, ocupa la octava plaza. Es cierto que las variantes de GPT-4 copan el ranking, pero aún así el avance aquí de Anthropic es una excelente noticia para la competitividad en este mercado.

Otros estudios recientes parecen confirmar el auge de Claude 3. Lo hace por ejemplo el llamado Berkeley Function-Calling Leaderboard (BFCL), un nuevo conjunto de pruebas que no evalúan el comportamiento de preguntas y respuestas de los chatbots, sino su capacidad para convertirse en la base de los futuros y cada vez más populares agentes de IA.

En este benchmark Claude 3 Opus fue superior a GPT-4, que una vez más dominó el ranking aunque también se metía en esa particular clasificación Mistral. Parece por tanto que esa capacidad de “conectarse” con otros servicios a través de funciones en lenguajes como Java, JavaScript, Python, consultas SQL o llamadas a APIs REST es especialmente destacable en el modelo de Anthropic, que desde luego tiene un futuro prometedor.

Estos rankings, eso sí, no pararán de cambiar a corto y medio plazo: la evolución de estos LLMs sigue siendo frenética y de hecho los indicios apuntan a que GPT-5 está a la vuelta de la esquina. Mientras, los modelos que aprovechan licencias Open Source como Llama 2 o Grok —que acaba de estrenarse en ese apartado— podrían también comenzar a ganar enteros en todos estos apartados.

Tags:

No Responses

Leave a Reply

Your email address will not be published. Required fields are marked *

BLOG

GPT-5 und größerer Kontext

Während die Technologie mit atemberaubender Geschwindigkeit voranschreitet, sticht die künstliche Intelligenz als eine der faszinierendsten Grenzen der Innovation hervor. Inmitten dieses technologischen Wirbels taucht GPT-5, die neueste Iteration des Sprachmodells von OpenAI, als ein Thema heißer Erwartungen auf. Diese neue Version des bereits beeindruckenden GPT-4 verspricht, die Fähigkeit von Maschinen, menschliche Sprache zu verstehen und […]

Wie man ChatGPT verwendet, um Ihre Texte zusammenzufassen und umzuschreiben

In der heutigen Zeit ist die Fähigkeit, originelle und relevante Inhalte zu produzieren, unerlässlich, besonders wenn man sich inmitten der riesigen Menge an Informationen im Internet hervorheben möchte. Der Fortschritt der künstlichen Intelligenz (KI) hat Werkzeuge wie ChatGPT Talk hervorgebracht, die den Prozess des Umschreibens und Zusammenfassens von Texten nicht nur schneller, sondern auch dynamischer […]

Maximieren Sie Ihren Gewinn: So verdienen Sie mit der Chat-GPT-Technologie

Einführung: Wie man mit Chat-GPT Geld verdient Im ständig fortschreitenden Bereich der künstlichen Intelligenz und des maschinellen Lernens taucht ein Begriff immer wieder auf: GPT oder Generative Pre-Trained Transformers. Einfach ausgedrückt, GPT ist ein wesentlicher Bestandteil von KI-Modellen und darauf spezialisiert, menschenähnlichen Text zu verstehen und zu erzeugen. Die dynamischen Fortschritte in diesem Bereich haben […]

Navigieren in der Co-Evolution von KI und Menschheit

Die KI verwandelt uns von Schöpfern und Antwortenden in Kuratoren und Fragesteller. In diesem provokativen Gespräch mit Peter Deng, VP für Verbraucherprodukte und Leiter von ChatGPT bei OpenAI, werden wir die Rolle der Menschen im Zeitalter der KI erkunden. Was sind die praktischen und philosophischen Implikationen der KI? Wie wird sie unsere Wahrnehmung von uns […]

Entdecken Sie die 6 besten Möglichkeiten, Chat GPT jetzt zu nutzen, um online Geld zu verdienen!

Einführung in die Nutzung von Chat GPT zur Gewinnmaximierung Unsere Einführung in die Gewinnmaximierung mit den besten Methoden des Generativen Vortrainierten Transformators (GPT) enthüllt revolutionäre Innovationen in der künstlichen Intelligenz, die den E-Commerce und den Kundenservice revolutionieren. Die vielfältigen Anwendungen des GPT umfassen unter anderem Chatbots und die Textgenerierung. Die besten Wege, um Chat GPT […]

Prompt-Techniken Wie man das Beste aus künstlicher Intelligenz herausholt

Prompt-Techniken: Wie man das Beste aus künstlicher Intelligenz herausholt

Generative Künstliche Intelligenz, wie ChatGPT, Gemini, DALL-E, Midjourney oder Stable Diffusion, sind fortschrittliche Technologien, die in der Lage sind, Texte, Dokumente, Mindmaps, Tabellen, Kalkulationstabellen, Präsentationen, Bilder oder Videos zu erstellen. Sie benötigen jedoch präzise Anleitungen, klare, direkte Vorgaben und ausreichende Informationen, um das bestmögliche Ergebnis zu erzielen. Diese Anweisungen oder Leitfäden werden als Prompts bezeichnet, […]