OpenAI ha dominado con mano de hierro el segmento de los modelos de IA generativa de texto. Desde que lanzó ChatGPT, la capacidad de su chatbot ha estado siempre por encima de sus competidores, que lo utilizaban como vara de medir: cada vez que salía un nuevo chatbot, este prometía que era mejor que ChatGPT según ciertos benchmarks.
Lo cierto es que aunque en pruebas sintéticas eso podía ser verdad, la experiencia de usuario decía lo contrario. La primera versión de ChatGPT, basada en GPT-3.5, ya mostraba sus poderes desde el principio, pero fue el lanzamiento de GPT-4 (usado en ChatGPT Plus y base también de Copilot, antes Bing Chat) el que puso claramente el LLM de OpenAI por encima del resto. Los demás iban a la zaga, y aunque mejoraban, no lograban “transmitir” un mejor comportamiento cuando los usábamos.
Eso acaba de cambiar según Chatbot Arena, un ranking cada vez más prestigioso que fue creado por la organización Large Model Systems (LMSYS ORG) en colaboración con varias instituciones académicas. Su calificación y clasificación de grandes modelos de lenguaje se ha convertido en todo un referente, y lo es porque es especialmente distinto de otras herramientas de este tipo.
Lo que se hace en Chatbot Arena es permitir que los usuarios voten por el modelo que mejor responde a sus consultas. Cualquiera puede participar, y gracias a ello este ranking permite tener en cuenta no solo parámetros técnicos de modelos como GPT-4, sino también la experiencia de usuario que ofrece. Así, lo que los usuarios piensan de cada chatbot acaba siendo tan importante como lo que dicen las pruebas sintéticas. O más.
Y como comentan nuestros compañeros de Genbeta, los votos de 400.000 usuarios han permitido dejar claro que hoy por hoy GPT-4 ha sido superado. Lo ha sido por Claude 3 Opus, el modelo que la firma Anthropic presentó hace pocas semanas y que es (por poco) el ganador en esa particular puntuación ELO —un concepto adaptado del mundo del ajedrez— que en Chatbot Arena asignan a cada modelo.
Es cierto que la diferencia con GPT-4 es muy pequeña, pero aún así esto representa un singular punto de inflexión que demuestra que hay una sana competencia en el mundo de los chatbots. Gemini Pro es el cuarto clasificado, mientras que Mistral, el chatbot de la startup francesa, ocupa la octava plaza. Es cierto que las variantes de GPT-4 copan el ranking, pero aún así el avance aquí de Anthropic es una excelente noticia para la competitividad en este mercado.
Otros estudios recientes parecen confirmar el auge de Claude 3. Lo hace por ejemplo el llamado Berkeley Function-Calling Leaderboard (BFCL), un nuevo conjunto de pruebas que no evalúan el comportamiento de preguntas y respuestas de los chatbots, sino su capacidad para convertirse en la base de los futuros y cada vez más populares agentes de IA.
En este benchmark Claude 3 Opus fue superior a GPT-4, que una vez más dominó el ranking aunque también se metía en esa particular clasificación Mistral. Parece por tanto que esa capacidad de “conectarse” con otros servicios a través de funciones en lenguajes como Java, JavaScript, Python, consultas SQL o llamadas a APIs REST es especialmente destacable en el modelo de Anthropic, que desde luego tiene un futuro prometedor.
Estos rankings, eso sí, no pararán de cambiar a corto y medio plazo: la evolución de estos LLMs sigue siendo frenética y de hecho los indicios apuntan a que GPT-5 está a la vuelta de la esquina. Mientras, los modelos que aprovechan licencias Open Source como Llama 2 o Grok —que acaba de estrenarse en ese apartado— podrían también comenzar a ganar enteros en todos estos apartados.
No Responses