Lecture

Claude AI d'Anthropic détrône ChatGPT au classement Chatbot Arena

Le classement est basé sur des évaluations à l'aveugle de la qualité des réponses des chatbots, et Open AI était en tête depuis près d'un an.

Par Jose Antonio Lanz

Mar 28, 2024

4 min de lecture

Image created by Decrypt using AI

Claude 3 Opus de l'incontournable concurrent Anthropic a volé la première place à ChatGPT d'Open AI, qui bénéficie de la plus grande part d'esprit grand public de tous les outils d'IA générative, sur un tableau de bord populaire basé sur la foule utilisé par les chercheurs en IA.

L'ascension de Claude dans le classement de Chatbot Arena marque la première fois que le GPT-4 d'OpenAI, qui alimente ChatGPT Plus, a été détrôné depuis sa première apparition sur le tableau de bord en mai de l'année dernière.

Chatbot Arena est géré par Large Model Systems Organization (LMSYS ORG), une organisation de recherche dédiée aux modèles ouverts qui favorisent la collaboration entre les étudiants et le corps professoral de l'Université de Californie à Berkeley, de l'UC San Diego et de l'Université Carnegie Mellon. La plateforme présente aux utilisateurs deux modèles de langage non étiquetés et leur demande de noter celui qui fonctionne le mieux en fonction de critères qu'ils jugent appropriés.

Après avoir agrégé des milliers de comparaisons subjectives, Chatbot Arena calcule les modèles «meilleurs» pour le tableau de bord, le mettant à jour au fil du temps.

[Community creation]
Top-15 Chatbot Arena LLM ratings (May '23 - Now)

Credit: Peter Gostev https://t.co/OgnLu3rj64 pic.twitter.com/Ueq7DZpu8N

— lmsys.org (@lmsysorg) March 27, 2024

marker Chatbot Arena est une ressource qualitative précieuse pour les chercheurs en IA.

La plateforme collecte les retours des utilisateurs et les soumet au modèle statistique de Bradley-Terry pour prédire la probabilité qu'un modèle particulier surpasse les autres en compétition directe. Cette approche permet la génération de statistiques complètes, y compris des intervalles de confiance pour les estimations de notation Elo - la même technique utilisée pour mesurer la compétence des joueurs d'échecs.

*Les 10 meilleurs LLM classés par Chatbot Arena. Image: Huggingface*

La montée de Claude 3 Opus au sommet n'est pas le seul développement significatif sur le classement. Claude 3 Sonnet (le modèle de taille moyenne disponible gratuitement) et Claude 3 Haiku (un modèle plus petit et plus rapide), également développés par Anthropic, occupent actuellement respectivement la 4e et la 6e place.

Le classement inclut différentes versions de GPT-4, telles que GPT-4-0314 (la version «originale» de GPT-4 de mars 2023), GPT-4-0613, GPT-4-1106-preview et GPT-4-0125-preview (le dernier modèle GPT-4 Turbo disponible via API à partir de janvier 2024). Selon le classement, Sonnet et Haiku sont tous deux meilleurs que le GPT-4 original, Sonnet dépassant également une version modifiée lancée par OpenAI en juin 2023.

Cela signifie également, malheureusement, qu'il n'y a actuellement qu'un seul LLM open source dans le top 10 : Qwen, avec Starling 7b et Mixtral 8x7B les seuls autres modèles ouverts dans le top 20.

Un des avantages de Claude par rapport à GPT-4 est sa capacité de contexte de jeton et sa capacité de récupération. La version publique de Claude 3 Opus gère plus de 200 000 jetons - et l'organisation affirme avoir une version restreinte capable de gérer 1 million de jetons avec des taux de récupération presque parfaits. Cela signifie que Claude peut comprendre des invitations plus longues et retenir l'information de manière plus efficace que par rapport à GPT-4 Turbo, qui gère 128 000 jetons et perd ses capacités de récupération avec des invitations longues.

*Précision de rappel de Claude 3 Opus vs GPT-4 Turbo. Image de Decrypt utilisant des données d'Anthropic et Greg Kamradt.*

L'Gemini Advanced de Google gagne également du terrain dans l'espace des assistants IA. La société propose un plan qui comprend 2 To de stockage et des capacités d'IA dans la suite de produits Google pour le même prix qu'un abonnement Chat GPT Plus (20 $ par mois).

Le Gemini Pro gratuit est actuellement classé numéro 4, entre GPT-4 Turbo et Claude 3 Sonnet. Le modèle Gemini Ultra haut de gamme n'est pas disponible pour les tests et n'est pas encore présenté dans les classements.

Édité par Ryan Ozawa.

Stay on top of crypto news, get daily updates in your inbox.

Actualités Recommandé

Stretchable, ‘Jelly’ Batteries Could Transform Wearables and Brain Implants
Two research teams have independently developed flexible batteries that can be stretched and deformed without losing functionality, potentially revolutionizing power sources for wearable technology and biomedical implants. A team from Nanjing University in China created a lithium-ion battery that can stretch up to 5,000 percent of its original length. The researchers said it opens up “a new avenue for the development of stretchable energy storage devices.” According to a report from the American...
ActualitésTechnologie
4 min de lecture
Jose Antonio LanzJul 18, 2024
Create an account to save your articles.
Marc Andreessen Sends $50K in Bitcoin to an AI Bot on Twitter
Marc Andreessen just tossed $50,000 at an AI bot, and as any good tech leader would, he paid in Bitcoin. The Silicon Valley mogul and Andreessen Horowitz co-founder decided to play Santa Claus with cryptocurrency, gifting a tidy sum to an AI agent on X (aka Twitter) called the “Truth Terminal.” This isn't your average AI bot. It operates in a twilight zone of semi-autonomy, with its human handler merely approving its Twitter posts and deciding who it gets to interact with. Somehow, this digital...
ActualitésArtificial Intelligence
4 min de lecture
Jose Antonio LanzJul 10, 2024
Create an account to save your articles.
La musicienne FKA Twigs raconte au Congress qu'elle a créé son propre deepfake AI
L'intelligence artificielle était à nouveau le sujet chaud de la journée à Washington D.C., alors que les membres du Comité judiciaire du Sénat ont entendu témoignages de l'industrie musicale, des syndicats et du monde universitaire sur les risques présentés par l'IA générative. La séance s'est largement concentrée sur les répliques numériques alimentées par l'IA et les deepfakes, avec une musicienne partageant ses propres expériences avec la technologie. Le droit d'auteur et les protections de...
ActualitésArtificial Intelligence
4 min de lecture
Jason NelsonMay 1, 2024
Create an account to save your articles.

Coin Prices