Si vous demandiez au grand public quel était le meilleur modèle d’IA, il y a de fortes chances que la plupart des gens répondent avec ChatGPT. Bien qu'il y ait de nombreux acteurs sur la scène en 2024, le LLM d'OpenAI est celui qui a vraiment percé et introduit une puissante IA générative au grand public. Et comme cela se produirait, le modèle LLM (Large Language Model) de ChatGPT, GPT, s'est régulièrement classé parmi les plus performants parmi ses pairs, depuis l'introduction de GPT-3.5, jusqu'à GPT-4, et actuellement, GPT-4 Turbo.
Mais le vent semble tourner : cette semaine, Claude 3 Opus, LLM d'Anthropic, a dépassé GPT-4 sur Chatbot Arena pour la première fois, incitant le développeur d'applications Nick Dobos à déclarer : « Le roi est mort ». Si vous consultez le classement au moment d'écrire ces lignes, Claude a toujours l'avantage sur GPT : Claude 3 Opus a un classement Arena Elo de 1 253, tandis que GPT-4-1106-preview a un classement de 1 251, suivi de près par GPT. -4-0125-preview, avec un classement de 1248.
Pour ce que ça vaut, Chatbot Arena classe ces trois LLM en première place, mais Claude 3 Opus a un léger avantage.
Les autres LLM d'Anthropic fonctionnent également bien. Claude 3 Sonnet se classe cinquième sur la liste, juste en dessous de Gemini Pro de Google (les deux sont classés à la quatrième place), tandis que Claude 3 Haiku, le LLM bas de gamme d'Anthropic pour un traitement efficace, se classe juste en dessous d'une version 0613 de GPT-4, mais juste au-dessus de la version 0613 de GPT-4.

Comment Chatbot Arena classe les LLM

Pour classer les différents LLM actuellement disponibles, Chatbot Arena demande aux utilisateurs de saisir une invite et de juger de la réaction de deux modèles différents et sans nom. Les utilisateurs peuvent continuer à discuter pour évaluer la différence entre les deux, jusqu'à ce qu'ils décident quel modèle leur semble le plus performant. Les utilisateurs ne savent pas quels modèles ils comparent (vous pourriez opposer Claude à ChatGPT, Gemini à Meta's Llama, etc.), ce qui élimine tout biais dû à la préférence de marque.
Cependant, contrairement à d’autres types d’analyse comparative, il n’existe pas de véritable rubrique permettant aux utilisateurs d’évaluer leurs modèles anonymes. Les utilisateurs peuvent simplement décider eux-mêmes quel LLM est le plus performant, en fonction des paramètres qui les intéressent eux-mêmes. Comme le dit Simon Willison, chercheur en IA, à Ars Technica, ce qui rend les LLM plus performants aux yeux des utilisateurs est davantage une question de « vibrations » qu'autre chose. Si vous aimez plus la façon dont Claude répond que ChatGPT, c'est tout ce qui compte vraiment.
Surtout, cela témoigne de la puissance de ces LLM. Si vous proposiez ce même test il y a des années, vous rechercheriez probablement des données plus standardisées pour identifier quel LLM était le plus fort, qu'il s'agisse de vitesse, de précision ou de cohérence. Aujourd'hui, Claude, ChatGPT et Gemini deviennent si performants qu'ils sont presque interchangeables, du moins en ce qui concerne l'utilisation générale de l'IA générative.
S'il est impressionnant que Claude ait dépassé le LLM d'OpenAI pour la première fois, il est sans doute plus impressionnant que GPT-4 ait tenu aussi longtemps. Le LLM lui-même a un an, sans les mises à jour itératives comme GPT-4 Turbo, tandis que Claude 3 a été lancé ce mois-ci. Qui sait ce qui se passera lorsque OpenAI déploiera GPT-5, qui, du moins selon un PDG anonyme, est « … vraiment bon, voire matériellement meilleur ». Pour l’instant, il existe plusieurs modèles d’IA générative, tous aussi efficaces les uns que les autres.
Chatbot Arena a collecté plus de 400 000 votes humains pour classer ces LLM. Vous pouvez essayer le test par vous-même et ajouter votre voix au classement.

Categories: IA

S’abonner
Notification pour
guest

Commentaires
Commentaires en ligne
Afficher tous les commentaires
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x