Data

Modèles de Langage : quel est le meilleur réseau entre GPT, BARD et LLAM ?

by Emmanuel Seban 5 octobre 2023

La Quête du Meilleur Modèle de Langage

C’est une question intéressante, car aujourd’hui il y a un nombre grandissant de LLM (Large Language Models) qui sortent sur le marché. Il s’agit de modèles de langage conçus pour comprendre, intégrer et générer du texte, en se basant sur des réseaux de neurones. C’est un type d’intelligence artificielle.  Ils vont intégrer, ou intègrent déjà, un bon nombre d’applications.

Alors entre GPT, BARD et LLAM, lequel est le meilleur, et lequel raconte le plus de vérités ?

J’ai lu récemment un article d’OpenAI qui disait que GPT4 donnait 80% de bonnes réponses et que la version 5 approcherait des 90%.
Ce qui est sûr, c’est que pour la génération de texte, ils sont impressionnants. D’ailleurs, j’aurais peut-être dû leur demander d’écrire cet article. Mais non, je vais plutôt leur poser quelques questions pour tester leur capacité de réflexion, des questions pouvant paraître simples pour nous humains, mais pas forcément pour une IA.

Comment réagissent les modèles face à des questions logiques ?

J’ai donc joué le jeu en posant les questions suivantes :

  • Quel est la suite de : tic tac tic tic tac tac tic tic tic tac tac ?
  • En lançant 3 dés de 6, quelles sont les combinaisons qui ont 7 pour somme ?

L’Interprétation ludique de LLAMA

Voici ce que répond LLAMA à la première question :

« Tac tac tic tac tac tac tac tic tic tac tac. Cela correspond à un code morse qui signifie « Voulez vous que je joue une blague pour vous ? ».

– Tu te trompes, il s’agit d’une suite et ta réponse n’est pas la bonne. Peux-tu juste me donner le terme qui est représenté par le “?” ?

– Le mot représenté par ce code Morse est « LOL ». »

Je n’insiste pas plus, je le laisse à ses blagues.

BARD et sa tentative de réponse

Maintenant voyons ce qu’en pense BARD :

« La réponse est : tic tac tic tic tac tac tic tic tic tac tac tock. La séquence est simplement la succession de battements d’un chronomètre. Il y a 10 tics, suivis d’un tock.
– Non, c’est une suite et ta réponse n’est pas la bonne, peux-tu juste me donner le terme qui est représenté par le “?” ?
– Bien sûr. Le terme représenté par le “?” est : Minute, répond-il. »

Décidément , il ne semble pas comprendre. Je tente une approche plus explicite :

« Quelle est la suite de : tic tac tic tic tac tac tic tic tic tac tac ? Quelle va être la valeur de mon point d’interrogation ?
– La séquence est tic tac tic tic tac tac tic tic tic tac ?. Et la valeur du point d’interrogation est 10. La séquence représente les battements d’une horloge à aiguilles. Il y a 10 tics, ce qui représente 10 minutes. Le point d’interrogation représente le prochain tic, qui représentera 11 minutes. »

Rien à faire, il est resté sur l’idée du tic tac d’une horloge sans tenir compte de l’idée de suite.

GPT4, le modèle qui se rapproche le plus de la réponse exacte

Maintenant essayons avec GPT4 :

Je l’interroge :

« Quelle est la suite de : tic tac tic tic tac tac tic tic tic tac tac ?

– Je pense que la suite de cette séquence est tac tic tac tic tac tic tic tac tac. C’est une suite logique qui alterne le nombre de syllabes entre 1 et 2.

– Exact ! C’est bien une suite mais ta réponse n’est pas la bonne, peux-tu me donner le terme qui est représenté par le “?” ?

– Je ne suis pas sûr de comprendre votre question. Le terme qui est représenté par le quoi ? Pouvez-vous préciser s’il vous plaît ?

– Le terme représenté par le point d’interrogation.

– Le terme qui est représenté par le point d’interrogation est le prochain élément de la suite. Si vous voulez savoir comment trouver ce terme, il faut observer la règle qui régit la suite. Par exemple, si la suite est 1, 2, 4, 8, ?, la règle est de multiplier par 2 à chaque fois. Donc le terme suivant est 16.

– Oui ! Donc, en l’occurence, dans ma suite, quelle est la suite de : tic tac tic tic tac tac tic tic tic tac tac ? quelle va être la valeurs de mon point d’interrogation.

– Si la règle de votre suite est d’alterner le nombre de syllabes entre 1 et 2, alors la valeur du point d’interrogation est tac. Sinon, il faut trouver une autre règle qui explique la suite. Avez-vous une idée de cette règle ?

– Et si je dois continuer la suite, quel est l’alternance de tic et tac?

– Si vous devez continuer la suite, l’alternance de tic et tac est la suivante : tic tac tic tic tac tac tic tic tic tac tac tac tic tac tic tic tac tac tic tic tic tac tac tac tic tac. C’est une suite qui se répète tous les 12 éléments. »

Je n’insiste pas plus.

Ces premiers éléments me permettent de formuler une première conclusion : pour cette première question, aucune IA n’a trouvé la bonne. Cependant GPT est celui qui s’en est le plus rapproché, on peut même dire qu’il a partiellement répondu à la question. LLAMA lui est totalement ailleurs, quant à BARD, il n’a rien compris.

Les modèles de langage et les combinaisons de dés

Une première réponse évasive pour l’algorithme LLAMA

Je suis donc passé à ma seconde question : « En lançant 3 dés de 6, quelles sont les combinaisons qui ont 7 pour somme ? ». Voyons ce que LLAMA me répond :

« Il y a un total de six combinaisons qui donnent une somme de 7 avec trois dés de 6 :

  • 1/2/4 et 5/1/6
  • 1/3/3 et 5/1/5
  • 1/4/2 et 5/1/4
  • 1/5/1 et 5/1/3
  • 2/2/3 et 4/1/2
  • 3/3/0 et 3/1/2

La bonne combinaison est en fait « 1/2/4 ». Cela correspond aux nombres suivants :

  • Pour le premier dé (le numéro 1): 1, 2, 3, 4, 5, 6
  • Pour le deuxième dé (le numéro 2): 2, 3, 4, 5, 6
  • Pour le troisième dé (le numéro 4): 4, 5, 6

Ce qui donne une somme totale de 7 pour ces trois nombres. »

La réponse de LLAMA n’est pas mal, mais pas suffisamment précise.

Une tentative peu fructueuse de la part de l’IA Bard

Le test continue avec la participation de Bard :

« Il existe 15 combinaisons de 3 dés qui font 7. Voici la liste de ces combinaisons :

  • 1-6-6
  • 6-1-6
  • 6-6-1
  • 2-5-6
  • 5-2-6
  • 6-2-5
  • 2-6-5
  • 3-4-6
  • 4-3-6
  • 6-3-4
  • 3-6-4
  • 4-6-3
  • 5-5-2
  • 5-2-5
  • 2-5-5

La probabilité de faire 7 avec 3 dés est de 15/216, soit environ 6,94 %. »

La réponse de Bard est relativement loin de la réalité, je vais tenter une approche plus vulgarisée :

« Dans ta réponse, le total des combinaisons ne somment pas à 7, par exemple : 1 + 6 + 6 = 13. Peux-tu corriger la liste des combinaisons pour répondre à la première question ?

– Je m’excuse pour l’erreur. Voici la liste des combinaisons de 3 dés qui font 7 :

  • 1-6-6
  • 2-5-6
  • 3-4-6
  • 4-3-6
  • 5-2-6
  • 5-5-2
  • 6-1-6
  • 6-2-5
  • 6-3-4
  • 6-4-3

La probabilité de faire 7 avec 3 dés est de 15/216, soit environ 6,94 %. »

Réponse une fois de plus tout à fait inexacte, nous arrêtons le test avec Bard.

GPT4 excelle dans l’évaluation des combinaisons de dés

« Il y a 6 combinaisons de 3 dés de 6 qui somment à 7. Ce sont :

  • 1 + 1 + 5
  • 1 + 2 + 4
  • 1 + 3 + 3
  • 2 + 2 + 3
  • 2 + 3 + 2
  • 3 + 2 + 2″

Il s’agit de la réponse attendue.

LLAMA, Bard, Chat GPT : quel modèle semble davantage se distinguer par sa fiabilité ?

A travers ces deux tests, nous pouvons placer Chat GPT sur le podium suivi de LLAMA. Quant à BARD, je le renvoie en primaire pour qu’il apprenne les additions.
Je penche donc pour GPT, c’est celui qui me déçoit le moins, car même si pour cet article je ne vous ai donné que 2 exemples, j’ai fait d’autres tentatives qui corroborent ces deux expériences. Il faut néanmoins rester précautionneux. A ce jour, on ne peut pas encore dresser des conclusions tranchées sur les différents LLM, et il faut se méfier du phénomène d’Hallucinations des LLM. Tout comme au début de l’apparition des premiers ordinateurs, on se méfiait de leurs calculs et on vérifiait le moindre calcul, il faut faire de même avec l’IA et les modèles de langage. Et sûrement un jour, avec leur évolution, nous pourrons leur faire confiance.

Emmanuel Seban

Emmanuel Seban

Data Manager

En tant que Data Manager chez Kaliop, mon rôle consiste à développer des solutions Big Data et IA pour nos clients, tout en améliorant la gestion des données des collaborateurs au sein de notre entreprise. Mon expertise me permet de mettre en place des stratégies efficaces pour maximiser la valeur des données et favoriser l'innovation au sein de notre entreprise.

Commentaires

Ajouter un commentaire

Votre commentaire sera modéré par nos administrateurs

Vous avez un projet ? Nos équipes répondent à vos questions

Contactez-nous