Data

IA et Souveraineté : un usage responsable des technologies génératives

by Marc Hugon 15 mai 2024

OpenAI, avec ChatGPT, a permis de rendre particulièrement visible ce que permettent les technologies d’IA génératives.

Il est probablement très juste d’affirmer que quasiment toutes les entreprises sont intéressées par ces nouvelles possibilités.

Capacités et applications des IA génératives

Les IAs génératives sont capables de générer des contenus, mais surtout de faire en sorte que la source de leur rédaction (machine) ne soit pas visible. En effet, elles savent reproduire un type de rédaction pour répondre à une demande d’adaptation par rapport à un public cible. Si on demande à une IA d’expliquer un principe technique et qu’on lui demande d’adapter son discours à un interlocuteur novice ou averti, on a deux contenus bien distincts.
Cette capacité est d’ores et déjà utilisée en ligne, de façon plus ou moins heureuse. Si elle permet par exemple d’optimiser des contenus pour avoir un bon référencement, elle permet aussi de créer par dizaines des contenus qui ne servent qu’à polluer internet pour attirer du trafic.
Mais comme cet aspect de génération de contenu ne s’arrête pas au texte, on les voit aussi utilisées dans de nombreux autres contextes, notamment d’un point de vue créatif, de par leur faculté à générer des images qui peuvent être des photographies réalistes ou non. Elles savent générer de la voix, de la vidéo, de la musique.

IA Générative : extraction et analyse avancée de données

Un autre aspect innovant de ces technologies repose sur la faculté à extraire et synthétiser des informations qui peuvent être issues de documents très hétérogènes. Il n’est plus forcément nécessaire de se livrer à un travail chronophage de transformation de données pour pouvoir en tirer des recoupements et des analyses pertinentes. De la même façon qu’on sait générer des contenus multimédias, ils peuvent aussi être utilisés comme sources de données. Il devient possible de faire croiser des enregistrements audio avec des bases documentaires pour en tirer des analyses, avec des suggestions.

Gestion des Agents de discussion et amélioration de la productivité

Enfin, il est indispensable de revenir à la notion d’agent de discussion. Grâce à ce que l’on a vu, l’agent sait interpréter les questions qu’on lui pose, trouver les informations les plus pertinentes pour y répondre et enfin proposer une réponse qui s’adapte à ce qui lui est demandé. C’est le cas par exemple de la génération de code qui améliore la productivité d’une équipe de développement. Mais qui plus est, on y a aussi adjoint une mémoire de la discussion, ce qui va permettre de prendre en considération l’historique des échanges pour mieux comprendre l’objet de la question.

Défis et solutions pour la souveraineté des données avec l’IA

Pour toutes ces raisons, il est naturel de rechercher avec ces outils de nouvelles opportunités pour améliorer sa R&D, son service après-vente, sa productivité, son fonctionnement interne…

Comme on l’a évoqué, ce qui est indispensable pour pouvoir profiter de ces outils, ce sont les données.

Qui plus est, dans de nombreux cas évoqués ici, les données considérées peuvent être sensibles, voire très sensibles. Il y a tout intérêt à travailler avec des données juridiques, comptables, documentaires, car les opportunités sont présentes. Mais il ne faut pas oublier l’importance de ces données et les risques auxquels on les expose.

Il est déjà compliqué de s’assurer en interne que les données sont bien protégées. L’actualité est hélas courante d’attaques et de fuites de données en masse. Si vos données doivent être utilisées par un service externe, quel niveau de confiance peut-on avoir concernant leur gouvernance ?

Il reste aussi à considérer le pays d’origine du prestataire. Le cas des sociétés américaines est un exemple qu’on doit prendre en compte dans sa réflexion. En effet, l’USA Freedom act permet au FBI d’avoir accès à tout type de données détenu par une société sur son sol, sans forcément qu’on puisse avertir le détenteur de ces données en amont.

Souveraineté technologique et innovations locales

Même si la probabilité qu’un incident de ce type arrive est faible, selon la sensibilité des informations considérée, on peut comprendre la réticence de certaines entreprises à permettre l’usage de solutions comme chatGPT.

Pour toutes ces raisons, il est légitime de se demander s’il est possible de profiter de ces nouvelles technologies en assurant un usage souverain de ces données. Et si oui, comment ?

Il s’avère que c’est possible. Il y a même deux options possibles.

Il s’avère que la France a pour volonté de ne pas se laisser distancer sur le sujet des IA génératives. Le gouvernement français a annoncé des aides pour le développement de ce domaine (2,2 milliards), mais a aussi communiqué sur les débuts de la mise en place de son propre agent Albert, présenté comme un bot 100% souverain. En novembre 2023 a aussi été annoncé le lancement de Kyutai, qui a pour ambition d’être LE laboratoire de recherche européen dédié à l’IA.
Nous avons de plus la présence de Mistral, qui propose son propre agent conversationnel (LeChat). Même si celui-ci n’est pour le moment pas au niveau de chatGPT concernant les extensions proposées, il n’en est pas moins particulièrement pertinent. Enfin, il est possible de faire appel à des ressources de calcul chez Scaleway, qui propose une capacité de calcul qui se situe au niveau de ses concurrents internationaux. La société propose depuis peu une offre pour faciliter la mise en place d’agents open source, avec un système d’inférence à la demande.

Il y a donc des solutions pour reposer sur des partenaires qui assurent une meilleure souveraineté des solutions mises en place.

Il reste aussi une solution qui permet de totalement internaliser les solutions basées sur l’IA générative, l’open source.

Vers une souveraineté renforcée grâce à l’open Source

Depuis le début de l’année 2023, des entreprises ont en effet mis à disposition en open source des modèles sur lesquelles elles ont considérablement investi pour arriver à des capacités qui rivalisent avec ce que propose le leader du secteur (OpenAI). On peut citer Meta, Microsoft, Google pour les plus connues, mais il y en a de nombreuses autres.

Cette mise à disposition a permis à la communauté open source de s’approprier ces technologies sans avoir à disposer de moyens considérables, et elle a été très productive.

Il est donc tout à fait possible de mettre en place une solution basée sur l’IA générative, hébergée par ses propres soins, ce qui en fait un choix totalement souverain.

Mais le plus intéressant est la possibilité de bénéficier de capacités de personnalisation qui n’existent pas dans les solutions proposées sous la forme de services. En effet, il s’avère par exemple qu’il est possible de surentraîner un modèle open source pour un coût nettement inférieur à celui nécessaire pour créer le modèle initial. Il suffit en effet de quelques jours d’entraînement pour rendre un modèle plus connaisseur et plus spécialisé sur un domaine particulier.
C’est ainsi qu’on a pu voir apparaître des modèles spécialisés dans le domaine médical (medecine chat de type Llama2 ou open bio llm de type Llama3), un modèle entraîné sur la législation française (Llamandment de type Llama2), etc.

Utiliser des solutions open source, c’est avoir accès à des dizaines de milliers de modèles différents, capables de répondre à des besoins fonctionnels ciblés.

Mais c’est aussi une opportunité pour aborder le sujet de la dépense énergétique. L’IA générative est énergivore, c’est un fait. Dans une démarche d’internalisation et de maîtrise des ressources mises en œuvre pour ses propres besoins, l’open source permet de faire des choix qui prennent en compte le bon usage des ressources qui sont mises à contribution. On peut par exemple parler du projet llama.cpp, projet open source qui est massivement utilisé par toutes les autres solutions pour faire fonctionner les modèles d’IA générative.
Ce projet permet d’utiliser au mieux les ressources de types GPU mises à disposition, en utilisant par exemple plusieurs modèles en parallèle sur une même carte, évitant ainsi de dupliquer des composants onéreux et consommateurs, quand un seul permet d’arriver au même résultat sans impact visible pour l’utilisateur final.

Aborder le sujet de la souveraineté dans l’usage des IA génératives est donc possible, donc nécessaire, comme tout sujet d’utilisation de données. De plus, l’open source n’est pas forcément un moins disant par rapport à ce que proposent les solutions les plus avancées. On peut même y trouver des facteurs de différenciation qui vous permettront de mieux répondre à vos besoins.

Marc Hugon

Marc Hugon

CTO Projets

Marc met son expertise technique au service de la transformation digitale des entreprises. Grâce à de nombreuses années d’expérience en tant que CTO de sites e-commerce d’envergure, il conjugue compréhension des enjeux métier et intégration des problématiques technologiques et méthodologiques.

Commentaires

Ajouter un commentaire

Votre commentaire sera modéré par nos administrateurs

Vous avez un projet ? Nos équipes répondent à vos questions

Contactez-nous