
Planification préalable de l’évaluation des projets d’IA
que l’on trouve actuellement dans les entreprises : un produit ou une fonctionnalité est proposé qui impliquerait l’utilisation de l’IA, comme un agent basé sur LLM, et les discussions commencent sur la manière de définir la portée du projet et de le construire. Les responsables des produits et de l’ingénierie auront d’excellentes idées sur la manière dont cet outil pourrait être utile et sur l’enthousiasme qu’il peut générer pour l’entreprise. Cependant, si je suis dans cette pièce, la première chose que je veux savoir une fois le projet proposé est « comment allons-nous l’évaluer ? » Parfois, cela soulève la question de savoir si l’évaluation de l’IA est vraiment importante ou nécessaire, ou si elle peut attendre plus tard (ou jamais).
Voici la vérité : vous n’avez besoin d’évaluations de l’IA que si vous voulez savoir si cela fonctionne. Si vous êtes à l’aise dans la construction et l’expédition sans connaître l’impact sur votre entreprise ou vos clients, vous pouvez alors ignorer l’évaluation. Cependant, la plupart des entreprises ne seraient pas d’accord avec cela. Personne ne veut se considérer comme construisant des choses sans être sûr qu’elles fonctionnent.
Parlons donc de ce dont vous avez besoin avant de commencer à créer une IA, afin que vous soyez prêt à l’évaluer.
L’objectif
Cela peut paraître évident, mais que est censée faire votre IA ? Quel est son objectif et à quoi ressemblera-t-il une fois opérationnel ?
Vous pourriez être surpris du nombre de personnes qui se lancent dans la création de produits d’IA sans réponse à cette question. Mais il est vraiment important que nous nous arrêtions et réfléchissions sérieusement à cela, car savoir ce que nous imaginons lorsque nous envisageons le succès d’un projet est nécessaire pour savoir comment mettre en place des mesures de ce succès.
Il est également important de consacrer du temps à cette question avant de commencer, car vous découvrirez peut-être que vous et vos collègues/dirigeants n’êtes pas réellement d’accord sur la réponse. Trop souvent, les organisations décident d’ajouter l’IA à leur produit d’une manière ou d’une autre, sans définir clairement la portée du projet, car l’IA est perçue comme précieuse en soi. Puis, à mesure que le projet avance, le conflit interne sur ce qu’est le succès surgit lorsque les attentes d’une personne sont satisfaites et celles d’une autre non. Cela peut être un véritable gâchis et ne se produira qu’après avoir consacré beaucoup de temps, d’énergie et d’efforts. La seule façon de résoudre ce problème est de se mettre d’accord à l’avance, explicitement, sur ce que vous essayez d’accomplir.
KPI
Cependant, il ne s’agit pas simplement de se faire une image mentale d’un scénario dans lequel ce produit ou cette fonctionnalité d’IA fonctionne. Cette vision doit être déclinée en formes mesurables, comme des KPI, afin de pouvoir construire ultérieurement les outils d’évaluation nécessaires à leur calcul. Même si les données qualitatives ou ad hoc peuvent être d’une grande aide pour obtenir des couleurs ou effectuer un « test de détection », demander aux gens d’essayer l’outil d’IA de manière ad hoc, sans plan et processus systématiques, ne produira pas suffisamment d’informations appropriées pour généraliser sur le succès du produit.
Lorsque nous nous appuyons sur les vibrations, « ça semble bien » ou « personne ne se plaint », pour évaluer les résultats d’un projet, c’est à la fois paresseux et inefficace. La collecte de données pour obtenir une image statistiquement significative des résultats du projet peut parfois s’avérer coûteuse et prendre du temps, mais l’alternative consiste à deviner de manière pseudo-scientifique comment les choses ont fonctionné. Vous ne pouvez pas être sûr que les contrôles ponctuels ou les commentaires volontaires sont véritablement représentatifs des vastes expériences que les gens vivront. Les gens ne prennent généralement pas la peine de parler de leurs expériences, bonnes ou mauvaises, vous devez donc leur poser des questions de manière systématique. De plus, vos cas de test d’un outil basé sur LLM ne peuvent pas être créés à la volée : vous devez déterminer les scénarios qui vous intéressent, définir des tests qui les captureront et les exécuter suffisamment de fois pour avoir confiance dans la gamme de résultats. La définition et l’exécution des tests viendront plus tard, mais vous devez identifier les scénarios d’utilisation et commencer à les planifier dès maintenant.
Fixez les objectifs avant le match
Il est également important de réfléchir à l’évaluation et à la mesure avant de commencer afin que vous et vos équipes ne soyez pas tentés, explicitement ou implicitement, de jouer avec les chiffres. Déterminer vos KPI après la construction du projet ou après son déploiement peut naturellement conduire à choisir des métriques plus faciles à mesurer, plus faciles à réaliser, ou les deux. Dans la recherche en sciences sociales, il existe un concept qui fait la différence entre ce que l’on peut mesurer et ce qui compte réellement, appelé « validité des mesures ».
Par exemple, si vous souhaitez mesurer la santé des personnes dans le cadre d’une étude de recherche et déterminer si votre intervention a amélioré leur santé, vous devez définir ce que vous entendez par « santé » dans ce contexte, le décomposer et prendre un certain nombre de mesures des différentes composantes que comprend la santé. Si, au lieu de faire tout ce travail et de dépenser du temps et de l’argent, vous vous contentiez de mesurer la taille et le poids et de calculer l’IMC, vous n’auriez pas de validité de mesure. L’IMC peut, selon votre point de vue, avoir un certain lien avec la santé, mais il ne s’agit certainement pas d’une mesure complète du concept. La santé ne peut pas être mesurée uniquement avec quelque chose comme l’IMC, même s’il est peu coûteux et facile d’obtenir la taille et le poids des gens.
Pour cette raison, après avoir déterminé quelle est votre vision du succès en termes pratiques, vous devez la formaliser et décomposer votre vision en objectifs mesurables. Les KPI que vous définissez devront peut-être plus tard être décomposés ou rendus plus granulaires, mais jusqu’à ce que le travail de développement de création de votre outil d’IA commence, il y aura une certaine quantité d’informations que vous ne pourrez pas connaître. Avant de commencer, faites de votre mieux pour définir les objectifs que vous visez et respectez-les.
Pensez au risque
En particulier en ce qui concerne l’utilisation de la technologie basée sur le LLM, je pense qu’il est extrêmement important d’avoir une conversation très honnête au sein de votre organisation sur la tolérance au risque avant de se lancer. Je recommande de placer la conversation sur les risques au début du processus, car tout comme la définition du succès, cela peut révéler des différences de pensée entre les personnes impliquées dans le projet, et ces différences doivent être résolues pour qu’un projet d’IA puisse se poursuivre. Cela peut même influencer la façon dont vous définissez le succès, et cela affectera également les types de tests que vous créerez plus tard dans le processus.
Les LLM sont non déterministes, ce qui signifie qu’avec les mêmes informations, ils peuvent réagir différemment dans différentes situations. Pour une entreprise, cela signifie que vous acceptez le risque que la façon dont un LLM répond à une entrée particulière puisse être nouvelle, indésirable ou tout simplement étrange de temps en temps. Vous ne pouvez pas toujours, avec certitude, garantir qu’un agent IA ou un LLM se comportera comme vous l’espérez. Même s’il se comporte comme prévu 99 fois sur 100, vous devez déterminer quel sera le caractère de ce centième cas, comprendre les modes de défaillance ou d’erreur et décider si vous pouvez accepter le risque qui constitue – cela fait partie de la vocation de l’évaluation de l’IA.
Conclusion
Cela peut sembler beaucoup, je me rends compte. Je vous donne toute une liste de choses à faire avant que quiconque n’écrive une ligne de code ! Cependant, l’évaluation des projets d’IA est plus importante que pour de nombreux autres types de projets logiciels en raison du caractère non déterministe inhérent aux LLM que j’ai décrit. Produire un projet d’IA qui génère de la valeur et améliore l’entreprise nécessite un examen minutieux, une planification et une auto-évaluation honnête de ce que vous espérez réaliser et de la manière dont vous gérerez les imprévus. Au fur et à mesure que vous procéderez à la construction d’évaluations d’IA, vous réfléchirez au type de problèmes qui peuvent survenir (hallucinations, mauvaise utilisation des outils, etc.) et à la manière de déterminer quand ils se produisent, afin que vous puissiez réduire leur fréquence et vous y préparer lorsqu’ils se produisent.
En savoir plus sur mon travail sur www.stephaniekirmer.com



