
Triangles de fer : des outils puissants pour analyser les compromis dans le développement de produits d’IA
et l’exploitation de produits d’IA implique de faire des compromis. Par exemple, la création d’un produit de meilleure qualité peut nécessiter plus de temps et de ressources, tandis que les appels d’inférence complexes peuvent être plus lents et plus coûteux. Ces compromis sont une conséquence naturelle de la notion économique fondamentale de rareté, selon laquelle nos besoins potentiellement illimités ne peuvent être que partiellement satisfaits par un ensemble limité de ressources disponibles. Dans cet article, nous emprunterons un cadre triangulaire intuitif à la théorie de la gestion de projet pour explorer les principaux compromis auxquels les constructeurs et les utilisateurs de produits d’IA doivent faire face respectivement au moment de la conception et de l’exécution.
Note: Toutes les figures et formules des sections suivantes ont été créées par l’auteur de cet article.
Une introduction aux triangles de fer
Les tensions entre la portée, le coût et le temps du projet ont été étudiées de manière approfondie par les universitaires et les praticiens du domaine de la gestion de projet depuis au moins les années 1950. Les efforts visant à représenter visuellement les tensions (ou compromis) entre ces trois dimensions de la qualité ont abouti à un cadre triangulaire qui porte de nombreux noms, notamment le « triangle de fer », la « triple contrainte » et le « triangle de gestion de projet ».
Le cadre souligne quelques points clés :
- Il est important d’analyser les compromis entre le projet portée (quels avantages, nouvelles fonctionnalités ou fonctionnalités le projet apportera-t-il), coût (en termes de budget monétaire, d’effort humain, de coûts informatiques), et temps (calendrier du projet, délai de livraison).
- Le coût du projet est fonction de la portée et du temps (par exemple, des projets plus importants et des délais de livraison plus courts coûteront plus cher), et selon ce qu’on appelle loi commune de l’équilibre des affaires« vous en avez pour votre argent. »
- Dans un environnement où les ressources sont fondamentalement rares, il peut être difficile de minimiser simultanément les coûts et les délais tout en maximisant la portée. Cette situation est parfaitement illustrée par l’expression « Bon, rapide, bon marché. Choisissez-en deux », qui est souvent attribuée (bien que sans preuves solides) au critique d’art victorien John Ruskin. Les chefs de projet ont donc tendance à être très attentifs aux fluage de la portée (ajoutant plus de fonctionnalités à la portée du projet que ce qui avait été convenu précédemment sans gouvernance adéquate), ce qui peut entraîner des retards dans le projet et des dépassements de budget.
- Dans tout projet donné, il peut y avoir divers degrés de flexibilité en termes de portée, de coût et de délai qui sont considérés comme acceptables par les parties prenantes. Il peut donc être possible d’ajuster une ou plusieurs de ces dimensions pour en dériver différentes configurations acceptables pour le projet.
La vidéo suivante explique plus en détail l’utilisation du cadre triangulaire dans la gestion de projet :
Dans le contexte du développement de produits d’IA, le cadre triangulaire se prête à l’exploration de compromis à la fois au moment de la conception (lorsque le produit d’IA est construit) et au moment de l’exécution (lorsque le produit d’IA est utilisé par les clients). Dans les sections suivantes, nous examinerons de plus près chacun de ces deux scénarios tour à tour.
Compromis au moment de la conception
La figure 1 montre une variante du triangle de fer qui capture les compromis auxquels est confrontée une équipe produit d’IA au moment de la conception.

Les trois dimensions du triangle sont :
- Portée des fonctionnalités (S) du produit d’IA mesuré en points d’histoire, en points de fonction ou en unités de fonctionnalités.
- Coût de développement (C) en termes de jours-personnes d’effort humain (PM, ingénierie, UX, science des données) et de coûts monétaires de personnel (les développeurs expérimentés peuvent avoir des coûts à pleine charge plus élevés) et d’informatique (ressources cloud, GPU pour la formation des modèles d’IA).
- Délai de mise sur le marché (T), par exemple en semaines ou en mois.
Nous pouvons théoriser le modèle minimal suivant de la triple contrainte au moment de la conception :

Le coût de développement est proportionnel au rapport portée/temps, et k est un facteur scalaire positif représentant la productivité. Une valeur plus élevée de k implique un coût de conception plus faible par unité de portée et par unité de temps, et donc une plus grande productivité au moment de la conception. Le modèle correspond à notre intuition de base : comme T tend vers l’infini (ou S tend vers zéro), C tend vers zéro (c’est-à-dire que prolonger le calendrier du projet ou en réduire la portée rend le projet moins cher).
Par exemple, supposons que notre projet consiste à créer un produit d’IA valant 300 story points, sur une période de 100 jours, avec un facteur de productivité de 0,012. En supposant un coût complet de 500 $ par story point, le modèle minimal suggère que nous devrions prévoir environ 125 000 $ pour expédier le produit :

Le modèle minimal encapsule le noyau physique de la triple contrainte au moment de la conception. En effet, le modèle n’est pas sans rappeler l’équation enseignée à l’école reliant la distance (d), la vitesse (v) et le temps
Les versions étendues du modèle au moment de la conception pourraient prendre en compte :
- Coûts fixes (par exemple, frais généraux de base pour la planification, la gouvernance, la fourniture d’infrastructures), qui impliquent une limite inférieure pour le coût total de la conception.
- Impact limité de l’augmentation des effectifs au-delà d’un certain point. Comme l’a observé Fred Brooks dans son livre de 1975 Le mois-homme mythique« Ajouter de la main d’œuvre à un projet logiciel tardif permet d’y parvenir plus tard. »
- Productivité non linéaire (par exemple, due à la précipitation ou au ralentissement des différentes phases du projet), qui peut influencer la relation entre le coût et le rapport portée/durée.
- Comptabilisation explicite des normes de qualité de l’IA pour permettre un suivi transparent des indicateurs de réussite (par exemple, respect des exigences réglementaires et des accords de niveau de service avec les clients). Actuellement, la comptabilité se fait indirectement par attribution au facteur de productivité et au périmètre.
- La relation entre la productivité et la courbe d’apprentissage de l’équipe produit d’IA, car l’expérience, la répétition des processus et la réutilisation du code rendent le développement plus efficace au fil du temps.
- Comptabiliser la valeur nette (c’est-à-dire les avantages moins les coûts) ou le retour sur investissement (ROI) plutôt que les seuls coûts de développement.
- Prendre en compte le partage de ressources rares entre plusieurs produits d’IA développés en parallèle. Cela impliquerait d’adopter une perspective de portefeuille de produits d’IA en cours de développement à un moment donné.
Compromis au moment de l’exécution
La figure 2 montre une variante du triangle de fer capturant les compromis auxquels sont confrontés les clients ou les utilisateurs d’un produit d’IA au moment de l’exécution.

Les trois dimensions de ce triangle sont :
- Qualité de la réponse (Q) du produit d’IA mesuré en termes de précision prédictive, de score BLEU/ROUGE ou d’une autre mesure de qualité spécifique à la tâche.
- Coûts d’inférence (C) en termes de dollars ou de cents par appel d’inférence, de secondes GPU converties en dollars ou de coûts énergétiques.
- Latence d’inférence (L) en millisecondes, secondes, etc.
Nous pouvons théoriser le modèle minimal suivant de la triple contrainte à l’exécution :

Le coût d’inférence est proportionnel au rapport entre la qualité de la réponse et la latence, et k est un facteur scalaire positif représentant l’efficacité du système. Une valeur plus élevée de k implique un coût inférieur pour une même qualité de réponse et la même latence. Encore une fois, le modèle s’aligne sur notre intuition de base : comme L tend vers zéro (ou Q tend vers l’infini), C tend vers l’infini (c’est-à-dire qu’un produit d’IA qui renvoie des réponses en temps réel de haute qualité sera plus cher qu’un produit similaire fournissant des réponses plus lentes et de qualité inférieure).
Par exemple, supposons qu’un produit d’IA atteigne systématiquement une précision prédictive de 90 % avec une latence de réponse moyenne de 0,5 seconde. En supposant un facteur d’efficacité de 180, nous pouvons nous attendre à ce que le coût d’inférence soit d’environ un centime :

Les versions étendues du modèle d’exécution pourraient prendre en compte :
- Coûts fixes de base (par exemple, du chargement du modèle, du pré- et post-traitement des demandes des utilisateurs).
- Coûts de mise à l’échelle variables en raison d’une relation non linéaire entre le coût et la qualité (par exemple, passer de 80 % à 95 % de précision peut être plus facile que de passer de 95 % à 99 %). Cela pourrait également refléter une forme de rendements décroissants sur les optimisations successives des produits.
- Caractère stochastique de la qualité, qui peut varier en fonction de l’intrant (« garbage in, garbage out »). Cela peut être fait en utilisant la valeur attendue de la qualité, E(Q)au lieu d’une valeur absolue dans le modèle à triple contrainte ; consultez cet article pour une analyse approfondie de l’analyse de la valeur attendue dans la gestion des produits d’IA.
- Frais généraux de latence fixes et variables. Le coût d’inférence pourrait être modélisé en fonction de efficace latence, prise en compte des délais de file d’attente, des sauts de réseau, etc.
- Effets du débit et de la concurrence. Le coût par inférence peut être inférieur pour les inférences par lots (en raison d’une sorte d’amortissement des coûts entre les inférences d’un lot) ou plus élevé en cas de congestion du réseau.
- Comptabilisation explicite de l’efficacité des composants de l’algorithme d’IA (en raison d’une architecture de modèle optimisée, de l’utilisation de l’élagage ou de la quantification), du matériel (performances GPU/TPU) et de l’énergie (consommation d’électricité par FLOP) en décomposant le facteur d’efficacité k par conséquent.
- Adaptation dynamique du facteur d’efficacité k en ce qui concerne la charge, le matériel ou le type/degré d’optimisation. Par exemple, l’efficacité pourrait s’améliorer avec la mise en cache ou la distillation du modèle et se détériorer sous une charge importante en raison de la limitation ou du blocage des ressources.
Enfin, les décisions prises au moment de la conception peuvent façonner la situation et les types de décisions pouvant être prises au moment de l’exécution. Par exemple, l’équipe produit peut choisir d’investir des ressources importantes dans la formation d’un modèle de base complet, qui peut être étendu via un apprentissage en contexte au moment de l’exécution ; Par rapport à un algorithme d’apprentissage automatique classique tel qu’une forêt aléatoire, le modèle de base est un choix au moment de la conception qui peut permettre une meilleure qualité de réponse au moment de l’exécution, bien qu’à un coût d’inférence potentiellement plus élevé. Les investissements au moment de la conception dans un code propre et une infrastructure efficace pourraient augmenter le facteur d’efficacité du système d’exécution. Le choix du fournisseur de cloud pourrait déterminer le coût d’inférence minimum réalisable au moment de l’exécution. Il est donc essentiel d’envisager les compromis entre la conception et la durée d’exécution de manière globale.
L’enveloppement
Comme le démontre cet article, le triangle de fer de la théorie de la gestion de projet peut être réutilisé pour produire des cadres simples mais puissants pour analyser les compromis entre la conception et le temps d’exécution dans le développement de produits d’IA. Le triangle de fer au moment de la conception peut être utilisé par les équipes produit pour prendre des décisions concernant la budgétisation, l’allocation des ressources et la planification des livraisons. Le triangle de fer d’exécution complémentaire offre plusieurs informations sur la manière dont la relation entre les coûts d’inférence, la qualité de la réponse et la latence peut affecter l’adoption du produit et la satisfaction des clients. Étant donné que les décisions au moment de la conception peuvent limiter le caractère facultatif de l’exécution, il est important de réfléchir dès le départ aux compromis entre la conception et l’exécution. En identifiant les compromis dès le début et en les contournant, les équipes produit et leurs clients peuvent créer davantage de valeur à partir de la conception et de l’utilisation de l’IA.



