
Au-delà de l’invite : utiliser les compétences des agents en science des données
Dans mon dernier article, j’ai expliqué comment utiliser MCP pour intégrer les LLM dans votre flux de travail complet de science des données. J’en ai également brièvement mentionné un autre.
Une compétence est un ensemble réutilisable d’instructions et de fichiers de support facultatifs. Cela aide l’IA à gérer un flux de travail récurrent de manière plus fiable et cohérente. Au minimum, il faut un SKILL.md fichier contenant des métadonnées (nom et description) et des instructions détaillées sur le fonctionnement de la compétence. Les gens l’associent souvent à des scripts, des modèles et des exemples pour des raisons de standardisation et de précision.
À ce stade, vous vous demandez peut-être pourquoi nous utilisons des compétences au lieu de simplement écrire le tout directement dans le contexte du Code Claude ou du Codex. L’un des avantages est que les compétences permettent de raccourcir le contexte principal. L’IA n’a besoin que de charger les métadonnées légères dans un premier temps : elle peut lire les instructions restantes et les ressources regroupées lorsqu’elle décide que la compétence est pertinente. Vous pouvez trouver une grande collection publique de compétences sur compétences.sh.
Permettez-moi de rendre l’idée plus concrète avec un exemple simple.
Mon exemple – Compétence de visualisation hebdomadaire
Contexte
Je fais une visualisation chaque semaine depuis 2018 — si vous êtes curieux, j’ai écrit sur mon parcours dans cet article. Ce processus est très répétitif et me prend généralement environ une heure par semaine. Par conséquent, je l’ai trouvé un excellent candidat pour l’automatisation avec compétences.

Flux de travail sans IA
Voici ma routine hebdomadaire :
- Trouvez un ensemble de données qui m’intéresse. Les sites Web sur lesquels je vais habituellement pour m’inspirer incluent Visualisation Tableau du jour, Voronej, le quotidien économique de BLS, r/dataisbeautifuletc.
- Ouvrez Tableau, jouez avec les données, trouvez des informations et créez une visualisation qui raconte l’histoire de manière intuitive.
- Publiez-le sur mon site personnel.
Flux de travail de l’IA
Bien que l’étape de recherche de l’ensemble de données soit toujours manuelle, j’ai créé deux compétences pour automatiser les étapes 2 et 3 :
- UN visualisation de la narration compétence qui analyse l’ensemble de données, identifie des informations, suggère des types de visualisation et génère une visualisation interactive intuitive, concise et orientée narration.
- UN à savoir-publier compétence qui publie la visualisation sur mon site Web au format HTML intégré — je ne vais pas partager celle-ci, car elle est très spécifique à la structure du référentiel de mon site Web.
Vous trouverez ci-dessous un exemple dans lequel j’ai déclenché la compétence de visualisation de narration dans Codex Desktop. J’ai utilisé le même ensemble de données Apple Health que la dernière fois, demandant au Codex d’interroger les données de la base de données Google BigQuery, puis d’utiliser la compétence pour générer une visualisation. Il a pu faire apparaître un aperçu de la durée annuelle d’exercice par rapport aux calories brûlées, et recommander un type de graphique avec un raisonnement et des compromis.


L’ensemble du processus a pris moins de 10 minuteset voici le résultat : il commence par un titre basé sur des informations, suivi d’une visualisation interactive claire, de mises en garde et de la source de données. J’ai testé cette compétence avec mes dernières visualisations hebdomadaires, et vous pouvez trouver d’autres exemples de visualisation dans le dépôt de compétences.

Comment je l’ai réellement construit
Maintenant que nous avons examiné le résultat, laissez-moi vous expliquer comment j’ai développé la compétence.
Étape 1 : Commencez par un plan
Comme je l’ai partagé dans mon dernier article, j’aime d’abord établir un plan avec l’IA avant sa mise en œuvre. Ici, j’ai commencé par décrire mon flux de travail de visualisation hebdomadaire et mon objectif de l’automatiser. Nous avons discuté de la pile technologique, des exigences et de ce à quoi devrait ressembler un « bon » résultat. Cela conduit à ma toute première version de la compétence.
Ce qui est intéressant, c’est que vous n’avez pas besoin de créer le fichier SKILL.md manuellement : demandez simplement à Claude Code ou Codex de créer une compétence pour votre cas d’utilisation, et il pourra amorcer la version initiale pour vous (cela déclenchera une compétence pour créer une compétence).


Étape 2 : tester et itérer
Cependant, cette première version ne m’a permis d’obtenir que 10 % de mon flux de travail de visualisation idéal : elle pouvait générer des visualisations, mais les types de graphiques étaient souvent sous-optimaux, les styles visuels étaient incohérents et les principaux points à retenir n’étaient pas toujours mis en évidence, etc.
Les 90 % restants nécessitaient des améliorations itératives. Voici quelques stratégies qui ont aidé.
1. Partager mes propres connaissances
Au cours des huit dernières années, j’ai établi mes propres meilleures pratiques et préférences en matière de visualisation. Je voulais que l’IA suive ces modèles au lieu d’inventer un style différent à chaque fois. Par conséquent, j’ai partagé mes captures d’écran de visualisation ainsi que mes conseils de style. AI a pu résumer les principes communs et mettre à jour les instructions de compétences en conséquence.

2. Rechercher des ressources externes
Il existe de nombreuses ressources en ligne sur une bonne conception de visualisation de données. Une autre mesure utile que j’ai prise a été de demander à l’IA de rechercher de meilleures stratégies de visualisation à partir de sources bien connues et de compétences publiques similaires. Cela a ajouté des perspectives que je n’avais pas explicitement documentées moi-même et a rendu la compétence plus évolutive et plus robuste.


3. Apprendre des tests
Les tests sont essentiels pour identifier les domaines d’amélioration. J’ai testé cette compétence avec plus de 15 ensembles de données différents pour observer son comportement et comment son résultat se compare à mes propres visualisations. Ce processus m’a aidé à suggérer des mises à jour concrètes, telles que :
- Standardiser les choix de polices et la mise en page
- Vérification des aperçus sur ordinateur et mobile pour éviter le chevauchement des étiquettes et des annotations
- Rendre les graphiques compréhensibles même sans info-bulles
- Demander toujours la source de données et la lier dans la visualisation
- …



Vous pouvez trouver la dernière version de la compétence storytelling-viz ici. N’hésitez pas à jouer avec et dites-moi comment vous l’aimez 🙂
Points à retenir pour les data scientists
Quand les compétences sont utiles
Mon projet de visualisation hebdomadaire n’est qu’un exemple, mais les compétences peuvent être utiles dans de nombreux flux de travail récurrents en science des données. Ils sont particulièrement précieux lorsque vous avez une tâche qui revient à plusieurs reprises, suit un processus semi-structuré, dépend de la connaissance du domaine et est difficile à gérer avec une seule invite.
- Par exemple, enquêter sur le mouvement de la métrique X. Vous connaissez probablement déjà les moteurs courants de X, vous commencez donc toujours par découper par segments A/B/C et vérifier les métriques D et E de l’entonnoir supérieur. C’est exactement le processus que vous pouvez intégrer dans une compétence, donc l’IA suit le même manuel analytique et identifie la cause profonde pour vous.
- Autre exemple : supposons que vous envisagez de réaliser une expérience dans la région A et que vous souhaitiez vérifier d’autres expériences en cours dans la même zone. Dans le passé, vous recherchiez des mots-clés dans Slack, parcouriez Google Docs et ouvriez la plate-forme d’expérimentation interne pour examiner les expériences étiquetées avec la région. Désormais, vous pouvez résumer ces étapes courantes dans une compétence et demander aux LLM de mener des recherches complètes et de générer un rapport sur les expériences pertinentes avec leurs objectifs, leurs durées, leur trafic, leurs statuts et leurs documents.
Si votre flux de travail se compose de plusieurs composants indépendants et réutilisables, vous devez les diviser en compétences distinctes.. Dans mon cas, j’ai créé deux compétences : une pour générer la visualisation et une autre pour la publier sur mon blog. Cela rend les éléments plus modulaires et plus faciles à réutiliser ultérieurement dans d’autres flux de travail.
Les compétences et le MCP fonctionnent bien ensemble. J’ai utilisé BigQuery MCP et la compétence de visualisation dans une seule commande, et cela a réussi à générer une visualisation basée sur mes ensembles de données dans BigQuery. MCP aide le modèle à accéder en douceur aux outils externes et les compétences l’aident à suivre le bon processus pour une tâche donnée.. Cette combinaison est donc puissante et se complète.
Une note finale sur mon projet de visualisation hebdomadaire
Maintenant que je peux automatiser 80 % de mon processus de visualisation hebdomadaire, pourquoi est-ce que je le fais encore ?
Lorsque j’ai pris cette habitude pour la première fois en 2018, l’objectif était de mettre en pratique Tableau, qui était le principal outil de BI utilisé par mon employeur. Cependant, l’objectif a changé au fil du temps : j’utilise désormais ce rituel hebdomadaire pour explorer différents ensembles de données que je ne rencontrerais jamais au travail, affiner mon intuition et ma narration en matière de données, et voir le monde à travers le prisme des données. Donc pour moi, il ne s’agit pas vraiment de l’outil, mais du processus de découverte. Et c’est pourquoi j’ai l’intention de continuer à le faire, même à l’ère de l’IA.



