
Au-delà de la génération de code : l’IA pour le flux de travail complet de la science des données
ressentir un sentiment constant d’AI FOMO. Chaque jour, je vois des gens partager des conseils sur l’IA, les nouveaux agents et compétences qu’ils ont construits, ainsi que des applications codées par ambiance. Je réalise de plus en plus que s’adapter rapidement à l’IA devient aujourd’hui une condition nécessaire pour rester compétitif en tant que data scientist.
Mais je ne parle pas seulement de brainstorming avec ChatGPT, de génération de code avec Cursor ou de peaufinage d’un rapport avec Claude. Le plus grand changement est que L’IA peut désormais participer à un flux de travail de science des données beaucoup plus complet.
Pour concrétiser l’idée, je l’ai essayé sur un projet réel en utilisant mes données Apple Health.
Un exemple simple – Analyse de la santé Apple
Contexte
Je porte une Apple Watch tous les jours depuis 2019 pour suivre mes données de santé, telles que la fréquence cardiaque, l’énergie brûlée, la qualité du sommeil, etc. Ces données contiennent des années de signaux comportementaux sur ma vie quotidienne, mais l’application Apple Health les présente principalement avec de simples vues de tendances.
J’ai essayé d’analyser une exportation Apple Health sur deux ans il y a six ans. Mais cela a fini par devenir l’un de ces projets parallèles que vous n’avez jamais terminés… Mon objectif cette fois est d’extraire rapidement plus d’informations à partir des données brutes avec l’aide de l’IA.
Ce avec quoi j’ai dû travailler
Voici les ressources pertinentes dont je dispose :
- Données brutes d’exportation d’Apple Health: 1,85 Go en XML, téléchargé sur mon Google Drive.
- Exemple de code pour analyser l’exportation brute vers des ensembles de données structurés dans mon Dépôt GitHub d’il y a six ans. Mais le code pourrait être obsolète.

Flux de travail sans IA
Un flux de travail standard sans IA ressemblerait beaucoup à ce que j’ai essayé il y a six ans : inspectez la structure XML, écrivez Python pour l’analyser dans des ensembles de données locaux structurés, effectuez une EDA avec Pandas et Numpy et résumez les informations.
Je suis sûr que tous les data scientists connaissent ce processus : ce n’est pas sorcier, mais sa construction prend du temps. Pour accéder à un rapport d’informations soigné, cela prendrait au moins une journée entière. C’est pourquoi ce dépôt vieux de 6 ans est toujours marqué comme WIP…
Flux de travail de bout en bout de l’IA
Mon flux de travail mis à jour avec l’IA est :
- L’IA localise les données brutes dans mon Google Drive et les télécharge.
- L’IA fait référence à mon ancien code GitHub et écrit un script Python pour analyser les données brutes.
- L’IA télécharge les ensembles de données analysés sur Google BigQuery. Bien sûr, l’analyse pourrait également être effectuée localement sans BigQuery, mais je l’ai configurée de cette façon pour mieux ressembler à un environnement de travail réel.
- L’IA exécute des requêtes SQL sur BigQuery pour effectuer l’analyse et compiler un rapport d’analyse.
Essentiellement, l’IA gère presque toutes les étapes, de l’ingénierie des données à l’analyse, et j’agis davantage en tant que réviseur et décideur.
Rapport généré par l’IA
Voyons maintenant ce que le Codex a pu générer grâce à mes conseils et à quelques allers-retours. dans 30 minuteshors temps de mise en place de l’environnement et des outillages.
J’ai choisi Codex parce que j’utilise principalement Claude Code au travail, j’avais donc envie d’explorer un outil différent. J’ai profité de cette opportunité pour configurer mon environnement Codex à partir de zéro afin de pouvoir mieux évaluer tous les efforts requis.
Vous pouvez voir que ce rapport est bien structuré et visuellement soigné. Il résume des informations précieuses sur les tendances annuelles, la cohérence des exercices et l’impact des déplacements sur les niveaux d’activité. Il a également formulé des recommandations et énoncé des limites et des hypothèses. Ce qui m’a le plus impressionné n’était pas seulement la rapidité, mais aussi la rapidité avec laquelle le résultat a commencé à ressembler à une analyse destinée aux parties prenantes plutôt qu’à un cahier approximatif.
Veuillez noter que le rapport est nettoyé pour la confidentialité de mes données.



Comment je l’ai fait réellement
Maintenant que nous avons vu le travail impressionnant que l’IA peut générer en 30 minutes, permettez-moi de le détailler et de vous montrer toutes les étapes que j’ai suivies pour y parvenir. j’ai utilisé Manuscrit pour cette expérience. Comme Claude Code, il peut s’exécuter dans l’application de bureau, un IDE ou la CLI.
1. Configurer MCP
Pour permettre au Codex d’accéder à des outils, notamment Google Drive, GitHub et Google BigQuery, l’étape suivante consistait à configurer des serveurs MCP (Model Context Protocol).
Le moyen le plus simple de configurer MCP est de demander à Codex de le faire pour vous. Par exemple, lorsque je lui ai demandé de configurer Google Drive MCP, il a rapidement configuré mes fichiers locaux avec les étapes suivantes claires sur la façon de créer un client OAuth dans Google Cloud Console.
On ne réussit pas toujours du premier coup, mais la persévérance aide. Lorsque je lui ai demandé de configurer BigQuery MCP, il a échoué au moins 10 fois avant que la connexion ne réussisse. Mais à chaque fois, il m’a fourni des instructions claires sur la façon de le tester et les informations utiles au dépannage.


2. Faites un plan avec le mode Plan
Après avoir configuré les MCP, je suis passé au projet lui-même. Pour un projet complexe qui implique plusieurs sources de données/outils/questions, je commence généralement par le mode Plan pour définir les étapes de mise en œuvre. Dans Claude Code et Codex, vous pouvez activer le mode Plan avec /plan. Cela fonctionne comme ceci : vous décrivez la tâche et votre plan approximatif, le modèle pose des questions de clarification et propose un plan de mise en œuvre plus détaillé que vous pouvez examiner et affiner. Dans les captures d’écran ci-dessous, vous pouvez trouver ma première itération avec.



3. Exécution et itération
Après avoir cliqué sur « Oui, mettre en œuvre ce plan », le Codex a commencé à s’exécuter tout seul, en suivant les étapes. Cela a fonctionné pendant 13 minutes et a généré la première analyse ci-dessous. Il a évolué rapidement entre différents outils, mais il a effectué l’analyse localement car il a rencontré davantage de problèmes avec BigQuery MCP. Après une nouvelle série de dépannage, l’entreprise a pu importer les ensembles de données et exécuter correctement les requêtes dans BigQuery.

Cependant, le résultat du premier passage était encore superficiel, je l’ai donc guidé pour approfondir avec des questions de suivi. Par exemple, j’ai des billets d’avion et des projets de voyage issus de voyages antérieurs dans mon Google Drive. Je lui ai demandé de les retrouver et d’analyser mes habitudes d’activité pendant les voyages. Il a réussi à localiser ces fichiers, à extraire mes jours de voyage et à exécuter l’analyse.
Après quelques itérations, il a pu générer un rapport beaucoup plus complet, comme je l’ai partagé au début, en 30 minutes. Vous pouvez trouver son code ici. C’est probablement l’une des leçons les plus importantes de cet exercice : L’IA a évolué rapidement, mais la profondeur venait toujours de l’itération et de meilleures questions.

Points à retenir pour les data scientists
Ce que l’IA change
Ci-dessus, un petit exemple de la façon dont j’ai utilisé le Codex et les MCP pour exécuter une analyse de bout en bout sans écrire manuellement une seule ligne de code. Quels sont les enseignements à retenir pour les data scientists au travail ?
- Pensez au-delà de l’assistance au codage. Plutôt que d’utiliser l’IA uniquement pour le codage et l’écriture, il vaut la peine d’étendre son rôle à l’ensemble du cycle de vie de la science des données. Ici, j’ai utilisé l’IA pour localiser des données brutes dans Google Drive et télécharger des ensembles de données analysés sur BigQuery. Il existe de nombreux autres cas d’utilisation de l’IA liés au pipeline de données et au déploiement de modèles.
- Le contexte devient un multiplicateur de force. Les MCP sont ce qui a rendu ce flux de travail beaucoup plus puissant. Codex a scanné mon Google Drive pour localiser mes dates de voyage et lu mon ancien code GitHub pour trouver un exemple de code d’analyse. De même, vous pouvez activer d’autres approuvé par l’entreprise Des MCP pour aider votre IA (et vous-même) à mieux comprendre le contexte. Par exemple:
– Connectez-vous à Slack MCP et Gmail MCP pour rechercher des conversations pertinentes passées.
– Utilisez Atlassian MCP pour accéder à la documentation des tables sur Confluence.
– Configurez Snowflake MCP pour explorer le schéma de données et exécuter des requêtes. - Les règles et les compétences réutilisables sont importantes. Même si je ne l’ai pas démontré explicitement dans cet exemple, vous devriez personnalisez les règles et créez des compétences pour guider votre IA et étendre ses capacités. Ces sujets valent leur propre article la prochaine fois 🙂
Comment le rôle des data scientists va évoluer
Mais cela signifie-t-il que l’IA va remplacer les data scientists ? Cet exemple met également en lumière la manière dont les rôles des data scientists évolueront à l’avenir.
- Moins d’exécution manuelle, plus de résolution de problèmes. Dans l’exemple ci-dessus, l’analyse initiale générée par le Codex était très basique. La qualité de l’analyse générée par l’IA dépend fortement de la qualité de la formulation de votre problème. Vous devez définir clairement la question, la diviser en tâches réalisables, identifier la bonne approche et approfondir l’analyse.
- La connaissance du domaine est essentielle. La connaissance du domaine reste indispensable pour interpréter correctement les résultats et fournir des recommandations. Par exemple, AI a remarqué que mon niveau d’activité avait considérablement diminué depuis 2020. Elle n’a pas pu trouver d’explication convaincante, mais a déclaré : «Les causes possibles incluent des changements de routine, un horaire de travail, des changements de style de vie, une blessure, une motivation ou une formation moins structurée, mais ce sont des déductions et non des résultats..» Mais la véritable raison, comme vous l’avez peut-être compris, est la pandémie. J’ai commencé à travailler à domicile début 2020, donc naturellement, j’ai brûlé moins de calories. Il s’agit d’un exemple très simple de l’importance de la connaissance du domaine : même si l’IA peut accéder à tous les documents antérieurs de votre entreprise, cela ne signifie pas qu’elle comprendra toutes les nuances commerciales, et c’est votre avantage concurrentiel.
- Cet exemple était relativement simple, mais il existe encore de nombreuses catégories de travail pour lesquelles je ne ferais pas confiance à l’IA pour fonctionner de manière indépendante aujourd’hui, en particulier projets qui nécessitent un jugement technique et statistique plus fortcomme l’inférence causale.
Mises en garde importantes
Enfin, il y a certaines considérations que vous devez garder à l’esprit lorsque vous utilisez l’IA :
- Sécurité des données. Je suis sûr que vous avez déjà entendu cela à plusieurs reprises, mais permettez-moi de le répéter une fois de plus. Le risque pour la sécurité des données lié à l’utilisation de l’IA est réel. Pour un projet parallèle personnel, je peux configurer les choses comme je le souhaite et prendre mes propres risques (honnêtement, accorder à l’IA un accès complet à Google Drive semble être une décision risquée, c’est donc davantage à des fins d’illustration). Mais au travail, suivez toujours les conseils de votre entreprise concernant les outils qui peuvent être utilisés en toute sécurité et comment. Et assurez-vous de lire chaque commande avant de cliquer sur « approuver ».
- Vérifiez à nouveau le code. Pour mon projet simple, l’IA peut écrire du SQL précis sans problème. Mais dans des contextes commerciaux plus complexes, je vois encore de temps en temps l’IA commettre des erreurs dans son code. Parfois, il rejoint des tables avec des granularités différentes, provoquant un déploiement et un double comptage. D’autres fois, il manque des filtres et des conditions critiques.
- L’IA est pratique, mais elle peut répondre à vos attentes avec des effets secondaires inattendus.… Laissez-moi vous raconter une histoire amusante pour terminer cet article. Ce matin, j’ai allumé mon ordinateur portable et j’ai vu une alerte indiquant qu’il n’y avait plus de stockage sur disque : j’ai un MacBook Pro SSD de 512 Go et j’étais presque sûr de n’avoir utilisé qu’environ la moitié du stockage. Depuis que je jouais avec Codex hier soir, c’est devenu mon premier suspect. Alors je lui ai demandé : «hé, tu as fait quelque chose ? Mes « données système » ont augmenté de 150 Go du jour au lendemain« . Il a répondu: « Non, le Codex ne prend que xx Mo » Ensuite, j’ai déterré mes fichiers et j’ai vu un « bigquery-mcp-wrapper.log » de 142 Go… Il est probable que le Codex ait configuré ce journal lors du dépannage de la configuration de BigQuery MCP. Plus tard dans la tâche d’analyse proprement dite, il a explosé en un fichier géant. Alors oui, cette machine à souhaits magique a un coût.
Cette expérience résume bien pour moi le compromis : l’IA peut réduire considérablement la distance entre les données brutes et une analyse utile, mais en tirer le meilleur parti nécessite toujours du jugement, de la surveillance et la volonté de déboguer le flux de travail lui-même.



