L’écart entre les data scientists débutants et seniors n’est pas du code

cinq minutes sur LinkedIn ou X, vous remarquerez un débat bruyant dans l’industrie de la science des données. Il est sorti depuis un moment maintenant, mais cette semaine, il a finalement retenu mon attention.

Autant qu’on pourrait le penser, il ne s’agit pas du dernier modèle ou de la bibliothèque Python, mais de ce qui distingue réellement les praticiens juniors des praticiens seniors.

Et ça m’a fait réfléchir.

Qu’est-ce qui différencie réellement un data scientist junior d’un data scientist senior ?

Demandez à la plupart des praticiens en début de carrière, et ils vous diront généralement que les seniors le savent plus: plus d’algorithmes, plus de bibliothèques Python, des techniques de deep learning plus avancées.

Et pendant longtemps, j’y ai cru aussi.

Je me souviens avoir travaillé sur un petit projet d’analyse interne. Comme d’habitude, j’y ai mis tout mon cœur et j’étais fier de voir à quel point tout était « propre ».

Mon cahier était organisé, les fonctions étaient modulaires et les visualisations étaient jolies. Et oh, j’ai même expérimenté plusieurs approches différentes juste pour voir laquelle fonctionnait le mieux.

Ce projet m’a fait prendre conscience de choses très importantes que j’ai vu la plupart des professionnels de l’industrie des données négliger ou traiter avec moins d’importance.

Cet article n’a pas pour but de minimiser les compétences techniques ou de prétendre que le code n’a pas d’importance.

J’ai passé la plupart de mes soirées à nettoyer des données et à réécrire des cahiers. Je sais donc que l’aspect technique de cette industrie est bien réel et stimulant.

Mais la vérité est que l’écart déterminant n’apparaît pas dans les métriques du modèle ou dans un code soigneusement écrit.

C’est un changement de mentalité.

Il s’agit de la transition de la simple exécution de tâches à la décision de ce qui doit réellement être fait, pourquoi c’est important et comment avoir un impact concret.

Les juniors résolvent des tâches. Les seniors résolvent les bons problèmes.

L’une des plus grandes différences entre les data scientists débutants et seniors apparaît dès qu’un problème arrive sur votre bureau.

En tant que junior, mon instinct a toujours été de me lancer. Je me souviens d’une époque où on me demandait d’analyser un ensemble de données de vente et de fournir des informations à l’équipe de direction.

J’ai passé des heures à nettoyer les données, à créer un certain nombre de modèles et à peaufiner les visuels. J’ai réalisé plus tard que la plupart de ce que j’avais fait ne répondait pas réellement à la question clé du business.

J’avais été tellement concentré sur la création d’une analyse parfaite que je n’avais pas pris le temps de comprendre ce que l’analyse était censée éclairer.

« L’une des compétences les plus importantes d’un data scientist est la capacité à présenter un problème du monde réel comme une tâche standard de science des données. »

John D.Kelleher

Après quelques mois de croissance, j’ai appris que les personnes âgées abordent les problèmes différemment.

Ils font une pause avant de toucher le clavier. Ils prennent le temps de comprendre l’objectif, le contexte et l’impact réel de leur travail. Ils posent des questions telles que :

Quelle décision cela vise-t-il à soutenir ?
Comment le succès sera-t-il mesuré ?
Une solution plus simple pourrait-elle aboutir au même résultat ?

Ces questions apparaissent rarement dans un concours Kaggle, mais elles apparaissent partout dans le travail réel.

La différence est que les juniors ont tendance à considérer le problème comme résolu, tandis que les seniors font une pause pour s’assurer qu’ils résolvent le bon problème.

Ils prennent en compte le contexte, l’impact et les réalités pratiques avant d’écrire une seule ligne de code.

Ce genre de réflexion change tout. L’identification du problème réel évite une ingénierie inutile et garantit que votre travail fait la différence.

La précision n’est pas la même chose que l’impact

Il y a une phase que la plupart d’entre nous traversons en tant que jeunes data scientists où nous avons l’impression que tout le travail consiste simplement à optimiser les métriques de votre modèle.

Vous optimisez avec une erreur de 0,7 % et, tout à coup, vous actualisez le bloc-notes comme s’il s’agissait d’un portefeuille d’actions.

Vous ajoutez une autre fonctionnalité, ou un autre algorithme, et tout à coup, les chiffres bougent suffisamment pour donner l’impression que vous faites quelque chose.

Si vous y réfléchissez, c’est un peu l’équivalent en science des données de l’utilisation de XP dans un jeu vidéo.

Vous montez de niveau, mais vous ne savez pas vraiment si vous jouez à la quête principale ou si vous faites simplement des missions secondaires.

Avant, je pensais que c’était à cela que ressemblait un « bon travail ». Si le modèle était meilleur, le travail était meilleur. Simple.

Une fois, j’ai passé une semaine entière à essayer d’insérer un modèle très complexe dans un pipeline qui n’était jamais censé le gérer.

C’était comme installer un moteur de Formule 1 dans une voiturette de golf, techniquement audacieux mais pratiquement inutile.

Un collègue senior a examiné mon pipeline pendant cinq minutes et a recommandé de commencer par une simple heuristique juste pour vérifier si le signal était suffisamment fort pour justifier un modèle d’apprentissage automatique.

Cinq minutes.

J’avais passé une semaine.

Ce n’était pas une lacune dans le codage. C’était une lacune de jugement.

Lorsque vous optimisez l’impact plutôt que la précision, votre travail technique s’améliore. Vous arrêtez la sur-ingénierie et commencez à sélectionner les méthodes appropriées au problème.

Vous êtes mannequin parce que vous devraitpas seulement pour montrer que tu peut.

Les seniors communiquent plus qu’ils ne codent

Une autre différence qui m’a surpris est le temps que les data scientists seniors passent à ne pas coder.

En tant que junior, je me concentrais sur les cahiers. Je pensais que le code parlerait de lui-même.

Ce n’est pas le cas.

Les parties prenantes ne se soucient pas de votre pipeline d’ingénierie de fonctionnalités ; ce qui les intéresse, c’est ce que les résultats signifient pour leurs décisions.

Les seniors l’ont bien compris et en profitent. Ils traduisent les découvertes techniques en langage commercial sans compliquer les choses pour leur public.

Ils posent également de meilleures questions, non seulement sur les données, mais aussi sur le contexte.

Ces conversations éclairent l’analyse bien avant même qu’un modèle ne soit formé.

D’après mon expérience, j’ai découvert que la communication n’est pas une « compétence générale » en science des données. Il s’agit en fait d’une dure nécessité technique, car elle détermine si votre travail est utilisé ou non.

Un modèle qui n’est pas compris ne sera pas déployé. Une idée à laquelle on ne fait pas confiance ne sera pas mise en œuvre.

Pensées finales

Les compétences techniques seront toujours la base. Vous ne pouvez pas vous sortir d’un mauvais code ou de mauvaises pratiques en matière de données, et les bons fondamentaux ne sont pas négociables.

Mais le code est la porte d’entrée, pas la destination.

Le passage du développeur junior au développeur senior ne consiste pas à accumuler plus d’algorithmes ou à superposer plus d’outils. Il s’agit de savoir quand les appliquer, quand les ignorer et pourquoi vous faites l’un ou l’autre en premier lieu.

En fin de compte, la véritable croissance se produit lorsque vous mesurez le succès non pas par l’amélioration de votre modèle, mais par la mesure dans laquelle votre travail change quelque chose dans le monde réel.

C’est la différence entre écrire du bon code et faire de la science des données efficace.

Avant de partir !

Je crée une communauté de développeurs et de data scientists où je partage des tutoriels pratiques, décompose des concepts CS complexes et laisse tomber des diatribes occasionnelles sur l’industrie technologique.

Si cela ressemble à votre genre d’espace, rejoignez mon gratuit bulletin.

Blog

L’écart entre les data scientists débutants et seniors n’est pas du code

Les juniors résolvent des tâches. Les seniors résolvent les bons problèmes.

La précision n’est pas la même chose que l’impact

Les seniors communiquent plus qu’ils ne codent

Pensées finales

Avant de partir !

Connectez-vous avec moi

Concevoir des systèmes de données et d'IA qui résistent en production

Arrêtez de demander si un modèle est interprétable

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links

Blog

Les juniors résolvent des tâches. Les seniors résolvent les bons problèmes.

La précision n’est pas la même chose que l’impact

Les seniors communiquent plus qu’ils ne codent

Pensées finales

Avant de partir !

Connectez-vous avec moi

Concevoir des systèmes de données et d'IA qui résistent en production

Arrêtez de demander si un modèle est interprétable

You may also like

Comment étudier la monotonie et la stabilité des variables dans un modèle de notation à l’aide de Python

Pourquoi les ingénieurs en IA vont au-delà de LangChain vers des architectures d’agents natifs

Ensembles d’ensembles d’ensembles : un guide de l’empilement

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links​

Login with your site account

Register a new account

Links