Vous avez des difficultés avec la science des données ? 5 erreurs courantes des débutants

data science, tout d’abord bien faite.

Vous avez choisi l’une des carrières technologiques les plus lucratives et à croissance rapide.

Mais voici la vérité : la plupart des étudiants perdent des mois (voire des années) à faire des erreurs. Évitez ces erreurs pour accélérer votre carrière en science des données.

Après plus de 4 ans de travail dans le domaine, j’ai vu exactement ce qui différencie ceux qui décrochent rapidement leur premier emploi en science des données… de ceux qui ne dépassent jamais les tutoriels interminables.

Dans cet article, je vais détailler les cinq plus grosses erreurs qui retiennent les data scientists débutants afin que vous puissiez les éviter activement.

Ne pas apprendre les mathématiques fondamentales

Les mathématiques sont de loin les plus importantes… et pourtant aussi les plus négligées.

De nombreuses personnes, même des praticiens, pensent qu’il n’est pas nécessaire de connaître les mathématiques sous-jacentes à la science des données et à l’apprentissage automatique.

Il est en effet très peu probable que vous effectuiez une rétropropagation à la main, construisiez un arbre de décision à partir de zéro ou construisiez une expérience A/B à partir des premiers principes.

Il est donc facile de prendre cela pour acquis et d’éviter d’apprendre la théorie de base.

Cependant, c’est dangereux et je ne le recommande pas.

Bien sûr, vous pouvez créer un réseau neuronal avec quelques lignes de PyTorch, mais que se passe-t-il lorsqu’il a un comportement étrange et que vous devez le déboguer ?

Ou que se passerait-il si quelqu’un vous demandait quel est l’intervalle de prédiction autour de votre sortie d’un modèle de régression linéaire ?

Ces scénarios surviennent plus fréquemment que vous ne le pensez, et la seule façon d’y répondre est d’avoir une solide compréhension des mathématiques sous-jacentes.

Considérez les mathématiques comme le système d’exploitation de votre cerveau pour la science des données. Chaque modèle, chaque algorithme, chaque idée que vous produisez s’appuie sur celui-ci.

Si votre système d’exploitation est bogué ou obsolète, rien d’autre ne fonctionne correctement, quelle que soit la sophistication de vos outils.

Posez les bases dès maintenant pendant que vous êtes en phase d’apprentissage, car cela vous permettra d’avancer beaucoup plus rapidement plus tard dans votre carrière.

Essayer de trouver le « meilleur » cours

On me demande souvent :

Quel est le meilleur cours ?

Je vous aime vraiment tous, mais cette question doit disparaître.

En tant que débutant complet, le meilleur cours est celui que vous choisissez et suivez.

De nombreux cours d’introduction à la science des données, à l’apprentissage automatique et à Python vous apprendront les mêmes choses.

Vous trouverez peut-être un professeur ou un style d’enseignement meilleur qu’un autre, mais fondamentalement, vous acquerrez des connaissances très similaires à celles d’une autre personne suivant un autre cours.

En biais vers l’action et le démarrage au début, vous pouvez plus tard ajuster votre direction si vous sentez que vous n’êtes pas aligné. Arrêtez de trop réfléchir.

Comme le dicton célèbre va:

Le meilleur moment pour planter un arbre, c’était il y a 20 ans. Le deuxième meilleur moment est aujourd’hui.

Le parcours et l’expérience de chacun sont différents, et il n’existe pas de « manière unique » de se lancer dans la science des données.

Alors, suivez toujours les conseils de chacun (même les miens) avec une pincée de sel et adaptez-les à vous-même. Faites ce qui vous convient le mieux.

Ne pas faire d’apprentissage par projet

Parallèlement à ce thème, un autre piège courant est l’enfer des tutoriels.

Croyez-moi, ce n’est pas un endroit où vous voulez être.

Si vous ne savez pas ce qu’est l’enfer du tutoriel, ceci article de blog l’explique très bien :

L’enfer des didacticiels est l’endroit où vous écrivez du code que d’autres vous expliquent comment écrire, mais vous ne comprenez pas comment l’écrire vous-même lorsqu’on vous donne une page vierge. À un moment donné, il est temps d’enlever les roues d’entraînement et de construire quelque chose par vous-même.

En gros, vous suivez tutoriel après tutoriel et n’essayez pas de construire quoi que ce soit par vous-même.

Pour apprendre les concepts, vous devez les pratiquer et les appliquer de manière indépendante dans votre travail. C’est ainsi que vous solidifiez votre compréhension, et le réel l’apprentissage est fait.

Imaginez que vous ayez seulement construit un XGBoost modèle suivant des tutoriels en ligne.

Si on vous présente ensuite une étude de cas à emporter dans le cadre d’un entretien, vous aurez vraiment du mal car vous n’avez aucune expérience dans la création de modèles sans une procédure pas à pas.

Ce que je préconise, c’est « l’apprentissage par projet ».

Vous voulez en apprendre juste assez, puis construire immédiatement un projet.

Croyez-moi, cette approche est exponentiellement meilleure que de faire de nombreux tutoriels (parlant d’une expérience douloureuse ici !).

Projets de quantité plutôt que de qualité

Bien que réaliser des projets soit la meilleure façon d’apprendre, ne sursaturez pas votre GitHub avec des tas de projets « faciles ».

Si tous vos projets tournent autour d’un ensemble de données déjà prédéfini à partir de Kaggle et utilisent Sci-Kit Learn .fit() et .predict() méthodes, il est probablement temps d’essayer quelque chose d’un peu plus difficile.

Maintenant, je ne propose pas ces projets d’entrée de gamme, car ils sont un excellent moyen de se salir les mains.

Cependant, à un moment donné, la qualité de vos projets comptera plus que la quantité.

Les projets plus importants et plus approfondis seront ceux qui vous permettront d’être embauché. Les recruteurs ne veulent pas voir un autre problème titanesque lié aux ensembles de données ; au contraire, ce serait un signal d’alarme de nos jours.

Quelques idées à essayer :

Créez des algorithmes ML à partir de zéro en utilisant Python natif.
Réimplémenter un document de recherche et essayer de reproduire les résultats des auteurs.
Créez un système de recommandation de base pour quelque chose de personnel dans votre vie.
Affiner un LLM.

Cette liste n’est en aucun cas exhaustive et le meilleur projet est celui qui vous est personnel, comme je le dis toujours.

Passer directement à l’IA

Je vais être honnête avec vous.

Je déteste l’IA.

Non, je ne pense pas que cela remplacera les data scientists.

Non, je ne pense pas que ce soit aussi bon que les gens le pensent.

Et je suis sûr que je ne m’en inquiète pas du tout pendant les 5 prochaines années.

Les raisons pour lesquelles je ne suis pas inquiet pourraient remplir une vidéo entière, je laisserai donc cela pour plus tard. Mais c’est en fait drôle, presque à quel point cela ne me concerne pas.

Quoi qu’il en soit, la raison pour laquelle je dis cela est que cela me déroute quand je vois des débutants se lancer directement dans l’apprentissage de l’IA et des LLM.

Il s’agit d’un excellent exemple du syndrome des objets brillants.

En tant que débutant, concentrez-vous sur les bases des mathématiques et des statistiques, ainsi que sur les algorithmes de la vieille école tels que les arbres de décision, les modèles de régression et les machines vectorielles de support.

Ceux-ci sont persistants et resteront là pendant longtemps, il est donc sage d’y investir dès le début.

L’IA est encore une entité inconnue, et il est difficile de dire si elle sera aussi populaire et utile dans quelques années.

Si le sujet est populaire maintenant et effectivement utile, il le sera dans 1 an, 3 ans et même une décennie. Alors ne vous inquiétez pas, vous disposez de tout le temps nécessaire pour étudier des sujets d’actualité.

Vous vous souvenez de ce que j’ai dit plus tôt à propos de tous les projets qui ne vous embauchent pas ?

Que les plus longs et plus approfondis font toute la différence ?

Mais à quoi ressemblent concrètement ces projets ?

Eh bien, consultez mon article précédent, qui présente des projets spécifiques qui vous aider à vous démarquer (et lesquels sont une perte de temps totale).

Rendez-vous là-bas!

Une autre chose !

Rejoignez ma newsletter gratuite où je partage chaque semaine des astuces, des informations et des conseils pour décrocher votre premier emploi en science des données ou en apprentissage automatique. De plus, en tant qu’abonné, vous recevrez mon Modèle de CV GRATUIT !

https://newsletter.egorhowell.com

Blog

Vous avez des difficultés avec la science des données ? 5 erreurs courantes des débutants

Ne pas apprendre les mathématiques fondamentales

Essayer de trouver le « meilleur » cours

Ne pas faire d’apprentissage par projet

Projets de quantité plutôt que de qualité

Passer directement à l’IA

Une autre chose !

Connectez-vous avec moi

Comment implémenter la randomisation avec le module Python Random

Un guide pratique sur les nouvelles capacités de sortie structurée d'Anthropic

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links

Blog

Ne pas apprendre les mathématiques fondamentales

Essayer de trouver le « meilleur » cours

Ne pas faire d’apprentissage par projet

Projets de quantité plutôt que de qualité

Passer directement à l’IA

Une autre chose !

Connectez-vous avec moi

Comment implémenter la randomisation avec le module Python Random

Un guide pratique sur les nouvelles capacités de sortie structurée d'Anthropic

You may also like

Comment étudier la monotonie et la stabilité des variables dans un modèle de notation à l’aide de Python

Pourquoi les ingénieurs en IA vont au-delà de LangChain vers des architectures d’agents natifs

Ensembles d’ensembles d’ensembles : un guide de l’empilement

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links​

Login with your site account

Register a new account

Links