Apprendre Triton un noyau à la fois : Softmax

Dans l’article précédent de cette série, fonctionnement dans tous les domaines de l’informatique : la multiplication matricielle. Il est largement utilisé dans les réseaux de neurones pour calculer l’activation de couches linéaires. Cependant, les activations en elles-mêmes sont difficiles à interpréter, car leurs valeurs et statistiques (moyenne, variance, amplitude min-max) peuvent varier considérablement d’une couche à l’autre. C’est l’une des raisons pour lesquelles nous utilisons des fonctions d’activation, par exemple la fonction logistique (alias sigmoïde) qui projette n’importe quel nombre réel dans le [0; 1] gamme.

La fonction softmax, également connue sous le nom de fonction exponentielle normalisée, est une généralisation multidimensionnelle du sigmoïde. Il convertit un vecteur de scores bruts (logits) en un distribution de probabilité sur M cours. Nous pouvons l’interpréter comme un moyenne pondérée qui se comporte comme un fonction fluide et peut être facilement différencié. Il s’agit d’un élément crucial de l’attention aux produits scalaires, de la modélisation du langage et de la régression logistique multinomiale.

Dans cet article, nous aborderons :