Quand les transformateurs chantent : adapter SpectralKD pour la distillation des connaissances basée sur du texte

Alors que je travaillais sur mon problème de distillation des connaissances pour la classification des intentions, j’ai été confronté à un obstacle déroutant. Ma configuration impliquait un modèle d’enseignant, qui est RoBERTa-large (affiné sur ma classification d’intention), et un modèle d’étudiant, que j’essayais de former sans perdre trop de précision par rapport à l’enseignant.

J’ai expérimenté plusieurs techniques de cartographie, en connectant une couche sur deux à la couche des étudiants, en faisant la moyenne de deux couches d’enseignants en une seule et même en attribuant des poids personnalisés comme donner (0,3 à l1 et 0,7 à l2). Mais quelle que soit la combinaison que j’essayais, la précision de l’enseignant ne correspondait jamais au modèle de l’élève.

C’est à ce moment-là que j’ai commencé à explorer comment cartographier les couches les plus informatives à mon modèle étudiant afin que l’étudiant puisse maximiser ses performances. Je voulais un moyen de quantifier quelle couche du modèle d’enseignant était vraiment importante pour la distillation.

Au cours de cette recherche, je suis tombé sur un article fascinant—»SpectralKD : un cadre unifié pour interpréter et distiller les transformateurs de vision via l’analyse spectrale« , qui a abordé un problème similaire mais dans le domaine de l’image. Les auteurs ont utilisé une approche d’analyse spectrale (Spectral KD) pour aligner plus intelligemment les modèles d’enseignant et d’élève..

Curieux, j’ai décidé d’adapter l’idée aux données textuelles – et BOUM !!!, ça a vraiment marché ! Pour la première fois, mon modèle étudiant a commencé à penser presque comme son professeur.

Source : Auteur

Voici le graphique d’intensité de couche de mon réglage RoBERTa-grand modèle. Sur la base des informations spectrales, j’ai sélectionné couches 1 à 9 et 21 à 23 pour mon modèle étudiant lors de la distillation des connaissances, ceux qui contiennent les informations les plus riches.

Je ne peux pas partager mon ensemble de données ou mon code pour des raisons de confidentialité, mais je vais vous expliquer comment l’approche basée sur l’image du papier inspiré mon adaptation basée sur du texteet comment vous pouvez envisager de faire de même.

Dans les coulisses : comment FFT révèle l’âme spectrale d’un modèle

Alors, commençons par intensité spectraleet plongez lentement dans le véritable magicien ici : le Transformée de Fourier rapide (FFT).

Dans le papier spectralKDles auteurs présentent un cadre qui nous aide à voir Vision Transformer(ViTs), non seulement ce qu’ils prédisent, mais aussi comment les informations circulent dans les couches. Au lieu de s’appuyer sur l’intuition ou la visualisation, ils utilisent l’analyse spectrale, un moyen mesurer la richesse fréquentielle des représentations internes du modèle.

Imaginez chaque couche de Transformer en tant que musicien dans un orchestre, certaines couches jouent des notes aiguës (détails fins), tandis que d’autres jouent des notes graves (caractéristiques générales). La FFT nous aide à écouter la musique de chaque joueur séparément et à filtrer celui qui possède les mélodies les plus fortes, c’est-à-dire les signaux les plus riches en informations.

Étape 1 : Cartes de fonctionnalités, La matière première

B est la taille du lot
C est le nombre de canaux et,
H, W est la hauteur et la largeur spatiales.

Étape 2 : Application de la transformée de Fourier

Les auteurs appliquent une FFT unidimensionnelle le long de la dimension du canal pour traduire ces activations à valeur réelle dans le domaine fréquentiel :
F(X)=FFT(X)

Cela signifie:
Pour chaque emplacement spatial (b, h, w), un FFT 1D est calculé sur tous les canaux.
Le résultat est un tenseur à valeurs complexes (puisque FFT produit des parties réelles + imaginaires).
F(X) nous indique donc quelle quantité de chaque fréquence est présente dans la représentation de cette couche.

Et si vous vous demandez, « Mais pourquoi FFT ? – retiens cette pensée.
Parce que plus tard dans ce blog, nous allons découvrir exactement pourquoi FFT est l’outil parfait pour mesurer l’intensité intérieure d’un modèle.

Étape 3 : mesurer la force de la fréquence

Re(F(X)) est la vraie partie,
Je suis(F(X)) est la partie imaginaire.

Étape 4 : Calculer la moyenne sur la carte

Nous voulons maintenant résumer cette intensité sur toutes les positions de la couche :

Cette étape nous indique l’intensité moyenne du canal unique

Et puis vous pouvez simplement faire la moyenne de chaque chaîne. Voilà ! Vous avez maintenant l’intensité spectrale de la couche unique du Vision Transformer.

Un aperçu du domaine des fréquences : la lentille de Fourier de SpectralKD

Examinons la transformée de Fourier rapide :

Xₖ est la séquence d’entrée (votre signal, fonctionnalité ou modèle d’activation).
xₙ est la composante fréquentielle à l’indice de fréquence.
N est le nombre de points dans la séquence (c’est-à-dire le nombre de canaux ou de fonctionnalités).

Chaque terme e⁻ʲ²πᵏⁿ/ᴺ agit comme un phaseur rotatifune petite onde complexe tournant à travers l’espace du signal, et ensemble, elles forment l’une des plus belles idées en matière de traitement du signal.