
RF-DETR sous le capot : les enseignements d’une détection de transformateur en temps réel
Dans le monde de la vision par ordinateur, vous avez probablement entendu parler de RF-DETR, le nouveau modèle de détection d’objets en temps réel de Roboflow. Il est devenu le nouveau SOTA pour ses performances impressionnantes. Mais pour vraiment apprécier ce qui le motive, nous devons regarder au-delà des repères et plonger dans son ADN architectural.
RF-DETR n’est pas une invention complètement nouvelle ; son histoire est un voyage fascinant visant à résoudre un problème à la fois, commençant par une limitation fondamentale du DETR original et se terminant par un transformateur léger et en temps réel. Retraçons cette évolution.
Un changement de paradigme dans les pipelines de détection
En 2020 est venu DETR (DEtection TRansformer) [1]un modèle qui a complètement changé le pipeline de détection d’objets. Il s’agissait du premier détecteur entièrement de bout en bout, éliminant le besoin de composants conçus à la main comme la génération d’ancres et la suppression non maximale (NMS). Il y est parvenu en combinant un backbone CNN avec une architecture encodeur-décodeur Transformer. Malgré sa conception révolutionnaire, le DETR original présentait des problèmes importants :
- Convergence extrêmement lente : DETR a nécessité un nombre massif d’époques de formation pour converger, ce qui était 10 à 20 fois plus lent que des modèles comme Faster R-CNN.
- Complexité informatique élevée : Le mécanisme d’attention dans l’encodeur Transformer a une complexité de O (H2W2C) par rapport aux dimensions spatiales (H, W) de la carte des caractéristiques. Cette complexité quadratique rendait prohibitif le traitement des cartes de caractéristiques haute résolution.
- Mauvaises performances sur les petits objets: Conséquence directe de sa grande complexité, DETR ne pouvait pas utiliser de cartes de caractéristiques haute résolution, essentielles à la détection de petits objets.
Ces problèmes étaient tous liés à la façon dont l’attention de Transformer traitait les caractéristiques de l’image en examinant chaque pixel, ce qui était à la fois inefficace et difficile à entraîner.
La percée : DETR déformable
Pour résoudre les problèmes du DETR, les chercheurs ont regardé en arrière et ont trouvé l’inspiration dans Réseaux convolutifs déformables [2]. Pendant des années, les CNN ont dominé la vision par ordinateur. Cependant, ils ont une limite inhérente : ils ont du mal à modéliser les transformations géométriques. En effet, leurs éléments de base, comme les couches de convolution et de pooling, ont des structures géométriques fixes. C’est là que les CNN déformables sont entrés en scène. L’idée clé était brillamment simple : et si la grille d’échantillonnage des CNN n’était pas corrigée ?
- Le nouveau module, convolution déformableaugmente les emplacements d’échantillonnage de grille standard avec des décalages 2D.
- Surtout, ces compensations ne sont pas fixes ; ils sont savant à partir des cartes de caractéristiques précédentes via des couches convolutives supplémentaires.
- Cela permet à la grille d’échantillonnage de dynamiquement se déformer et s’adapter à la forme et à l’échelle de l’objet de manière locale et dense.

Cette idée d’échantillonnage adaptatif à partir de convolutions déformables a été appliquée au mécanisme d’attention du transformateur. Le résultat fut DETR déformable [3].
L’innovation centrale est la Module d’attention déformable. Au lieu de calculer les pondérations d’attention sur tous les pixels d’une carte de caractéristiques, ce module fait quelque chose de beaucoup plus intelligent :
- Il ne s’occupe que d’un petit nombre fixe de points d’échantillonnage clés autour d’un point de référence.
- Tout comme dans la convolution déformable, les décalages 2D de ces points d’échantillonnage sont appris de l’élément de requête lui-même via une projection linéaire.
- Contourne le besoin d’une architecture FPN distincte car son mécanisme d’attention a la capacité intégrée de traiter et de fusionner directement des fonctionnalités multi-échelles.

La percée de l’attention déformable est qu’elle « ne s’occupe que d’un petit ensemble de points d’échantillonnage clés ». [3] autour d’un point de référence, quelle que soit la taille spatiale des cartes d’entités. L’analyse de l’article montre que lorsque ce nouveau module est appliqué dans l’encodeur (où le nombre de requêtes, Nqest égal à la taille spatiale, HW), la complexité devient O(HWC2), qui est linéaire avec la taille spatiale. Ce changement singulier rend possible, sur le plan informatique, le traitement de cartes de caractéristiques haute résolution, améliorant considérablement les performances sur les petits objets.
Rendre le tout en temps réel : LW-DETR
Le DETR déformable résolvait les problèmes de convergence et de précision, mais pour rivaliser avec des modèles comme YOLO, il devait être plus rapide. C’est ici LW-DETR (DETR léger) [4] Son objectif était de créer une architecture basée sur Transformer qui pourrait surpasser les modèles YOLO en matière de détection d’objets en temps réel. L’architecture est une pile simple : un encodeur Vision Transformer (ViT), un projecteur et un décodeur DETR peu profond. Ils se sont débarrassés de la partie architecture codeur-décodeur du framework DETR et n’ont conservé que la partie décodeur, comme on peut le voir dans cette ligne de code.

Pour atteindre sa rapidité, il a incorporé plusieurs techniques clés d’efficacité :
- Attention croisée déformable : Le décodeur utilise directement le mécanisme d’attention déformable efficace de Deformable DETR, qui est crucial pour ses performances.
- Fenêtre entrelacée et attention globale : L’encodeur ViT est cher. Pour réduire sa complexité, LW-DETR remplace certaines des couches d’auto-attention mondiales coûteuses par des couches d’auto-attention de fenêtre beaucoup moins chères.
- Décodeur moins profond : Les variantes DETR standard utilisent souvent 6 couches de décodeur. LW-DETR n’en utilise que 3, ce qui réduit considérablement la latence.
Le projecteur du LW-DETR agit comme un pont crucial, connectant l’encodeur Vision Transformer (ViT) au décodeur DETR. Il est construit à l’aide d’un Bloc C2fqui est un bloc convolutif efficace utilisé dans le modèle YOLOv8. Ce bloc traite les caractéristiques et les prépare au mécanisme d’attention croisée du décodeur. En combinant la puissance de l’attention déformable avec ces choix de conception légère, LW-DETR a prouvé qu’un modèle de type DETR pouvait être un détecteur en temps réel des plus performants.
Assemblage des pièces pour RF-DETR
Et cela nous ramène à RF-DETR [5]. Il ne s’agit pas d’une percée isolée mais de la prochaine étape logique dans cette chaîne évolutive. Plus précisément, ils ont créé RF-DETR en combinant LW-DETR avec un squelette DINOv2 pré-entraîné, comme le montre cette ligne de code. Cela donne au modèle une capacité exceptionnelle à s’adapter à de nouveaux domaines sur la base des connaissances stockées dans le squelette DINOv2 pré-entraîné. La raison de cette adaptabilité exceptionnelle est que DINOv2 est un modèle auto-supervisé. Contrairement aux backbones traditionnels formés sur ImageNet avec des étiquettes fixes, DINOv2 a été formé sur un ensemble de données massif et non organisé, sans aucune étiquette humaine. Il a appris en résolvant une sorte de « puzzle », l’obligeant à développer une compréhension incroyablement riche et générale de la texture, de la forme et des parties des objets. Lorsque RF-DETR utilise ce backbone, il ne s’agit pas seulement d’obtenir un extracteur de fonctionnalités ; il s’agit d’obtenir une base de connaissances visuelles approfondie qui peut être affinée pour des tâches spécialisées avec une efficacité remarquable.

Une distinction clé par rapport aux modèles précédents est que le DETR déformable utilise un mécanisme d’auto-attention à plusieurs échelles, tandis que le modèle RF-DETR extrait des cartes de caractéristiques d’image à partir d’un squelette à une seule échelle. Récemment, l’équipe à l’origine du modèle RF-DETR a incorporé une tête de segmentation pour fournir des masques en plus des cadres de délimitation, ce qui en fait également un choix idéal pour les tâches de segmentation. S’il vous plaît, consultez son documentation pour commencer à l’utiliser, le peaufiner ou même l’exporter au format ONNX.
Conclusion
Le DETR original a révolutionné le pipeline de détection en supprimant les composants conçus à la main comme le NMS, mais il n’était pas pratique en raison de la lente convergence et de la complexité quadratique. Le DETR déformable a constitué une avancée architecturale clé, remplaçant l’attention mondiale par un mécanisme d’échantillonnage efficace et adaptatif inspiré des convolutions déformables. LW-DETR a ensuite prouvé que cette architecture efficace pouvait être conçue pour des performances en temps réel, remettant ainsi en question la domination de YOLO. RF-DETR représente la prochaine étape logique : il combine cette architecture déformable hautement optimisée avec la puissance brute d’un réseau fédérateur moderne et autosupervisé.
Références
[1] Détection d’objets de bout en bout avec Transformers. Nicolas Carion et. al. 2020.
[2] Réseaux convolutifs déformables. Jifeng Dai et. al. 2017.
[3] DETR déformable : transformateurs déformables pour la détection d’objets de bout en bout. Xizhou Zhu et. al. 2020.
[4] LW-DETR : un remplacement de transformateur pour YOLO pour la détection en temps réel. Qiang Chen et. al. 2024.



