
La méthode statistique mcRigor améliore la rigueur du partitionnement des métacellules dans l’analyse des données monocellulaires
L’article a été co-écrit avec Pan Liu, chercheur postdoctoral à l’UCLA et au Fred Hutchinson Cancer Center. Pan est le premier auteur du mcRigor Communications naturelles article.
Les technologies de séquençage unicellulaire ont progressé rapidement ces dernières années, offrant des opportunités sans précédent pour découvrir la diversité cellulaire, les changements dynamiques dans les états cellulaires et les mécanismes sous-jacents de régulation des gènes. En plus du séquençage largement utilisé de l’ARN unicellulaire (scRNA-seq) 1,2de nouvelles modalités telles que le séquençage d’accessibilité de la chromatine unicellulaire (scATAC-seq) 3,4 et profilage conjoint de l’accessibilité du transcriptome et de la chromatine (scMultiome) 5 ont permis la dissection de l’hétérogénéité cellulaire à une résolution unicellulaire sur plusieurs couches omiques. Cependant, les données générées par ces technologies sont généralement très rares, principalement en raison de la profondeur de séquençage limitée par cellule, ainsi que d’une transcription inverse imparfaite et d’une amplification non linéaire, qui font que les gènes fortement exprimés dominent la capacité de séquençage et rendent les gènes faiblement exprimés difficiles à détecter. 6.

Pour atténuer la rareté des données et le bruit, les chercheurs ont proposé le « métacellule » concept, dans lequel les cellules ayant des profils d’expression similaires sont regroupées en une seule unité représentative – une métacellule – dont l’expression est définie par l’expression moyenne de ses cellules constitutives, améliorant ainsi le signal et réduisant le bruit. Pourtant, les méthodes de construction de métacellules existantes produisent souvent des partitions de métacellules sensiblement différentes et sont très sensibles aux paramètres des hyperparamètres, en particulier à la taille moyenne des métacellules. 7. Un tel manque de cohérence rend difficile pour les utilisateurs de déterminer quelle partition métacellulaire est la plus fiable et dans quelle mesure les profils métacellulaires résultants préservent les véritables signaux biologiques. Par conséquent, la robustesse des analyses en aval est compromise et le potentiel des métacellules en tant que cadre général de prétraitement des données pour diverses tâches et modalités omiques reste limité.
Notre Communications naturelles papier 8 fournit une définition statistique rigoureuse d’une métacellule basée sur un modèle à deux couches de données de séquençage d’une seule cellule : la couche supérieure capture la variation biologique de l’expression réelle, tandis que la couche inférieure modélise le processus de séquençage qui génère l’expression mesurée à partir de l’expression réelle. A partir de cette définition, nous développons mcRigorun cadre statistique pour détecter métacellules douteuses dans une partition donnée et en sélectionnant le méthode de partitionnement optimal des métacellules et hyperparamètre dans les configurations méthodes-hyperparamètres candidates.
mcRigor détecte et supprime non seulement les métacellules douteuses (sa version étendue, mcRigor en deux étapesdésassemble en outre les métacellules douteuses en cellules uniques et les réassemble en cellules plus petites et plus fiables), améliorant ainsi la fiabilité des analyses en aval telles que la co-expression des gènes et la régulation des gènes activateurs, mais permet également une sélection basée sur les données de la stratégie de partitionnement des métacellules la plus appropriée pour chaque ensemble de données. En raison de sa compatibilité flexible, mcRigor peut être facilement appliqué aux données transcriptomiques unicellulaires, d’accessibilité à la chromatine et multi-omiques (Fig. 2). De plus, mcRigor fournit un critère d’évaluation unifié pour comparer différentes méthodes de construction de métacellules, offrant ainsi des conseils fiables aux chercheurs dans la sélection des méthodes.
Dans la première partie de notre article 8nous introduisons la méthodologie de mcRigor pour détecter les métacellules douteuses. Plus précisément, mcRigor quantifie l’hétérogénéité interne de chaque métacellule à l’aide d’une statistique basée sur la corrélation des caractéristiques, mcDivqui mesure l’écart des corrélations caractéristique-caractéristique par rapport à l’indépendance. Le raisonnement est que si toutes les cellules membres partagent les mêmes niveaux d’expression réels et que la variation observée entre elles résulte uniquement du processus de mesure, les caractéristiques devraient être approximativement indépendantes. mcRigor construit ensuite un distribution nulle pour mcDiv en utilisant un roman double permutation procédure et identifie les métacellules qui s’écartent considérablement de cette valeur nulle comme étant douteuses (Fig. 2a).
Dans les ensembles de données PBMC semi-simulés et réels, mcRigor distingue avec précision les métacellules dignes de confiance de celles douteuses (Fig. 2b – c). Nous démontrons en outre l’efficacité de mcRigor pour améliorer la fiabilité de plusieurs analyses en aval. Dans les analyses de données de lignées cellulaires, la suppression des métacellules douteuses augmente considérablement le rapport signal/bruit des gènes marqueurs du cycle cellulaire (Fig. 2d). Dans les analyses de données de contrôle COVID-19 par rapport à des témoins sains, mcRigor élimine les fausses corrélations génétiques causées par des métacellules douteuses et révèle une co-expression plus forte au sein des modules de réponse immunitaire adaptative (Fig. 2e). Dans les analyses de données scMultiome, mcRigor améliore la détectabilité des associations amplificateur-gène, en filtrant les faux positifs faiblement pris en charge tout en préservant les signaux cohérents avec ceux observés au niveau unicellulaire (Fig. 2f).


Dans la deuxième partie de notre article 8nous présentons la méthodologie de mcRigor pour évaluer les partitions de métacellules et optimiser les hyperparamètres. En équilibrant la fiabilité des métacellules et la rareté des données, mcRigor attribue un score d’évaluation global à chaque partition candidate et sélectionne automatiquement la configuration méthode-paramètre optimale parmi tous les candidats, transformant ainsi le processus empirique de réglage des méthodes et des paramètres en prise de décision automatisée basée sur les données (Fig. 3a).
Nous illustrons l’utilité de cette fonctionnalité d’optimisation dans diverses tâches en aval. Par exemple, la proportion nulle de métacellules optimisées par mcRigor correspond étroitement à la proportion zéro de référence mesurée par smRNA-FISH, démontrant sa capacité à distinguer les zéros techniques des zéros biologiques (Fig. 3b). Dans l’analyse d’expression différentielle, les résultats basés sur les métacellules optimisées par mcRigor s’alignent plus étroitement avec ceux obtenus à partir de données de séquençage d’ARN en masse, indiquant une fiabilité améliorée (Fig. 3c). Dans les données temporelles, les métacellules optimisées par mcRigor améliorent la résolution de la trajectoire et révèlent une dynamique d’expression génique plus claire, cohérente avec les preuves expérimentales (Fig. 3d).
Le package mcRigor R et les didacticiels en ligne sont disponibles sur https://jsb-ucla.github.io/mcRigor/
Article complet disponible sur https://www.nature.com/articles/s41467-025-63626-5
Références :
8. Liu, P. & Li, JJ mcRigor : une méthode statistique pour améliorer la rigueur du partitionnement des métacellules dans l’analyse de données unicellulaires. bioRxiv (2024) est ce que je:10.1101/2024.10.30.621093.



