La randomisation fonctionne dans les expériences, même sans équilibre

des traitements dans les expériences a l’étonnante tendance à équilibrer les facteurs de confusion et autres covariables entre les groupes de tests. Cette tendance offre de nombreux avantages pour analyser les résultats des expériences et tirer des conclusions. Cependant, la randomisation tend équilibrer les covariables – c’est pas garanti.

Et si la randomisation n’équilibre pas les covariables ? Le déséquilibre mine-t-il la validité de l’expérience ?

J’ai réfléchi à cette question pendant un certain temps avant de parvenir à une conclusion satisfaisante. Dans cet article, je vais vous guider à travers le processus de réflexion que j’ai suivi pour comprendre que la validité expérimentale dépend de indépendance des covariables et du traitement, pas équilibre.

Voici les sujets spécifiques que je couvrirai :

La randomisation a tendance à équilibrer les covariables
Quelles sont les causes du déséquilibre des covariables même avec la randomisation
La validité expérimentale est une question d’indépendance et non d’équilibre

La randomisation a tendance à équilibrer les covariables, mais il n’y a aucune garantie

Le théorème central limite (CLT) montre que la moyenne d’un échantillon sélectionné au hasard est normalement distribuée avec une moyenne égale à la moyenne de la population et une variance égale à la variance de la population divisée par la taille de l’échantillon. Ce concept s’applique très bien à notre conversation car nous nous intéressons à l’équilibre, c’est-à-dire lorsque le moyens de nos échantillons aléatoires sont proches. Le CLT fournit une distribution pour ces moyennes d’échantillon.

Grâce au CLT, nous pouvons penser à la moyenne d’un échantillon de la même manière que n’importe quelle autre variable aléatoire. Si vous vous souvenez de la probabilité 101, étant donné la distribution d’une variable aléatoire, nous pouvons calculer les probabilités qu’un individu tire de la distribution se situe dans une plage spécifique.

Avant de devenir trop théorique, passons à un exemple pour développer notre intuition. Supposons que nous souhaitions faire une expérience nécessitant deux groupes de lapins sélectionnés au hasard. Nous supposerons que le poids d’un lapin individuel est fondamentalement normalement distribué avec une moyenne de 3,5 livres et une variance de 0,25 livres.

Répartition hypothétique du poids de la population de lapins – par auteur

La simple fonction Python ci-dessous calcule la probabilité que notre échantillon aléatoire de lapins se situe dans une plage spécifique compte tenu de la répartition de la population et de la taille de l’échantillon :

from scipy.stats import norm

def normal_range_prob(lower,
                      upper,
                      pop_mean,
                      pop_std,
                      sample_size):

    sample_std = pop_std/np.sqrt(sample_size)
    upper_prob = norm.cdf(upper, loc=mean, scale=sample_std)
    lower_prob = norm.cdf(lower, loc=mean, scale=sample_std)
    return upper_prob - lower_prob

Disons que nous considérerions deux moyennes d’échantillon comme équilibrées si elles se situent toutes deux à +/- 0,10 lb de la moyenne de la population. De plus, nous commencerons avec un échantillon de 100 lapins chacun. Nous pouvons calculer la probabilité qu’une moyenne d’échantillon unique tombe dans cette plage en utilisant notre fonction comme ci-dessous :

probabilité que notre échantillon aléatoire ait une moyenne comprise entre 3,4 et 3,6 livres – image de l’auteur

Avec un échantillon de 100 lapins, nous avons environ 95 % de chances que la moyenne de notre échantillon se situe à moins de 0,1 livre de la moyenne de la population. Parce que l’échantillonnage aléatoire de deux groupes est indépendant événements, nous pouvons utiliser la règle du produit pour calculer la probabilité que deux échantillons se trouvent à moins de 0,1 livre de la moyenne de la population en mettant simplement au carré la probabilité d’origine. Ainsi, la probabilité que les deux échantillons soient équilibrés et proches de la moyenne de la population est de 0,90 % (0,95²). Si nous avions trois tailles d’échantillon, la probabilité qu’elles soient toutes proches de la moyenne est de 0,95.³ = 87%.

Il y a deux relations que je souhaite souligner ici : (1) lorsque la taille de l’échantillon augmente, la probabilité d’équilibrage augmente et (2) à mesure que le nombre de groupes de test augmente, la probabilité qu’ils s’équilibrent tous diminue.

Le tableau ci-dessous montre la probabilité que tous les groupes de test assignés au hasard soient équilibrés pour plusieurs tailles d’échantillon et numéros de groupe de test :

Probabilité d'équilibre du poids des lapins entre les groupes de test - image de l'auteur

Nous voyons ici qu’avec un échantillon suffisamment grand, le poids de notre lapin simulé est très susceptible de s’équilibrer, même avec 5 groupes de test. Mais, avec une combinaison de tailles d’échantillons plus petites et de groupes de test plus nombreux, cette probabilité diminue.

Maintenant que nous comprenons comment la randomisation tend à équilibrer les covariables dans des circonstances favorables, nous allons passer à une discussion sur les raisons pour lesquelles les covariables ne s’équilibrent parfois pas.

Remarque : Dans cette discussion, nous avons uniquement considéré la possibilité que les covariables s’équilibrent près de la moyenne de l’échantillon. Hypothétiquement, ils pourraient s’équilibrer à un endroit éloigné de la moyenne de l’échantillon, mais cela serait très improbable. Nous avons ignoré cette possibilité ici – mais je voulais souligner qu’elle existe.

Causes des déséquilibres des covariables malgré l’assignation randomisée

Dans la discussion précédente, nous avons construit notre intuition sur les raisons pour lesquelles les covariables ont tendance à s’équilibrer avec l’assignation aléatoire. Nous allons maintenant discuter des facteurs qui peuvent entraîner des déséquilibres dans les covariables entre les groupes de test.

Voici les cinq raisons que je vais aborder :

Pas de chance dans l’échantillonnage
Petits échantillons
Distributions de covariables extrêmes
Beaucoup de groupes de tests
De nombreuses covariables percutantes

Pas de chance dans l’échantillonnage

L’équilibrage des covariables est toujours associé à des probabilités et il n’y a jamais une probabilité parfaite de 100 % d’équilibrage. Pour cette raison, il y a toujours un risque – même dans de très bonnes conditions de randomisation – que les covariables d’une expérience ne s’équilibrent pas.

Petits échantillons

Lorsque nous disposons de petits échantillons, la variance de notre distribution moyenne est grande. Cette grande variance peut conduire à de fortes probabilités de grandes différences dans nos covariables moyennes entre les populations testées, ce qui peut finalement conduire à un déséquilibre des covariables.

Les erreurs types sont plus petites pour les échantillons de plus grande taille - image de l'auteur

Jusqu’à présent, nous avons également supposé que nos groupes de traitement avaient tous la même taille d’échantillon. Il existe de nombreuses circonstances dans lesquelles nous souhaiterons avoir des tailles d’échantillon différentes selon les groupes de traitement. Par exemple, nous pouvons avoir un médicament préféré pour les patients souffrant d’une maladie spécifique ; mais nous voulons aussi tester si un nouveau médicament est meilleur. Pour un test comme celui-ci, nous souhaitons que la plupart des patients prennent le médicament préféré tout en assignant au hasard certains patients à un médicament potentiellement meilleur, mais non testé. Dans des situations comme celle-ci, les petits groupes de tests auront une distribution plus large de la moyenne de leur échantillon et auront donc une probabilité plus élevée d’avoir une moyenne d’échantillon plus éloignée de la moyenne de la population, ce qui peut provoquer des déséquilibres.

Distributions de covariables extrêmes

Le CLT identifie correctement que la moyenne de l’échantillon de n’importe lequel la distribution est normalement distribuée avec une taille d’échantillon suffisante. Cependant, taille d’échantillon suffisante n’est pas le même pour toutes les distributions. Les distributions extrêmes nécessitent une taille d’échantillon plus grande pour que la moyenne de l’échantillon devienne normalement distribuée. Si une population a des covariables avec des distributions extrêmes, des échantillons plus grands seront nécessaires pour que les moyennes de l’échantillon se comportent correctement. Si les tailles d’échantillon sont relativement grandes, mais trop petites pour compenser les distributions extrêmes, vous pouvez être confronté au problème de petite taille d’échantillon dont nous avons parlé dans la section précédente, même si vous disposez d’un échantillon de grande taille.

Les distributions qui sont loin de la normale ont besoin de plus d'échantillons pour avoir une distribution d'échantillonnage normale. Dans cet exemple, 20 échantillons présentent une nette asymétrie. Image de l'auteur.

Beaucoup de groupes de tests

Idéalement, nous voulons que tous les groupes de tests aient des covariables équilibrées. À mesure que le nombre de groupes de tests augmente, cela devient de moins en moins probable. Même dans les cas extrêmes où un seul groupe testé a 99 % de chances d’être proche de la moyenne de la population, avoir 100 groupes signifie que nous devrions nous attendre à ce qu’au moins un d’entre eux se situe en dehors de cette fourchette.

Alors qu’une centaine de groupes de tests semble assez extrême. Il n’est pas rare d’avoir de nombreux groupes de tests. Les modèles expérimentaux courants incluent plusieurs facteurs à tester, chacun avec différents niveaux. Imaginez que nous testions l’efficacité de différents nutriments végétaux sur la croissance des plantes. Nous souhaiterons peut-être tester 4 nutriments différents et 3 niveaux de concentration différents. Si cette expérience était complète (on crée un groupe test pour chaque combinaison possible de traitements), on en créerait 81 (3⁴) groupes de tests.

De nombreuses covariables percutantes

Dans notre exemple d’expérience sur le lapin, nous n’avons discuté que d’une seule covariable. En pratique, nous voulons que toutes les covariables ayant un impact s’équilibrent. Plus les covariables ont d’impact, moins il est probable qu’un équilibre complet soit atteint. Semblable au problème du trop grand nombre de groupes de tests, chaque covariable a une probabilité de ne pas s’équilibrer : plus il y a de covariables, moins il est probable qu’elles s’équilibrent toutes. Nous devrions prendre en compte non seulement les covariables dont nous savons qu’elles sont importantes, mais également celles non mesurées que nous ne suivons pas ou dont nous ne connaissons même pas l’existence. Nous voulons également que ceux-ci s’équilibrent.

Ce sont cinq raisons pour lesquelles nous pourrions ne pas constater d’équilibre dans nos covariables. Il ne s’agit pas d’une liste exhaustive, mais elle suffit pour bien comprendre où le problème survient souvent. Nous sommes désormais en bonne position pour commencer à expliquer pourquoi les expériences sont valables même si les covariables ne s’équilibrent pas.

La validité de l’expérience est une question d’indépendance et non d’équilibre

Les covariables équilibrées présentent des avantages lors de l’analyse des résultats d’une expérience, mais elles ne sont pas nécessaires à la validité. Dans cette section, nous explorerons pourquoi l’équilibre est bénéfique, mais pas nécessaire pour une expérience valide.

Avantages des covariables équilibrées

Lorsque les covariables s’équilibrent entre les groupes tests, les estimations de l’effet du traitement ont tendance à être plus précises, avec une variance plus faible dans l’échantillon expérimental.

C’est souvent une bonne idée d’inclure des covariables dans l’analyse d’une expérience. Lorsque les covariables s’équilibrent, les effets estimés du traitement sont moins sensibles à l’inclusion et à la spécification des covariables dans l’analyse. Lorsque les covariables ne s’équilibrent pas, l’ampleur et l’interprétation de l’effet estimé du traitement peuvent dépendre davantage des covariables incluses et de la manière dont elles sont modélisées.

Pourquoi l’équilibre n’est pas requis pour une expérience valide

Bien que l’équilibre soit idéal, il n’est pas requis pour une expérience valide. La validité expérimentale consiste à rompre la dépendance du traitement à l’égard de toute covariable. Si cela n’est pas respecté, alors l’expérience est valide : une randomisation correcte rompt toujours la relation systématique entre le traitement et toutes les covariables.

Revenons à notre exemple de lapin. Si nous permettions aux lapins de choisir eux-mêmes leur régime alimentaire, certains facteurs pourraient avoir un impact à la fois sur la prise de poids et sur le choix du régime alimentaire. Peut-être que les jeunes lapins préfèrent un régime riche en graisses et qu’ils sont plus susceptibles de prendre du poids à mesure qu’ils grandissent. Ou peut-être existe-t-il un marqueur génétique qui rend les lapins plus susceptibles de prendre du poids et de préférer les repas riches en graisses. L’autosélection pourrait entraîner toutes sortes de problèmes déroutants dans la conclusion de notre analyse.

Si, à la place, nous procédions à la randomisation, les relations systématiques entre le choix du régime alimentaire (traitement) et l’âge ou la génétique (confondeurs) seraient rompues et notre processus expérimental serait valide. En conséquence, toute association restante entre le traitement et les covariables est due à chance plutôt que la sélection, et l’inférence causale de l’expérience est valide.

La randomisation crée une indépendance entre les variables qui ont un impact sur la prise de poids – image de l'auteur

Tandis que la randomisation rompt le lien entre les facteurs de confusion et les traitements et rend le processus expérimental valide. Cela ne garantit pas que notre expérience n’arrivera pas à une conclusion erronée.

Pensez à des tests d’hypothèses simples dès votre cours d’introduction aux statistiques. Nous tirons au hasard un échantillon d’une population pour décider si la moyenne d’une population est ou non différente d’une valeur donnée. Ce processus est valide, ce qui signifie qu’il a des taux d’erreur à long terme bien définis, mais la malchance dans un seul échantillon aléatoire peut provoquer des erreurs de type I ou de type II. En d’autres termes, l’approche est valable, même si elle ne garantit pas à chaque fois une conclusion correcte.

Démonstration classique de la manière dont des conclusions erronées peuvent être tirées lors de tests d'hypothèses - même si le processus est valide - image de l'auteur

La randomisation dans l’expérimentation fonctionne de la même manière. Il s’agit d’une approche valable de l’inférence causale, mais cela ne signifie pas que chaque expérience randomisée donnera la bonne conclusion. Les déséquilibres aléatoires et les variations d’échantillonnage peuvent toujours affecter les résultats de toute expérience individuelle. La possibilité de conclusions erronées n’invalide pas l’approche.

L’emballer

La randomisation tend à équilibrer les covariables entre les groupes de traitement, mais elle ne garantit pas l’équilibre dans une seule expérience. Ce que garantit la randomisation, c’est la validité. La relation systématique entre l’attribution du traitement et les covariables est rompue de par sa conception. L’équilibre des covariables améliore la précision, mais ce n’est pas une condition préalable à une inférence causale valide. Lorsqu’un déséquilibre se produit, l’ajustement des covariables peut en atténuer les conséquences. L’essentiel à retenir est que l’équilibre est souhaitable et utile, mais que c’est la randomisation (et non l’équilibre) qui rend une expérience valide.

Blog

La randomisation fonctionne dans les expériences, même sans équilibre

La randomisation a tendance à équilibrer les covariables, mais il n’y a aucune garantie