Fiche récapitulative générée pour impression / export PDF.

Licence 2 · Statistique : estimation et tests d'hypothèses

Tests d'hypothèses

Tests d'hypothèses

1. Principe général : hypothèse nulle et hypothèse alternative

Un test d'hypothèses est une procédure statistique permettant de trancher, à partir d'un échantillon, entre deux hypothèses concurrentes sur un paramètre θ\theta de la population :

- Hypothèse nulle H0H_0 : l'hypothèse « par défaut », que l'on suppose vraie a priori (par exemple H0:μ=μ0H_0 : \mu = \mu_0) ;
- Hypothèse alternative H1H_1 : l'hypothèse que l'on retiendrait si les données fournissent des preuves suffisantes contre H0H_0 (par exemple H1:μμ0H_1 : \mu \neq \mu_0, ou H1:μ>μ0H_1 : \mu > \mu_0, ou H1:μ<μ0H_1 : \mu < \mu_0).

On parle de test bilatéral quand H1:θθ0H_1 : \theta \neq \theta_0, et de test unilatéral quand H1:θ>θ0H_1 : \theta > \theta_0 (unilatéral à droite) ou H1:θ<θ0H_1 : \theta < \theta_0 (unilatéral à gauche).

Logique du test : on ne « prouve » jamais H0H_0 ; on cherche seulement si les données sont incompatibles avec H0H_0 au point de la rejeter. Si ce n'est pas le cas, on dit que l'on ne rejette pas H0H_0 (et non « on accepte H0H_0 », formulation à éviter).

2. Statistique de test et région de rejet

On construit une statistique de test TnT_n, fonction de l'échantillon, dont on connaît la loi sous l'hypothèse H0H_0. On fixe un seuil α(0,1)\alpha \in (0,1), appelé niveau de signification (ou risque de première espèce), typiquement α=0,05\alpha = 0{,}05.

La région de rejet (ou région critique) RR est l'ensemble des valeurs de TnT_n pour lesquelles on rejette H0H_0, choisie de sorte que :

P(TnRH0 vraie)=αP(T_n \in R \mid H_0 \text{ vraie}) = \alpha

Règle de décision :
- si la valeur observée de TnT_n tombe dans RR : on rejette H0H_0 au profit de H1H_1, au niveau α\alpha ;
- sinon : on ne rejette pas H0H_0.

3. Erreurs de première et deuxième espèce

Un test peut se tromper de deux façons :


H0H_0 vraieH0H_0 fausse
|---|---|---|


On rejette H0H_0Erreur de 1ère espèce (risque α\alpha)Décision correcte (puissance 1β1-\beta)
On ne rejette pas H0H_0Décision correcteErreur de 2ème espèce (risque β\beta)

- Erreur de première espèce (α\alpha) : rejeter H0H_0 alors qu'elle est vraie. C'est le risque que l'on contrôle explicitement en fixant le niveau du test (c'est pourquoi α\alpha s'appelle aussi le « niveau » du test).
- Erreur de deuxième espèce (β\beta) : ne pas rejeter H0H_0 alors qu'elle est fausse. La quantité 1β1-\beta s'appelle la puissance du test : c'est la capacité du test à détecter un effet réel quand il existe.

Remarque importante : à taille d'échantillon fixée, diminuer α\alpha (être plus exigeant pour rejeter H0H_0) augmente généralement β\beta (on devient moins capable de détecter un effet réel) : il y a un compromis entre les deux types d'erreur. La seule façon de réduire les deux simultanément est d'augmenter la taille de l'échantillon nn.

4. La pp-valeur

La pp-valeur (ou valeur-pp) est la probabilité, sous l'hypothèse H0H_0, d'observer une statistique de test au moins aussi extrême (dans le sens de H1H_1) que celle effectivement observée sur l'échantillon.

Règle de décision équivalente à la région de rejet :

p-valeur<αon rejette H0 au niveau αp\text{-valeur} < \alpha \quad\Longleftrightarrow\quad \text{on rejette } H_0 \text{ au niveau } \alpha

Interprétation : une pp-valeur petite signifie que les données observées seraient très improbables si H0H_0 était vraie — ce qui constitue une preuve contre H0H_0. À l'inverse, une pp-valeur grande (proche de 11) signifie que les données sont parfaitement compatibles avec H0H_0. La pp-valeur n'est pas la probabilité que H0H_0 soit vraie — c'est une erreur d'interprétation fréquente à éviter absolument.

5. Test de Student pour une moyenne (comparaison à une valeur de référence)

On veut tester H0:μ=μ0H_0 : \mu = \mu_0 contre H1:μμ0H_1 : \mu \neq \mu_0 (test bilatéral), à partir d'un échantillon X1,,XnX_1,\dots,X_n supposé gaussien, de variance σ2\sigma^2 inconnue.

Statistique de test (sous H0H_0) :

T=Xnμ0Sn/nH0T(n1)T = \frac{\overline X_n - \mu_0}{S_n/\sqrt n} \quad\underset{H_0}{\sim}\quad \mathcal T(n-1)

Région de rejet bilatérale au niveau α\alpha : on rejette H0H_0 si T>tα/2,n1|T| > t_{\alpha/2,\,n-1} (le même quantile que celui de l'intervalle de confiance — ce qui n'est pas un hasard : le test bilatéral au niveau α\alpha rejette H0:μ=μ0H_0:\mu=\mu_0 exactement quand μ0\mu_0 n'appartient pas à l'IC à 1α1-\alpha pour μ\mu).

Pour un test unilatéral H1:μ>μ0H_1 : \mu > \mu_0, on rejette H0H_0 si T>tα,n1T > t_{\alpha,\,n-1} (quantile à α\alpha, non α/2\alpha/2, car tout le risque est concentré du côté droit) ; symétriquement pour H1:μ<μ0H_1 : \mu < \mu_0, on rejette si T<tα,n1T < -t_{\alpha,\,n-1}.

Exemple résolu (test bilatéral). Un fabricant affirme que ses sachets de farine pèsent en moyenne μ0=50\mu_0 = 50 g (référence). Sur un échantillon de n=25n=25 sachets, on mesure x=52\overline x = 52 g et s=6s = 6 g (écart-type corrigé). Au niveau α=0,05\alpha = 0{,}05, peut-on rejeter l'affirmation du fabricant ?

Hypothèses : H0:μ=50H_0 : \mu = 50 contre H1:μ50H_1 : \mu \neq 50.

Statistique de test : T=xμ0s/n=52506/25=26/5=21,2=1,667T = \dfrac{\overline x - \mu_0}{s/\sqrt n} = \dfrac{52-50}{6/\sqrt{25}} = \dfrac{2}{6/5} = \dfrac{2}{1{,}2} = 1{,}667 (valeur observée).

Valeur critique : t0,025,24=2,064t_{0{,}025,\,24} = 2{,}064 (loi de Student à 2424 degrés de liberté).

Décision : T=1,667<2,064=t0,025,24|T| = 1{,}667 < 2{,}064 = t_{0{,}025,24} : on ne rejette pas H0H_0 au niveau 5%5\%. La pp-valeur associée est p0,109p \approx 0{,}109 (calculée comme 2×P(T(24)>1,667)2\times P(\mathcal T(24) > 1{,}667)), et l'on a bien p=0,109>0,05=αp = 0{,}109 > 0{,}05 = \alpha, ce qui confirme la décision de non-rejet.

Conclusion : l'écart observé (5252 g contre 5050 g) n'est pas statistiquement significatif au niveau 5%5\% ; il est compatible avec une simple fluctuation d'échantillonnage autour de μ0=50\mu_0=50.

6. Test de comparaison de deux moyennes (échantillons indépendants)

On veut tester H0:μ1=μ2H_0 : \mu_1 = \mu_2 contre H1:μ1μ2H_1 : \mu_1 \neq \mu_2, à partir de deux échantillons indépendants : (X1,,Xn1)(X_1,\dots,X_{n_1}) de moyenne Xn1\overline X_{n_1} et variance estimée S12S_1^2, et (Y1,,Yn2)(Y_1,\dots,Y_{n_2}) de moyenne Yn2\overline Y_{n_2} et variance estimée S22S_2^2.

Statistique de test (cas des grands échantillons, ou variances supposées différentes — approximation de Welch) :

T=Xn1Yn2S12n1+S22n2T = \frac{\overline X_{n_1} - \overline Y_{n_2}}{\sqrt{\dfrac{S_1^2}{n_1} + \dfrac{S_2^2}{n_2}}}

Sous H0H_0, TT suit approximativement une loi de Student dont le nombre de degrés de liberté ν\nu est donné par la formule de Welch-Satterthwaite :

ν=(S12n1+S22n2)2(S12/n1)2n11+(S22/n2)2n21\nu = \frac{\left(\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}\right)^2}{\dfrac{(S_1^2/n_1)^2}{n_1-1}+\dfrac{(S_2^2/n_2)^2}{n_2-1}}

(En pratique, ν\nu est arrondi à l'entier inférieur, et pour n1,n2n_1,n_2 grands on peut directement utiliser zα/2z_{\alpha/2}.)

Exemple résolu. On compare le temps de résolution (en minutes) d'un exercice entre deux méthodes pédagogiques. Méthode 1 : n1=40n_1=40, x1=78\overline x_1=78, s1=10s_1=10. Méthode 2 : n2=35n_2=35, x2=82\overline x_2=82, s2=12s_2=12. Tester H0:μ1=μ2H_0:\mu_1=\mu_2 contre H1:μ1μ2H_1:\mu_1\neq\mu_2 au niveau α=0,05\alpha=0{,}05.

Erreur-type de la différence : 10240+12235=10040+14435=2,5+4,1143=6,61432,572\sqrt{\dfrac{10^2}{40}+\dfrac{12^2}{35}} = \sqrt{\dfrac{100}{40}+\dfrac{144}{35}} = \sqrt{2{,}5+4{,}1143} = \sqrt{6{,}6143} \approx 2{,}572.

Statistique de test : T=78822,572=42,5721,555T = \dfrac{78-82}{2{,}572} = \dfrac{-4}{2{,}572} \approx -1{,}555.

Degrés de liberté (Welch) : ν66,5\nu \approx 66{,}5, arrondi à 6666 ; pour ce ν\nu, t0,025,661,996t_{0{,}025,66}\approx 1{,}996.

Décision : T=1,555<1,996|T| = 1{,}555 < 1{,}996 : on ne rejette pas H0H_0 au niveau 5%5\%. La pp-valeur associée est p0,125>0,05p\approx 0{,}125 > 0{,}05, ce qui confirme la conclusion : la différence observée de 44 minutes entre les deux méthodes n'est pas statistiquement significative à ce niveau, avec ces tailles d'échantillon.

7. Démarche complète d'un test d'hypothèses (méthode à retenir)

1. Formuler H0H_0 et H1H_1 clairement, en lien avec la question posée (bilatéral ou unilatéral).
2. Choisir la statistique de test adaptée (Student pour une moyenne avec variance inconnue, etc.) et identifier sa loi sous H0H_0.
3. Fixer le niveau α\alpha (en général 0,050{,}05, sauf indication contraire).
4. Calculer la valeur observée de la statistique de test à partir des données.
5. Déterminer la région de rejet (ou calculer la pp-valeur).
6. Conclure : rejeter ou ne pas rejeter H0H_0, et formuler la conclusion en termes du problème concret (pas seulement en termes statistiques).

8. Lien entre intervalle de confiance et test bilatéral

Il existe une dualité exacte entre IC et test bilatéral : pour un test H0:θ=θ0H_0:\theta=\theta_0 contre H1:θθ0H_1:\theta\neq\theta_0 au niveau α\alpha, on a :

on rejette H0 au niveau αθ0IC1α(θ)\text{on rejette } H_0 \text{ au niveau } \alpha \quad\Longleftrightarrow\quad \theta_0 \notin IC_{1-\alpha}(\theta)

C'est une façon pratique de retenir les deux notions ensemble : un intervalle de confiance à 1α1-\alpha peut se lire comme « l'ensemble des valeurs θ0\theta_0 que le test bilatéral au niveau α\alpha ne rejetterait pas ».

9. Synthèse


TestH0H_0StatistiqueLoi sous H0H_0
|---|---|---|---|


Moyenne vs référenceμ=μ0\mu=\mu_0T=Xnμ0Sn/nT=\dfrac{\overline X_n-\mu_0}{S_n/\sqrt n}T(n1)\mathcal T(n-1)
Comparaison de deux moyennesμ1=μ2\mu_1=\mu_2T=Xn1Yn2S12/n1+S22/n2T=\dfrac{\overline X_{n_1}-\overline Y_{n_2}}{\sqrt{S_1^2/n_1+S_2^2/n_2}}T(ν)\mathcal T(\nu) (Welch)

Retenir : un test d'hypothèses est toujours une comparaison entre une statistique observée et un seuil critique déterminé par la loi de cette statistique sous l'hypothèse nulle, au niveau de risque α\alpha que l'on a choisi d'accepter.

Exercices de la leçon

Exercice 1

Quelle est l'erreur de première espèce dans un test d'hypothèses ?

Corrigé

L'erreur de première espèce, de probabilité α\alpha, consiste à rejeter H0H_0 alors que H0H_0 est en réalité vraie. C'est le risque que l'on fixe explicitement (le niveau du test).

Exercice 2

Vrai ou faux : si la pp-valeur d'un test est inférieure à α\alpha, on rejette H0H_0.

Corrigé

Vrai. La règle de décision par la pp-valeur est : p-valeur<αp\text{-valeur} < \alpha \Rightarrow rejet de H0H_0 au niveau α\alpha. C'est équivalent à dire que la statistique observée tombe dans la région de rejet.

Exercice 3

Que représente la puissance d'un test, 1β1-\beta ?

Corrigé

La puissance 1β1-\beta est la probabilité de détecter correctement un effet réel, c'est-à-dire de rejeter H0H_0 lorsque H0H_0 est effectivement fausse. C'est le complément de l'erreur de deuxième espèce β\beta.

Exercice 4

Pour tester H0:μ=μ0H_0:\mu=\mu_0 contre H1:μμ0H_1:\mu\neq\mu_0 avec variance inconnue, quelle est la statistique de test, et sous quelle loi (sous H0H_0) ?

Corrigé

Avec variance inconnue, on utilise l'estimateur sans biais Sn2S_n^2 dans le pivot, ce qui donne une statistique de Student à n1n-1 degrés de liberté sous H0H_0 (et non une loi normale, réservée au cas variance connue).

Exercice 5

Vrai ou faux : « ne pas rejeter H0H_0 » signifie que l'on a prouvé que H0H_0 est vraie.

Corrigé

Faux. Un test ne « prouve » jamais H0H_0 ; il indique seulement que les données ne fournissent pas de preuve suffisante pour la rejeter au niveau choisi. H0H_0 pourrait être fausse mais l'échantillon n'a pas eu une puissance suffisante pour le détecter.

Exercice 6

Un test de Student bilatéral donne T=2,5T=2{,}5 sur un échantillon de n=20n=20 (donc ν=19\nu=19 degrés de liberté), avec t0,025,19=2,093t_{0{,}025,19}=2{,}093. Quelle est la décision au niveau α=0,05\alpha=0{,}05 ?

Corrigé

On compare T=2,5|T|=2{,}5 au seuil t0,025,19=2,093t_{0{,}025,19}=2{,}093. Comme 2,5>2,0932{,}5 > 2{,}093, la statistique observée est dans la région de rejet : on rejette H0H_0 au niveau 5%5\%.

Exercice 7

Sur un échantillon de n=16n=16, on observe x=49\overline x=49 avec s=4s=4, et l'on teste H0:μ=50H_0:\mu=50 contre H1:μ<50H_1:\mu<50 (unilatéral à gauche). Que vaut la statistique de test TT ?

Corrigé

T=xμ0s/n=49504/16=14/4=11=1T = \dfrac{\overline x-\mu_0}{s/\sqrt n} = \dfrac{49-50}{4/\sqrt{16}} = \dfrac{-1}{4/4} = \dfrac{-1}{1} = -1.

Exercice 8

Avec les données de l'exercice précédent (T=1T=-1, n=16n=16, test unilatéral à gauche, α=0,05\alpha=0{,}05), sachant que t0,05,15=1,753t_{0{,}05,15}=1{,}753, quelle est la décision ?

Corrigé

Pour un test unilatéral à gauche, la région de rejet est T<tα,n1=1,753T < -t_{\alpha,n-1} = -1{,}753. Ici T=1T=-1, qui n'est pas inférieur à 1,753-1{,}753 (en effet 1>1,753-1 > -1{,}753 sur la droite des réels). La statistique n'est donc pas dans la région de rejet : on ne rejette pas H0H_0 au niveau 5%5\%.

Exercice 9

Vrai ou faux : pour un test unilatéral à droite (H1:μ>μ0H_1:\mu>\mu_0) au niveau α\alpha, le quantile critique utilisé est tα,n1t_{\alpha,n-1} (et non tα/2,n1t_{\alpha/2,n-1}).

Corrigé

Vrai. Dans un test unilatéral, tout le risque α\alpha est concentré d'un seul côté de la distribution, donc le quantile utilisé est tα,n1t_{\alpha,n-1} ; dans un test bilatéral, le risque α\alpha est partagé en deux (α/2\alpha/2 de chaque côté), d'où l'usage de tα/2,n1t_{\alpha/2,n-1}.

Exercice 10

On teste H0:μ1=μ2H_0:\mu_1=\mu_2 contre H1:μ1μ2H_1:\mu_1\neq\mu_2 avec deux échantillons indépendants : n1=50,x1=100,s1=10n_1=50,\overline x_1=100,s_1=10 et n2=50,x2=104,s2=10n_2=50,\overline x_2=104,s_2=10. Que vaut l'erreur-type S12/n1+S22/n2\sqrt{S_1^2/n_1+S_2^2/n_2} ?

Corrigé

10250+10250=10050+10050=2+2=4=2\sqrt{\dfrac{10^2}{50}+\dfrac{10^2}{50}} = \sqrt{\dfrac{100}{50}+\dfrac{100}{50}} = \sqrt{2+2} = \sqrt 4 = 2.

Exercice 11

Avec les données de l'exercice précédent (erreur-type =2=2), que vaut la statistique de test TT ?

Corrigé

T=x1x2erreur-type=1001042=42=2T = \dfrac{\overline x_1-\overline x_2}{\text{erreur-type}} = \dfrac{100-104}{2} = \dfrac{-4}{2} = -2.

Exercice 12

Démontrer la dualité entre intervalle de confiance et test bilatéral : montrer que, pour H0:μ=μ0H_0:\mu=\mu_0 contre H1:μμ0H_1:\mu\neq\mu_0 avec variance connue, « rejeter H0H_0 au niveau α\alpha » équivaut exactement à « μ0IC1α(μ)\mu_0 \notin IC_{1-\alpha}(\mu) ».

Corrigé

Mise en place : sous H0:μ=μ0H_0:\mu=\mu_0, la statistique Z=Xnμ0σ/nZ=\dfrac{\overline X_n-\mu_0}{\sigma/\sqrt n} suit N(0,1)\mathcal N(0,1). On rejette H0H_0 au niveau α\alpha si et seulement si :

Z>zα/2Xnμ0σ/n>zα/2|Z| > z_{\alpha/2} \quad\Longleftrightarrow\quad \left|\frac{\overline X_n-\mu_0}{\sigma/\sqrt n}\right| > z_{\alpha/2}

Reformulation : cette inégalité équivaut à :

Xnμ0>zα/2σn|\overline X_n - \mu_0| > z_{\alpha/2}\frac{\sigma}{\sqrt n}

c'est-à-dire μ0<Xnzα/2σn\mu_0 < \overline X_n - z_{\alpha/2}\dfrac{\sigma}{\sqrt n} ou μ0>Xn+zα/2σn\mu_0 > \overline X_n + z_{\alpha/2}\dfrac{\sigma}{\sqrt n}.

Conclusion : ces deux conditions disjointes signifient exactement que μ0\mu_0 est strictement à l'extérieur de l'intervalle [Xnzα/2σn;Xn+zα/2σn]=IC1α(μ)\left[\overline X_n - z_{\alpha/2}\dfrac{\sigma}{\sqrt n}\,;\,\overline X_n + z_{\alpha/2}\dfrac{\sigma}{\sqrt n}\right] = IC_{1-\alpha}(\mu).

Donc : Z>zα/2|Z|>z_{\alpha/2} (on rejette H0H_0)     \;\Longleftrightarrow\; μ0IC1α(μ)\mu_0 \notin IC_{1-\alpha}(\mu). La même démonstration s'adapte au cas variance inconnue en remplaçant zα/2z_{\alpha/2} et σ\sigma par tα/2,n1t_{\alpha/2,n-1} et SnS_n. \square

Exercice 13

Un laboratoire teste un nouveau médicament censé réduire la tension artérielle. Sur n=30n=30 patients, on observe une baisse moyenne x=8\overline x = 8 mmHg avec s=5s=5 mmHg. On teste H0:μ=0H_0:\mu=0 (pas d'effet) contre H1:μ>0H_1:\mu>0 (effet bénéfique), au niveau α=0,05\alpha=0{,}05, avec t0,05,29=1,699t_{0{,}05,29}=1{,}699. Quelle est la conclusion ?

Corrigé

T=805/30=80,91298,76T = \dfrac{8-0}{5/\sqrt{30}} = \dfrac{8}{0{,}9129} \approx 8{,}76. Comme T8,76t0,05,29=1,699T\approx8{,}76 \gg t_{0{,}05,29}=1{,}699, la statistique est largement dans la région de rejet (unilatérale à droite) : on rejette H0H_0 au niveau 5%5\%, la baisse de tension observée est statistiquement significative.

Exercice 14

Expliquer pourquoi, à taille d'échantillon fixée, diminuer le risque α\alpha (par exemple passer de 0,050{,}05 à 0,010{,}01) augmente en général le risque β\beta (erreur de deuxième espèce).

Corrigé

Mécanisme : diminuer α\alpha revient à augmenter le quantile critique (par exemple tα/2,n1t_{\alpha/2,n-1} augmente quand α\alpha diminue), donc à élargir la région de non-rejet de H0H_0 : il faut un écart plus grand entre la statistique observée et la valeur de référence sous H0H_0 pour parvenir à rejeter H0H_0.

Conséquence sur β\beta : si H0H_0 est en réalité fausse (il existe un vrai effet), élargir la région de non-rejet rend plus probable que la statistique de test, bien que tirée d'une situation où H1H_1 est vraie, tombe malgré tout dans cette région élargie de non-rejet. La probabilité de cet événement (ne pas rejeter H0H_0 alors qu'elle est fausse) est précisément β\beta, qui augmente donc mécaniquement.

Compromis et solution : ce compromis α\alpha contre β\beta est inévitable à taille d'échantillon fixée. La seule manière de réduire α\alpha et β\beta simultanément est d'augmenter la taille de l'échantillon nn : cela réduit l'erreur-type de la statistique de test (qui décroît en 1/n1/\sqrt n), ce qui rend le test plus précis et donc plus apte à distinguer H0H_0 de H1H_1 sans dégrader aucun des deux risques.

Exercice 15

Vrai ou faux : la pp-valeur d'un test est la probabilité que l'hypothèse alternative H1H_1 soit vraie.

Corrigé

Faux. La pp-valeur est, par définition, la probabilité — calculée sous l'hypothèse H0H_0 — d'observer une statistique de test au moins aussi extrême que celle effectivement obtenue. Ce n'est en aucun cas une probabilité portant sur la véracité de H0H_0 ou H1H_1, qui sont des affirmations sur un paramètre fixé (non aléatoire) ; confondre la pp-valeur avec P(H1 vraie)P(H_1\text{ vraie}) est une erreur d'interprétation classique à éviter.

AlphaMath Académie · Tests d'hypothèses · Statistique : estimation et tests d'hypothèses