Fiche récapitulative générée pour impression / export PDF.

Licence 2 · Statistique : estimation et tests d'hypothèses

Tests d'hypothèses

1. Principe général : hypothèse nulle et hypothèse alternative

Un test d'hypothèses est une procédure statistique permettant de trancher, à partir d'un échantillon, entre deux hypothèses concurrentes sur un paramètre $\theta$ de la population :

- Hypothèse nulle $H_0$ : l'hypothèse « par défaut », que l'on suppose vraie a priori (par exemple $H_0 : \mu = \mu_0$ ) ;
- Hypothèse alternative $H_1$ : l'hypothèse que l'on retiendrait si les données fournissent des preuves suffisantes contre $H_0$ (par exemple $H_1 : \mu \neq \mu_0$ , ou $H_1 : \mu > \mu_0$ , ou $H_1 : \mu < \mu_0$ ).

On parle de test bilatéral quand $H_1 : \theta \neq \theta_0$ , et de test unilatéral quand $H_1 : \theta > \theta_0$ (unilatéral à droite) ou $H_1 : \theta < \theta_0$ (unilatéral à gauche).

Logique du test : on ne « prouve » jamais $H_0$ ; on cherche seulement si les données sont incompatibles avec $H_0$ au point de la rejeter. Si ce n'est pas le cas, on dit que l'on ne rejette pas $H_0$ (et non « on accepte $H_0$ », formulation à éviter).

2. Statistique de test et région de rejet

On construit une statistique de test $T_n$ , fonction de l'échantillon, dont on connaît la loi sous l'hypothèse $H_0$ . On fixe un seuil $\alpha \in (0,1)$ , appelé niveau de signification (ou risque de première espèce), typiquement $\alpha = 0{,}05$ .

La région de rejet (ou région critique) $R$ est l'ensemble des valeurs de $T_n$ pour lesquelles on rejette $H_0$ , choisie de sorte que :

P(T_n \in R \mid H_0 \text{ vraie}) = \alpha

Règle de décision :
- si la valeur observée de $T_n$ tombe dans $R$ : on rejette $H_0$ au profit de $H_1$ , au niveau $\alpha$ ;
- sinon : on ne rejette pas $H_0$ .

3. Erreurs de première et deuxième espèce

Un test peut se tromper de deux façons :

H_0

vraie

H_0

fausse

|---|---|---|

On rejette $H_0$	Erreur de 1ère espèce (risque $\alpha$ )	Décision correcte (puissance $1-\beta$ )
On ne rejette pas $H_0$	Décision correcte	Erreur de 2ème espèce (risque $\beta$ )

- Erreur de première espèce ( $\alpha$ ) : rejeter

H_0

alors qu'elle est vraie. C'est le risque que l'on contrôle explicitement en fixant le niveau du test (c'est pourquoi

\alpha

s'appelle aussi le « niveau » du test).
- Erreur de deuxième espèce ( $\beta$ ) : ne pas rejeter

H_0

alors qu'elle est fausse. La quantité

1-\beta

s'appelle la puissance du test : c'est la capacité du test à détecter un effet réel quand il existe.

Remarque importante : à taille d'échantillon fixée, diminuer $\alpha$ (être plus exigeant pour rejeter $H_0$ ) augmente généralement $\beta$ (on devient moins capable de détecter un effet réel) : il y a un compromis entre les deux types d'erreur. La seule façon de réduire les deux simultanément est d'augmenter la taille de l'échantillon $n$ .

4. La $p$ -valeur

La $p$ -valeur (ou valeur- $p$ ) est la probabilité, sous l'hypothèse $H_0$ , d'observer une statistique de test au moins aussi extrême (dans le sens de $H_1$ ) que celle effectivement observée sur l'échantillon.

Règle de décision équivalente à la région de rejet :

p\text{-valeur} < \alpha \quad\Longleftrightarrow\quad \text{on rejette } H_0 \text{ au niveau } \alpha

Interprétation : une $p$ -valeur petite signifie que les données observées seraient très improbables si $H_0$ était vraie — ce qui constitue une preuve contre $H_0$ . À l'inverse, une $p$ -valeur grande (proche de $1$ ) signifie que les données sont parfaitement compatibles avec $H_0$ . La $p$ -valeur n'est pas la probabilité que $H_0$ soit vraie — c'est une erreur d'interprétation fréquente à éviter absolument.

5. Test de Student pour une moyenne (comparaison à une valeur de référence)

On veut tester $H_0 : \mu = \mu_0$ contre $H_1 : \mu \neq \mu_0$ (test bilatéral), à partir d'un échantillon $X_1,\dots,X_n$ supposé gaussien, de variance $\sigma^2$ inconnue.

Statistique de test (sous $H_0$ ) :

T = \frac{\overline X_n - \mu_0}{S_n/\sqrt n} \quad\underset{H_0}{\sim}\quad \mathcal T(n-1)

Région de rejet bilatérale au niveau $\alpha$ : on rejette $H_0$ si $|T| > t_{\alpha/2,\,n-1}$ (le même quantile que celui de l'intervalle de confiance — ce qui n'est pas un hasard : le test bilatéral au niveau $\alpha$ rejette $H_0:\mu=\mu_0$ exactement quand $\mu_0$ n'appartient pas à l'IC à $1-\alpha$ pour $\mu$ ).

Pour un test unilatéral $H_1 : \mu > \mu_0$ , on rejette $H_0$ si $T > t_{\alpha,\,n-1}$ (quantile à $\alpha$ , non $\alpha/2$ , car tout le risque est concentré du côté droit) ; symétriquement pour $H_1 : \mu < \mu_0$ , on rejette si $T < -t_{\alpha,\,n-1}$ .

Exemple résolu (test bilatéral). Un fabricant affirme que ses sachets de farine pèsent en moyenne $\mu_0 = 50$ g (référence). Sur un échantillon de $n=25$ sachets, on mesure $\overline x = 52$ g et $s = 6$ g (écart-type corrigé). Au niveau $\alpha = 0{,}05$ , peut-on rejeter l'affirmation du fabricant ?

Hypothèses : $H_0 : \mu = 50$ contre $H_1 : \mu \neq 50$ .

Statistique de test : $T = \dfrac{\overline x - \mu_0}{s/\sqrt n} = \dfrac{52-50}{6/\sqrt{25}} = \dfrac{2}{6/5} = \dfrac{2}{1{,}2} = 1{,}667$ (valeur observée).

Valeur critique : $t_{0{,}025,\,24} = 2{,}064$ (loi de Student à $24$ degrés de liberté).

Décision : $|T| = 1{,}667 < 2{,}064 = t_{0{,}025,24}$ : on ne rejette pas $H_0$ au niveau $5\%$ . La $p$ -valeur associée est $p \approx 0{,}109$ (calculée comme $2\times P(\mathcal T(24) > 1{,}667)$ ), et l'on a bien $p = 0{,}109 > 0{,}05 = \alpha$ , ce qui confirme la décision de non-rejet.

Conclusion : l'écart observé ( $52$ g contre $50$ g) n'est pas statistiquement significatif au niveau $5\%$ ; il est compatible avec une simple fluctuation d'échantillonnage autour de $\mu_0=50$ .

6. Test de comparaison de deux moyennes (échantillons indépendants)

On veut tester $H_0 : \mu_1 = \mu_2$ contre $H_1 : \mu_1 \neq \mu_2$ , à partir de deux échantillons indépendants : $(X_1,\dots,X_{n_1})$ de moyenne $\overline X_{n_1}$ et variance estimée $S_1^2$ , et $(Y_1,\dots,Y_{n_2})$ de moyenne $\overline Y_{n_2}$ et variance estimée $S_2^2$ .

Statistique de test (cas des grands échantillons, ou variances supposées différentes — approximation de Welch) :

T = \frac{\overline X_{n_1} - \overline Y_{n_2}}{\sqrt{\dfrac{S_1^2}{n_1} + \dfrac{S_2^2}{n_2}}}

Sous $H_0$ , $T$ suit approximativement une loi de Student dont le nombre de degrés de liberté $\nu$ est donné par la formule de Welch-Satterthwaite :

\nu = \frac{\left(\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}\right)^2}{\dfrac{(S_1^2/n_1)^2}{n_1-1}+\dfrac{(S_2^2/n_2)^2}{n_2-1}}

(En pratique, $\nu$ est arrondi à l'entier inférieur, et pour $n_1,n_2$ grands on peut directement utiliser $z_{\alpha/2}$ .)

Exemple résolu. On compare le temps de résolution (en minutes) d'un exercice entre deux méthodes pédagogiques. Méthode 1 : $n_1=40$ , $\overline x_1=78$ , $s_1=10$ . Méthode 2 : $n_2=35$ , $\overline x_2=82$ , $s_2=12$ . Tester $H_0:\mu_1=\mu_2$ contre $H_1:\mu_1\neq\mu_2$ au niveau $\alpha=0{,}05$ .

Erreur-type de la différence : $\sqrt{\dfrac{10^2}{40}+\dfrac{12^2}{35}} = \sqrt{\dfrac{100}{40}+\dfrac{144}{35}} = \sqrt{2{,}5+4{,}1143} = \sqrt{6{,}6143} \approx 2{,}572$ .

Statistique de test : $T = \dfrac{78-82}{2{,}572} = \dfrac{-4}{2{,}572} \approx -1{,}555$ .

Degrés de liberté (Welch) : $\nu \approx 66{,}5$ , arrondi à $66$ ; pour ce $\nu$ , $t_{0{,}025,66}\approx 1{,}996$ .

Décision : $|T| = 1{,}555 < 1{,}996$ : on ne rejette pas $H_0$ au niveau $5\%$ . La $p$ -valeur associée est $p\approx 0{,}125 > 0{,}05$ , ce qui confirme la conclusion : la différence observée de $4$ minutes entre les deux méthodes n'est pas statistiquement significative à ce niveau, avec ces tailles d'échantillon.

7. Démarche complète d'un test d'hypothèses (méthode à retenir)

1. Formuler $H_0$ et $H_1$ clairement, en lien avec la question posée (bilatéral ou unilatéral).
2. Choisir la statistique de test adaptée (Student pour une moyenne avec variance inconnue, etc.) et identifier sa loi sous $H_0$ .
3. Fixer le niveau $\alpha$ (en général $0{,}05$ , sauf indication contraire).
4. Calculer la valeur observée de la statistique de test à partir des données.
5. Déterminer la région de rejet (ou calculer la $p$ -valeur).
6. Conclure : rejeter ou ne pas rejeter $H_0$ , et formuler la conclusion en termes du problème concret (pas seulement en termes statistiques).

8. Lien entre intervalle de confiance et test bilatéral

Il existe une dualité exacte entre IC et test bilatéral : pour un test $H_0:\theta=\theta_0$ contre $H_1:\theta\neq\theta_0$ au niveau $\alpha$ , on a :

\text{on rejette } H_0 \text{ au niveau } \alpha \quad\Longleftrightarrow\quad \theta_0 \notin IC_{1-\alpha}(\theta)

C'est une façon pratique de retenir les deux notions ensemble : un intervalle de confiance à $1-\alpha$ peut se lire comme « l'ensemble des valeurs $\theta_0$ que le test bilatéral au niveau $\alpha$ ne rejetterait pas ».

9. Synthèse

Test

H_0

Statistique

Loi sous

H_0

|---|---|---|---|

Moyenne vs référence	$\mu=\mu_0$	$T=\dfrac{\overline X_n-\mu_0}{S_n/\sqrt n}$	$\mathcal T(n-1)$
Comparaison de deux moyennes	$\mu_1=\mu_2$	$T=\dfrac{\overline X_{n_1}-\overline Y_{n_2}}{\sqrt{S_1^2/n_1+S_2^2/n_2}}$	$\mathcal T(\nu)$ (Welch)

Retenir : un test d'hypothèses est toujours une comparaison entre une statistique observée et un seuil critique déterminé par la loi de cette statistique sous l'hypothèse nulle, au niveau de risque

\alpha

que l'on a choisi d'accepter.

Exercices de la leçon

Exercice 1

Quelle est l'erreur de première espèce dans un test d'hypothèses ?

Corrigé

L'erreur de première espèce, de probabilité $\alpha$ , consiste à rejeter $H_0$ alors que $H_0$ est en réalité vraie. C'est le risque que l'on fixe explicitement (le niveau du test).

Exercice 2

Vrai ou faux : si la $p$ -valeur d'un test est inférieure à $\alpha$ , on rejette $H_0$ .

Corrigé

Vrai. La règle de décision par la $p$ -valeur est : $p\text{-valeur} < \alpha \Rightarrow$ rejet de $H_0$ au niveau $\alpha$ . C'est équivalent à dire que la statistique observée tombe dans la région de rejet.

Exercice 3

Que représente la puissance d'un test, $1-\beta$ ?

Corrigé

La puissance $1-\beta$ est la probabilité de détecter correctement un effet réel, c'est-à-dire de rejeter $H_0$ lorsque $H_0$ est effectivement fausse. C'est le complément de l'erreur de deuxième espèce $\beta$ .

Exercice 4

Pour tester $H_0:\mu=\mu_0$ contre $H_1:\mu\neq\mu_0$ avec variance inconnue, quelle est la statistique de test, et sous quelle loi (sous $H_0$ ) ?

Corrigé

Avec variance inconnue, on utilise l'estimateur sans biais $S_n^2$ dans le pivot, ce qui donne une statistique de Student à $n-1$ degrés de liberté sous $H_0$ (et non une loi normale, réservée au cas variance connue).

Exercice 5

Vrai ou faux : « ne pas rejeter $H_0$ » signifie que l'on a prouvé que $H_0$ est vraie.

Corrigé

Faux. Un test ne « prouve » jamais $H_0$ ; il indique seulement que les données ne fournissent pas de preuve suffisante pour la rejeter au niveau choisi. $H_0$ pourrait être fausse mais l'échantillon n'a pas eu une puissance suffisante pour le détecter.

Exercice 6

Un test de Student bilatéral donne $T=2{,}5$ sur un échantillon de $n=20$ (donc $\nu=19$ degrés de liberté), avec $t_{0{,}025,19}=2{,}093$ . Quelle est la décision au niveau $\alpha=0{,}05$ ?

Corrigé

On compare $|T|=2{,}5$ au seuil $t_{0{,}025,19}=2{,}093$ . Comme $2{,}5 > 2{,}093$ , la statistique observée est dans la région de rejet : on rejette $H_0$ au niveau $5\%$ .

Exercice 7

Sur un échantillon de $n=16$ , on observe $\overline x=49$ avec $s=4$ , et l'on teste $H_0:\mu=50$ contre $H_1:\mu<50$ (unilatéral à gauche). Que vaut la statistique de test $T$ ?

Corrigé

$T = \dfrac{\overline x-\mu_0}{s/\sqrt n} = \dfrac{49-50}{4/\sqrt{16}} = \dfrac{-1}{4/4} = \dfrac{-1}{1} = -1$ .

Exercice 8

Avec les données de l'exercice précédent ( $T=-1$ , $n=16$ , test unilatéral à gauche, $\alpha=0{,}05$ ), sachant que $t_{0{,}05,15}=1{,}753$ , quelle est la décision ?

Corrigé

Pour un test unilatéral à gauche, la région de rejet est $T < -t_{\alpha,n-1} = -1{,}753$ . Ici $T=-1$ , qui n'est pas inférieur à $-1{,}753$ (en effet $-1 > -1{,}753$ sur la droite des réels). La statistique n'est donc pas dans la région de rejet : on ne rejette pas $H_0$ au niveau $5\%$ .

Exercice 9

Vrai ou faux : pour un test unilatéral à droite ( $H_1:\mu>\mu_0$ ) au niveau $\alpha$ , le quantile critique utilisé est $t_{\alpha,n-1}$ (et non $t_{\alpha/2,n-1}$ ).

Corrigé

Vrai. Dans un test unilatéral, tout le risque $\alpha$ est concentré d'un seul côté de la distribution, donc le quantile utilisé est $t_{\alpha,n-1}$ ; dans un test bilatéral, le risque $\alpha$ est partagé en deux ( $\alpha/2$ de chaque côté), d'où l'usage de $t_{\alpha/2,n-1}$ .

Exercice 10

On teste $H_0:\mu_1=\mu_2$ contre $H_1:\mu_1\neq\mu_2$ avec deux échantillons indépendants : $n_1=50,\overline x_1=100,s_1=10$ et $n_2=50,\overline x_2=104,s_2=10$ . Que vaut l'erreur-type $\sqrt{S_1^2/n_1+S_2^2/n_2}$ ?

Corrigé

$\sqrt{\dfrac{10^2}{50}+\dfrac{10^2}{50}} = \sqrt{\dfrac{100}{50}+\dfrac{100}{50}} = \sqrt{2+2} = \sqrt 4 = 2$ .

Exercice 11

Avec les données de l'exercice précédent (erreur-type $=2$ ), que vaut la statistique de test $T$ ?

Corrigé

$T = \dfrac{\overline x_1-\overline x_2}{\text{erreur-type}} = \dfrac{100-104}{2} = \dfrac{-4}{2} = -2$ .

Exercice 12

Démontrer la dualité entre intervalle de confiance et test bilatéral : montrer que, pour $H_0:\mu=\mu_0$ contre $H_1:\mu\neq\mu_0$ avec variance connue, « rejeter $H_0$ au niveau $\alpha$ » équivaut exactement à « $\mu_0 \notin IC_{1-\alpha}(\mu)$ ».

Corrigé

Mise en place : sous $H_0:\mu=\mu_0$ , la statistique $Z=\dfrac{\overline X_n-\mu_0}{\sigma/\sqrt n}$ suit $\mathcal N(0,1)$ . On rejette $H_0$ au niveau $\alpha$ si et seulement si :

|Z| > z_{\alpha/2} \quad\Longleftrightarrow\quad \left|\frac{\overline X_n-\mu_0}{\sigma/\sqrt n}\right| > z_{\alpha/2}

Reformulation : cette inégalité équivaut à :

|\overline X_n - \mu_0| > z_{\alpha/2}\frac{\sigma}{\sqrt n}

c'est-à-dire

\mu_0 < \overline X_n - z_{\alpha/2}\dfrac{\sigma}{\sqrt n}

\mu_0 > \overline X_n + z_{\alpha/2}\dfrac{\sigma}{\sqrt n}

Conclusion : ces deux conditions disjointes signifient exactement que $\mu_0$ est strictement à l'extérieur de l'intervalle $\left[\overline X_n - z_{\alpha/2}\dfrac{\sigma}{\sqrt n}\,;\,\overline X_n + z_{\alpha/2}\dfrac{\sigma}{\sqrt n}\right] = IC_{1-\alpha}(\mu)$ .

Donc : $|Z|>z_{\alpha/2}$ (on rejette $H_0$ ) $\;\Longleftrightarrow\;$ $\mu_0 \notin IC_{1-\alpha}(\mu)$ . La même démonstration s'adapte au cas variance inconnue en remplaçant $z_{\alpha/2}$ et $\sigma$ par $t_{\alpha/2,n-1}$ et $S_n$ . $\square$

Exercice 13

Un laboratoire teste un nouveau médicament censé réduire la tension artérielle. Sur $n=30$ patients, on observe une baisse moyenne $\overline x = 8$ mmHg avec $s=5$ mmHg. On teste $H_0:\mu=0$ (pas d'effet) contre $H_1:\mu>0$ (effet bénéfique), au niveau $\alpha=0{,}05$ , avec $t_{0{,}05,29}=1{,}699$ . Quelle est la conclusion ?

Corrigé

$T = \dfrac{8-0}{5/\sqrt{30}} = \dfrac{8}{0{,}9129} \approx 8{,}76$ . Comme $T\approx8{,}76 \gg t_{0{,}05,29}=1{,}699$ , la statistique est largement dans la région de rejet (unilatérale à droite) : on rejette $H_0$ au niveau $5\%$ , la baisse de tension observée est statistiquement significative.

Exercice 14

Expliquer pourquoi, à taille d'échantillon fixée, diminuer le risque $\alpha$ (par exemple passer de $0{,}05$ à $0{,}01$ ) augmente en général le risque $\beta$ (erreur de deuxième espèce).

Corrigé

Mécanisme : diminuer $\alpha$ revient à augmenter le quantile critique (par exemple $t_{\alpha/2,n-1}$ augmente quand $\alpha$ diminue), donc à élargir la région de non-rejet de $H_0$ : il faut un écart plus grand entre la statistique observée et la valeur de référence sous $H_0$ pour parvenir à rejeter $H_0$ .

Conséquence sur $\beta$ : si $H_0$ est en réalité fausse (il existe un vrai effet), élargir la région de non-rejet rend plus probable que la statistique de test, bien que tirée d'une situation où $H_1$ est vraie, tombe malgré tout dans cette région élargie de non-rejet. La probabilité de cet événement (ne pas rejeter $H_0$ alors qu'elle est fausse) est précisément $\beta$ , qui augmente donc mécaniquement.

Compromis et solution : ce compromis $\alpha$ contre $\beta$ est inévitable à taille d'échantillon fixée. La seule manière de réduire $\alpha$ et $\beta$ simultanément est d'augmenter la taille de l'échantillon $n$ : cela réduit l'erreur-type de la statistique de test (qui décroît en $1/\sqrt n$ ), ce qui rend le test plus précis et donc plus apte à distinguer $H_0$ de $H_1$ sans dégrader aucun des deux risques.

Exercice 15

Vrai ou faux : la $p$ -valeur d'un test est la probabilité que l'hypothèse alternative $H_1$ soit vraie.

Corrigé

Faux. La $p$ -valeur est, par définition, la probabilité — calculée sous l'hypothèse $H_0$ — d'observer une statistique de test au moins aussi extrême que celle effectivement obtenue. Ce n'est en aucun cas une probabilité portant sur la véracité de $H_0$ ou $H_1$ , qui sont des affirmations sur un paramètre fixé (non aléatoire) ; confondre la $p$ -valeur avec $P(H_1\text{ vraie})$ est une erreur d'interprétation classique à éviter.

AlphaMath Académie · Tests d'hypothèses · Statistique : estimation et tests d'hypothèses

Tests d'hypothèses