Fiche récapitulative générée pour impression / export PDF.
Licence 2 · Statistique : estimation et tests d'hypothèses
Tests d'hypothèses
Tests d'hypothèses
1. Principe général : hypothèse nulle et hypothèse alternative
Un test d'hypothèses est une procédure statistique permettant de trancher, à partir d'un échantillon, entre deux hypothèses concurrentes sur un paramètre de la population :
- Hypothèse nulle : l'hypothèse « par défaut », que l'on suppose vraie a priori (par exemple ) ;
- Hypothèse alternative : l'hypothèse que l'on retiendrait si les données fournissent des preuves suffisantes contre (par exemple , ou , ou ).
On parle de test bilatéral quand , et de test unilatéral quand (unilatéral à droite) ou (unilatéral à gauche).
Logique du test : on ne « prouve » jamais ; on cherche seulement si les données sont incompatibles avec au point de la rejeter. Si ce n'est pas le cas, on dit que l'on ne rejette pas (et non « on accepte », formulation à éviter).
2. Statistique de test et région de rejet
On construit une statistique de test , fonction de l'échantillon, dont on connaît la loi sous l'hypothèse . On fixe un seuil , appelé niveau de signification (ou risque de première espèce), typiquement .
La région de rejet (ou région critique) est l'ensemble des valeurs de pour lesquelles on rejette , choisie de sorte que :
Règle de décision :
- si la valeur observée de tombe dans : on rejette au profit de , au niveau ;
- sinon : on ne rejette pas .
3. Erreurs de première et deuxième espèce
Un test peut se tromper de deux façons :
| vraie | fausse |
| On rejette | Erreur de 1ère espèce (risque ) | Décision correcte (puissance ) |
| On ne rejette pas | Décision correcte | Erreur de 2ème espèce (risque ) |
- Erreur de première espèce () : rejeter alors qu'elle est vraie. C'est le risque que l'on contrôle explicitement en fixant le niveau du test (c'est pourquoi s'appelle aussi le « niveau » du test).
- Erreur de deuxième espèce () : ne pas rejeter alors qu'elle est fausse. La quantité s'appelle la puissance du test : c'est la capacité du test à détecter un effet réel quand il existe.
Remarque importante : à taille d'échantillon fixée, diminuer (être plus exigeant pour rejeter ) augmente généralement (on devient moins capable de détecter un effet réel) : il y a un compromis entre les deux types d'erreur. La seule façon de réduire les deux simultanément est d'augmenter la taille de l'échantillon .
4. La -valeur
La -valeur (ou valeur-) est la probabilité, sous l'hypothèse , d'observer une statistique de test au moins aussi extrême (dans le sens de ) que celle effectivement observée sur l'échantillon.
Règle de décision équivalente à la région de rejet :
Interprétation : une -valeur petite signifie que les données observées seraient très improbables si était vraie — ce qui constitue une preuve contre . À l'inverse, une -valeur grande (proche de ) signifie que les données sont parfaitement compatibles avec . La -valeur n'est pas la probabilité que soit vraie — c'est une erreur d'interprétation fréquente à éviter absolument.
5. Test de Student pour une moyenne (comparaison à une valeur de référence)
On veut tester contre (test bilatéral), à partir d'un échantillon supposé gaussien, de variance inconnue.
Statistique de test (sous ) :
Région de rejet bilatérale au niveau : on rejette si (le même quantile que celui de l'intervalle de confiance — ce qui n'est pas un hasard : le test bilatéral au niveau rejette exactement quand n'appartient pas à l'IC à pour ).
Pour un test unilatéral , on rejette si (quantile à , non , car tout le risque est concentré du côté droit) ; symétriquement pour , on rejette si .
Exemple résolu (test bilatéral). Un fabricant affirme que ses sachets de farine pèsent en moyenne g (référence). Sur un échantillon de sachets, on mesure g et g (écart-type corrigé). Au niveau , peut-on rejeter l'affirmation du fabricant ?
Hypothèses : contre .
Statistique de test : (valeur observée).
Valeur critique : (loi de Student à degrés de liberté).
Décision : : on ne rejette pas au niveau . La -valeur associée est (calculée comme ), et l'on a bien , ce qui confirme la décision de non-rejet.
Conclusion : l'écart observé ( g contre g) n'est pas statistiquement significatif au niveau ; il est compatible avec une simple fluctuation d'échantillonnage autour de .
6. Test de comparaison de deux moyennes (échantillons indépendants)
On veut tester contre , à partir de deux échantillons indépendants : de moyenne et variance estimée , et de moyenne et variance estimée .
Statistique de test (cas des grands échantillons, ou variances supposées différentes — approximation de Welch) :
Sous , suit approximativement une loi de Student dont le nombre de degrés de liberté est donné par la formule de Welch-Satterthwaite :
(En pratique, est arrondi à l'entier inférieur, et pour grands on peut directement utiliser .)
Exemple résolu. On compare le temps de résolution (en minutes) d'un exercice entre deux méthodes pédagogiques. Méthode 1 : , , . Méthode 2 : , , . Tester contre au niveau .
Erreur-type de la différence : .
Statistique de test : .
Degrés de liberté (Welch) : , arrondi à ; pour ce , .
Décision : : on ne rejette pas au niveau . La -valeur associée est , ce qui confirme la conclusion : la différence observée de minutes entre les deux méthodes n'est pas statistiquement significative à ce niveau, avec ces tailles d'échantillon.
7. Démarche complète d'un test d'hypothèses (méthode à retenir)
1. Formuler et clairement, en lien avec la question posée (bilatéral ou unilatéral).
2. Choisir la statistique de test adaptée (Student pour une moyenne avec variance inconnue, etc.) et identifier sa loi sous .
3. Fixer le niveau (en général , sauf indication contraire).
4. Calculer la valeur observée de la statistique de test à partir des données.
5. Déterminer la région de rejet (ou calculer la -valeur).
6. Conclure : rejeter ou ne pas rejeter , et formuler la conclusion en termes du problème concret (pas seulement en termes statistiques).
8. Lien entre intervalle de confiance et test bilatéral
Il existe une dualité exacte entre IC et test bilatéral : pour un test contre au niveau , on a :
C'est une façon pratique de retenir les deux notions ensemble : un intervalle de confiance à peut se lire comme « l'ensemble des valeurs que le test bilatéral au niveau ne rejetterait pas ».
9. Synthèse
| Test | Statistique | Loi sous |
| Moyenne vs référence | |||
| Comparaison de deux moyennes | (Welch) |
Retenir : un test d'hypothèses est toujours une comparaison entre une statistique observée et un seuil critique déterminé par la loi de cette statistique sous l'hypothèse nulle, au niveau de risque que l'on a choisi d'accepter.
Exercices de la leçon
Exercice 1
Quelle est l'erreur de première espèce dans un test d'hypothèses ?
Corrigé
L'erreur de première espèce, de probabilité , consiste à rejeter alors que est en réalité vraie. C'est le risque que l'on fixe explicitement (le niveau du test).
Exercice 2
Vrai ou faux : si la -valeur d'un test est inférieure à , on rejette .
Corrigé
Vrai. La règle de décision par la -valeur est : rejet de au niveau . C'est équivalent à dire que la statistique observée tombe dans la région de rejet.
Exercice 3
Que représente la puissance d'un test, ?
Corrigé
La puissance est la probabilité de détecter correctement un effet réel, c'est-à-dire de rejeter lorsque est effectivement fausse. C'est le complément de l'erreur de deuxième espèce .
Exercice 4
Pour tester contre avec variance inconnue, quelle est la statistique de test, et sous quelle loi (sous ) ?
Corrigé
Avec variance inconnue, on utilise l'estimateur sans biais dans le pivot, ce qui donne une statistique de Student à degrés de liberté sous (et non une loi normale, réservée au cas variance connue).
Exercice 5
Vrai ou faux : « ne pas rejeter » signifie que l'on a prouvé que est vraie.
Corrigé
Faux. Un test ne « prouve » jamais ; il indique seulement que les données ne fournissent pas de preuve suffisante pour la rejeter au niveau choisi. pourrait être fausse mais l'échantillon n'a pas eu une puissance suffisante pour le détecter.
Exercice 6
Un test de Student bilatéral donne sur un échantillon de (donc degrés de liberté), avec . Quelle est la décision au niveau ?
Corrigé
On compare au seuil . Comme , la statistique observée est dans la région de rejet : on rejette au niveau .
Exercice 7
Sur un échantillon de , on observe avec , et l'on teste contre (unilatéral à gauche). Que vaut la statistique de test ?
Corrigé
.
Exercice 8
Avec les données de l'exercice précédent (, , test unilatéral à gauche, ), sachant que , quelle est la décision ?
Corrigé
Pour un test unilatéral à gauche, la région de rejet est . Ici , qui n'est pas inférieur à (en effet sur la droite des réels). La statistique n'est donc pas dans la région de rejet : on ne rejette pas au niveau .
Exercice 9
Vrai ou faux : pour un test unilatéral à droite () au niveau , le quantile critique utilisé est (et non ).
Corrigé
Vrai. Dans un test unilatéral, tout le risque est concentré d'un seul côté de la distribution, donc le quantile utilisé est ; dans un test bilatéral, le risque est partagé en deux ( de chaque côté), d'où l'usage de .
Exercice 10
On teste contre avec deux échantillons indépendants : et . Que vaut l'erreur-type ?
Corrigé
.
Exercice 11
Avec les données de l'exercice précédent (erreur-type ), que vaut la statistique de test ?
Corrigé
.
Exercice 12
Démontrer la dualité entre intervalle de confiance et test bilatéral : montrer que, pour contre avec variance connue, « rejeter au niveau » équivaut exactement à « ».
Corrigé
Mise en place : sous , la statistique suit . On rejette au niveau si et seulement si :
Reformulation : cette inégalité équivaut à :
c'est-à-dire ou .
Conclusion : ces deux conditions disjointes signifient exactement que est strictement à l'extérieur de l'intervalle .
Donc : (on rejette ) . La même démonstration s'adapte au cas variance inconnue en remplaçant et par et .
Exercice 13
Un laboratoire teste un nouveau médicament censé réduire la tension artérielle. Sur patients, on observe une baisse moyenne mmHg avec mmHg. On teste (pas d'effet) contre (effet bénéfique), au niveau , avec . Quelle est la conclusion ?
Corrigé
. Comme , la statistique est largement dans la région de rejet (unilatérale à droite) : on rejette au niveau , la baisse de tension observée est statistiquement significative.
Exercice 14
Expliquer pourquoi, à taille d'échantillon fixée, diminuer le risque (par exemple passer de à ) augmente en général le risque (erreur de deuxième espèce).
Corrigé
Mécanisme : diminuer revient à augmenter le quantile critique (par exemple augmente quand diminue), donc à élargir la région de non-rejet de : il faut un écart plus grand entre la statistique observée et la valeur de référence sous pour parvenir à rejeter .
Conséquence sur : si est en réalité fausse (il existe un vrai effet), élargir la région de non-rejet rend plus probable que la statistique de test, bien que tirée d'une situation où est vraie, tombe malgré tout dans cette région élargie de non-rejet. La probabilité de cet événement (ne pas rejeter alors qu'elle est fausse) est précisément , qui augmente donc mécaniquement.
Compromis et solution : ce compromis contre est inévitable à taille d'échantillon fixée. La seule manière de réduire et simultanément est d'augmenter la taille de l'échantillon : cela réduit l'erreur-type de la statistique de test (qui décroît en ), ce qui rend le test plus précis et donc plus apte à distinguer de sans dégrader aucun des deux risques.
Exercice 15
Vrai ou faux : la -valeur d'un test est la probabilité que l'hypothèse alternative soit vraie.
Corrigé
Faux. La -valeur est, par définition, la probabilité — calculée sous l'hypothèse — d'observer une statistique de test au moins aussi extrême que celle effectivement obtenue. Ce n'est en aucun cas une probabilité portant sur la véracité de ou , qui sont des affirmations sur un paramètre fixé (non aléatoire) ; confondre la -valeur avec est une erreur d'interprétation classique à éviter.
AlphaMath Académie · Tests d'hypothèses · Statistique : estimation et tests d'hypothèses