Fiche récapitulative générée pour impression / export PDF.
Licence 2 · Statistique : estimation et tests d'hypothèses
Intervalles de confiance
Intervalles de confiance
1. Pourquoi un intervalle plutôt qu'une seule valeur ?
Une estimation ponctuelle comme ne donne aucune indication sur sa précision : changer d'échantillon change la valeur obtenue. On préfère donc associer à l'estimation une fourchette de valeurs plausibles pour le paramètre inconnu, accompagnée d'un niveau de confiance.
Définition. Soit un paramètre inconnu et un seuil fixé (typiquement ou ). Un intervalle de confiance au niveau pour est un intervalle aléatoire , construit à partir de l'échantillon, tel que :
Interprétation fréquentiste — point essentiel à ne jamais confondre : ce n'est pas qui est aléatoire, mais l'intervalle (il dépend de l'échantillon tiré). Si l'on répète l'expérience un grand nombre de fois et que l'on construit l'intervalle à chaque fois, environ des intervalles obtenus contiendront la vraie valeur . Pour un échantillon particulier, l'intervalle calculé soit contient , soit ne le contient pas — on ne dit jamais « a 95% de chances d'être dans cet intervalle ».
2. Intervalle de confiance pour une moyenne, variance connue
On suppose i.i.d. de loi (ou assez grand pour invoquer le théorème central limite), avec connue. On sait que :
En notant le quantile de la loi tel que (donc par symétrie de la loi normale), on a :
En isolant dans la double inégalité :
Intervalle de confiance (variance connue) :
Valeurs usuelles de :
| Niveau |
Exemple résolu. Une étude mesure la taille de individus et obtient cm. On suppose connu cm. Construire un IC à pour .
On a , et . La marge d'erreur est . L'intervalle est :
3. Intervalle de confiance pour une moyenne, variance inconnue (loi de Student)
En pratique, est presque toujours inconnue : on la remplace par son estimateur sans biais (vu en leçon précédente). On perd alors la normalité exacte du pivot, mais on dispose du résultat suivant.
Théorème. Si sont i.i.d. de loi , alors :
suit une loi de Student à degrés de liberté. (La loi de Student a des queues plus épaisses que la loi normale, ce qui traduit l'incertitude supplémentaire due à l'estimation de .)
En notant le quantile de la loi tel que , le même raisonnement qu'en section 2 donne :
Intervalle de confiance (variance inconnue) :
Pour grand (typiquement ), la loi de Student est très proche de , et l'on peut utiliser à la place de sans erreur pratique significative ; pour petit, l'usage de la loi de Student est indispensable.
Exemple résolu. Sur un échantillon de pièces, on mesure une longueur moyenne cm avec un écart-type corrigé cm. Construire un IC à pour (on suppose la longueur gaussienne).
Degrés de liberté : . Dans la table de Student, . La marge d'erreur est . L'intervalle est :
4. Intervalle de confiance pour une proportion
Soit i.i.d. de loi de Bernoulli de paramètre inconnu (par exemple : un individu possède ou non une caractéristique). L'estimateur naturel est , de variance (vu en leçon précédente).
Pour assez grand (condition usuelle : et ), le théorème central limite permet d'approcher la loi de par une loi normale, et l'on remplace (inconnu) par son estimation :
Intervalle de confiance pour une proportion (approximation normale) :
Exemple résolu. Un sondage auprès de personnes trouve d'opinions favorables. Construire un IC à pour la proportion réelle dans la population.
Vérification des conditions : et , l'approximation normale est valide. On a . La marge d'erreur est . L'intervalle est :
5. Largeur de l'intervalle et taille de l'échantillon
La largeur (ou amplitude) d'un IC est . Elle diminue :
- quand augmente (en , donc lentement : il faut multiplier par pour diviser la largeur par ) ;
- quand le niveau de confiance diminue (un IC à est plus étroit qu'un IC à , car on accepte davantage de risque de se tromper) ;
- quand la dispersion ( ou ) diminue.
Détermination de la taille d'échantillon minimale. Pour garantir une marge d'erreur au plus avec une proportion (cas le plus défavorable , qui maximise ), on résout , soit :
Exemple résolu. Quelle taille d'échantillon minimale pour garantir une marge d'erreur d'au plus au niveau , dans le cas le plus défavorable ?
. On arrondit à l'entier supérieur (il faut toujours arrondir vers le haut pour une taille d'échantillon, car arrondir vers le bas ne garantirait plus la précision visée) : .
6. Synthèse
| Paramètre estimé | Hypothèse | Intervalle de confiance |
| , connue | normalité (ou grand) | |
| , inconnue | normalité | |
| (proportion) | , |
Retenir la structure commune : estimation quantile erreur-type. C'est ce schéma général qui sera réinterprété, dans la leçon suivante, comme la « région de non-rejet » d'un test d'hypothèses.
Exercices de la leçon
Exercice 1
Que signifie « intervalle de confiance au niveau pour » ?
Corrigé
L'aléa porte sur l'intervalle (qui dépend de l'échantillon tiré), pas sur qui est une constante inconnue mais fixe. L'interprétation correcte est fréquentiste : sur un grand nombre de répétitions de l'échantillonnage, environ des intervalles construits contiendraient la vraie valeur .
Exercice 2
Quelle est la valeur de pour un niveau de confiance de ?
Corrigé
Pour , on a , et le quantile de la loi correspondant est (valeur usuelle à connaître par cœur).
Exercice 3
Vrai ou faux : plus le niveau de confiance augmente, plus l'intervalle de confiance est large (à et fixés).
Corrigé
Vrai. Augmenter le niveau de confiance (par exemple passer de à ) augmente le quantile (de à ), donc augmente la marge d'erreur et donc la largeur de l'intervalle : on gagne en confiance mais on perd en précision.
Exercice 4
Pour construire un IC pour une moyenne avec variance inconnue, quelle loi utilise-t-on pour le pivot ?
Corrigé
Lorsque est inconnue et remplacée par son estimateur sans biais , le pivot suit, pour un échantillon gaussien, une loi de Student à degrés de liberté (et non une loi normale, qui ne s'applique que lorsque est connue).
Exercice 5
Quelle est la formule générale de l'IC pour une proportion par approximation normale ?
Corrigé
On utilise le quantile de la loi normale (et non de Student, réservée à la moyenne avec variance estimée), avec l'erreur-type propre à l'estimateur d'une proportion.
Exercice 6
Un échantillon de mesures donne avec connu. Quelle est la marge d'erreur de l'IC à pour ?
Corrigé
Marge .
Exercice 7
Avec les données de l'exercice précédent (, marge ), quel est l'IC à pour ?
Corrigé
.
Exercice 8
Pour un échantillon de taille , quel est le nombre de degrés de liberté de la loi de Student utilisée pour un IC sur une moyenne (variance inconnue) ?
Corrigé
Le nombre de degrés de liberté pour le pivot de Student est : ici .
Exercice 9
Vrai ou faux : pour grand (par exemple ), la loi de Student est très proche de la loi normale .
Corrigé
Vrai. Quand le nombre de degrés de liberté augmente, les queues de la loi de Student s'amincissent et la loi converge vers la loi normale centrée réduite ; pour , l'approximation par est en pratique très bonne.
Exercice 10
Un sondage sur personnes trouve d'avis favorables. Que vaut ?
Corrigé
, donc .
Exercice 11
Un échantillon de donne , avec supposé connu. Construire l'IC à pour (utiliser ).
Corrigé
Erreur-type . Marge . (arrondi au centième).
Exercice 12
Un échantillon de valeurs (loi supposée gaussienne) donne et (écart-type corrigé). Sachant que , construire l'IC à pour .
Corrigé
Erreur-type . Marge . (arrondi au centième).
Exercice 13
Démontrer, à partir de la loi de , la formule de l'intervalle de confiance .
Corrigé
Étape 1 : Par définition de , on a , et par symétrie de la loi , . Donc .
Étape 2 : On remplace par son expression :
Étape 3 : On multiplie les trois membres de la double inégalité par (ce qui ne change pas le sens des inégalités) :
Étape 4 : On soustrait aux trois membres :
Étape 5 : On multiplie par , ce qui inverse le sens des deux inégalités :
On a donc bien , ce qui établit la formule de l'intervalle de confiance.
Exercice 14
On veut un IC pour une proportion avec une marge d'erreur d'au plus au niveau , dans le cas le plus défavorable (). Quelle taille d'échantillon minimale faut-il (utiliser ) ?
Corrigé
. On arrondit à l'entier supérieur : .
Exercice 15
On dispose de deux IC à pour la même moyenne , obtenus sur deux échantillons indépendants de même taille : et , qui ne se recouvrent pas. Que peut-on raisonnablement en conclure, et avec quelle prudence ?
Corrigé
Interprétation : des intervalles de confiance non superposés pour deux populations distinctes constituent un indice visuel fort que les moyennes et sous-jacentes diffèrent, car il serait peu probable, si , d'observer deux échantillons donnant des intervalles aussi éloignés.
Prudence nécessaire : ce raisonnement par non-recouvrement d'IC n'est pas strictement équivalent à un test statistique formel de comparaison de deux moyennes (deux IC peuvent se recouvrir légèrement alors que la différence est significative à un test direct, et réciproquement dans des cas limites). La méthode rigoureuse, qui sera développée dans la leçon suivante, consiste à construire directement un test d'hypothèses sur la différence , en utilisant l'erreur-type de cette différence plutôt que celle de chaque moyenne séparément.
Conclusion : l'absence de recouvrement est un indice qualitatif utile pour une première lecture des résultats, mais la conclusion définitive doit s'appuyer sur le test formel approprié, et non sur la simple comparaison visuelle des intervalles.
AlphaMath Académie · Intervalles de confiance · Statistique : estimation et tests d'hypothèses