Intervalles de confiance
Vidéo disponible dans la version Premium
Durée : 50 min
Intervalles de confiance
1. Pourquoi un intervalle plutôt qu'une seule valeur ?
Une estimation ponctuelle comme ne donne aucune indication sur sa précision : changer d'échantillon change la valeur obtenue. On préfère donc associer à l'estimation une fourchette de valeurs plausibles pour le paramètre inconnu, accompagnée d'un niveau de confiance.
Définition. Soit un paramètre inconnu et un seuil fixé (typiquement ou ). Un intervalle de confiance au niveau pour est un intervalle aléatoire , construit à partir de l'échantillon, tel que :
Interprétation fréquentiste — point essentiel à ne jamais confondre : ce n'est pas qui est aléatoire, mais l'intervalle (il dépend de l'échantillon tiré). Si l'on répète l'expérience un grand nombre de fois et que l'on construit l'intervalle à chaque fois, environ des intervalles obtenus contiendront la vraie valeur . Pour un échantillon particulier, l'intervalle calculé soit contient , soit ne le contient pas — on ne dit jamais « a 95% de chances d'être dans cet intervalle ».
2. Intervalle de confiance pour une moyenne, variance connue
On suppose i.i.d. de loi (ou assez grand pour invoquer le théorème central limite), avec connue. On sait que :
En notant le quantile de la loi tel que (donc par symétrie de la loi normale), on a :
En isolant dans la double inégalité :
Intervalle de confiance (variance connue) :
Valeurs usuelles de :
| Niveau |
Exemple résolu. Une étude mesure la taille de individus et obtient cm. On suppose connu cm. Construire un IC à pour .
On a , et . La marge d'erreur est . L'intervalle est :
3. Intervalle de confiance pour une moyenne, variance inconnue (loi de Student)
En pratique, est presque toujours inconnue : on la remplace par son estimateur sans biais (vu en leçon précédente). On perd alors la normalité exacte du pivot, mais on dispose du résultat suivant.
Théorème. Si sont i.i.d. de loi , alors :
suit une loi de Student à degrés de liberté. (La loi de Student a des queues plus épaisses que la loi normale, ce qui traduit l'incertitude supplémentaire due à l'estimation de .)
En notant le quantile de la loi tel que , le même raisonnement qu'en section 2 donne :
Intervalle de confiance (variance inconnue) :
Pour grand (typiquement ), la loi de Student est très proche de , et l'on peut utiliser à la place de sans erreur pratique significative ; pour petit, l'usage de la loi de Student est indispensable.
Exemple résolu. Sur un échantillon de pièces, on mesure une longueur moyenne cm avec un écart-type corrigé cm. Construire un IC à pour (on suppose la longueur gaussienne).
Degrés de liberté : . Dans la table de Student, . La marge d'erreur est . L'intervalle est :
4. Intervalle de confiance pour une proportion
Soit i.i.d. de loi de Bernoulli de paramètre inconnu (par exemple : un individu possède ou non une caractéristique). L'estimateur naturel est , de variance (vu en leçon précédente).
Pour assez grand (condition usuelle : et ), le théorème central limite permet d'approcher la loi de par une loi normale, et l'on remplace (inconnu) par son estimation :
Intervalle de confiance pour une proportion (approximation normale) :
Exemple résolu. Un sondage auprès de personnes trouve d'opinions favorables. Construire un IC à pour la proportion réelle dans la population.
Vérification des conditions : et , l'approximation normale est valide. On a . La marge d'erreur est . L'intervalle est :
5. Largeur de l'intervalle et taille de l'échantillon
La largeur (ou amplitude) d'un IC est . Elle diminue :
- quand augmente (en , donc lentement : il faut multiplier par pour diviser la largeur par ) ;
- quand le niveau de confiance diminue (un IC à est plus étroit qu'un IC à , car on accepte davantage de risque de se tromper) ;
- quand la dispersion ( ou ) diminue.
Détermination de la taille d'échantillon minimale. Pour garantir une marge d'erreur au plus avec une proportion (cas le plus défavorable , qui maximise ), on résout , soit :
Exemple résolu. Quelle taille d'échantillon minimale pour garantir une marge d'erreur d'au plus au niveau , dans le cas le plus défavorable ?
. On arrondit à l'entier supérieur (il faut toujours arrondir vers le haut pour une taille d'échantillon, car arrondir vers le bas ne garantirait plus la précision visée) : .
6. Synthèse
| Paramètre estimé | Hypothèse | Intervalle de confiance |
| , connue | normalité (ou grand) | |
| , inconnue | normalité | |
| (proportion) | , |
Retenir la structure commune : estimation quantile erreur-type. C'est ce schéma général qui sera réinterprété, dans la leçon suivante, comme la « région de non-rejet » d'un test d'hypothèses.
Exercices
Que signifie « intervalle de confiance au niveau pour » ?
Quelle est la valeur de pour un niveau de confiance de ?
Vrai ou faux : plus le niveau de confiance augmente, plus l'intervalle de confiance est large (à et fixés).
Pour construire un IC pour une moyenne avec variance inconnue, quelle loi utilise-t-on pour le pivot ?
Quelle est la formule générale de l'IC pour une proportion par approximation normale ?
Suivez votre progression
Connectez-vous pour sauvegarder votre avancement et gagner des XP.