Licence 2—

Intervalles de confiance

50 min15 exercicesSéquence 2.2 — Licence 2

▶

Vidéo disponible dans la version Premium

Durée : 50 min

Intervalles de confiance

1. Pourquoi un intervalle plutôt qu'une seule valeur ?

Une estimation ponctuelle comme $\overline{x}_n$ ne donne aucune indication sur sa précision : changer d'échantillon change la valeur obtenue. On préfère donc associer à l'estimation une fourchette de valeurs plausibles pour le paramètre inconnu, accompagnée d'un niveau de confiance.

Définition. Soit $\theta$ un paramètre inconnu et $\alpha \in (0,1)$ un seuil fixé (typiquement $\alpha = 0{,}05$ ou $\alpha=0{,}01$ ). Un intervalle de confiance au niveau $1-\alpha$ pour $\theta$ est un intervalle aléatoire $[A_n, B_n]$ , construit à partir de l'échantillon, tel que :

P\big(A_n \leq \theta \leq B_n\big) = 1-\alpha

Interprétation fréquentiste — point essentiel à ne jamais confondre : ce n'est pas $\theta$ qui est aléatoire, mais l'intervalle $[A_n,B_n]$ (il dépend de l'échantillon tiré). Si l'on répète l'expérience un grand nombre de fois et que l'on construit l'intervalle à chaque fois, environ $(1-\alpha)\times 100\%$ des intervalles obtenus contiendront la vraie valeur $\theta$ . Pour un échantillon particulier, l'intervalle calculé soit contient $\theta$ , soit ne le contient pas — on ne dit jamais « $\theta$ a 95% de chances d'être dans cet intervalle ».

2. Intervalle de confiance pour une moyenne, variance connue

On suppose $X_1,\dots,X_n$ i.i.d. de loi $\mathcal N(\mu,\sigma^2)$ (ou $n$ assez grand pour invoquer le théorème central limite), avec $\sigma^2$ connue. On sait que :

\overline X_n \sim \mathcal N\left(\mu, \frac{\sigma^2}{n}\right) \quad\Longrightarrow\quad Z = \frac{\overline X_n - \mu}{\sigma/\sqrt n} \sim \mathcal N(0,1)

En notant $z_{\alpha/2}$ le quantile de la loi $\mathcal N(0,1)$ tel que $P(Z>z_{\alpha/2})=\alpha/2$ (donc $P(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}) = 1-\alpha$ par symétrie de la loi normale), on a :

P\left(-z_{\alpha/2} \leq \frac{\overline X_n-\mu}{\sigma/\sqrt n} \leq z_{\alpha/2}\right) = 1-\alpha

En isolant $\mu$ dans la double inégalité :

P\left(\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq \mu \leq \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right) = 1-\alpha

Intervalle de confiance (variance connue) :

IC_{1-\alpha}(\mu) = \left[\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n}\;;\; \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right]

Valeurs usuelles de $z_{\alpha/2}$ :

Niveau

1-\alpha

\alpha

z_{\alpha/2}

|---|---|---|

$90\%$	$0{,}10$	$1{,}645$
$95\%$	$0{,}05$	$1{,}960$
$99\%$	$0{,}01$	$2{,}576$

Exemple résolu. Une étude mesure la taille de

n=36

individus et obtient

\overline x = 170

cm. On suppose connu

\sigma = 12

cm. Construire un IC à

95\%

pour

\mu

On a $z_{0{,}025} = 1{,}960$ , et $\dfrac{\sigma}{\sqrt n} = \dfrac{12}{\sqrt{36}} = \dfrac{12}{6} = 2$ . La marge d'erreur est $z_{0{,}025}\cdot\dfrac{\sigma}{\sqrt n} = 1{,}960 \times 2 = 3{,}92$ . L'intervalle est :

IC_{95\%}(\mu) = [170 - 3{,}92\;;\;170+3{,}92] = [166{,}08\;;\;173{,}92]

3. Intervalle de confiance pour une moyenne, variance inconnue (loi de Student)

En pratique, $\sigma^2$ est presque toujours inconnue : on la remplace par son estimateur sans biais $S_n^2 = \dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline X_n)^2$ (vu en leçon précédente). On perd alors la normalité exacte du pivot, mais on dispose du résultat suivant.

Théorème. Si $X_1,\dots,X_n$ sont i.i.d. de loi $\mathcal N(\mu,\sigma^2)$ , alors :

T = \frac{\overline X_n - \mu}{S_n/\sqrt n} \sim \mathcal T(n-1)

suit une loi de Student à $n-1$ degrés de liberté. (La loi de Student a des queues plus épaisses que la loi normale, ce qui traduit l'incertitude supplémentaire due à l'estimation de

\sigma

En notant $t_{\alpha/2,\,n-1}$ le quantile de la loi $\mathcal T(n-1)$ tel que $P(T>t_{\alpha/2,\,n-1})=\alpha/2$ , le même raisonnement qu'en section 2 donne :

Intervalle de confiance (variance inconnue) :

IC_{1-\alpha}(\mu) = \left[\overline X_n - t_{\alpha/2,\,n-1}\frac{S_n}{\sqrt n}\;;\; \overline X_n + t_{\alpha/2,\,n-1}\frac{S_n}{\sqrt n}\right]

Pour $n$ grand (typiquement $n \geq 30$ ), la loi de Student $\mathcal T(n-1)$ est très proche de $\mathcal N(0,1)$ , et l'on peut utiliser $z_{\alpha/2}$ à la place de $t_{\alpha/2,n-1}$ sans erreur pratique significative ; pour $n$ petit, l'usage de la loi de Student est indispensable.

Exemple résolu. Sur un échantillon de $n=16$ pièces, on mesure une longueur moyenne $\overline x = 25$ cm avec un écart-type corrigé $s = 4$ cm. Construire un IC à $95\%$ pour $\mu$ (on suppose la longueur gaussienne).

Degrés de liberté : $n-1=15$ . Dans la table de Student, $t_{0{,}025,\,15} = 2{,}131$ . La marge d'erreur est $t_{0{,}025,15}\cdot\dfrac{s}{\sqrt n} = 2{,}131 \times \dfrac{4}{\sqrt{16}} = 2{,}131 \times 1 = 2{,}131$ . L'intervalle est :

IC_{95\%}(\mu) = [25-2{,}131\;;\;25+2{,}131] = [22{,}87\;;\;27{,}13]

4. Intervalle de confiance pour une proportion

Soit $X_1,\dots,X_n$ i.i.d. de loi de Bernoulli de paramètre $p$ inconnu (par exemple : un individu possède ou non une caractéristique). L'estimateur naturel est $\widehat p = \overline X_n$ , de variance $\dfrac{p(1-p)}{n}$ (vu en leçon précédente).

Pour $n$ assez grand (condition usuelle : $n\widehat p \geq 5$ et $n(1-\widehat p)\geq 5$ ), le théorème central limite permet d'approcher la loi de $\widehat p$ par une loi normale, et l'on remplace $p(1-p)$ (inconnu) par son estimation $\widehat p(1-\widehat p)$ :

Intervalle de confiance pour une proportion (approximation normale) :

IC_{1-\alpha}(p) = \left[\widehat p - z_{\alpha/2}\sqrt{\frac{\widehat p(1-\widehat p)}{n}}\;;\;\widehat p + z_{\alpha/2}\sqrt{\frac{\widehat p(1-\widehat p)}{n}}\right]

Exemple résolu. Un sondage auprès de $n=400$ personnes trouve $\widehat p = 0{,}45$ d'opinions favorables. Construire un IC à $95\%$ pour la proportion réelle $p$ dans la population.

Vérification des conditions : $n\widehat p = 180 \geq 5$ et $n(1-\widehat p)=220\geq 5$ , l'approximation normale est valide. On a $\sqrt{\dfrac{\widehat p(1-\widehat p)}{n}} = \sqrt{\dfrac{0{,}45\times 0{,}55}{400}} = \sqrt{\dfrac{0{,}2475}{400}} = \sqrt{0{,}00061875} \approx 0{,}02487$ . La marge d'erreur est $1{,}960 \times 0{,}02487 \approx 0{,}0488$ . L'intervalle est :

IC_{95\%}(p) \approx [0{,}45-0{,}0488\;;\;0{,}45+0{,}0488] = [0{,}401\;;\;0{,}499]

5. Largeur de l'intervalle et taille de l'échantillon

La largeur (ou amplitude) d'un IC est $2\times(\text{marge d'erreur})$ . Elle diminue :
- quand $n$ augmente (en $1/\sqrt n$ , donc lentement : il faut multiplier $n$ par $4$ pour diviser la largeur par $2$ ) ;
- quand le niveau de confiance $1-\alpha$ diminue (un IC à $90\%$ est plus étroit qu'un IC à $99\%$ , car on accepte davantage de risque de se tromper) ;
- quand la dispersion ( $\sigma$ ou $\sigma^2$ ) diminue.

Détermination de la taille d'échantillon minimale. Pour garantir une marge d'erreur $e$ au plus avec une proportion (cas le plus défavorable $p=0{,}5$ , qui maximise $p(1-p)$ ), on résout $z_{\alpha/2}\sqrt{\dfrac{0{,}25}{n}} \leq e$ , soit :

n \geq \frac{z_{\alpha/2}^2 \times 0{,}25}{e^2}

Exemple résolu. Quelle taille d'échantillon minimale pour garantir une marge d'erreur d'au plus $3\%$ au niveau $95\%$ , dans le cas le plus défavorable ?

$n \geq \dfrac{1{,}960^2 \times 0{,}25}{0{,}03^2} = \dfrac{3{,}8416\times 0{,}25}{0{,}0009} = \dfrac{0{,}9604}{0{,}0009} \approx 1067{,}1$ . On arrondit à l'entier supérieur (il faut toujours arrondir vers le haut pour une taille d'échantillon, car arrondir vers le bas ne garantirait plus la précision visée) : $n \geq 1068$ .

6. Synthèse

Paramètre estimé

Hypothèse

Intervalle de confiance

|---|---|---|

$\mu$ , $\sigma^2$ connue	normalité (ou $n$ grand)	$\overline X_n \pm z_{\alpha/2}\dfrac{\sigma}{\sqrt n}$
$\mu$ , $\sigma^2$ inconnue	normalité	$\overline X_n \pm t_{\alpha/2,n-1}\dfrac{S_n}{\sqrt n}$
$p$ (proportion)	$n\widehat p\geq5$ , $n(1-\widehat p)\geq5$	$\widehat p \pm z_{\alpha/2}\sqrt{\dfrac{\widehat p(1-\widehat p)}{n}}$

Retenir la structure commune : estimation $\pm$ quantile $\times$ erreur-type. C'est ce schéma général qui sera réinterprété, dans la leçon suivante, comme la « région de non-rejet » d'un test d'hypothèses.

Exercices

Que signifie « intervalle de confiance au niveau $95\%$ pour $\mu$ » ?

Quelle est la valeur de $z_{\alpha/2}$ pour un niveau de confiance de $95\%$ ?

Vrai ou faux : plus le niveau de confiance $1-\alpha$ augmente, plus l'intervalle de confiance est large (à $n$ et $\sigma$ fixés).

Pour construire un IC pour une moyenne avec variance inconnue, quelle loi utilise-t-on pour le pivot $T = \dfrac{\overline X_n-\mu}{S_n/\sqrt n}$ ?

Quelle est la formule générale de l'IC pour une proportion $p$ par approximation normale ?

Suivez votre progression

Connectez-vous pour sauvegarder votre avancement et gagner des XP.

Se connecter

Échantillonnage et estimateursPrécédent2 / 3Tests d'hypothèsesSuivant