Fiche récapitulative générée pour impression / export PDF.

Licence 2 · Statistique : estimation et tests d'hypothèses

Intervalles de confiance

1. Pourquoi un intervalle plutôt qu'une seule valeur ?

Une estimation ponctuelle comme $\overline{x}_n$ ne donne aucune indication sur sa précision : changer d'échantillon change la valeur obtenue. On préfère donc associer à l'estimation une fourchette de valeurs plausibles pour le paramètre inconnu, accompagnée d'un niveau de confiance.

Définition. Soit $\theta$ un paramètre inconnu et $\alpha \in (0,1)$ un seuil fixé (typiquement $\alpha = 0{,}05$ ou $\alpha=0{,}01$ ). Un intervalle de confiance au niveau $1-\alpha$ pour $\theta$ est un intervalle aléatoire $[A_n, B_n]$ , construit à partir de l'échantillon, tel que :

P\big(A_n \leq \theta \leq B_n\big) = 1-\alpha

Interprétation fréquentiste — point essentiel à ne jamais confondre : ce n'est pas $\theta$ qui est aléatoire, mais l'intervalle $[A_n,B_n]$ (il dépend de l'échantillon tiré). Si l'on répète l'expérience un grand nombre de fois et que l'on construit l'intervalle à chaque fois, environ $(1-\alpha)\times 100\%$ des intervalles obtenus contiendront la vraie valeur $\theta$ . Pour un échantillon particulier, l'intervalle calculé soit contient $\theta$ , soit ne le contient pas — on ne dit jamais « $\theta$ a 95% de chances d'être dans cet intervalle ».

2. Intervalle de confiance pour une moyenne, variance connue

On suppose $X_1,\dots,X_n$ i.i.d. de loi $\mathcal N(\mu,\sigma^2)$ (ou $n$ assez grand pour invoquer le théorème central limite), avec $\sigma^2$ connue. On sait que :

\overline X_n \sim \mathcal N\left(\mu, \frac{\sigma^2}{n}\right) \quad\Longrightarrow\quad Z = \frac{\overline X_n - \mu}{\sigma/\sqrt n} \sim \mathcal N(0,1)

En notant $z_{\alpha/2}$ le quantile de la loi $\mathcal N(0,1)$ tel que $P(Z>z_{\alpha/2})=\alpha/2$ (donc $P(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}) = 1-\alpha$ par symétrie de la loi normale), on a :

P\left(-z_{\alpha/2} \leq \frac{\overline X_n-\mu}{\sigma/\sqrt n} \leq z_{\alpha/2}\right) = 1-\alpha

En isolant $\mu$ dans la double inégalité :

P\left(\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq \mu \leq \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right) = 1-\alpha

Intervalle de confiance (variance connue) :

IC_{1-\alpha}(\mu) = \left[\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n}\;;\; \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right]

Valeurs usuelles de $z_{\alpha/2}$ :

Niveau

1-\alpha

\alpha

z_{\alpha/2}

|---|---|---|

$90\%$	$0{,}10$	$1{,}645$
$95\%$	$0{,}05$	$1{,}960$
$99\%$	$0{,}01$	$2{,}576$

Exemple résolu. Une étude mesure la taille de

n=36

individus et obtient

\overline x = 170

cm. On suppose connu

\sigma = 12

cm. Construire un IC à

95\%

pour

\mu

On a $z_{0{,}025} = 1{,}960$ , et $\dfrac{\sigma}{\sqrt n} = \dfrac{12}{\sqrt{36}} = \dfrac{12}{6} = 2$ . La marge d'erreur est $z_{0{,}025}\cdot\dfrac{\sigma}{\sqrt n} = 1{,}960 \times 2 = 3{,}92$ . L'intervalle est :

IC_{95\%}(\mu) = [170 - 3{,}92\;;\;170+3{,}92] = [166{,}08\;;\;173{,}92]

3. Intervalle de confiance pour une moyenne, variance inconnue (loi de Student)

En pratique, $\sigma^2$ est presque toujours inconnue : on la remplace par son estimateur sans biais $S_n^2 = \dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline X_n)^2$ (vu en leçon précédente). On perd alors la normalité exacte du pivot, mais on dispose du résultat suivant.

Théorème. Si $X_1,\dots,X_n$ sont i.i.d. de loi $\mathcal N(\mu,\sigma^2)$ , alors :

T = \frac{\overline X_n - \mu}{S_n/\sqrt n} \sim \mathcal T(n-1)

suit une loi de Student à $n-1$ degrés de liberté. (La loi de Student a des queues plus épaisses que la loi normale, ce qui traduit l'incertitude supplémentaire due à l'estimation de

\sigma

En notant $t_{\alpha/2,\,n-1}$ le quantile de la loi $\mathcal T(n-1)$ tel que $P(T>t_{\alpha/2,\,n-1})=\alpha/2$ , le même raisonnement qu'en section 2 donne :

Intervalle de confiance (variance inconnue) :

IC_{1-\alpha}(\mu) = \left[\overline X_n - t_{\alpha/2,\,n-1}\frac{S_n}{\sqrt n}\;;\; \overline X_n + t_{\alpha/2,\,n-1}\frac{S_n}{\sqrt n}\right]

Pour $n$ grand (typiquement $n \geq 30$ ), la loi de Student $\mathcal T(n-1)$ est très proche de $\mathcal N(0,1)$ , et l'on peut utiliser $z_{\alpha/2}$ à la place de $t_{\alpha/2,n-1}$ sans erreur pratique significative ; pour $n$ petit, l'usage de la loi de Student est indispensable.

Exemple résolu. Sur un échantillon de $n=16$ pièces, on mesure une longueur moyenne $\overline x = 25$ cm avec un écart-type corrigé $s = 4$ cm. Construire un IC à $95\%$ pour $\mu$ (on suppose la longueur gaussienne).

Degrés de liberté : $n-1=15$ . Dans la table de Student, $t_{0{,}025,\,15} = 2{,}131$ . La marge d'erreur est $t_{0{,}025,15}\cdot\dfrac{s}{\sqrt n} = 2{,}131 \times \dfrac{4}{\sqrt{16}} = 2{,}131 \times 1 = 2{,}131$ . L'intervalle est :

IC_{95\%}(\mu) = [25-2{,}131\;;\;25+2{,}131] = [22{,}87\;;\;27{,}13]

4. Intervalle de confiance pour une proportion

Soit $X_1,\dots,X_n$ i.i.d. de loi de Bernoulli de paramètre $p$ inconnu (par exemple : un individu possède ou non une caractéristique). L'estimateur naturel est $\widehat p = \overline X_n$ , de variance $\dfrac{p(1-p)}{n}$ (vu en leçon précédente).

Pour $n$ assez grand (condition usuelle : $n\widehat p \geq 5$ et $n(1-\widehat p)\geq 5$ ), le théorème central limite permet d'approcher la loi de $\widehat p$ par une loi normale, et l'on remplace $p(1-p)$ (inconnu) par son estimation $\widehat p(1-\widehat p)$ :

Intervalle de confiance pour une proportion (approximation normale) :

IC_{1-\alpha}(p) = \left[\widehat p - z_{\alpha/2}\sqrt{\frac{\widehat p(1-\widehat p)}{n}}\;;\;\widehat p + z_{\alpha/2}\sqrt{\frac{\widehat p(1-\widehat p)}{n}}\right]

Exemple résolu. Un sondage auprès de $n=400$ personnes trouve $\widehat p = 0{,}45$ d'opinions favorables. Construire un IC à $95\%$ pour la proportion réelle $p$ dans la population.

Vérification des conditions : $n\widehat p = 180 \geq 5$ et $n(1-\widehat p)=220\geq 5$ , l'approximation normale est valide. On a $\sqrt{\dfrac{\widehat p(1-\widehat p)}{n}} = \sqrt{\dfrac{0{,}45\times 0{,}55}{400}} = \sqrt{\dfrac{0{,}2475}{400}} = \sqrt{0{,}00061875} \approx 0{,}02487$ . La marge d'erreur est $1{,}960 \times 0{,}02487 \approx 0{,}0488$ . L'intervalle est :

IC_{95\%}(p) \approx [0{,}45-0{,}0488\;;\;0{,}45+0{,}0488] = [0{,}401\;;\;0{,}499]

5. Largeur de l'intervalle et taille de l'échantillon

La largeur (ou amplitude) d'un IC est $2\times(\text{marge d'erreur})$ . Elle diminue :
- quand $n$ augmente (en $1/\sqrt n$ , donc lentement : il faut multiplier $n$ par $4$ pour diviser la largeur par $2$ ) ;
- quand le niveau de confiance $1-\alpha$ diminue (un IC à $90\%$ est plus étroit qu'un IC à $99\%$ , car on accepte davantage de risque de se tromper) ;
- quand la dispersion ( $\sigma$ ou $\sigma^2$ ) diminue.

Détermination de la taille d'échantillon minimale. Pour garantir une marge d'erreur $e$ au plus avec une proportion (cas le plus défavorable $p=0{,}5$ , qui maximise $p(1-p)$ ), on résout $z_{\alpha/2}\sqrt{\dfrac{0{,}25}{n}} \leq e$ , soit :

n \geq \frac{z_{\alpha/2}^2 \times 0{,}25}{e^2}

Exemple résolu. Quelle taille d'échantillon minimale pour garantir une marge d'erreur d'au plus $3\%$ au niveau $95\%$ , dans le cas le plus défavorable ?

$n \geq \dfrac{1{,}960^2 \times 0{,}25}{0{,}03^2} = \dfrac{3{,}8416\times 0{,}25}{0{,}0009} = \dfrac{0{,}9604}{0{,}0009} \approx 1067{,}1$ . On arrondit à l'entier supérieur (il faut toujours arrondir vers le haut pour une taille d'échantillon, car arrondir vers le bas ne garantirait plus la précision visée) : $n \geq 1068$ .

6. Synthèse

Paramètre estimé

Hypothèse

Intervalle de confiance

|---|---|---|

$\mu$ , $\sigma^2$ connue	normalité (ou $n$ grand)	$\overline X_n \pm z_{\alpha/2}\dfrac{\sigma}{\sqrt n}$
$\mu$ , $\sigma^2$ inconnue	normalité	$\overline X_n \pm t_{\alpha/2,n-1}\dfrac{S_n}{\sqrt n}$
$p$ (proportion)	$n\widehat p\geq5$ , $n(1-\widehat p)\geq5$	$\widehat p \pm z_{\alpha/2}\sqrt{\dfrac{\widehat p(1-\widehat p)}{n}}$

Retenir la structure commune : estimation $\pm$ quantile $\times$ erreur-type. C'est ce schéma général qui sera réinterprété, dans la leçon suivante, comme la « région de non-rejet » d'un test d'hypothèses.

Exercices de la leçon

Exercice 1

Que signifie « intervalle de confiance au niveau $95\%$ pour $\mu$ » ?

Corrigé

L'aléa porte sur l'intervalle (qui dépend de l'échantillon tiré), pas sur $\mu$ qui est une constante inconnue mais fixe. L'interprétation correcte est fréquentiste : sur un grand nombre de répétitions de l'échantillonnage, environ $95\%$ des intervalles construits contiendraient la vraie valeur $\mu$ .

Exercice 2

Quelle est la valeur de $z_{\alpha/2}$ pour un niveau de confiance de $95\%$ ?

Corrigé

Pour $1-\alpha=0{,}95$ , on a $\alpha/2=0{,}025$ , et le quantile de la loi $\mathcal N(0,1)$ correspondant est $z_{0{,}025}=1{,}960$ (valeur usuelle à connaître par cœur).

Exercice 3

Vrai ou faux : plus le niveau de confiance $1-\alpha$ augmente, plus l'intervalle de confiance est large (à $n$ et $\sigma$ fixés).

Corrigé

Vrai. Augmenter le niveau de confiance (par exemple passer de $95\%$ à $99\%$ ) augmente le quantile $z_{\alpha/2}$ (de $1{,}960$ à $2{,}576$ ), donc augmente la marge d'erreur et donc la largeur de l'intervalle : on gagne en confiance mais on perd en précision.

Exercice 4

Pour construire un IC pour une moyenne avec variance inconnue, quelle loi utilise-t-on pour le pivot $T = \dfrac{\overline X_n-\mu}{S_n/\sqrt n}$ ?

Corrigé

Lorsque $\sigma^2$ est inconnue et remplacée par son estimateur sans biais $S_n^2$ , le pivot $T=\dfrac{\overline X_n-\mu}{S_n/\sqrt n}$ suit, pour un échantillon gaussien, une loi de Student à $n-1$ degrés de liberté (et non une loi normale, qui ne s'applique que lorsque $\sigma$ est connue).

Exercice 5

Quelle est la formule générale de l'IC pour une proportion $p$ par approximation normale ?

Corrigé

On utilise le quantile de la loi normale (et non de Student, réservée à la moyenne avec variance estimée), avec l'erreur-type $\sqrt{\widehat p(1-\widehat p)/n}$ propre à l'estimateur d'une proportion.

Exercice 6

Un échantillon de $n=64$ mesures donne $\overline x = 50$ avec $\sigma=8$ connu. Quelle est la marge d'erreur de l'IC à $95\%$ pour $\mu$ ?

Corrigé

Marge $= z_{0{,}025}\cdot\dfrac{\sigma}{\sqrt n} = 1{,}960 \times \dfrac{8}{\sqrt{64}} = 1{,}960\times\dfrac{8}{8} = 1{,}960 \times 1 = 1{,}96$ .

Exercice 7

Avec les données de l'exercice précédent ( $\overline x=50$ , marge $=1{,}96$ ), quel est l'IC à $95\%$ pour $\mu$ ?

Corrigé

$IC_{95\%}(\mu) = [50-1{,}96\,;\,50+1{,}96] = [48{,}04\,;\,51{,}96]$ .

Exercice 8

Pour un échantillon de taille $n=10$ , quel est le nombre de degrés de liberté de la loi de Student utilisée pour un IC sur une moyenne (variance inconnue) ?

Corrigé

Le nombre de degrés de liberté pour le pivot de Student est $n-1$ : ici $n-1 = 10-1 = 9$ .

Exercice 9

Vrai ou faux : pour $n$ grand (par exemple $n\geq 30$ ), la loi de Student $\mathcal T(n-1)$ est très proche de la loi normale $\mathcal N(0,1)$ .

Corrigé

Vrai. Quand le nombre de degrés de liberté augmente, les queues de la loi de Student s'amincissent et la loi converge vers la loi normale centrée réduite ; pour $n\geq30$ , l'approximation par $z_{\alpha/2}$ est en pratique très bonne.

Exercice 10

Un sondage sur $n=200$ personnes trouve $\widehat p=0{,}6$ d'avis favorables. Que vaut $\sqrt{\dfrac{\widehat p(1-\widehat p)}{n}}$ ?

Corrigé

$\dfrac{\widehat p(1-\widehat p)}{n} = \dfrac{0{,}6\times0{,}4}{200} = \dfrac{0{,}24}{200} = 0{,}0012$ , donc $\sqrt{0{,}0012}\approx 0{,}0346$ .

Exercice 11

Un échantillon de $n=25$ donne $\overline x=100$ , avec $\sigma=15$ supposé connu. Construire l'IC à $90\%$ pour $\mu$ (utiliser $z_{0{,}05}=1{,}645$ ).

Corrigé

Erreur-type $=\dfrac{15}{\sqrt{25}}=\dfrac{15}{5}=3$ . Marge $=1{,}645\times3=4{,}935$ . $IC_{90\%}(\mu)=[100-4{,}935\,;\,100+4{,}935]=[95{,}07\,;\,104{,}93]$ (arrondi au centième).

Exercice 12

Un échantillon de $n=10$ valeurs (loi supposée gaussienne) donne $\overline x = 12$ et $s=3$ (écart-type corrigé). Sachant que $t_{0{,}025,9}=2{,}262$ , construire l'IC à $95\%$ pour $\mu$ .

Corrigé

Erreur-type $= \dfrac{s}{\sqrt n} = \dfrac{3}{\sqrt{10}}\approx 0{,}9487$ . Marge $= t_{0{,}025,9}\times 0{,}9487 = 2{,}262\times0{,}9487\approx2{,}146$ . $IC_{95\%}(\mu)=[12-2{,}146\,;\,12+2{,}146]=[9{,}85\,;\,14{,}15]$ (arrondi au centième).

Exercice 13

Démontrer, à partir de la loi de $Z=\dfrac{\overline X_n-\mu}{\sigma/\sqrt n} \sim \mathcal N(0,1)$ , la formule de l'intervalle de confiance $IC_{1-\alpha}(\mu) = \left[\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n}\,;\,\overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right]$ .

Corrigé

Étape 1 : Par définition de $z_{\alpha/2}$ , on a $P(Z > z_{\alpha/2}) = \alpha/2$ , et par symétrie de la loi $\mathcal N(0,1)$ , $P(Z<-z_{\alpha/2})=\alpha/2$ . Donc $P(-z_{\alpha/2}\leq Z \leq z_{\alpha/2}) = 1 - \alpha/2-\alpha/2 = 1-\alpha$ .

Étape 2 : On remplace $Z$ par son expression :

P\left(-z_{\alpha/2} \leq \frac{\overline X_n-\mu}{\sigma/\sqrt n} \leq z_{\alpha/2}\right) = 1-\alpha

Étape 3 : On multiplie les trois membres de la double inégalité par $\dfrac{\sigma}{\sqrt n}>0$ (ce qui ne change pas le sens des inégalités) :

-z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq \overline X_n - \mu \leq z_{\alpha/2}\frac{\sigma}{\sqrt n}

Étape 4 : On soustrait $\overline X_n$ aux trois membres :

-\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq -\mu \leq -\overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}

Étape 5 : On multiplie par $-1$ , ce qui inverse le sens des deux inégalités :

\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq \mu \leq \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}

On a donc bien $P\left(\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq \mu \leq \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right) = 1-\alpha$ , ce qui établit la formule de l'intervalle de confiance. $\square$

Exercice 14

On veut un IC pour une proportion avec une marge d'erreur d'au plus $5\%$ au niveau $95\%$ , dans le cas le plus défavorable ( $p=0{,}5$ ). Quelle taille d'échantillon minimale faut-il (utiliser $z_{0{,}025}=1{,}960$ ) ?

Corrigé

$n \geq \dfrac{z_{\alpha/2}^2\times0{,}25}{e^2} = \dfrac{1{,}960^2\times0{,}25}{0{,}05^2} = \dfrac{3{,}8416\times0{,}25}{0{,}0025} = \dfrac{0{,}9604}{0{,}0025} = 384{,}16$ . On arrondit à l'entier supérieur : $n\geq385$ .

Exercice 15

On dispose de deux IC à $95\%$ pour la même moyenne $\mu$ , obtenus sur deux échantillons indépendants de même taille $n$ : $IC_1=[10,2\,;\,14,8]$ et $IC_2=[20,1\,;\,24,5]$ , qui ne se recouvrent pas. Que peut-on raisonnablement en conclure, et avec quelle prudence ?

Corrigé

Interprétation : des intervalles de confiance non superposés pour deux populations distinctes constituent un indice visuel fort que les moyennes $\mu_1$ et $\mu_2$ sous-jacentes diffèrent, car il serait peu probable, si $\mu_1=\mu_2$ , d'observer deux échantillons donnant des intervalles aussi éloignés.

Prudence nécessaire : ce raisonnement par non-recouvrement d'IC n'est pas strictement équivalent à un test statistique formel de comparaison de deux moyennes (deux IC peuvent se recouvrir légèrement alors que la différence est significative à un test direct, et réciproquement dans des cas limites). La méthode rigoureuse, qui sera développée dans la leçon suivante, consiste à construire directement un test d'hypothèses sur la différence $\mu_1-\mu_2$ , en utilisant l'erreur-type de cette différence plutôt que celle de chaque moyenne séparément.

Conclusion : l'absence de recouvrement est un indice qualitatif utile pour une première lecture des résultats, mais la conclusion définitive doit s'appuyer sur le test formel approprié, et non sur la simple comparaison visuelle des intervalles.

AlphaMath Académie · Intervalles de confiance · Statistique : estimation et tests d'hypothèses