Fiche récapitulative générée pour impression / export PDF.

Licence 2 · Statistique : estimation et tests d'hypothèses

Intervalles de confiance

Intervalles de confiance

1. Pourquoi un intervalle plutôt qu'une seule valeur ?

Une estimation ponctuelle comme xn\overline{x}_n ne donne aucune indication sur sa précision : changer d'échantillon change la valeur obtenue. On préfère donc associer à l'estimation une fourchette de valeurs plausibles pour le paramètre inconnu, accompagnée d'un niveau de confiance.

Définition. Soit θ\theta un paramètre inconnu et α(0,1)\alpha \in (0,1) un seuil fixé (typiquement α=0,05\alpha = 0{,}05 ou α=0,01\alpha=0{,}01). Un intervalle de confiance au niveau 1α1-\alpha pour θ\theta est un intervalle aléatoire [An,Bn][A_n, B_n], construit à partir de l'échantillon, tel que :

P(AnθBn)=1αP\big(A_n \leq \theta \leq B_n\big) = 1-\alpha

Interprétation fréquentiste — point essentiel à ne jamais confondre : ce n'est pas θ\theta qui est aléatoire, mais l'intervalle [An,Bn][A_n,B_n] (il dépend de l'échantillon tiré). Si l'on répète l'expérience un grand nombre de fois et que l'on construit l'intervalle à chaque fois, environ (1α)×100%(1-\alpha)\times 100\% des intervalles obtenus contiendront la vraie valeur θ\theta. Pour un échantillon particulier, l'intervalle calculé soit contient θ\theta, soit ne le contient pas — on ne dit jamais « θ\theta a 95% de chances d'être dans cet intervalle ».

2. Intervalle de confiance pour une moyenne, variance connue

On suppose X1,,XnX_1,\dots,X_n i.i.d. de loi N(μ,σ2)\mathcal N(\mu,\sigma^2) (ou nn assez grand pour invoquer le théorème central limite), avec σ2\sigma^2 connue. On sait que :

XnN(μ,σ2n)Z=Xnμσ/nN(0,1)\overline X_n \sim \mathcal N\left(\mu, \frac{\sigma^2}{n}\right) \quad\Longrightarrow\quad Z = \frac{\overline X_n - \mu}{\sigma/\sqrt n} \sim \mathcal N(0,1)

En notant zα/2z_{\alpha/2} le quantile de la loi N(0,1)\mathcal N(0,1) tel que P(Z>zα/2)=α/2P(Z>z_{\alpha/2})=\alpha/2 (donc P(zα/2Zzα/2)=1αP(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}) = 1-\alpha par symétrie de la loi normale), on a :

P(zα/2Xnμσ/nzα/2)=1αP\left(-z_{\alpha/2} \leq \frac{\overline X_n-\mu}{\sigma/\sqrt n} \leq z_{\alpha/2}\right) = 1-\alpha

En isolant μ\mu dans la double inégalité :

P(Xnzα/2σnμXn+zα/2σn)=1αP\left(\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq \mu \leq \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right) = 1-\alpha

Intervalle de confiance (variance connue) :

IC1α(μ)=[Xnzα/2σn  ;  Xn+zα/2σn]IC_{1-\alpha}(\mu) = \left[\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n}\;;\; \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right]

Valeurs usuelles de zα/2z_{\alpha/2} :


Niveau 1α1-\alphaα\alphazα/2z_{\alpha/2}
|---|---|---|



90%90\%0,100{,}101,6451{,}645
95%95\%0,050{,}051,9601{,}960
99%99\%0,010{,}012,5762{,}576

Exemple résolu. Une étude mesure la taille de n=36n=36 individus et obtient x=170\overline x = 170 cm. On suppose connu σ=12\sigma = 12 cm. Construire un IC à 95%95\% pour μ\mu.

On a z0,025=1,960z_{0{,}025} = 1{,}960, et σn=1236=126=2\dfrac{\sigma}{\sqrt n} = \dfrac{12}{\sqrt{36}} = \dfrac{12}{6} = 2. La marge d'erreur est z0,025σn=1,960×2=3,92z_{0{,}025}\cdot\dfrac{\sigma}{\sqrt n} = 1{,}960 \times 2 = 3{,}92. L'intervalle est :

IC95%(μ)=[1703,92  ;  170+3,92]=[166,08  ;  173,92]IC_{95\%}(\mu) = [170 - 3{,}92\;;\;170+3{,}92] = [166{,}08\;;\;173{,}92]

3. Intervalle de confiance pour une moyenne, variance inconnue (loi de Student)

En pratique, σ2\sigma^2 est presque toujours inconnue : on la remplace par son estimateur sans biais Sn2=1n1i=1n(XiXn)2S_n^2 = \dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline X_n)^2 (vu en leçon précédente). On perd alors la normalité exacte du pivot, mais on dispose du résultat suivant.

Théorème. Si X1,,XnX_1,\dots,X_n sont i.i.d. de loi N(μ,σ2)\mathcal N(\mu,\sigma^2), alors :

T=XnμSn/nT(n1)T = \frac{\overline X_n - \mu}{S_n/\sqrt n} \sim \mathcal T(n-1)

suit une loi de Student à n1n-1 degrés de liberté. (La loi de Student a des queues plus épaisses que la loi normale, ce qui traduit l'incertitude supplémentaire due à l'estimation de σ\sigma.)

En notant tα/2,n1t_{\alpha/2,\,n-1} le quantile de la loi T(n1)\mathcal T(n-1) tel que P(T>tα/2,n1)=α/2P(T>t_{\alpha/2,\,n-1})=\alpha/2, le même raisonnement qu'en section 2 donne :

Intervalle de confiance (variance inconnue) :

IC1α(μ)=[Xntα/2,n1Snn  ;  Xn+tα/2,n1Snn]IC_{1-\alpha}(\mu) = \left[\overline X_n - t_{\alpha/2,\,n-1}\frac{S_n}{\sqrt n}\;;\; \overline X_n + t_{\alpha/2,\,n-1}\frac{S_n}{\sqrt n}\right]

Pour nn grand (typiquement n30n \geq 30), la loi de Student T(n1)\mathcal T(n-1) est très proche de N(0,1)\mathcal N(0,1), et l'on peut utiliser zα/2z_{\alpha/2} à la place de tα/2,n1t_{\alpha/2,n-1} sans erreur pratique significative ; pour nn petit, l'usage de la loi de Student est indispensable.

Exemple résolu. Sur un échantillon de n=16n=16 pièces, on mesure une longueur moyenne x=25\overline x = 25 cm avec un écart-type corrigé s=4s = 4 cm. Construire un IC à 95%95\% pour μ\mu (on suppose la longueur gaussienne).

Degrés de liberté : n1=15n-1=15. Dans la table de Student, t0,025,15=2,131t_{0{,}025,\,15} = 2{,}131. La marge d'erreur est t0,025,15sn=2,131×416=2,131×1=2,131t_{0{,}025,15}\cdot\dfrac{s}{\sqrt n} = 2{,}131 \times \dfrac{4}{\sqrt{16}} = 2{,}131 \times 1 = 2{,}131. L'intervalle est :

IC95%(μ)=[252,131  ;  25+2,131]=[22,87  ;  27,13]IC_{95\%}(\mu) = [25-2{,}131\;;\;25+2{,}131] = [22{,}87\;;\;27{,}13]

4. Intervalle de confiance pour une proportion

Soit X1,,XnX_1,\dots,X_n i.i.d. de loi de Bernoulli de paramètre pp inconnu (par exemple : un individu possède ou non une caractéristique). L'estimateur naturel est p^=Xn\widehat p = \overline X_n, de variance p(1p)n\dfrac{p(1-p)}{n} (vu en leçon précédente).

Pour nn assez grand (condition usuelle : np^5n\widehat p \geq 5 et n(1p^)5n(1-\widehat p)\geq 5), le théorème central limite permet d'approcher la loi de p^\widehat p par une loi normale, et l'on remplace p(1p)p(1-p) (inconnu) par son estimation p^(1p^)\widehat p(1-\widehat p) :

Intervalle de confiance pour une proportion (approximation normale) :

IC1α(p)=[p^zα/2p^(1p^)n  ;  p^+zα/2p^(1p^)n]IC_{1-\alpha}(p) = \left[\widehat p - z_{\alpha/2}\sqrt{\frac{\widehat p(1-\widehat p)}{n}}\;;\;\widehat p + z_{\alpha/2}\sqrt{\frac{\widehat p(1-\widehat p)}{n}}\right]

Exemple résolu. Un sondage auprès de n=400n=400 personnes trouve p^=0,45\widehat p = 0{,}45 d'opinions favorables. Construire un IC à 95%95\% pour la proportion réelle pp dans la population.

Vérification des conditions : np^=1805n\widehat p = 180 \geq 5 et n(1p^)=2205n(1-\widehat p)=220\geq 5, l'approximation normale est valide. On a p^(1p^)n=0,45×0,55400=0,2475400=0,000618750,02487\sqrt{\dfrac{\widehat p(1-\widehat p)}{n}} = \sqrt{\dfrac{0{,}45\times 0{,}55}{400}} = \sqrt{\dfrac{0{,}2475}{400}} = \sqrt{0{,}00061875} \approx 0{,}02487. La marge d'erreur est 1,960×0,024870,04881{,}960 \times 0{,}02487 \approx 0{,}0488. L'intervalle est :

IC95%(p)[0,450,0488  ;  0,45+0,0488]=[0,401  ;  0,499]IC_{95\%}(p) \approx [0{,}45-0{,}0488\;;\;0{,}45+0{,}0488] = [0{,}401\;;\;0{,}499]

5. Largeur de l'intervalle et taille de l'échantillon

La largeur (ou amplitude) d'un IC est 2×(marge d’erreur)2\times(\text{marge d'erreur}). Elle diminue :
- quand nn augmente (en 1/n1/\sqrt n, donc lentement : il faut multiplier nn par 44 pour diviser la largeur par 22) ;
- quand le niveau de confiance 1α1-\alpha diminue (un IC à 90%90\% est plus étroit qu'un IC à 99%99\%, car on accepte davantage de risque de se tromper) ;
- quand la dispersion (σ\sigma ou σ2\sigma^2) diminue.

Détermination de la taille d'échantillon minimale. Pour garantir une marge d'erreur ee au plus avec une proportion (cas le plus défavorable p=0,5p=0{,}5, qui maximise p(1p)p(1-p)), on résout zα/20,25nez_{\alpha/2}\sqrt{\dfrac{0{,}25}{n}} \leq e, soit :

nzα/22×0,25e2n \geq \frac{z_{\alpha/2}^2 \times 0{,}25}{e^2}

Exemple résolu. Quelle taille d'échantillon minimale pour garantir une marge d'erreur d'au plus 3%3\% au niveau 95%95\%, dans le cas le plus défavorable ?

n1,9602×0,250,032=3,8416×0,250,0009=0,96040,00091067,1n \geq \dfrac{1{,}960^2 \times 0{,}25}{0{,}03^2} = \dfrac{3{,}8416\times 0{,}25}{0{,}0009} = \dfrac{0{,}9604}{0{,}0009} \approx 1067{,}1. On arrondit à l'entier supérieur (il faut toujours arrondir vers le haut pour une taille d'échantillon, car arrondir vers le bas ne garantirait plus la précision visée) : n1068n \geq 1068.

6. Synthèse


Paramètre estiméHypothèseIntervalle de confiance
|---|---|---|



μ\mu, σ2\sigma^2 connuenormalité (ou nn grand)Xn±zα/2σn\overline X_n \pm z_{\alpha/2}\dfrac{\sigma}{\sqrt n}
μ\mu, σ2\sigma^2 inconnuenormalitéXn±tα/2,n1Snn\overline X_n \pm t_{\alpha/2,n-1}\dfrac{S_n}{\sqrt n}
pp (proportion)np^5n\widehat p\geq5, n(1p^)5n(1-\widehat p)\geq5p^±zα/2p^(1p^)n\widehat p \pm z_{\alpha/2}\sqrt{\dfrac{\widehat p(1-\widehat p)}{n}}

Retenir la structure commune : estimation ±\pm quantile ×\times erreur-type. C'est ce schéma général qui sera réinterprété, dans la leçon suivante, comme la « région de non-rejet » d'un test d'hypothèses.

Exercices de la leçon

Exercice 1

Que signifie « intervalle de confiance au niveau 95%95\% pour μ\mu » ?

Corrigé

L'aléa porte sur l'intervalle (qui dépend de l'échantillon tiré), pas sur μ\mu qui est une constante inconnue mais fixe. L'interprétation correcte est fréquentiste : sur un grand nombre de répétitions de l'échantillonnage, environ 95%95\% des intervalles construits contiendraient la vraie valeur μ\mu.

Exercice 2

Quelle est la valeur de zα/2z_{\alpha/2} pour un niveau de confiance de 95%95\% ?

Corrigé

Pour 1α=0,951-\alpha=0{,}95, on a α/2=0,025\alpha/2=0{,}025, et le quantile de la loi N(0,1)\mathcal N(0,1) correspondant est z0,025=1,960z_{0{,}025}=1{,}960 (valeur usuelle à connaître par cœur).

Exercice 3

Vrai ou faux : plus le niveau de confiance 1α1-\alpha augmente, plus l'intervalle de confiance est large (à nn et σ\sigma fixés).

Corrigé

Vrai. Augmenter le niveau de confiance (par exemple passer de 95%95\% à 99%99\%) augmente le quantile zα/2z_{\alpha/2} (de 1,9601{,}960 à 2,5762{,}576), donc augmente la marge d'erreur et donc la largeur de l'intervalle : on gagne en confiance mais on perd en précision.

Exercice 4

Pour construire un IC pour une moyenne avec variance inconnue, quelle loi utilise-t-on pour le pivot T=XnμSn/nT = \dfrac{\overline X_n-\mu}{S_n/\sqrt n} ?

Corrigé

Lorsque σ2\sigma^2 est inconnue et remplacée par son estimateur sans biais Sn2S_n^2, le pivot T=XnμSn/nT=\dfrac{\overline X_n-\mu}{S_n/\sqrt n} suit, pour un échantillon gaussien, une loi de Student à n1n-1 degrés de liberté (et non une loi normale, qui ne s'applique que lorsque σ\sigma est connue).

Exercice 5

Quelle est la formule générale de l'IC pour une proportion pp par approximation normale ?

Corrigé

On utilise le quantile de la loi normale (et non de Student, réservée à la moyenne avec variance estimée), avec l'erreur-type p^(1p^)/n\sqrt{\widehat p(1-\widehat p)/n} propre à l'estimateur d'une proportion.

Exercice 6

Un échantillon de n=64n=64 mesures donne x=50\overline x = 50 avec σ=8\sigma=8 connu. Quelle est la marge d'erreur de l'IC à 95%95\% pour μ\mu ?

Corrigé

Marge =z0,025σn=1,960×864=1,960×88=1,960×1=1,96= z_{0{,}025}\cdot\dfrac{\sigma}{\sqrt n} = 1{,}960 \times \dfrac{8}{\sqrt{64}} = 1{,}960\times\dfrac{8}{8} = 1{,}960 \times 1 = 1{,}96.

Exercice 7

Avec les données de l'exercice précédent (x=50\overline x=50, marge =1,96=1{,}96), quel est l'IC à 95%95\% pour μ\mu ?

Corrigé

IC95%(μ)=[501,96;50+1,96]=[48,04;51,96]IC_{95\%}(\mu) = [50-1{,}96\,;\,50+1{,}96] = [48{,}04\,;\,51{,}96].

Exercice 8

Pour un échantillon de taille n=10n=10, quel est le nombre de degrés de liberté de la loi de Student utilisée pour un IC sur une moyenne (variance inconnue) ?

Corrigé

Le nombre de degrés de liberté pour le pivot de Student est n1n-1 : ici n1=101=9n-1 = 10-1 = 9.

Exercice 9

Vrai ou faux : pour nn grand (par exemple n30n\geq 30), la loi de Student T(n1)\mathcal T(n-1) est très proche de la loi normale N(0,1)\mathcal N(0,1).

Corrigé

Vrai. Quand le nombre de degrés de liberté augmente, les queues de la loi de Student s'amincissent et la loi converge vers la loi normale centrée réduite ; pour n30n\geq30, l'approximation par zα/2z_{\alpha/2} est en pratique très bonne.

Exercice 10

Un sondage sur n=200n=200 personnes trouve p^=0,6\widehat p=0{,}6 d'avis favorables. Que vaut p^(1p^)n\sqrt{\dfrac{\widehat p(1-\widehat p)}{n}} ?

Corrigé

p^(1p^)n=0,6×0,4200=0,24200=0,0012\dfrac{\widehat p(1-\widehat p)}{n} = \dfrac{0{,}6\times0{,}4}{200} = \dfrac{0{,}24}{200} = 0{,}0012, donc 0,00120,0346\sqrt{0{,}0012}\approx 0{,}0346.

Exercice 11

Un échantillon de n=25n=25 donne x=100\overline x=100, avec σ=15\sigma=15 supposé connu. Construire l'IC à 90%90\% pour μ\mu (utiliser z0,05=1,645z_{0{,}05}=1{,}645).

Corrigé

Erreur-type =1525=155=3=\dfrac{15}{\sqrt{25}}=\dfrac{15}{5}=3. Marge =1,645×3=4,935=1{,}645\times3=4{,}935. IC90%(μ)=[1004,935;100+4,935]=[95,07;104,93]IC_{90\%}(\mu)=[100-4{,}935\,;\,100+4{,}935]=[95{,}07\,;\,104{,}93] (arrondi au centième).

Exercice 12

Un échantillon de n=10n=10 valeurs (loi supposée gaussienne) donne x=12\overline x = 12 et s=3s=3 (écart-type corrigé). Sachant que t0,025,9=2,262t_{0{,}025,9}=2{,}262, construire l'IC à 95%95\% pour μ\mu.

Corrigé

Erreur-type =sn=3100,9487= \dfrac{s}{\sqrt n} = \dfrac{3}{\sqrt{10}}\approx 0{,}9487. Marge =t0,025,9×0,9487=2,262×0,94872,146= t_{0{,}025,9}\times 0{,}9487 = 2{,}262\times0{,}9487\approx2{,}146. IC95%(μ)=[122,146;12+2,146]=[9,85;14,15]IC_{95\%}(\mu)=[12-2{,}146\,;\,12+2{,}146]=[9{,}85\,;\,14{,}15] (arrondi au centième).

Exercice 13

Démontrer, à partir de la loi de Z=Xnμσ/nN(0,1)Z=\dfrac{\overline X_n-\mu}{\sigma/\sqrt n} \sim \mathcal N(0,1), la formule de l'intervalle de confiance IC1α(μ)=[Xnzα/2σn;Xn+zα/2σn]IC_{1-\alpha}(\mu) = \left[\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n}\,;\,\overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right].

Corrigé

Étape 1 : Par définition de zα/2z_{\alpha/2}, on a P(Z>zα/2)=α/2P(Z > z_{\alpha/2}) = \alpha/2, et par symétrie de la loi N(0,1)\mathcal N(0,1), P(Z<zα/2)=α/2P(Z<-z_{\alpha/2})=\alpha/2. Donc P(zα/2Zzα/2)=1α/2α/2=1αP(-z_{\alpha/2}\leq Z \leq z_{\alpha/2}) = 1 - \alpha/2-\alpha/2 = 1-\alpha.

Étape 2 : On remplace ZZ par son expression :

P(zα/2Xnμσ/nzα/2)=1αP\left(-z_{\alpha/2} \leq \frac{\overline X_n-\mu}{\sigma/\sqrt n} \leq z_{\alpha/2}\right) = 1-\alpha

Étape 3 : On multiplie les trois membres de la double inégalité par σn>0\dfrac{\sigma}{\sqrt n}>0 (ce qui ne change pas le sens des inégalités) :

zα/2σnXnμzα/2σn-z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq \overline X_n - \mu \leq z_{\alpha/2}\frac{\sigma}{\sqrt n}

Étape 4 : On soustrait Xn\overline X_n aux trois membres :

Xnzα/2σnμXn+zα/2σn-\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq -\mu \leq -\overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}

Étape 5 : On multiplie par 1-1, ce qui inverse le sens des deux inégalités :

Xnzα/2σnμXn+zα/2σn\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq \mu \leq \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}

On a donc bien P(Xnzα/2σnμXn+zα/2σn)=1αP\left(\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq \mu \leq \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right) = 1-\alpha, ce qui établit la formule de l'intervalle de confiance. \square

Exercice 14

On veut un IC pour une proportion avec une marge d'erreur d'au plus 5%5\% au niveau 95%95\%, dans le cas le plus défavorable (p=0,5p=0{,}5). Quelle taille d'échantillon minimale faut-il (utiliser z0,025=1,960z_{0{,}025}=1{,}960) ?

Corrigé

nzα/22×0,25e2=1,9602×0,250,052=3,8416×0,250,0025=0,96040,0025=384,16n \geq \dfrac{z_{\alpha/2}^2\times0{,}25}{e^2} = \dfrac{1{,}960^2\times0{,}25}{0{,}05^2} = \dfrac{3{,}8416\times0{,}25}{0{,}0025} = \dfrac{0{,}9604}{0{,}0025} = 384{,}16. On arrondit à l'entier supérieur : n385n\geq385.

Exercice 15

On dispose de deux IC à 95%95\% pour la même moyenne μ\mu, obtenus sur deux échantillons indépendants de même taille nn : IC1=[10,2;14,8]IC_1=[10,2\,;\,14,8] et IC2=[20,1;24,5]IC_2=[20,1\,;\,24,5], qui ne se recouvrent pas. Que peut-on raisonnablement en conclure, et avec quelle prudence ?

Corrigé

Interprétation : des intervalles de confiance non superposés pour deux populations distinctes constituent un indice visuel fort que les moyennes μ1\mu_1 et μ2\mu_2 sous-jacentes diffèrent, car il serait peu probable, si μ1=μ2\mu_1=\mu_2, d'observer deux échantillons donnant des intervalles aussi éloignés.

Prudence nécessaire : ce raisonnement par non-recouvrement d'IC n'est pas strictement équivalent à un test statistique formel de comparaison de deux moyennes (deux IC peuvent se recouvrir légèrement alors que la différence est significative à un test direct, et réciproquement dans des cas limites). La méthode rigoureuse, qui sera développée dans la leçon suivante, consiste à construire directement un test d'hypothèses sur la différence μ1μ2\mu_1-\mu_2, en utilisant l'erreur-type de cette différence plutôt que celle de chaque moyenne séparément.

Conclusion : l'absence de recouvrement est un indice qualitatif utile pour une première lecture des résultats, mais la conclusion définitive doit s'appuyer sur le test formel approprié, et non sur la simple comparaison visuelle des intervalles.

AlphaMath Académie · Intervalles de confiance · Statistique : estimation et tests d'hypothèses