Licence 2

Intervalles de confiance

50 min15 exercicesSéquence 2.2Licence 2

Vidéo disponible dans la version Premium

Durée : 50 min

Intervalles de confiance

1. Pourquoi un intervalle plutôt qu'une seule valeur ?

Une estimation ponctuelle comme xn\overline{x}_n ne donne aucune indication sur sa précision : changer d'échantillon change la valeur obtenue. On préfère donc associer à l'estimation une fourchette de valeurs plausibles pour le paramètre inconnu, accompagnée d'un niveau de confiance.

Définition. Soit θ\theta un paramètre inconnu et α(0,1)\alpha \in (0,1) un seuil fixé (typiquement α=0,05\alpha = 0{,}05 ou α=0,01\alpha=0{,}01). Un intervalle de confiance au niveau 1α1-\alpha pour θ\theta est un intervalle aléatoire [An,Bn][A_n, B_n], construit à partir de l'échantillon, tel que :

P(AnθBn)=1αP\big(A_n \leq \theta \leq B_n\big) = 1-\alpha

Interprétation fréquentiste — point essentiel à ne jamais confondre : ce n'est pas θ\theta qui est aléatoire, mais l'intervalle [An,Bn][A_n,B_n] (il dépend de l'échantillon tiré). Si l'on répète l'expérience un grand nombre de fois et que l'on construit l'intervalle à chaque fois, environ (1α)×100%(1-\alpha)\times 100\% des intervalles obtenus contiendront la vraie valeur θ\theta. Pour un échantillon particulier, l'intervalle calculé soit contient θ\theta, soit ne le contient pas — on ne dit jamais « θ\theta a 95% de chances d'être dans cet intervalle ».

2. Intervalle de confiance pour une moyenne, variance connue

On suppose X1,,XnX_1,\dots,X_n i.i.d. de loi N(μ,σ2)\mathcal N(\mu,\sigma^2) (ou nn assez grand pour invoquer le théorème central limite), avec σ2\sigma^2 connue. On sait que :

XnN(μ,σ2n)Z=Xnμσ/nN(0,1)\overline X_n \sim \mathcal N\left(\mu, \frac{\sigma^2}{n}\right) \quad\Longrightarrow\quad Z = \frac{\overline X_n - \mu}{\sigma/\sqrt n} \sim \mathcal N(0,1)

En notant zα/2z_{\alpha/2} le quantile de la loi N(0,1)\mathcal N(0,1) tel que P(Z>zα/2)=α/2P(Z>z_{\alpha/2})=\alpha/2 (donc P(zα/2Zzα/2)=1αP(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}) = 1-\alpha par symétrie de la loi normale), on a :

P(zα/2Xnμσ/nzα/2)=1αP\left(-z_{\alpha/2} \leq \frac{\overline X_n-\mu}{\sigma/\sqrt n} \leq z_{\alpha/2}\right) = 1-\alpha

En isolant μ\mu dans la double inégalité :

P(Xnzα/2σnμXn+zα/2σn)=1αP\left(\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n} \leq \mu \leq \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right) = 1-\alpha

Intervalle de confiance (variance connue) :

IC1α(μ)=[Xnzα/2σn  ;  Xn+zα/2σn]IC_{1-\alpha}(\mu) = \left[\overline X_n - z_{\alpha/2}\frac{\sigma}{\sqrt n}\;;\; \overline X_n + z_{\alpha/2}\frac{\sigma}{\sqrt n}\right]

Valeurs usuelles de zα/2z_{\alpha/2} :


Niveau 1α1-\alphaα\alphazα/2z_{\alpha/2}
|---|---|---|



90%90\%0,100{,}101,6451{,}645
95%95\%0,050{,}051,9601{,}960
99%99\%0,010{,}012,5762{,}576

Exemple résolu. Une étude mesure la taille de n=36n=36 individus et obtient x=170\overline x = 170 cm. On suppose connu σ=12\sigma = 12 cm. Construire un IC à 95%95\% pour μ\mu.

On a z0,025=1,960z_{0{,}025} = 1{,}960, et σn=1236=126=2\dfrac{\sigma}{\sqrt n} = \dfrac{12}{\sqrt{36}} = \dfrac{12}{6} = 2. La marge d'erreur est z0,025σn=1,960×2=3,92z_{0{,}025}\cdot\dfrac{\sigma}{\sqrt n} = 1{,}960 \times 2 = 3{,}92. L'intervalle est :

IC95%(μ)=[1703,92  ;  170+3,92]=[166,08  ;  173,92]IC_{95\%}(\mu) = [170 - 3{,}92\;;\;170+3{,}92] = [166{,}08\;;\;173{,}92]

3. Intervalle de confiance pour une moyenne, variance inconnue (loi de Student)

En pratique, σ2\sigma^2 est presque toujours inconnue : on la remplace par son estimateur sans biais Sn2=1n1i=1n(XiXn)2S_n^2 = \dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline X_n)^2 (vu en leçon précédente). On perd alors la normalité exacte du pivot, mais on dispose du résultat suivant.

Théorème. Si X1,,XnX_1,\dots,X_n sont i.i.d. de loi N(μ,σ2)\mathcal N(\mu,\sigma^2), alors :

T=XnμSn/nT(n1)T = \frac{\overline X_n - \mu}{S_n/\sqrt n} \sim \mathcal T(n-1)

suit une loi de Student à n1n-1 degrés de liberté. (La loi de Student a des queues plus épaisses que la loi normale, ce qui traduit l'incertitude supplémentaire due à l'estimation de σ\sigma.)

En notant tα/2,n1t_{\alpha/2,\,n-1} le quantile de la loi T(n1)\mathcal T(n-1) tel que P(T>tα/2,n1)=α/2P(T>t_{\alpha/2,\,n-1})=\alpha/2, le même raisonnement qu'en section 2 donne :

Intervalle de confiance (variance inconnue) :

IC1α(μ)=[Xntα/2,n1Snn  ;  Xn+tα/2,n1Snn]IC_{1-\alpha}(\mu) = \left[\overline X_n - t_{\alpha/2,\,n-1}\frac{S_n}{\sqrt n}\;;\; \overline X_n + t_{\alpha/2,\,n-1}\frac{S_n}{\sqrt n}\right]

Pour nn grand (typiquement n30n \geq 30), la loi de Student T(n1)\mathcal T(n-1) est très proche de N(0,1)\mathcal N(0,1), et l'on peut utiliser zα/2z_{\alpha/2} à la place de tα/2,n1t_{\alpha/2,n-1} sans erreur pratique significative ; pour nn petit, l'usage de la loi de Student est indispensable.

Exemple résolu. Sur un échantillon de n=16n=16 pièces, on mesure une longueur moyenne x=25\overline x = 25 cm avec un écart-type corrigé s=4s = 4 cm. Construire un IC à 95%95\% pour μ\mu (on suppose la longueur gaussienne).

Degrés de liberté : n1=15n-1=15. Dans la table de Student, t0,025,15=2,131t_{0{,}025,\,15} = 2{,}131. La marge d'erreur est t0,025,15sn=2,131×416=2,131×1=2,131t_{0{,}025,15}\cdot\dfrac{s}{\sqrt n} = 2{,}131 \times \dfrac{4}{\sqrt{16}} = 2{,}131 \times 1 = 2{,}131. L'intervalle est :

IC95%(μ)=[252,131  ;  25+2,131]=[22,87  ;  27,13]IC_{95\%}(\mu) = [25-2{,}131\;;\;25+2{,}131] = [22{,}87\;;\;27{,}13]

4. Intervalle de confiance pour une proportion

Soit X1,,XnX_1,\dots,X_n i.i.d. de loi de Bernoulli de paramètre pp inconnu (par exemple : un individu possède ou non une caractéristique). L'estimateur naturel est p^=Xn\widehat p = \overline X_n, de variance p(1p)n\dfrac{p(1-p)}{n} (vu en leçon précédente).

Pour nn assez grand (condition usuelle : np^5n\widehat p \geq 5 et n(1p^)5n(1-\widehat p)\geq 5), le théorème central limite permet d'approcher la loi de p^\widehat p par une loi normale, et l'on remplace p(1p)p(1-p) (inconnu) par son estimation p^(1p^)\widehat p(1-\widehat p) :

Intervalle de confiance pour une proportion (approximation normale) :

IC1α(p)=[p^zα/2p^(1p^)n  ;  p^+zα/2p^(1p^)n]IC_{1-\alpha}(p) = \left[\widehat p - z_{\alpha/2}\sqrt{\frac{\widehat p(1-\widehat p)}{n}}\;;\;\widehat p + z_{\alpha/2}\sqrt{\frac{\widehat p(1-\widehat p)}{n}}\right]

Exemple résolu. Un sondage auprès de n=400n=400 personnes trouve p^=0,45\widehat p = 0{,}45 d'opinions favorables. Construire un IC à 95%95\% pour la proportion réelle pp dans la population.

Vérification des conditions : np^=1805n\widehat p = 180 \geq 5 et n(1p^)=2205n(1-\widehat p)=220\geq 5, l'approximation normale est valide. On a p^(1p^)n=0,45×0,55400=0,2475400=0,000618750,02487\sqrt{\dfrac{\widehat p(1-\widehat p)}{n}} = \sqrt{\dfrac{0{,}45\times 0{,}55}{400}} = \sqrt{\dfrac{0{,}2475}{400}} = \sqrt{0{,}00061875} \approx 0{,}02487. La marge d'erreur est 1,960×0,024870,04881{,}960 \times 0{,}02487 \approx 0{,}0488. L'intervalle est :

IC95%(p)[0,450,0488  ;  0,45+0,0488]=[0,401  ;  0,499]IC_{95\%}(p) \approx [0{,}45-0{,}0488\;;\;0{,}45+0{,}0488] = [0{,}401\;;\;0{,}499]

5. Largeur de l'intervalle et taille de l'échantillon

La largeur (ou amplitude) d'un IC est 2×(marge d’erreur)2\times(\text{marge d'erreur}). Elle diminue :
- quand nn augmente (en 1/n1/\sqrt n, donc lentement : il faut multiplier nn par 44 pour diviser la largeur par 22) ;
- quand le niveau de confiance 1α1-\alpha diminue (un IC à 90%90\% est plus étroit qu'un IC à 99%99\%, car on accepte davantage de risque de se tromper) ;
- quand la dispersion (σ\sigma ou σ2\sigma^2) diminue.

Détermination de la taille d'échantillon minimale. Pour garantir une marge d'erreur ee au plus avec une proportion (cas le plus défavorable p=0,5p=0{,}5, qui maximise p(1p)p(1-p)), on résout zα/20,25nez_{\alpha/2}\sqrt{\dfrac{0{,}25}{n}} \leq e, soit :

nzα/22×0,25e2n \geq \frac{z_{\alpha/2}^2 \times 0{,}25}{e^2}

Exemple résolu. Quelle taille d'échantillon minimale pour garantir une marge d'erreur d'au plus 3%3\% au niveau 95%95\%, dans le cas le plus défavorable ?

n1,9602×0,250,032=3,8416×0,250,0009=0,96040,00091067,1n \geq \dfrac{1{,}960^2 \times 0{,}25}{0{,}03^2} = \dfrac{3{,}8416\times 0{,}25}{0{,}0009} = \dfrac{0{,}9604}{0{,}0009} \approx 1067{,}1. On arrondit à l'entier supérieur (il faut toujours arrondir vers le haut pour une taille d'échantillon, car arrondir vers le bas ne garantirait plus la précision visée) : n1068n \geq 1068.

6. Synthèse


Paramètre estiméHypothèseIntervalle de confiance
|---|---|---|



μ\mu, σ2\sigma^2 connuenormalité (ou nn grand)Xn±zα/2σn\overline X_n \pm z_{\alpha/2}\dfrac{\sigma}{\sqrt n}
μ\mu, σ2\sigma^2 inconnuenormalitéXn±tα/2,n1Snn\overline X_n \pm t_{\alpha/2,n-1}\dfrac{S_n}{\sqrt n}
pp (proportion)np^5n\widehat p\geq5, n(1p^)5n(1-\widehat p)\geq5p^±zα/2p^(1p^)n\widehat p \pm z_{\alpha/2}\sqrt{\dfrac{\widehat p(1-\widehat p)}{n}}

Retenir la structure commune : estimation ±\pm quantile ×\times erreur-type. C'est ce schéma général qui sera réinterprété, dans la leçon suivante, comme la « région de non-rejet » d'un test d'hypothèses.

Exercices

Que signifie « intervalle de confiance au niveau 95%95\% pour μ\mu » ?

Quelle est la valeur de zα/2z_{\alpha/2} pour un niveau de confiance de 95%95\% ?

Vrai ou faux : plus le niveau de confiance 1α1-\alpha augmente, plus l'intervalle de confiance est large (à nn et σ\sigma fixés).

Pour construire un IC pour une moyenne avec variance inconnue, quelle loi utilise-t-on pour le pivot T=XnμSn/nT = \dfrac{\overline X_n-\mu}{S_n/\sqrt n} ?

Quelle est la formule générale de l'IC pour une proportion pp par approximation normale ?

Suivez votre progression

Connectez-vous pour sauvegarder votre avancement et gagner des XP.

Se connecter