Fiche récapitulative générée pour impression / export PDF.

Licence 2 · Statistique : estimation et tests d'hypothèses

Échantillonnage et estimateurs

Échantillonnage et estimateurs

1. Population, échantillon, statistique

On appelle population l'ensemble des individus sur lequel porte une étude, et l'on cherche à connaître une caractéristique inconnue de cette population, par exemple sa moyenne μ\mu ou sa variance σ2\sigma^2. Comme il est en général impossible d'observer toute la population, on observe un échantillon.

Un échantillon aléatoire simple de taille nn est une suite X1,X2,,XnX_1, X_2, \dots, X_n de variables aléatoires indépendantes et identiquement distribuées (i.i.d.), de même loi que la variable XX étudiée sur la population (de moyenne μ=E[X]\mu = E[X] et de variance σ2=Var(X)\sigma^2 = \text{Var}(X), supposées finies).

Une statistique est une variable aléatoire Tn=g(X1,,Xn)T_n = g(X_1, \dots, X_n), fonction de l'échantillon, qui ne dépend d'aucun paramètre inconnu. Une fois l'échantillon observé (valeurs numériques x1,,xnx_1, \dots, x_n), on obtient une réalisation tn=g(x1,,xn)t_n = g(x_1, \dots, x_n) de la statistique.

Exemples de statistiques :
- La moyenne empirique : Xn=1ni=1nXi\overline{X}_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} X_i
- La variance empirique : σ^n2=1ni=1n(XiXn)2\widehat{\sigma}^2_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} (X_i - \overline{X}_n)^2

2. Estimateur ponctuel

Un estimateur ponctuel d'un paramètre inconnu θ\theta (par exemple μ\mu ou σ2\sigma^2) est une statistique θ^n=g(X1,,Xn)\widehat{\theta}_n = g(X_1, \dots, X_n) destinée à approcher θ\theta. C'est une variable aléatoire (elle dépend de l'échantillon, donc varie d'un échantillon à l'autre) ; sa réalisation numérique sur un échantillon donné s'appelle une estimation.

On évalue la qualité d'un estimateur à l'aide de plusieurs critères : son biais, sa variance, sa convergence, et son erreur quadratique moyenne.

3. Biais d'un estimateur

Définition. Le biais de l'estimateur θ^n\widehat{\theta}_n de θ\theta est :

b(θ^n)=E[θ^n]θb(\widehat{\theta}_n) = E[\widehat{\theta}_n] - \theta

L'estimateur θ^n\widehat{\theta}_n est dit sans biais (ou non biaisé) si b(θ^n)=0b(\widehat{\theta}_n) = 0, c'est-à-dire si E[θ^n]=θE[\widehat{\theta}_n] = \theta pour toute valeur de θ\theta. Sinon, il est dit biaisé.

Théorème — la moyenne empirique est un estimateur sans biais de μ\mu.

Soit X1,,XnX_1, \dots, X_n i.i.d. d'espérance μ\mu. Alors :

E[Xn]=E[1ni=1nXi]=1ni=1nE[Xi]=1nnμ=μE[\overline{X}_n] = E\left[\frac{1}{n}\sum_{i=1}^n X_i\right] = \frac{1}{n}\sum_{i=1}^n E[X_i] = \frac{1}{n} \cdot n\mu = \mu

Donc b(Xn)=E[Xn]μ=0b(\overline{X}_n) = E[\overline{X}_n] - \mu = 0 : Xn\overline{X}_n est un estimateur sans biais de μ\mu.

4. Variance empirique : biaisée vs corrigée

La variance empirique σ^n2=1ni=1n(XiXn)2\widehat{\sigma}^2_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^n (X_i - \overline{X}_n)^2 est un estimateur biaisé de σ2\sigma^2.

On démontre (calcul classique, en développant et en utilisant l'indépendance des XiX_i) que :

E[σ^n2]=n1nσ2E[\widehat{\sigma}^2_n] = \frac{n-1}{n}\,\sigma^2

Le biais est donc b(σ^n2)=n1nσ2σ2=σ2n0b(\widehat{\sigma}^2_n) = \dfrac{n-1}{n}\sigma^2 - \sigma^2 = -\dfrac{\sigma^2}{n} \neq 0 : l'estimateur sous-estime systématiquement la variance (en moyenne).

Variance empirique corrigée (estimateur sans biais). On définit :

Sn2=1n1i=1n(XiXn)2=nn1σ^n2S_n^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \overline{X}_n)^2 = \frac{n}{n-1}\,\widehat{\sigma}^2_n

Alors E[Sn2]=nn1E[σ^n2]=nn1n1nσ2=σ2E[S_n^2] = \dfrac{n}{n-1} \cdot E[\widehat{\sigma}^2_n] = \dfrac{n}{n-1} \cdot \dfrac{n-1}{n}\sigma^2 = \sigma^2 : Sn2S_n^2 est un estimateur sans biais de σ2\sigma^2. C'est cette correction (division par n1n-1 et non par nn) qui est utilisée en pratique pour estimer une variance à partir d'un échantillon ; le facteur n1n-1 s'appelle le nombre de degrés de liberté.

Exemple numérique. Échantillon x1,,x5=2,4,4,6,9x_1, \dots, x_5 = 2, 4, 4, 6, 9 (population fictive). On a x=2+4+4+6+95=255=5\overline{x} = \dfrac{2+4+4+6+9}{5} = \dfrac{25}{5} = 5. Les écarts au carré : (25)2=9(2-5)^2=9, (45)2=1(4-5)^2=1, (45)2=1(4-5)^2=1, (65)2=1(6-5)^2=1, (95)2=16(9-5)^2=16, somme =28= 28. Donc σ^52=285=5,6\widehat{\sigma}^2_5 = \dfrac{28}{5} = 5{,}6 tandis que s52=284=7s_5^2 = \dfrac{28}{4} = 7 : l'estimation corrigée est bien supérieure, conformément au facteur nn1=54\dfrac{n}{n-1} = \dfrac{5}{4}.

5. Convergence d'un estimateur

Définition. L'estimateur θ^n\widehat{\theta}_n est convergent (ou consistant) si θ^n\widehat{\theta}_n converge en probabilité vers θ\theta quand n+n \to +\infty, c'est-à-dire :

ε>0,limn+P(θ^nθ>ε)=0\forall \varepsilon > 0,\quad \lim_{n\to+\infty} P\big(|\widehat{\theta}_n - \theta| > \varepsilon\big) = 0

Théorème (loi des grands nombres). Si X1,,XnX_1, \dots, X_n sont i.i.d. d'espérance μ\mu finie, alors Xn\overline{X}_n converge en probabilité (et même presque sûrement) vers μ\mu : Xn\overline{X}_n est un estimateur convergent de μ\mu.

On montre de même que σ^n2\widehat{\sigma}^2_n et Sn2S_n^2 sont tous deux des estimateurs convergents de σ2\sigma^2 : bien que σ^n2\widehat{\sigma}^2_n soit biaisé, son biais σ2/n-\sigma^2/n tend vers 00 quand n+n \to +\infty, et sa variance tend également vers 00. Un estimateur biaisé peut donc être convergent (le biais n'empêche pas la convergence, à condition qu'il s'annule asymptotiquement).

6. Erreur quadratique moyenne (EQM)

Pour comparer des estimateurs (notamment lorsque l'un est biaisé), on utilise l'erreur quadratique moyenne :

EQM(θ^n)=E[(θ^nθ)2]\text{EQM}(\widehat{\theta}_n) = E\big[(\widehat{\theta}_n - \theta)^2\big]

Décomposition biais-variance. On a l'identité fondamentale :

EQM(θ^n)=Var(θ^n)+b(θ^n)2\text{EQM}(\widehat{\theta}_n) = \text{Var}(\widehat{\theta}_n) + b(\widehat{\theta}_n)^2

Démonstration. En notant m=E[θ^n]m = E[\widehat\theta_n] :

E[(θ^nθ)2]=E[((θ^nm)+(mθ))2]=E[(θ^nm)2]+2(mθ)E[θ^nm]+(mθ)2E[(\widehat\theta_n-\theta)^2] = E[((\widehat\theta_n - m) + (m-\theta))^2] = E[(\widehat\theta_n-m)^2] + 2(m-\theta)\,E[\widehat\theta_n - m] + (m-\theta)^2

Le terme croisé est nul car E[θ^nm]=0E[\widehat\theta_n - m] = 0, et E[(θ^nm)2]=Var(θ^n)E[(\widehat\theta_n - m)^2] = \text{Var}(\widehat\theta_n), (mθ)2=b(θ^n)2(m-\theta)^2 = b(\widehat\theta_n)^2. D'où le résultat. \square

Conséquence pratique. Si θ^n\widehat\theta_n est sans biais, EQM(θ^n)=Var(θ^n)\text{EQM}(\widehat\theta_n) = \text{Var}(\widehat\theta_n) : pour des estimateurs sans biais, minimiser l'EQM équivaut à minimiser la variance. Mais un estimateur légèrement biaisé peut avoir une EQM plus petite qu'un estimateur sans biais s'il a une variance beaucoup plus faible — ce compromis biais/variance est central en statistique.

7. Variance de la moyenne empirique

Pour X1,,XnX_1, \dots, X_n i.i.d. de variance σ2\sigma^2, par indépendance :

Var(Xn)=Var(1ni=1nXi)=1n2i=1nVar(Xi)=1n2nσ2=σ2n\text{Var}(\overline{X}_n) = \text{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n^2}\sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2}\cdot n\sigma^2 = \frac{\sigma^2}{n}

On retrouve ainsi que EQM(Xn)=Var(Xn)=σ2n\text{EQM}(\overline{X}_n) = \text{Var}(\overline{X}_n) = \dfrac{\sigma^2}{n} (puisque Xn\overline{X}_n est sans biais), qui tend vers 00 quand n+n \to +\infty : ceci redémontre la convergence de Xn\overline{X}_n vers μ\mu (via l'inégalité de Bienaymé-Tchebychev). L'écart-type de l'estimateur, σn\dfrac{\sigma}{\sqrt n}, s'appelle l'erreur-type (standard error) de la moyenne empirique ; c'est elle qui contrôlera la largeur des intervalles de confiance étudiés dans la leçon suivante.

8. Synthèse


EstimateurParamètre estiméBiaisConvergent ?
|---|---|---|---|



Xn\overline{X}_nμ\musans biaisoui
σ^n2=1n(XiXn)2\widehat\sigma^2_n = \frac1n\sum(X_i-\overline X_n)^2σ2\sigma^2biaisé (σ2/n-\sigma^2/n)oui
Sn2=1n1(XiXn)2S_n^2 = \frac{1}{n-1}\sum(X_i-\overline X_n)^2σ2\sigma^2sans biaisoui

Retenir : pour estimer une variance à partir de données, on utilise toujours Sn2S_n^2 (division par n1n-1) en pratique, car c'est l'estimateur sans biais ; c'est lui qui apparaît dans les formules d'intervalles de confiance et de tests basés sur la loi de Student, objets des deux prochaines leçons.

Exercices de la leçon

Exercice 1

Qu'est-ce qu'une statistique Tn=g(X1,,Xn)T_n = g(X_1, \dots, X_n) ?

Corrigé

Une statistique est, par définition, une variable aléatoire fonction de l'échantillon (X1,,Xn)(X_1,\dots,X_n) uniquement, sans dépendre des paramètres inconnus de la population (sinon on ne pourrait pas la calculer à partir des données observées).

Exercice 2

Quelle est la formule de la moyenne empirique Xn\overline{X}_n ?

Corrigé

La moyenne empirique est la moyenne arithmétique des observations : Xn=1ni=1nXi\overline{X}_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^n X_i.

Exercice 3

Vrai ou faux : la moyenne empirique Xn\overline{X}_n est un estimateur sans biais de μ=E[X]\mu = E[X].

Corrigé

Vrai. Par linéarité de l'espérance, E[Xn]=1ni=1nE[Xi]=1nnμ=μE[\overline{X}_n] = \dfrac{1}{n}\displaystyle\sum_{i=1}^n E[X_i] = \dfrac{1}{n}\cdot n\mu = \mu, donc le biais E[Xn]μE[\overline X_n]-\mu est nul.

Exercice 4

Quelle est la formule de la variance empirique corrigée Sn2S_n^2 ?

Corrigé

La variance empirique corrigée divise la somme des écarts au carré par n1n-1 (et non nn), ce qui rend l'estimateur sans biais pour σ2\sigma^2.

Exercice 5

Que signifie « θ^n\widehat{\theta}_n est un estimateur sans biais de θ\theta » ?

Corrigé

Le biais est défini par b(θ^n)=E[θ^n]θb(\widehat\theta_n) = E[\widehat\theta_n]-\theta. L'estimateur est sans biais lorsque cette quantité est nulle, c'est-à-dire E[θ^n]=θE[\widehat\theta_n]=\theta — en moyenne sur tous les échantillons possibles, et non sur un échantillon particulier.

Exercice 6

Échantillon x1,,x4=1,3,5,7x_1,\dots,x_4 = 1, 3, 5, 7. Que vaut la variance empirique non corrigée σ^42=14(xix)2\widehat\sigma_4^2 = \frac{1}{4}\sum(x_i-\overline x)^2 ?

Corrigé

x=1+3+5+74=4\overline x = \dfrac{1+3+5+7}{4} = 4. Écarts au carré : (14)2=9(1-4)^2=9, (34)2=1(3-4)^2=1, (54)2=1(5-4)^2=1, (74)2=9(7-4)^2=9, somme =20=20. Donc σ^42=204=5\widehat\sigma_4^2 = \dfrac{20}{4} = 5.

Exercice 7

Pour le même échantillon 1,3,5,71, 3, 5, 7, que vaut la variance corrigée s42=13(xix)2s_4^2 = \frac{1}{3}\sum(x_i-\overline x)^2 ?

Corrigé

On a calculé (xix)2=20\sum(x_i-\overline x)^2 = 20 (exercice précédent). Donc s42=2036,67s_4^2 = \dfrac{20}{3} \approx 6{,}67. On vérifie la relation s42=nn1σ^42=43×5=2036,67s_4^2 = \dfrac{n}{n-1}\widehat\sigma_4^2 = \dfrac{4}{3}\times 5 = \dfrac{20}{3} \approx 6{,}67.

Exercice 8

Quelle est la relation entre E[σ^n2]E[\widehat\sigma_n^2] et σ2\sigma^2 ?

Corrigé

C'est le résultat clé établissant le biais de la variance empirique non corrigée : E[σ^n2]=n1nσ2<σ2E[\widehat\sigma_n^2] = \dfrac{n-1}{n}\sigma^2 < \sigma^2, donc σ^n2\widehat\sigma_n^2 sous-estime systématiquement la variance en moyenne.

Exercice 9

Vrai ou faux : un estimateur biaisé ne peut jamais être convergent.

Corrigé

Faux. L'exemple de σ^n2\widehat\sigma_n^2 le montre : son biais σ2/n-\sigma^2/n est non nul pour tout nn fini, mais il tend vers 00 quand n+n\to+\infty, et sa variance tend aussi vers 00 ; σ^n2\widehat\sigma_n^2 est donc biaisé mais convergent.

Exercice 10

Quelle est la formule de l'erreur quadratique moyenne EQM(θ^n)\text{EQM}(\widehat\theta_n) en fonction du biais et de la variance ?

Corrigé

C'est la décomposition biais-variance : EQM(θ^n)=E[(θ^nθ)2]=Var(θ^n)+b(θ^n)2\text{EQM}(\widehat\theta_n) = E[(\widehat\theta_n-\theta)^2] = \text{Var}(\widehat\theta_n) + b(\widehat\theta_n)^2, obtenue en ajoutant et soustrayant E[θ^n]E[\widehat\theta_n] dans le carré.

Exercice 11

Soit X1,,XnX_1,\dots,X_n i.i.d. de variance σ2=9\sigma^2=9 et n=36n=36. Que vaut Var(Xn)\text{Var}(\overline X_n) ?

Corrigé

Var(Xn)=σ2n=936=0,25\text{Var}(\overline X_n) = \dfrac{\sigma^2}{n} = \dfrac{9}{36} = 0{,}25.

Exercice 12

Démontrer que E[σ^n2]=n1nσ2E[\widehat\sigma_n^2] = \dfrac{n-1}{n}\sigma^2, où σ^n2=1ni=1n(XiXn)2\widehat\sigma_n^2 = \dfrac{1}{n}\sum_{i=1}^n (X_i-\overline X_n)^2, pour X1,,XnX_1,\dots,X_n i.i.d. d'espérance μ\mu et de variance σ2\sigma^2.

Corrigé

Preuve. On part de l'identité algébrique (valable pour toute suite de réels) :

i=1n(XiXn)2=i=1n(Xiμ)2n(Xnμ)2\sum_{i=1}^n (X_i-\overline X_n)^2 = \sum_{i=1}^n (X_i-\mu)^2 - n(\overline X_n - \mu)^2

Vérification de l'identité : (XiXn)2=((Xiμ)(Xnμ))2=(Xiμ)22(Xnμ)(Xiμ)+n(Xnμ)2\sum (X_i-\overline X_n)^2 = \sum\big((X_i-\mu)-(\overline X_n-\mu)\big)^2 = \sum(X_i-\mu)^2 - 2(\overline X_n-\mu)\sum(X_i-\mu) + n(\overline X_n-\mu)^2. Comme (Xiμ)=n(Xnμ)\sum(X_i-\mu) = n(\overline X_n-\mu), le terme du milieu vaut 2n(Xnμ)2-2n(\overline X_n-\mu)^2, d'où le résultat après simplification.

On prend l'espérance des deux membres :

E[i=1n(XiXn)2]=i=1nE[(Xiμ)2]nE[(Xnμ)2]E\left[\sum_{i=1}^n (X_i-\overline X_n)^2\right] = \sum_{i=1}^n E[(X_i-\mu)^2] - n\,E[(\overline X_n-\mu)^2]

Or E[(Xiμ)2]=σ2E[(X_i-\mu)^2] = \sigma^2 pour chaque ii, donc le premier terme vaut nσ2n\sigma^2. Et E[(Xnμ)2]=Var(Xn)=σ2nE[(\overline X_n-\mu)^2] = \text{Var}(\overline X_n) = \dfrac{\sigma^2}{n} (car Xn\overline X_n est sans biais). Donc le second terme vaut nσ2n=σ2n \cdot \dfrac{\sigma^2}{n} = \sigma^2.

On obtient :

E[i=1n(XiXn)2]=nσ2σ2=(n1)σ2E\left[\sum_{i=1}^n (X_i-\overline X_n)^2\right] = n\sigma^2 - \sigma^2 = (n-1)\sigma^2

En divisant par nn :

E[σ^n2]=1n(n1)σ2=n1nσ2E[\widehat\sigma_n^2] = \frac{1}{n}\cdot(n-1)\sigma^2 = \frac{n-1}{n}\sigma^2 \qquad \square

Exercice 13

On compare deux estimateurs de μ\mu : μ^1=Xn\widehat\mu_1 = \overline X_n (sans biais, variance σ2/n\sigma^2/n) et μ^2=nn+1Xn\widehat\mu_2 = \frac{n}{n+1}\overline X_n (biaisé). Lequel a la plus petite EQM si μ=10\mu=10, σ2=4\sigma^2=4, n=4n=4 ?

Corrigé

EQM(μ^1)=σ2/n=4/4=1\text{EQM}(\widehat\mu_1) = \sigma^2/n = 4/4 = 1. Pour μ^2\widehat\mu_2 : E[μ^2]=nn+1μ=45×10=8E[\widehat\mu_2] = \frac{n}{n+1}\mu = \frac{4}{5}\times 10 = 8, donc biais b=810=2b=8-10=-2, et Var(μ^2)=(nn+1)2σ2n=(45)2×1=0,64\text{Var}(\widehat\mu_2) = \left(\frac{n}{n+1}\right)^2\frac{\sigma^2}{n} = \left(\frac{4}{5}\right)^2 \times 1 = 0{,}64. Donc EQM(μ^2)=0,64+(2)2=0,64+4=4,64>1\text{EQM}(\widehat\mu_2) = 0{,}64 + (-2)^2 = 0{,}64+4=4{,}64 > 1. Ici μ^1\widehat\mu_1 a la plus petite EQM (le biais introduit par μ^2\widehat\mu_2 domine largement le faible gain de variance) — la bonne réponse est donc B, μ^1\widehat\mu_1.

Exercice 14

Soit X1,,XnX_1,\dots,X_n i.i.d. de loi de Bernoulli de paramètre pp (donc μ=p\mu=p, σ2=p(1p)\sigma^2=p(1-p)). Montrer que p^=Xn\widehat p = \overline X_n est un estimateur sans biais et convergent de pp, et donner sa variance.

Corrigé

Sans biais : E[p^]=E[Xn]=1ni=1nE[Xi]=1nnp=pE[\widehat p] = E[\overline X_n] = \dfrac{1}{n}\displaystyle\sum_{i=1}^n E[X_i] = \dfrac{1}{n}\cdot np = p. Le biais est donc nul.

Variance : comme les XiX_i sont indépendantes de variance commune σ2=p(1p)\sigma^2=p(1-p) :

Var(p^)=Var(Xn)=σ2n=p(1p)n\text{Var}(\widehat p) = \text{Var}(\overline X_n) = \frac{\sigma^2}{n} = \frac{p(1-p)}{n}

Convergence : par l'inégalité de Bienaymé-Tchebychev, pour tout ε>0\varepsilon>0 :

P(p^p>ε)Var(p^)ε2=p(1p)nε2n+0P(|\widehat p - p| > \varepsilon) \leq \frac{\text{Var}(\widehat p)}{\varepsilon^2} = \frac{p(1-p)}{n\varepsilon^2} \xrightarrow[n\to+\infty]{} 0

Donc p^Pp\widehat p \xrightarrow{P} p : p^\widehat p est un estimateur convergent de pp. \square

Exercice 15

Vrai ou faux : si θ^n\widehat\theta_n est un estimateur sans biais de θ\theta, alors minimiser son erreur quadratique moyenne équivaut à minimiser sa variance.

Corrigé

Vrai. D'après la décomposition EQM(θ^n)=Var(θ^n)+b(θ^n)2\text{EQM}(\widehat\theta_n)=\text{Var}(\widehat\theta_n)+b(\widehat\theta_n)^2, si b(θ^n)=0b(\widehat\theta_n)=0 (estimateur sans biais), alors EQM(θ^n)=Var(θ^n)\text{EQM}(\widehat\theta_n)=\text{Var}(\widehat\theta_n) : les deux quantités coïncident exactement, donc minimiser l'une revient à minimiser l'autre.

AlphaMath Académie · Échantillonnage et estimateurs · Statistique : estimation et tests d'hypothèses