Fiche récapitulative générée pour impression / export PDF.

Licence 2 · Statistique : estimation et tests d'hypothèses

Échantillonnage et estimateurs

1. Population, échantillon, statistique

On appelle population l'ensemble des individus sur lequel porte une étude, et l'on cherche à connaître une caractéristique inconnue de cette population, par exemple sa moyenne $\mu$ ou sa variance $\sigma^2$ . Comme il est en général impossible d'observer toute la population, on observe un échantillon.

Un échantillon aléatoire simple de taille $n$ est une suite $X_1, X_2, \dots, X_n$ de variables aléatoires indépendantes et identiquement distribuées (i.i.d.), de même loi que la variable $X$ étudiée sur la population (de moyenne $\mu = E[X]$ et de variance $\sigma^2 = \text{Var}(X)$ , supposées finies).

Une statistique est une variable aléatoire $T_n = g(X_1, \dots, X_n)$ , fonction de l'échantillon, qui ne dépend d'aucun paramètre inconnu. Une fois l'échantillon observé (valeurs numériques $x_1, \dots, x_n$ ), on obtient une réalisation $t_n = g(x_1, \dots, x_n)$ de la statistique.

Exemples de statistiques :
- La moyenne empirique : $\overline{X}_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} X_i$
- La variance empirique : $\widehat{\sigma}^2_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} (X_i - \overline{X}_n)^2$

2. Estimateur ponctuel

Un estimateur ponctuel d'un paramètre inconnu $\theta$ (par exemple $\mu$ ou $\sigma^2$ ) est une statistique $\widehat{\theta}_n = g(X_1, \dots, X_n)$ destinée à approcher $\theta$ . C'est une variable aléatoire (elle dépend de l'échantillon, donc varie d'un échantillon à l'autre) ; sa réalisation numérique sur un échantillon donné s'appelle une estimation.

On évalue la qualité d'un estimateur à l'aide de plusieurs critères : son biais, sa variance, sa convergence, et son erreur quadratique moyenne.

3. Biais d'un estimateur

Définition. Le biais de l'estimateur $\widehat{\theta}_n$ de $\theta$ est :

b(\widehat{\theta}_n) = E[\widehat{\theta}_n] - \theta

L'estimateur $\widehat{\theta}_n$ est dit sans biais (ou non biaisé) si $b(\widehat{\theta}_n) = 0$ , c'est-à-dire si $E[\widehat{\theta}_n] = \theta$ pour toute valeur de $\theta$ . Sinon, il est dit biaisé.

Théorème — la moyenne empirique est un estimateur sans biais de $\mu$ .

Soit $X_1, \dots, X_n$ i.i.d. d'espérance $\mu$ . Alors :

E[\overline{X}_n] = E\left[\frac{1}{n}\sum_{i=1}^n X_i\right] = \frac{1}{n}\sum_{i=1}^n E[X_i] = \frac{1}{n} \cdot n\mu = \mu

Donc $b(\overline{X}_n) = E[\overline{X}_n] - \mu = 0$ : $\overline{X}_n$ est un estimateur sans biais de $\mu$ .

4. Variance empirique : biaisée vs corrigée

La variance empirique $\widehat{\sigma}^2_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^n (X_i - \overline{X}_n)^2$ est un estimateur biaisé de $\sigma^2$ .

On démontre (calcul classique, en développant et en utilisant l'indépendance des $X_i$ ) que :

E[\widehat{\sigma}^2_n] = \frac{n-1}{n}\,\sigma^2

Le biais est donc $b(\widehat{\sigma}^2_n) = \dfrac{n-1}{n}\sigma^2 - \sigma^2 = -\dfrac{\sigma^2}{n} \neq 0$ : l'estimateur sous-estime systématiquement la variance (en moyenne).

Variance empirique corrigée (estimateur sans biais). On définit :

S_n^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \overline{X}_n)^2 = \frac{n}{n-1}\,\widehat{\sigma}^2_n

Alors $E[S_n^2] = \dfrac{n}{n-1} \cdot E[\widehat{\sigma}^2_n] = \dfrac{n}{n-1} \cdot \dfrac{n-1}{n}\sigma^2 = \sigma^2$ : $S_n^2$ est un estimateur sans biais de $\sigma^2$ . C'est cette correction (division par $n-1$ et non par $n$ ) qui est utilisée en pratique pour estimer une variance à partir d'un échantillon ; le facteur $n-1$ s'appelle le nombre de degrés de liberté.

Exemple numérique. Échantillon $x_1, \dots, x_5 = 2, 4, 4, 6, 9$ (population fictive). On a $\overline{x} = \dfrac{2+4+4+6+9}{5} = \dfrac{25}{5} = 5$ . Les écarts au carré : $(2-5)^2=9$ , $(4-5)^2=1$ , $(4-5)^2=1$ , $(6-5)^2=1$ , $(9-5)^2=16$ , somme $= 28$ . Donc $\widehat{\sigma}^2_5 = \dfrac{28}{5} = 5{,}6$ tandis que $s_5^2 = \dfrac{28}{4} = 7$ : l'estimation corrigée est bien supérieure, conformément au facteur $\dfrac{n}{n-1} = \dfrac{5}{4}$ .

5. Convergence d'un estimateur

Définition. L'estimateur $\widehat{\theta}_n$ est convergent (ou consistant) si $\widehat{\theta}_n$ converge en probabilité vers $\theta$ quand $n \to +\infty$ , c'est-à-dire :

\forall \varepsilon > 0,\quad \lim_{n\to+\infty} P\big(|\widehat{\theta}_n - \theta| > \varepsilon\big) = 0

Théorème (loi des grands nombres). Si $X_1, \dots, X_n$ sont i.i.d. d'espérance $\mu$ finie, alors $\overline{X}_n$ converge en probabilité (et même presque sûrement) vers $\mu$ : $\overline{X}_n$ est un estimateur convergent de $\mu$ .

On montre de même que $\widehat{\sigma}^2_n$ et $S_n^2$ sont tous deux des estimateurs convergents de $\sigma^2$ : bien que $\widehat{\sigma}^2_n$ soit biaisé, son biais $-\sigma^2/n$ tend vers $0$ quand $n \to +\infty$ , et sa variance tend également vers $0$ . Un estimateur biaisé peut donc être convergent (le biais n'empêche pas la convergence, à condition qu'il s'annule asymptotiquement).

6. Erreur quadratique moyenne (EQM)

Pour comparer des estimateurs (notamment lorsque l'un est biaisé), on utilise l'erreur quadratique moyenne :

\text{EQM}(\widehat{\theta}_n) = E\big[(\widehat{\theta}_n - \theta)^2\big]

Décomposition biais-variance. On a l'identité fondamentale :

\text{EQM}(\widehat{\theta}_n) = \text{Var}(\widehat{\theta}_n) + b(\widehat{\theta}_n)^2

Démonstration. En notant $m = E[\widehat\theta_n]$ :

E[(\widehat\theta_n-\theta)^2] = E[((\widehat\theta_n - m) + (m-\theta))^2] = E[(\widehat\theta_n-m)^2] + 2(m-\theta)\,E[\widehat\theta_n - m] + (m-\theta)^2

Le terme croisé est nul car

E[\widehat\theta_n - m] = 0

, et

E[(\widehat\theta_n - m)^2] = \text{Var}(\widehat\theta_n)

(m-\theta)^2 = b(\widehat\theta_n)^2

. D'où le résultat.

\square

Conséquence pratique. Si $\widehat\theta_n$ est sans biais, $\text{EQM}(\widehat\theta_n) = \text{Var}(\widehat\theta_n)$ : pour des estimateurs sans biais, minimiser l'EQM équivaut à minimiser la variance. Mais un estimateur légèrement biaisé peut avoir une EQM plus petite qu'un estimateur sans biais s'il a une variance beaucoup plus faible — ce compromis biais/variance est central en statistique.

7. Variance de la moyenne empirique

Pour $X_1, \dots, X_n$ i.i.d. de variance $\sigma^2$ , par indépendance :

\text{Var}(\overline{X}_n) = \text{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n^2}\sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2}\cdot n\sigma^2 = \frac{\sigma^2}{n}

On retrouve ainsi que $\text{EQM}(\overline{X}_n) = \text{Var}(\overline{X}_n) = \dfrac{\sigma^2}{n}$ (puisque $\overline{X}_n$ est sans biais), qui tend vers $0$ quand $n \to +\infty$ : ceci redémontre la convergence de $\overline{X}_n$ vers $\mu$ (via l'inégalité de Bienaymé-Tchebychev). L'écart-type de l'estimateur, $\dfrac{\sigma}{\sqrt n}$ , s'appelle l'erreur-type (standard error) de la moyenne empirique ; c'est elle qui contrôlera la largeur des intervalles de confiance étudiés dans la leçon suivante.

8. Synthèse

Estimateur

Paramètre estimé

Biais

Convergent ?

|---|---|---|---|

$\overline{X}_n$	$\mu$	sans biais	oui
$\widehat\sigma^2_n = \frac1n\sum(X_i-\overline X_n)^2$	$\sigma^2$	biaisé ( $-\sigma^2/n$ )	oui
$S_n^2 = \frac{1}{n-1}\sum(X_i-\overline X_n)^2$	$\sigma^2$	sans biais	oui

Retenir : pour estimer une variance à partir de données, on utilise toujours

S_n^2

(division par

n-1

) en pratique, car c'est l'estimateur sans biais ; c'est lui qui apparaît dans les formules d'intervalles de confiance et de tests basés sur la loi de Student, objets des deux prochaines leçons.

Exercices de la leçon

Exercice 1

Qu'est-ce qu'une statistique $T_n = g(X_1, \dots, X_n)$ ?

Corrigé

Une statistique est, par définition, une variable aléatoire fonction de l'échantillon $(X_1,\dots,X_n)$ uniquement, sans dépendre des paramètres inconnus de la population (sinon on ne pourrait pas la calculer à partir des données observées).

Exercice 2

Quelle est la formule de la moyenne empirique $\overline{X}_n$ ?

Corrigé

La moyenne empirique est la moyenne arithmétique des observations : $\overline{X}_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^n X_i$ .

Exercice 3

Vrai ou faux : la moyenne empirique $\overline{X}_n$ est un estimateur sans biais de $\mu = E[X]$ .

Corrigé

Vrai. Par linéarité de l'espérance, $E[\overline{X}_n] = \dfrac{1}{n}\displaystyle\sum_{i=1}^n E[X_i] = \dfrac{1}{n}\cdot n\mu = \mu$ , donc le biais $E[\overline X_n]-\mu$ est nul.

Exercice 4

Quelle est la formule de la variance empirique corrigée $S_n^2$ ?

Corrigé

La variance empirique corrigée divise la somme des écarts au carré par $n-1$ (et non $n$ ), ce qui rend l'estimateur sans biais pour $\sigma^2$ .

Exercice 5

Que signifie « $\widehat{\theta}_n$ est un estimateur sans biais de $\theta$ » ?

Corrigé

Le biais est défini par $b(\widehat\theta_n) = E[\widehat\theta_n]-\theta$ . L'estimateur est sans biais lorsque cette quantité est nulle, c'est-à-dire $E[\widehat\theta_n]=\theta$ — en moyenne sur tous les échantillons possibles, et non sur un échantillon particulier.

Exercice 6

Échantillon $x_1,\dots,x_4 = 1, 3, 5, 7$ . Que vaut la variance empirique non corrigée $\widehat\sigma_4^2 = \frac{1}{4}\sum(x_i-\overline x)^2$ ?

Corrigé

$\overline x = \dfrac{1+3+5+7}{4} = 4$ . Écarts au carré : $(1-4)^2=9$ , $(3-4)^2=1$ , $(5-4)^2=1$ , $(7-4)^2=9$ , somme $=20$ . Donc $\widehat\sigma_4^2 = \dfrac{20}{4} = 5$ .

Exercice 7

Pour le même échantillon $1, 3, 5, 7$ , que vaut la variance corrigée $s_4^2 = \frac{1}{3}\sum(x_i-\overline x)^2$ ?

Corrigé

On a calculé $\sum(x_i-\overline x)^2 = 20$ (exercice précédent). Donc $s_4^2 = \dfrac{20}{3} \approx 6{,}67$ . On vérifie la relation $s_4^2 = \dfrac{n}{n-1}\widehat\sigma_4^2 = \dfrac{4}{3}\times 5 = \dfrac{20}{3} \approx 6{,}67$ .

Exercice 8

Quelle est la relation entre $E[\widehat\sigma_n^2]$ et $\sigma^2$ ?

Corrigé

C'est le résultat clé établissant le biais de la variance empirique non corrigée : $E[\widehat\sigma_n^2] = \dfrac{n-1}{n}\sigma^2 < \sigma^2$ , donc $\widehat\sigma_n^2$ sous-estime systématiquement la variance en moyenne.

Exercice 9

Vrai ou faux : un estimateur biaisé ne peut jamais être convergent.

Corrigé

Faux. L'exemple de $\widehat\sigma_n^2$ le montre : son biais $-\sigma^2/n$ est non nul pour tout $n$ fini, mais il tend vers $0$ quand $n\to+\infty$ , et sa variance tend aussi vers $0$ ; $\widehat\sigma_n^2$ est donc biaisé mais convergent.

Exercice 10

Quelle est la formule de l'erreur quadratique moyenne $\text{EQM}(\widehat\theta_n)$ en fonction du biais et de la variance ?

Corrigé

C'est la décomposition biais-variance : $\text{EQM}(\widehat\theta_n) = E[(\widehat\theta_n-\theta)^2] = \text{Var}(\widehat\theta_n) + b(\widehat\theta_n)^2$ , obtenue en ajoutant et soustrayant $E[\widehat\theta_n]$ dans le carré.

Exercice 11

Soit $X_1,\dots,X_n$ i.i.d. de variance $\sigma^2=9$ et $n=36$ . Que vaut $\text{Var}(\overline X_n)$ ?

Corrigé

$\text{Var}(\overline X_n) = \dfrac{\sigma^2}{n} = \dfrac{9}{36} = 0{,}25$ .

Exercice 12

Démontrer que $E[\widehat\sigma_n^2] = \dfrac{n-1}{n}\sigma^2$ , où $\widehat\sigma_n^2 = \dfrac{1}{n}\sum_{i=1}^n (X_i-\overline X_n)^2$ , pour $X_1,\dots,X_n$ i.i.d. d'espérance $\mu$ et de variance $\sigma^2$ .

Corrigé

Preuve. On part de l'identité algébrique (valable pour toute suite de réels) :

\sum_{i=1}^n (X_i-\overline X_n)^2 = \sum_{i=1}^n (X_i-\mu)^2 - n(\overline X_n - \mu)^2

Vérification de l'identité :

\sum (X_i-\overline X_n)^2 = \sum\big((X_i-\mu)-(\overline X_n-\mu)\big)^2 = \sum(X_i-\mu)^2 - 2(\overline X_n-\mu)\sum(X_i-\mu) + n(\overline X_n-\mu)^2

. Comme

\sum(X_i-\mu) = n(\overline X_n-\mu)

, le terme du milieu vaut

-2n(\overline X_n-\mu)^2

, d'où le résultat après simplification.

On prend l'espérance des deux membres :

E\left[\sum_{i=1}^n (X_i-\overline X_n)^2\right] = \sum_{i=1}^n E[(X_i-\mu)^2] - n\,E[(\overline X_n-\mu)^2]

Or $E[(X_i-\mu)^2] = \sigma^2$ pour chaque $i$ , donc le premier terme vaut $n\sigma^2$ . Et $E[(\overline X_n-\mu)^2] = \text{Var}(\overline X_n) = \dfrac{\sigma^2}{n}$ (car $\overline X_n$ est sans biais). Donc le second terme vaut $n \cdot \dfrac{\sigma^2}{n} = \sigma^2$ .

On obtient :

E\left[\sum_{i=1}^n (X_i-\overline X_n)^2\right] = n\sigma^2 - \sigma^2 = (n-1)\sigma^2

En divisant par $n$ :

E[\widehat\sigma_n^2] = \frac{1}{n}\cdot(n-1)\sigma^2 = \frac{n-1}{n}\sigma^2 \qquad \square

Exercice 13

On compare deux estimateurs de $\mu$ : $\widehat\mu_1 = \overline X_n$ (sans biais, variance $\sigma^2/n$ ) et $\widehat\mu_2 = \frac{n}{n+1}\overline X_n$ (biaisé). Lequel a la plus petite EQM si $\mu=10$ , $\sigma^2=4$ , $n=4$ ?

Corrigé

$\text{EQM}(\widehat\mu_1) = \sigma^2/n = 4/4 = 1$ . Pour $\widehat\mu_2$ : $E[\widehat\mu_2] = \frac{n}{n+1}\mu = \frac{4}{5}\times 10 = 8$ , donc biais $b=8-10=-2$ , et $\text{Var}(\widehat\mu_2) = \left(\frac{n}{n+1}\right)^2\frac{\sigma^2}{n} = \left(\frac{4}{5}\right)^2 \times 1 = 0{,}64$ . Donc $\text{EQM}(\widehat\mu_2) = 0{,}64 + (-2)^2 = 0{,}64+4=4{,}64 > 1$ . Ici $\widehat\mu_1$ a la plus petite EQM (le biais introduit par $\widehat\mu_2$ domine largement le faible gain de variance) — la bonne réponse est donc B, $\widehat\mu_1$ .

Exercice 14

Soit $X_1,\dots,X_n$ i.i.d. de loi de Bernoulli de paramètre $p$ (donc $\mu=p$ , $\sigma^2=p(1-p)$ ). Montrer que $\widehat p = \overline X_n$ est un estimateur sans biais et convergent de $p$ , et donner sa variance.

Corrigé

Sans biais : $E[\widehat p] = E[\overline X_n] = \dfrac{1}{n}\displaystyle\sum_{i=1}^n E[X_i] = \dfrac{1}{n}\cdot np = p$ . Le biais est donc nul.

Variance : comme les $X_i$ sont indépendantes de variance commune $\sigma^2=p(1-p)$ :

\text{Var}(\widehat p) = \text{Var}(\overline X_n) = \frac{\sigma^2}{n} = \frac{p(1-p)}{n}

Convergence : par l'inégalité de Bienaymé-Tchebychev, pour tout $\varepsilon>0$ :

P(|\widehat p - p| > \varepsilon) \leq \frac{\text{Var}(\widehat p)}{\varepsilon^2} = \frac{p(1-p)}{n\varepsilon^2} \xrightarrow[n\to+\infty]{} 0

Donc

\widehat p \xrightarrow{P} p

\widehat p

est un estimateur convergent de

p

\square

Exercice 15

Vrai ou faux : si $\widehat\theta_n$ est un estimateur sans biais de $\theta$ , alors minimiser son erreur quadratique moyenne équivaut à minimiser sa variance.

Corrigé

Vrai. D'après la décomposition $\text{EQM}(\widehat\theta_n)=\text{Var}(\widehat\theta_n)+b(\widehat\theta_n)^2$ , si $b(\widehat\theta_n)=0$ (estimateur sans biais), alors $\text{EQM}(\widehat\theta_n)=\text{Var}(\widehat\theta_n)$ : les deux quantités coïncident exactement, donc minimiser l'une revient à minimiser l'autre.

AlphaMath Académie · Échantillonnage et estimateurs · Statistique : estimation et tests d'hypothèses