Licence 2—

Échantillonnage et estimateurs

50 min15 exercicesSéquence 1.1 — Licence 2

▶

Vidéo disponible dans la version Premium

Durée : 50 min

Échantillonnage et estimateurs

1. Population, échantillon, statistique

On appelle population l'ensemble des individus sur lequel porte une étude, et l'on cherche à connaître une caractéristique inconnue de cette population, par exemple sa moyenne $\mu$ ou sa variance $\sigma^2$ . Comme il est en général impossible d'observer toute la population, on observe un échantillon.

Un échantillon aléatoire simple de taille $n$ est une suite $X_1, X_2, \dots, X_n$ de variables aléatoires indépendantes et identiquement distribuées (i.i.d.), de même loi que la variable $X$ étudiée sur la population (de moyenne $\mu = E[X]$ et de variance $\sigma^2 = \text{Var}(X)$ , supposées finies).

Une statistique est une variable aléatoire $T_n = g(X_1, \dots, X_n)$ , fonction de l'échantillon, qui ne dépend d'aucun paramètre inconnu. Une fois l'échantillon observé (valeurs numériques $x_1, \dots, x_n$ ), on obtient une réalisation $t_n = g(x_1, \dots, x_n)$ de la statistique.

Exemples de statistiques :
- La moyenne empirique : $\overline{X}_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} X_i$
- La variance empirique : $\widehat{\sigma}^2_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} (X_i - \overline{X}_n)^2$

2. Estimateur ponctuel

Un estimateur ponctuel d'un paramètre inconnu $\theta$ (par exemple $\mu$ ou $\sigma^2$ ) est une statistique $\widehat{\theta}_n = g(X_1, \dots, X_n)$ destinée à approcher $\theta$ . C'est une variable aléatoire (elle dépend de l'échantillon, donc varie d'un échantillon à l'autre) ; sa réalisation numérique sur un échantillon donné s'appelle une estimation.

On évalue la qualité d'un estimateur à l'aide de plusieurs critères : son biais, sa variance, sa convergence, et son erreur quadratique moyenne.

3. Biais d'un estimateur

Définition. Le biais de l'estimateur $\widehat{\theta}_n$ de $\theta$ est :

b(\widehat{\theta}_n) = E[\widehat{\theta}_n] - \theta

L'estimateur $\widehat{\theta}_n$ est dit sans biais (ou non biaisé) si $b(\widehat{\theta}_n) = 0$ , c'est-à-dire si $E[\widehat{\theta}_n] = \theta$ pour toute valeur de $\theta$ . Sinon, il est dit biaisé.

Théorème — la moyenne empirique est un estimateur sans biais de $\mu$ .

Soit $X_1, \dots, X_n$ i.i.d. d'espérance $\mu$ . Alors :

E[\overline{X}_n] = E\left[\frac{1}{n}\sum_{i=1}^n X_i\right] = \frac{1}{n}\sum_{i=1}^n E[X_i] = \frac{1}{n} \cdot n\mu = \mu

Donc $b(\overline{X}_n) = E[\overline{X}_n] - \mu = 0$ : $\overline{X}_n$ est un estimateur sans biais de $\mu$ .

4. Variance empirique : biaisée vs corrigée

La variance empirique $\widehat{\sigma}^2_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^n (X_i - \overline{X}_n)^2$ est un estimateur biaisé de $\sigma^2$ .

On démontre (calcul classique, en développant et en utilisant l'indépendance des $X_i$ ) que :

E[\widehat{\sigma}^2_n] = \frac{n-1}{n}\,\sigma^2

Le biais est donc $b(\widehat{\sigma}^2_n) = \dfrac{n-1}{n}\sigma^2 - \sigma^2 = -\dfrac{\sigma^2}{n} \neq 0$ : l'estimateur sous-estime systématiquement la variance (en moyenne).

Variance empirique corrigée (estimateur sans biais). On définit :

S_n^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \overline{X}_n)^2 = \frac{n}{n-1}\,\widehat{\sigma}^2_n

Alors $E[S_n^2] = \dfrac{n}{n-1} \cdot E[\widehat{\sigma}^2_n] = \dfrac{n}{n-1} \cdot \dfrac{n-1}{n}\sigma^2 = \sigma^2$ : $S_n^2$ est un estimateur sans biais de $\sigma^2$ . C'est cette correction (division par $n-1$ et non par $n$ ) qui est utilisée en pratique pour estimer une variance à partir d'un échantillon ; le facteur $n-1$ s'appelle le nombre de degrés de liberté.

Exemple numérique. Échantillon $x_1, \dots, x_5 = 2, 4, 4, 6, 9$ (population fictive). On a $\overline{x} = \dfrac{2+4+4+6+9}{5} = \dfrac{25}{5} = 5$ . Les écarts au carré : $(2-5)^2=9$ , $(4-5)^2=1$ , $(4-5)^2=1$ , $(6-5)^2=1$ , $(9-5)^2=16$ , somme $= 28$ . Donc $\widehat{\sigma}^2_5 = \dfrac{28}{5} = 5{,}6$ tandis que $s_5^2 = \dfrac{28}{4} = 7$ : l'estimation corrigée est bien supérieure, conformément au facteur $\dfrac{n}{n-1} = \dfrac{5}{4}$ .

5. Convergence d'un estimateur

Définition. L'estimateur $\widehat{\theta}_n$ est convergent (ou consistant) si $\widehat{\theta}_n$ converge en probabilité vers $\theta$ quand $n \to +\infty$ , c'est-à-dire :

\forall \varepsilon > 0,\quad \lim_{n\to+\infty} P\big(|\widehat{\theta}_n - \theta| > \varepsilon\big) = 0

Théorème (loi des grands nombres). Si $X_1, \dots, X_n$ sont i.i.d. d'espérance $\mu$ finie, alors $\overline{X}_n$ converge en probabilité (et même presque sûrement) vers $\mu$ : $\overline{X}_n$ est un estimateur convergent de $\mu$ .

On montre de même que $\widehat{\sigma}^2_n$ et $S_n^2$ sont tous deux des estimateurs convergents de $\sigma^2$ : bien que $\widehat{\sigma}^2_n$ soit biaisé, son biais $-\sigma^2/n$ tend vers $0$ quand $n \to +\infty$ , et sa variance tend également vers $0$ . Un estimateur biaisé peut donc être convergent (le biais n'empêche pas la convergence, à condition qu'il s'annule asymptotiquement).

6. Erreur quadratique moyenne (EQM)

Pour comparer des estimateurs (notamment lorsque l'un est biaisé), on utilise l'erreur quadratique moyenne :

\text{EQM}(\widehat{\theta}_n) = E\big[(\widehat{\theta}_n - \theta)^2\big]

Décomposition biais-variance. On a l'identité fondamentale :

\text{EQM}(\widehat{\theta}_n) = \text{Var}(\widehat{\theta}_n) + b(\widehat{\theta}_n)^2

Démonstration. En notant $m = E[\widehat\theta_n]$ :

E[(\widehat\theta_n-\theta)^2] = E[((\widehat\theta_n - m) + (m-\theta))^2] = E[(\widehat\theta_n-m)^2] + 2(m-\theta)\,E[\widehat\theta_n - m] + (m-\theta)^2

Le terme croisé est nul car

E[\widehat\theta_n - m] = 0

, et

E[(\widehat\theta_n - m)^2] = \text{Var}(\widehat\theta_n)

(m-\theta)^2 = b(\widehat\theta_n)^2

. D'où le résultat.

\square

Conséquence pratique. Si $\widehat\theta_n$ est sans biais, $\text{EQM}(\widehat\theta_n) = \text{Var}(\widehat\theta_n)$ : pour des estimateurs sans biais, minimiser l'EQM équivaut à minimiser la variance. Mais un estimateur légèrement biaisé peut avoir une EQM plus petite qu'un estimateur sans biais s'il a une variance beaucoup plus faible — ce compromis biais/variance est central en statistique.

7. Variance de la moyenne empirique

Pour $X_1, \dots, X_n$ i.i.d. de variance $\sigma^2$ , par indépendance :

\text{Var}(\overline{X}_n) = \text{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n^2}\sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2}\cdot n\sigma^2 = \frac{\sigma^2}{n}

On retrouve ainsi que $\text{EQM}(\overline{X}_n) = \text{Var}(\overline{X}_n) = \dfrac{\sigma^2}{n}$ (puisque $\overline{X}_n$ est sans biais), qui tend vers $0$ quand $n \to +\infty$ : ceci redémontre la convergence de $\overline{X}_n$ vers $\mu$ (via l'inégalité de Bienaymé-Tchebychev). L'écart-type de l'estimateur, $\dfrac{\sigma}{\sqrt n}$ , s'appelle l'erreur-type (standard error) de la moyenne empirique ; c'est elle qui contrôlera la largeur des intervalles de confiance étudiés dans la leçon suivante.

8. Synthèse

Estimateur

Paramètre estimé

Biais

Convergent ?

|---|---|---|---|

$\overline{X}_n$	$\mu$	sans biais	oui
$\widehat\sigma^2_n = \frac1n\sum(X_i-\overline X_n)^2$	$\sigma^2$	biaisé ( $-\sigma^2/n$ )	oui
$S_n^2 = \frac{1}{n-1}\sum(X_i-\overline X_n)^2$	$\sigma^2$	sans biais	oui

Retenir : pour estimer une variance à partir de données, on utilise toujours

S_n^2

(division par

n-1

) en pratique, car c'est l'estimateur sans biais ; c'est lui qui apparaît dans les formules d'intervalles de confiance et de tests basés sur la loi de Student, objets des deux prochaines leçons.

Exercices

Qu'est-ce qu'une statistique $T_n = g(X_1, \dots, X_n)$ ?

Quelle est la formule de la moyenne empirique $\overline{X}_n$ ?

Vrai ou faux : la moyenne empirique $\overline{X}_n$ est un estimateur sans biais de $\mu = E[X]$ .

Quelle est la formule de la variance empirique corrigée $S_n^2$ ?

Que signifie « $\widehat{\theta}_n$ est un estimateur sans biais de $\theta$ » ?

Suivez votre progression

Connectez-vous pour sauvegarder votre avancement et gagner des XP.

Se connecter

Vue d'ensemble1 / 3Intervalles de confianceSuivant