Fiche récapitulative générée pour impression / export PDF.
Licence 2 · Statistique : estimation et tests d'hypothèses
Échantillonnage et estimateurs
Échantillonnage et estimateurs
1. Population, échantillon, statistique
On appelle population l'ensemble des individus sur lequel porte une étude, et l'on cherche à connaître une caractéristique inconnue de cette population, par exemple sa moyenne ou sa variance . Comme il est en général impossible d'observer toute la population, on observe un échantillon.
Un échantillon aléatoire simple de taille est une suite de variables aléatoires indépendantes et identiquement distribuées (i.i.d.), de même loi que la variable étudiée sur la population (de moyenne et de variance , supposées finies).
Une statistique est une variable aléatoire , fonction de l'échantillon, qui ne dépend d'aucun paramètre inconnu. Une fois l'échantillon observé (valeurs numériques ), on obtient une réalisation de la statistique.
Exemples de statistiques :
- La moyenne empirique :
- La variance empirique :
2. Estimateur ponctuel
Un estimateur ponctuel d'un paramètre inconnu (par exemple ou ) est une statistique destinée à approcher . C'est une variable aléatoire (elle dépend de l'échantillon, donc varie d'un échantillon à l'autre) ; sa réalisation numérique sur un échantillon donné s'appelle une estimation.
On évalue la qualité d'un estimateur à l'aide de plusieurs critères : son biais, sa variance, sa convergence, et son erreur quadratique moyenne.
3. Biais d'un estimateur
Définition. Le biais de l'estimateur de est :
L'estimateur est dit sans biais (ou non biaisé) si , c'est-à-dire si pour toute valeur de . Sinon, il est dit biaisé.
Théorème — la moyenne empirique est un estimateur sans biais de .
Soit i.i.d. d'espérance . Alors :
Donc : est un estimateur sans biais de .
4. Variance empirique : biaisée vs corrigée
La variance empirique est un estimateur biaisé de .
On démontre (calcul classique, en développant et en utilisant l'indépendance des ) que :
Le biais est donc : l'estimateur sous-estime systématiquement la variance (en moyenne).
Variance empirique corrigée (estimateur sans biais). On définit :
Alors : est un estimateur sans biais de . C'est cette correction (division par et non par ) qui est utilisée en pratique pour estimer une variance à partir d'un échantillon ; le facteur s'appelle le nombre de degrés de liberté.
Exemple numérique. Échantillon (population fictive). On a . Les écarts au carré : , , , , , somme . Donc tandis que : l'estimation corrigée est bien supérieure, conformément au facteur .
5. Convergence d'un estimateur
Définition. L'estimateur est convergent (ou consistant) si converge en probabilité vers quand , c'est-à-dire :
Théorème (loi des grands nombres). Si sont i.i.d. d'espérance finie, alors converge en probabilité (et même presque sûrement) vers : est un estimateur convergent de .
On montre de même que et sont tous deux des estimateurs convergents de : bien que soit biaisé, son biais tend vers quand , et sa variance tend également vers . Un estimateur biaisé peut donc être convergent (le biais n'empêche pas la convergence, à condition qu'il s'annule asymptotiquement).
6. Erreur quadratique moyenne (EQM)
Pour comparer des estimateurs (notamment lorsque l'un est biaisé), on utilise l'erreur quadratique moyenne :
Décomposition biais-variance. On a l'identité fondamentale :
Démonstration. En notant :
Le terme croisé est nul car , et , . D'où le résultat.
Conséquence pratique. Si est sans biais, : pour des estimateurs sans biais, minimiser l'EQM équivaut à minimiser la variance. Mais un estimateur légèrement biaisé peut avoir une EQM plus petite qu'un estimateur sans biais s'il a une variance beaucoup plus faible — ce compromis biais/variance est central en statistique.
7. Variance de la moyenne empirique
Pour i.i.d. de variance , par indépendance :
On retrouve ainsi que (puisque est sans biais), qui tend vers quand : ceci redémontre la convergence de vers (via l'inégalité de Bienaymé-Tchebychev). L'écart-type de l'estimateur, , s'appelle l'erreur-type (standard error) de la moyenne empirique ; c'est elle qui contrôlera la largeur des intervalles de confiance étudiés dans la leçon suivante.
8. Synthèse
| Estimateur | Paramètre estimé | Biais | Convergent ? |
| sans biais | oui | ||
| biaisé () | oui | ||
| sans biais | oui |
Retenir : pour estimer une variance à partir de données, on utilise toujours (division par ) en pratique, car c'est l'estimateur sans biais ; c'est lui qui apparaît dans les formules d'intervalles de confiance et de tests basés sur la loi de Student, objets des deux prochaines leçons.
Exercices de la leçon
Exercice 1
Qu'est-ce qu'une statistique ?
Corrigé
Une statistique est, par définition, une variable aléatoire fonction de l'échantillon uniquement, sans dépendre des paramètres inconnus de la population (sinon on ne pourrait pas la calculer à partir des données observées).
Exercice 2
Quelle est la formule de la moyenne empirique ?
Corrigé
La moyenne empirique est la moyenne arithmétique des observations : .
Exercice 3
Vrai ou faux : la moyenne empirique est un estimateur sans biais de .
Corrigé
Vrai. Par linéarité de l'espérance, , donc le biais est nul.
Exercice 4
Quelle est la formule de la variance empirique corrigée ?
Corrigé
La variance empirique corrigée divise la somme des écarts au carré par (et non ), ce qui rend l'estimateur sans biais pour .
Exercice 5
Que signifie « est un estimateur sans biais de » ?
Corrigé
Le biais est défini par . L'estimateur est sans biais lorsque cette quantité est nulle, c'est-à-dire — en moyenne sur tous les échantillons possibles, et non sur un échantillon particulier.
Exercice 6
Échantillon . Que vaut la variance empirique non corrigée ?
Corrigé
. Écarts au carré : , , , , somme . Donc .
Exercice 7
Pour le même échantillon , que vaut la variance corrigée ?
Corrigé
On a calculé (exercice précédent). Donc . On vérifie la relation .
Exercice 8
Quelle est la relation entre et ?
Corrigé
C'est le résultat clé établissant le biais de la variance empirique non corrigée : , donc sous-estime systématiquement la variance en moyenne.
Exercice 9
Vrai ou faux : un estimateur biaisé ne peut jamais être convergent.
Corrigé
Faux. L'exemple de le montre : son biais est non nul pour tout fini, mais il tend vers quand , et sa variance tend aussi vers ; est donc biaisé mais convergent.
Exercice 10
Quelle est la formule de l'erreur quadratique moyenne en fonction du biais et de la variance ?
Corrigé
C'est la décomposition biais-variance : , obtenue en ajoutant et soustrayant dans le carré.
Exercice 11
Soit i.i.d. de variance et . Que vaut ?
Corrigé
.
Exercice 12
Démontrer que , où , pour i.i.d. d'espérance et de variance .
Corrigé
Preuve. On part de l'identité algébrique (valable pour toute suite de réels) :
Vérification de l'identité : . Comme , le terme du milieu vaut , d'où le résultat après simplification.
On prend l'espérance des deux membres :
Or pour chaque , donc le premier terme vaut . Et (car est sans biais). Donc le second terme vaut .
On obtient :
En divisant par :
Exercice 13
On compare deux estimateurs de : (sans biais, variance ) et (biaisé). Lequel a la plus petite EQM si , , ?
Corrigé
. Pour : , donc biais , et . Donc . Ici a la plus petite EQM (le biais introduit par domine largement le faible gain de variance) — la bonne réponse est donc B, .
Exercice 14
Soit i.i.d. de loi de Bernoulli de paramètre (donc , ). Montrer que est un estimateur sans biais et convergent de , et donner sa variance.
Corrigé
Sans biais : . Le biais est donc nul.
Variance : comme les sont indépendantes de variance commune :
Convergence : par l'inégalité de Bienaymé-Tchebychev, pour tout :
Donc : est un estimateur convergent de .
Exercice 15
Vrai ou faux : si est un estimateur sans biais de , alors minimiser son erreur quadratique moyenne équivaut à minimiser sa variance.
Corrigé
Vrai. D'après la décomposition , si (estimateur sans biais), alors : les deux quantités coïncident exactement, donc minimiser l'une revient à minimiser l'autre.
AlphaMath Académie · Échantillonnage et estimateurs · Statistique : estimation et tests d'hypothèses