Échantillonnage et estimateurs
Vidéo disponible dans la version Premium
Durée : 50 min
Échantillonnage et estimateurs
1. Population, échantillon, statistique
On appelle population l'ensemble des individus sur lequel porte une étude, et l'on cherche à connaître une caractéristique inconnue de cette population, par exemple sa moyenne ou sa variance . Comme il est en général impossible d'observer toute la population, on observe un échantillon.
Un échantillon aléatoire simple de taille est une suite de variables aléatoires indépendantes et identiquement distribuées (i.i.d.), de même loi que la variable étudiée sur la population (de moyenne et de variance , supposées finies).
Une statistique est une variable aléatoire , fonction de l'échantillon, qui ne dépend d'aucun paramètre inconnu. Une fois l'échantillon observé (valeurs numériques ), on obtient une réalisation de la statistique.
Exemples de statistiques :
- La moyenne empirique :
- La variance empirique :
2. Estimateur ponctuel
Un estimateur ponctuel d'un paramètre inconnu (par exemple ou ) est une statistique destinée à approcher . C'est une variable aléatoire (elle dépend de l'échantillon, donc varie d'un échantillon à l'autre) ; sa réalisation numérique sur un échantillon donné s'appelle une estimation.
On évalue la qualité d'un estimateur à l'aide de plusieurs critères : son biais, sa variance, sa convergence, et son erreur quadratique moyenne.
3. Biais d'un estimateur
Définition. Le biais de l'estimateur de est :
L'estimateur est dit sans biais (ou non biaisé) si , c'est-à-dire si pour toute valeur de . Sinon, il est dit biaisé.
Théorème — la moyenne empirique est un estimateur sans biais de .
Soit i.i.d. d'espérance . Alors :
Donc : est un estimateur sans biais de .
4. Variance empirique : biaisée vs corrigée
La variance empirique est un estimateur biaisé de .
On démontre (calcul classique, en développant et en utilisant l'indépendance des ) que :
Le biais est donc : l'estimateur sous-estime systématiquement la variance (en moyenne).
Variance empirique corrigée (estimateur sans biais). On définit :
Alors : est un estimateur sans biais de . C'est cette correction (division par et non par ) qui est utilisée en pratique pour estimer une variance à partir d'un échantillon ; le facteur s'appelle le nombre de degrés de liberté.
Exemple numérique. Échantillon (population fictive). On a . Les écarts au carré : , , , , , somme . Donc tandis que : l'estimation corrigée est bien supérieure, conformément au facteur .
5. Convergence d'un estimateur
Définition. L'estimateur est convergent (ou consistant) si converge en probabilité vers quand , c'est-à-dire :
Théorème (loi des grands nombres). Si sont i.i.d. d'espérance finie, alors converge en probabilité (et même presque sûrement) vers : est un estimateur convergent de .
On montre de même que et sont tous deux des estimateurs convergents de : bien que soit biaisé, son biais tend vers quand , et sa variance tend également vers . Un estimateur biaisé peut donc être convergent (le biais n'empêche pas la convergence, à condition qu'il s'annule asymptotiquement).
6. Erreur quadratique moyenne (EQM)
Pour comparer des estimateurs (notamment lorsque l'un est biaisé), on utilise l'erreur quadratique moyenne :
Décomposition biais-variance. On a l'identité fondamentale :
Démonstration. En notant :
Le terme croisé est nul car , et , . D'où le résultat.
Conséquence pratique. Si est sans biais, : pour des estimateurs sans biais, minimiser l'EQM équivaut à minimiser la variance. Mais un estimateur légèrement biaisé peut avoir une EQM plus petite qu'un estimateur sans biais s'il a une variance beaucoup plus faible — ce compromis biais/variance est central en statistique.
7. Variance de la moyenne empirique
Pour i.i.d. de variance , par indépendance :
On retrouve ainsi que (puisque est sans biais), qui tend vers quand : ceci redémontre la convergence de vers (via l'inégalité de Bienaymé-Tchebychev). L'écart-type de l'estimateur, , s'appelle l'erreur-type (standard error) de la moyenne empirique ; c'est elle qui contrôlera la largeur des intervalles de confiance étudiés dans la leçon suivante.
8. Synthèse
| Estimateur | Paramètre estimé | Biais | Convergent ? |
| sans biais | oui | ||
| biaisé () | oui | ||
| sans biais | oui |
Retenir : pour estimer une variance à partir de données, on utilise toujours (division par ) en pratique, car c'est l'estimateur sans biais ; c'est lui qui apparaît dans les formules d'intervalles de confiance et de tests basés sur la loi de Student, objets des deux prochaines leçons.
Exercices
Qu'est-ce qu'une statistique ?
Quelle est la formule de la moyenne empirique ?
Vrai ou faux : la moyenne empirique est un estimateur sans biais de .
Quelle est la formule de la variance empirique corrigée ?
Que signifie « est un estimateur sans biais de » ?
Suivez votre progression
Connectez-vous pour sauvegarder votre avancement et gagner des XP.