Fiche récapitulative générée pour impression / export PDF.

Licence 3 · Probabilités L3 — Convergence et théorèmes limites

Lois des grands nombres et théorème central limite

1. Convergences de variables aléatoires : rappels

On dit que $X_n\to X$ en probabilité si pour tout $\varepsilon>0$ , $P(|X_n-X|\geq\varepsilon)\to0$ quand $n\to+\infty$ . On dit que $X_n\to X$ presque sûrement si $P\big(\lim_{n\to+\infty}X_n=X\big)=1$ . On dit que $X_n\to X$ en loi si $F_{X_n}(x)\to F_X(x)$ en tout point de continuité de $F_X$ .

Hiérarchie : convergence presque sûre $\Rightarrow$ convergence en probabilité $\Rightarrow$ convergence en loi (les implications inverses sont fausses en général).

2. Loi faible des grands nombres (LFGN)

Théorème (LFGN) : Soit $(X_i)_{i\geq1}$ une suite de variables i.i.d. d'espérance $\mu$ finie et de variance $\sigma^2$ finie. Alors :

\overline{X_n} = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow[n\to+\infty]{\text{probabilité}} \mu

Démonstration (via Tchebychev) : $E[\overline{X_n}]=\mu$ et $\text{Var}(\overline{X_n})=\sigma^2/n$ (indépendance). Par Bienaymé-Tchebychev, pour tout $\varepsilon>0$ :

P\big(|\overline{X_n}-\mu|\geq\varepsilon\big) \leq \frac{\sigma^2}{n\varepsilon^2} \xrightarrow[n\to+\infty]{} 0

3. Loi forte des grands nombres (LFGN forte)

Théorème (Kolmogorov) : Sous les mêmes hypothèses (i.i.d., espérance $\mu$ finie — la variance finie n'est même pas nécessaire pour la version forte, mais on l'admet ici par simplicité) :

\overline{X_n} \xrightarrow[n\to+\infty]{\text{presque sûrement}} \mu

C'est un résultat plus fort que la version faible (convergence presque sûre $\Rightarrow$ convergence en probabilité). Intuition : la moyenne empirique d'un grand nombre de répétitions indépendantes se stabilise, avec probabilité 1, vers l'espérance théorique — c'est le fondement théorique de l'interprétation fréquentiste des probabilités (la fréquence observée d'un événement converge vers sa probabilité).

4. Théorème central limite (TCL)

Théorème (TCL) : Soit $(X_i)_{i\geq1}$ i.i.d. d'espérance $\mu$ et de variance $\sigma^2\in\,]0,+\infty[$ . Alors :

\sqrt{n}\cdot\frac{\overline{X_n}-\mu}{\sigma} \xrightarrow[n\to+\infty]{\text{loi}} \mathcal{N}(0,1)

De façon équivalente, en notant $S_n=\sum_{i=1}^nX_i$ :

\frac{S_n - n\mu}{\sigma\sqrt{n}} \xrightarrow[n\to+\infty]{\text{loi}} \mathcal{N}(0,1)

Démonstration (esquisse, via fonctions caractéristiques) : posons $Y_i=(X_i-\mu)/\sigma$ (centrées-réduites, $E[Y_i]=0$ , $\text{Var}(Y_i)=1$ ) et $Z_n=\frac{1}{\sqrt{n}}\sum_{i=1}^nY_i$ . Un développement de Taylor de $\varphi_{Y_i}(t)=1-\dfrac{t^2}{2}+o(t^2)$ près de $0$ , combiné à l'indépendance ( $\varphi_{Z_n}(t)=\varphi_{Y_1}(t/\sqrt n)^n$ ), donne :

\varphi_{Z_n}(t) = \left(1-\frac{t^2}{2n}+o\Big(\frac1n\Big)\right)^n \xrightarrow[n\to+\infty]{} e^{-t^2/2}

qui est la fonction caractéristique de

\mathcal{N}(0,1)

. Par le théorème de Lévy (continuité),

Z_n\to\mathcal{N}(0,1)

en loi.

5. Application pratique : approximation normale

Pour $n$ grand, on approxime $S_n=\sum_{i=1}^nX_i$ par une loi $\mathcal{N}(n\mu,n\sigma^2)$ . Exemple : $X_i\sim\text{Bernoulli}(0{,}5)$ , $n=400$ lancers de pièce. $S_{400}$ (nombre de faces) a pour espérance $200$ et variance $400\times0{,}25=100$ (écart-type $10$ ). Le TCL donne $P(190\leq S_{400}\leq210)\approx P(-1\leq Z\leq1)\approx0{,}68$ (règle des 68-95-99,7 de la loi normale).

6. Différence essentielle entre LGN et TCL

La loi des grands nombres dit que $\overline{X_n}$ se rapproche de $\mu$ (sans préciser la vitesse). Le théorème central limite précise la vitesse et la forme des fluctuations : l'écart $\overline{X_n}-\mu$ est de l'ordre de $1/\sqrt{n}$ , et ces fluctuations, une fois renormalisées par $\sqrt{n}/\sigma$ , suivent (asymptotiquement) une loi normale standard — quelle que soit la loi initiale des $X_i$ (pourvu qu'elle ait une variance finie). C'est ce caractère universel qui rend le TCL si fondamental en statistique.

7. Récapitulatif

Résultat

Énoncé

Type de convergence

|---|---|---|

LFGN	$\overline{X_n}\to\mu$	en probabilité
LFGN forte	$\overline{X_n}\to\mu$	presque sûre
TCL	$\sqrt{n}(\overline{X_n}-\mu)/\sigma\to\mathcal{N}(0,1)$	en loi

Exercices de la leçon

Exercice 1

Que dit la loi faible des grands nombres pour une suite i.i.d. $(X_i)$ d'espérance $\mu$ ?

Corrigé

La loi faible des grands nombres affirme que $\overline{X_n}\to\mu$ en probabilité, et non que la convergence est exacte à partir d'un certain rang, ni que c'est la limite en loi qui est normale (cela, c'est le rôle du TCL après renormalisation).

Exercice 2

Vrai ou faux : la convergence presque sûre entraîne toujours la convergence en probabilité.

Corrigé

Vrai. C'est la hiérarchie standard des modes de convergence : presque sûre $\Rightarrow$ en probabilité $\Rightarrow$ en loi. L'implication réciproque est en général fausse.

Exercice 3

Dans l'énoncé du théorème central limite, par quel facteur normalise-t-on $\overline{X_n}-\mu$ pour obtenir une limite non triviale (ni $0$ ni l'infini) ?

Corrigé

Le TCL s'énonce $\sqrt{n}(\overline{X_n}-\mu)/\sigma\to\mathcal{N}(0,1)$ : c'est le facteur $\sqrt{n}/\sigma$ qui « gonfle » l'écart $\overline{X_n}-\mu$ (qui tend vers $0$ ) à la bonne vitesse pour obtenir une limite non degénérée.

Exercice 4

Vrai ou faux : le théorème central limite nécessite que les $X_i$ suivent une loi normale.

Corrigé

Faux. C'est précisément l'intérêt du TCL : il s'applique à n'importe quelle loi des $X_i$ pourvu qu'elle admette une variance finie — c'est ce caractère universel (et non une particularité de la loi normale elle-même) qui en fait un résultat central.

Exercice 5

Pour $n=400$ lancers d'une pièce équilibrée, $S_{400}$ (nombre de faces) a pour espérance et écart-type respectifs :

Corrigé

$E[S_{400}]=np=400\times0{,}5=200$ ; $\text{Var}(S_{400})=np(1-p)=400\times0{,}25=100$ , donc l'écart-type est $\sqrt{100}=10$ .

Exercice 6

Démontrer la loi faible des grands nombres à partir de l'inégalité de Bienaymé-Tchebychev, pour $(X_i)$ i.i.d. d'espérance $\mu$ et de variance $\sigma^2$ finie.

Corrigé

Comme les $X_i$ sont i.i.d. de variance $\sigma^2$ , et que la variance d'une somme de variables indépendantes est la somme des variances :

\text{Var}(\overline{X_n}) = \text{Var}\left(\frac1n\sum_{i=1}^nX_i\right) = \frac{1}{n^2}\sum_{i=1}^n\text{Var}(X_i) = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}

En appliquant Bienaymé-Tchebychev à $\overline{X_n}$ (d'espérance $\mu$ , par linéarité) :

P\big(|\overline{X_n}-\mu|\geq\varepsilon\big) \leq \frac{\text{Var}(\overline{X_n})}{\varepsilon^2} = \frac{\sigma^2}{n\varepsilon^2}

Pour $\varepsilon>0$ fixé, ce majorant tend vers $0$ quand $n\to+\infty$ (numérateur constant, dénominateur $\to+\infty$ ). Donc $P(|\overline{X_n}-\mu|\geq\varepsilon)\to0$ , ce qui est exactement la définition de $\overline{X_n}\to\mu$ en probabilité. $\square$

Exercice 7

On souhaite estimer une proportion $p$ inconnue par sondage. Combien d'individus $n$ faut-il interroger pour garantir, via Tchebychev, $P(|\hat p_n-p|\geq0{,}02)\leq0{,}05$ , sachant $\text{Var}(\hat p_n)\leq1/(4n)$ (borne universelle en $p$ ) ?

Corrigé

On utilise la borne universelle $\text{Var}(\hat p_n)\leq\dfrac{1}{4n}$ (maximale quand $p=1/2$ ), puis Tchebychev :

P(|\hat p_n-p|\geq0{,}02) \leq \frac{1/(4n)}{(0{,}02)^2} = \frac{1}{4n\times0{,}0004} = \frac{1}{0{,}0016\,n}

On veut $\dfrac{1}{0{,}0016\,n}\leq0{,}05$ , soit $n\geq\dfrac{1}{0{,}0016\times0{,}05}=\dfrac{1}{0{,}00008}=12\,500$ .

Il faut donc interroger au moins 12 500 personnes pour garantir cette précision avec cette méthode (qui est volontairement pessimiste — en pratique, le TCL permet des tailles d'échantillon bien plus petites pour le même niveau de confiance, car il exploite la forme précise de la loi limite plutôt qu'une borne universelle).

Exercice 8

Vrai ou faux : la loi forte des grands nombres implique la loi faible des grands nombres.

Corrigé

Vrai. La convergence presque sûre (conclusion de la LFGN forte) implique toujours la convergence en probabilité (conclusion de la LFGN faible) — c'est la hiérarchie générale des modes de convergence rappelée en §1.

Exercice 9

Un dé équilibré est lancé $n=900$ fois ; $S_n$ est la somme des résultats. Sachant $E[X_i]=3{,}5$ et $\text{Var}(X_i)=35/12\approx2{,}9167$ , estimer (via le TCL) $P(S_{900}\geq3200)$ .

Corrigé

Paramètres de $S_{900}$ : $E[S_{900}]=900\times3{,}5=3150$ , $\text{Var}(S_{900})=900\times\dfrac{35}{12}=2625$ , donc l'écart-type est $\sqrt{2625}\approx51{,}2$ .

Normalisation TCL : $Z=\dfrac{S_{900}-3150}{51{,}2}$ suit approximativement $\mathcal{N}(0,1)$ .

Calcul : $P(S_{900}\geq3200)=P\Big(Z\geq\dfrac{3200-3150}{51{,}2}\Big)=P(Z\geq0{,}977)$ .

D'après la table de la loi normale standard, $P(Z\geq0{,}977)\approx0{,}164$ . Donc $P(S_{900}\geq3200)\approx0{,}16$ (soit environ 16 % de chances).

Exercice 10

Dans le TCL, que se passe-t-il pour la qualité de l'approximation normale si la loi des $X_i$ est très asymétrique (forte skewness) ?

Corrigé

Le TCL reste valable asymptotiquement quelle que soit la forme de la loi (pourvu que la variance soit finie), mais la vitesse de convergence dépend de la loi : plus elle est asymétrique (skewness élevée), plus il faut un $n$ grand pour que l'approximation normale soit précise en pratique (ce phénomène est quantifié par le théorème de Berry-Esseen, hors programme ici).

Exercice 11

Démontrer, à l'aide des fonctions caractéristiques et en admettant le développement $\varphi_Y(t)=1-t^2/2+o(t^2)$ pour $Y$ centrée-réduite, que $Z_n=\dfrac1{\sqrt n}\sum_{i=1}^nY_i$ (avec $Y_i$ i.i.d. centrées-réduites) converge en loi vers $\mathcal{N}(0,1)$ .

Corrigé

Étape 1 — fonction caractéristique de $Z_n$ . Par indépendance des $Y_i$ et la propriété $\varphi_{aX}(t)=\varphi_X(at)$ :

\varphi_{Z_n}(t) = \varphi_{\frac{1}{\sqrt n}\sum Y_i}(t) = \prod_{i=1}^n \varphi_{Y_i}\Big(\frac{t}{\sqrt n}\Big) = \varphi_{Y_1}\Big(\frac{t}{\sqrt n}\Big)^n

(égalité des

n

facteurs car les

Y_i

sont identiquement distribuées).

Étape 2 — développement. Par hypothèse, $\varphi_{Y_1}(u)=1-\dfrac{u^2}{2}+o(u^2)$ près de $u=0$ . En posant $u=t/\sqrt n\to0$ quand $n\to+\infty$ ( $t$ fixé) :

\varphi_{Y_1}\Big(\frac{t}{\sqrt n}\Big) = 1 - \frac{t^2}{2n} + o\Big(\frac1n\Big)

Étape 3 — passage à la puissance $n$ .

\varphi_{Z_n}(t) = \left(1-\frac{t^2}{2n}+o\Big(\frac1n\Big)\right)^n

En utilisant la limite classique $\Big(1+\dfrac{x}{n}+o\big(\frac1n\big)\Big)^n\to e^x$ (avec ici $x=-t^2/2$ ) :

\varphi_{Z_n}(t) \xrightarrow[n\to+\infty]{} e^{-t^2/2}

Conclusion. C'est exactement la fonction caractéristique de $\mathcal{N}(0,1)$ . Par le théorème de continuité de Lévy (convergence des fonctions caractéristiques $\Leftrightarrow$ convergence en loi), $Z_n\to\mathcal{N}(0,1)$ en loi. $\square$

Exercice 12

Soit $(X_i)$ i.i.d. de Bernoulli( $p$ ). Démontrer que $\sqrt n\dfrac{\hat p_n-p}{\sqrt{p(1-p)}}\to\mathcal{N}(0,1)$ en loi, puis en déduire un intervalle de confiance asymptotique à 95 % pour $p$ (utiliser $P(|Z|\leq1{,}96)\approx0{,}95$ pour $Z\sim\mathcal{N}(0,1)$ ).

Corrigé

Application du TCL. $\hat p_n=\overline{X_n}$ est la moyenne empirique de variables Bernoulli( $p$ ), d'espérance $\mu=p$ et de variance $\sigma^2=p(1-p)$ . Le TCL général $\sqrt n(\overline{X_n}-\mu)/\sigma\to\mathcal{N}(0,1)$ s'applique directement, donnant :

\sqrt n\,\frac{\hat p_n-p}{\sqrt{p(1-p)}} \xrightarrow[n\to+\infty]{\text{loi}} \mathcal{N}(0,1)

Intervalle de confiance. Pour $n$ grand, $P\Big(\Big|\sqrt n\dfrac{\hat p_n-p}{\sqrt{p(1-p)}}\Big|\leq1{,}96\Big)\approx0{,}95$ . En isolant $p$ (approximativement, en remplaçant $p$ par $\hat p_n$ dans l'écart-type pour rendre la formule explicite — c'est l'« intervalle de Wald ») :

P\left(\hat p_n - 1{,}96\sqrt{\frac{\hat p_n(1-\hat p_n)}{n}} \leq p \leq \hat p_n + 1{,}96\sqrt{\frac{\hat p_n(1-\hat p_n)}{n}}\right) \approx 0{,}95

C'est l'intervalle de confiance asymptotique à 95 % classiquement utilisé pour les sondages d'opinion (la fameuse « marge d'erreur »).

Exercice 13

Vrai ou faux : si $(X_i)$ est i.i.d. de loi de Cauchy (qui n'a pas d'espérance finie), alors la loi des grands nombres s'applique encore à $\overline{X_n}$ .

Corrigé

Faux. La loi de Cauchy n'a pas d'espérance finie (l'intégrale $\int x f(x)dx$ diverge), donc l'hypothèse fondamentale de la LGN (existence de $\mu=E[X_i]$ fini) n'est pas vérifiée. En fait, pour la loi de Cauchy, $\overline{X_n}$ a exactement la même loi de Cauchy que $X_1$ pour tout $n$ (propriété de stabilité de Cauchy) — elle ne converge donc vers aucune constante.

Exercice 14

Expliquer pourquoi le théorème central limite justifie que de nombreuses grandeurs physiques ou biologiques mesurées (tailles, erreurs de mesure, etc.) suivent approximativement une loi normale, même sans connaître le mécanisme exact qui les produit.

Corrigé

Le théorème central limite a une portée qui dépasse le simple calcul de probabilités : il offre une explication structurelle de l'omniprésence de la loi normale dans la nature.

De nombreuses grandeurs mesurées (taille d'un individu, erreur d'un instrument de mesure, etc.) peuvent être vues comme la somme d'un grand nombre de petites contributions indépendantes (facteurs génétiques multiples, multiples sources de bruit de mesure, etc.), chacune ayant potentiellement une loi inconnue et différente des autres.

Le caractère remarquable du TCL est que, quelle que soit la loi individuelle de ces contributions (pourvu qu'elle ait une variance finie et que les contributions soient indépendantes, ou faiblement dépendantes — des versions généralisées du TCL existent), la somme normalisée converge vers une loi normale. Seuls comptent, à la limite, les deux premiers moments (espérance et variance totales) — tous les autres détails de la loi individuelle « s'effacent » asymptotiquement.

C'est cette universalité (indépendance du résultat final par rapport au mécanisme microscopique précis) qui justifie l'omniprésence empirique de la « courbe en cloche » gaussienne dans des contextes très variés, sans qu'il soit nécessaire de connaître le détail du processus générateur sous-jacent.

Exercice 15

Démontrer que la convergence presque sûre implique la convergence en probabilité (sens direct de la hiérarchie évoquée en §1), en utilisant le lemme de Borel-Cantelli ou un argument direct sur les événements $A_n=\{|X_n-X|\geq\varepsilon\}$ .

Corrigé

Mise en place. Fixons $\varepsilon>0$ et posons $A_n=\{|X_n-X|\geq\varepsilon\}$ . On veut montrer $P(A_n)\to0$ .

Utilisation de la convergence presque sûre. Par hypothèse, $P(X_n\to X)=1$ , c'est-à-dire $P\big(\Omega\setminus\{X_n\to X\}\big)=0$ . Or sur l'événement $\{X_n\to X\}$ , pour tout $\varepsilon>0$ , il existe (presque sûrement) un rang $N$ (dépendant de $\omega$ ) tel que $|X_n(\omega)-X(\omega)|<\varepsilon$ pour tout $n\geq N$ — donc seulement un nombre fini des événements $A_n$ se produisent pour cet $\omega$ . Cela signifie exactement que $\omega\notin\limsup_n A_n=\bigcap_{N\geq1}\bigcup_{n\geq N}A_n$ . Donc $\{X_n\to X\}\subseteq\big(\limsup_n A_n\big)^c$ , ce qui donne $P(\limsup_n A_n)\leq P\big(\{X_n\to X\}^c\big)=0$ .

Passage à $P(A_n)$ . Par définition, $A_n\subseteq\bigcup_{k\geq n}A_k$ , donc $P(A_n)\leq P\Big(\bigcup_{k\geq n}A_k\Big)$ . La suite d'événements $B_n=\bigcup_{k\geq n}A_k$ est décroissante ( $B_{n+1}\subseteq B_n$ ) et $\bigcap_n B_n=\limsup_n A_n$ , donc par continuité décroissante des probabilités :

P(B_n) \xrightarrow[n\to+\infty]{} P\big(\limsup_n A_n\big) = 0

Donc $P(A_n)\leq P(B_n)\to0$ , ce qui donne $P(A_n)\to0$ , c'est-à-dire $X_n\to X$ en probabilité. $\square$

AlphaMath Académie · Lois des grands nombres et théorème central limite · Probabilités L3 — Convergence et théorèmes limites