Fiche récapitulative générée pour impression / export PDF.

Licence 3 · Probabilités L3 — Convergence et théorèmes limites

Lois des grands nombres et théorème central limite

Lois des grands nombres et théorème central limite

1. Convergences de variables aléatoires : rappels

On dit que XnXX_n\to X en probabilité si pour tout ε>0\varepsilon>0, P(XnXε)0P(|X_n-X|\geq\varepsilon)\to0 quand n+n\to+\infty. On dit que XnXX_n\to X presque sûrement si P(limn+Xn=X)=1P\big(\lim_{n\to+\infty}X_n=X\big)=1. On dit que XnXX_n\to X en loi si FXn(x)FX(x)F_{X_n}(x)\to F_X(x) en tout point de continuité de FXF_X.

Hiérarchie : convergence presque sûre \Rightarrow convergence en probabilité \Rightarrow convergence en loi (les implications inverses sont fausses en général).

2. Loi faible des grands nombres (LFGN)

Théorème (LFGN) : Soit (Xi)i1(X_i)_{i\geq1} une suite de variables i.i.d. d'espérance μ\mu finie et de variance σ2\sigma^2 finie. Alors :

Xn=1ni=1nXin+probabiliteˊμ\overline{X_n} = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow[n\to+\infty]{\text{probabilité}} \mu

Démonstration (via Tchebychev) : E[Xn]=μE[\overline{X_n}]=\mu et Var(Xn)=σ2/n\text{Var}(\overline{X_n})=\sigma^2/n (indépendance). Par Bienaymé-Tchebychev, pour tout ε>0\varepsilon>0 :

P(Xnμε)σ2nε2n+0P\big(|\overline{X_n}-\mu|\geq\varepsilon\big) \leq \frac{\sigma^2}{n\varepsilon^2} \xrightarrow[n\to+\infty]{} 0

3. Loi forte des grands nombres (LFGN forte)

Théorème (Kolmogorov) : Sous les mêmes hypothèses (i.i.d., espérance μ\mu finie — la variance finie n'est même pas nécessaire pour la version forte, mais on l'admet ici par simplicité) :

Xnn+presque suˆrementμ\overline{X_n} \xrightarrow[n\to+\infty]{\text{presque sûrement}} \mu

C'est un résultat plus fort que la version faible (convergence presque sûre \Rightarrow convergence en probabilité). Intuition : la moyenne empirique d'un grand nombre de répétitions indépendantes se stabilise, avec probabilité 1, vers l'espérance théorique — c'est le fondement théorique de l'interprétation fréquentiste des probabilités (la fréquence observée d'un événement converge vers sa probabilité).

4. Théorème central limite (TCL)

Théorème (TCL) : Soit (Xi)i1(X_i)_{i\geq1} i.i.d. d'espérance μ\mu et de variance σ2]0,+[\sigma^2\in\,]0,+\infty[. Alors :

nXnμσn+loiN(0,1)\sqrt{n}\cdot\frac{\overline{X_n}-\mu}{\sigma} \xrightarrow[n\to+\infty]{\text{loi}} \mathcal{N}(0,1)

De façon équivalente, en notant Sn=i=1nXiS_n=\sum_{i=1}^nX_i :

Snnμσnn+loiN(0,1)\frac{S_n - n\mu}{\sigma\sqrt{n}} \xrightarrow[n\to+\infty]{\text{loi}} \mathcal{N}(0,1)

Démonstration (esquisse, via fonctions caractéristiques) : posons Yi=(Xiμ)/σY_i=(X_i-\mu)/\sigma (centrées-réduites, E[Yi]=0E[Y_i]=0, Var(Yi)=1\text{Var}(Y_i)=1) et Zn=1ni=1nYiZ_n=\frac{1}{\sqrt{n}}\sum_{i=1}^nY_i. Un développement de Taylor de φYi(t)=1t22+o(t2)\varphi_{Y_i}(t)=1-\dfrac{t^2}{2}+o(t^2) près de 00, combiné à l'indépendance (φZn(t)=φY1(t/n)n\varphi_{Z_n}(t)=\varphi_{Y_1}(t/\sqrt n)^n), donne :

φZn(t)=(1t22n+o(1n))nn+et2/2\varphi_{Z_n}(t) = \left(1-\frac{t^2}{2n}+o\Big(\frac1n\Big)\right)^n \xrightarrow[n\to+\infty]{} e^{-t^2/2}

qui est la fonction caractéristique de N(0,1)\mathcal{N}(0,1). Par le théorème de Lévy (continuité), ZnN(0,1)Z_n\to\mathcal{N}(0,1) en loi.

5. Application pratique : approximation normale

Pour nn grand, on approxime Sn=i=1nXiS_n=\sum_{i=1}^nX_i par une loi N(nμ,nσ2)\mathcal{N}(n\mu,n\sigma^2). Exemple : XiBernoulli(0,5)X_i\sim\text{Bernoulli}(0{,}5), n=400n=400 lancers de pièce. S400S_{400} (nombre de faces) a pour espérance 200200 et variance 400×0,25=100400\times0{,}25=100 (écart-type 1010). Le TCL donne P(190S400210)P(1Z1)0,68P(190\leq S_{400}\leq210)\approx P(-1\leq Z\leq1)\approx0{,}68 (règle des 68-95-99,7 de la loi normale).

6. Différence essentielle entre LGN et TCL

La loi des grands nombres dit que Xn\overline{X_n} se rapproche de μ\mu (sans préciser la vitesse). Le théorème central limite précise la vitesse et la forme des fluctuations : l'écart Xnμ\overline{X_n}-\mu est de l'ordre de 1/n1/\sqrt{n}, et ces fluctuations, une fois renormalisées par n/σ\sqrt{n}/\sigma, suivent (asymptotiquement) une loi normale standard — quelle que soit la loi initiale des XiX_i (pourvu qu'elle ait une variance finie). C'est ce caractère universel qui rend le TCL si fondamental en statistique.

7. Récapitulatif


RésultatÉnoncéType de convergence
|---|---|---|


LFGNXnμ\overline{X_n}\to\muen probabilité
LFGN forteXnμ\overline{X_n}\to\mupresque sûre
TCLn(Xnμ)/σN(0,1)\sqrt{n}(\overline{X_n}-\mu)/\sigma\to\mathcal{N}(0,1)en loi

Exercices de la leçon

Exercice 1

Que dit la loi faible des grands nombres pour une suite i.i.d. (Xi)(X_i) d'espérance μ\mu ?

Corrigé

La loi faible des grands nombres affirme que Xnμ\overline{X_n}\to\mu en probabilité, et non que la convergence est exacte à partir d'un certain rang, ni que c'est la limite en loi qui est normale (cela, c'est le rôle du TCL après renormalisation).

Exercice 2

Vrai ou faux : la convergence presque sûre entraîne toujours la convergence en probabilité.

Corrigé

Vrai. C'est la hiérarchie standard des modes de convergence : presque sûre \Rightarrow en probabilité \Rightarrow en loi. L'implication réciproque est en général fausse.

Exercice 3

Dans l'énoncé du théorème central limite, par quel facteur normalise-t-on Xnμ\overline{X_n}-\mu pour obtenir une limite non triviale (ni 00 ni l'infini) ?

Corrigé

Le TCL s'énonce n(Xnμ)/σN(0,1)\sqrt{n}(\overline{X_n}-\mu)/\sigma\to\mathcal{N}(0,1) : c'est le facteur n/σ\sqrt{n}/\sigma qui « gonfle » l'écart Xnμ\overline{X_n}-\mu (qui tend vers 00) à la bonne vitesse pour obtenir une limite non degénérée.

Exercice 4

Vrai ou faux : le théorème central limite nécessite que les XiX_i suivent une loi normale.

Corrigé

Faux. C'est précisément l'intérêt du TCL : il s'applique à n'importe quelle loi des XiX_i pourvu qu'elle admette une variance finie — c'est ce caractère universel (et non une particularité de la loi normale elle-même) qui en fait un résultat central.

Exercice 5

Pour n=400n=400 lancers d'une pièce équilibrée, S400S_{400} (nombre de faces) a pour espérance et écart-type respectifs :

Corrigé

E[S400]=np=400×0,5=200E[S_{400}]=np=400\times0{,}5=200 ; Var(S400)=np(1p)=400×0,25=100\text{Var}(S_{400})=np(1-p)=400\times0{,}25=100, donc l'écart-type est 100=10\sqrt{100}=10.

Exercice 6

Démontrer la loi faible des grands nombres à partir de l'inégalité de Bienaymé-Tchebychev, pour (Xi)(X_i) i.i.d. d'espérance μ\mu et de variance σ2\sigma^2 finie.

Corrigé

Comme les XiX_i sont i.i.d. de variance σ2\sigma^2, et que la variance d'une somme de variables indépendantes est la somme des variances :

Var(Xn)=Var(1ni=1nXi)=1n2i=1nVar(Xi)=nσ2n2=σ2n\text{Var}(\overline{X_n}) = \text{Var}\left(\frac1n\sum_{i=1}^nX_i\right) = \frac{1}{n^2}\sum_{i=1}^n\text{Var}(X_i) = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}

En appliquant Bienaymé-Tchebychev à Xn\overline{X_n} (d'espérance μ\mu, par linéarité) :

P(Xnμε)Var(Xn)ε2=σ2nε2P\big(|\overline{X_n}-\mu|\geq\varepsilon\big) \leq \frac{\text{Var}(\overline{X_n})}{\varepsilon^2} = \frac{\sigma^2}{n\varepsilon^2}

Pour ε>0\varepsilon>0 fixé, ce majorant tend vers 00 quand n+n\to+\infty (numérateur constant, dénominateur +\to+\infty). Donc P(Xnμε)0P(|\overline{X_n}-\mu|\geq\varepsilon)\to0, ce qui est exactement la définition de Xnμ\overline{X_n}\to\mu en probabilité. \square

Exercice 7

On souhaite estimer une proportion pp inconnue par sondage. Combien d'individus nn faut-il interroger pour garantir, via Tchebychev, P(p^np0,02)0,05P(|\hat p_n-p|\geq0{,}02)\leq0{,}05, sachant Var(p^n)1/(4n)\text{Var}(\hat p_n)\leq1/(4n) (borne universelle en pp) ?

Corrigé

On utilise la borne universelle Var(p^n)14n\text{Var}(\hat p_n)\leq\dfrac{1}{4n} (maximale quand p=1/2p=1/2), puis Tchebychev :

P(p^np0,02)1/(4n)(0,02)2=14n×0,0004=10,0016nP(|\hat p_n-p|\geq0{,}02) \leq \frac{1/(4n)}{(0{,}02)^2} = \frac{1}{4n\times0{,}0004} = \frac{1}{0{,}0016\,n}

On veut 10,0016n0,05\dfrac{1}{0{,}0016\,n}\leq0{,}05, soit n10,0016×0,05=10,00008=12500n\geq\dfrac{1}{0{,}0016\times0{,}05}=\dfrac{1}{0{,}00008}=12\,500.

Il faut donc interroger au moins 12 500 personnes pour garantir cette précision avec cette méthode (qui est volontairement pessimiste — en pratique, le TCL permet des tailles d'échantillon bien plus petites pour le même niveau de confiance, car il exploite la forme précise de la loi limite plutôt qu'une borne universelle).

Exercice 8

Vrai ou faux : la loi forte des grands nombres implique la loi faible des grands nombres.

Corrigé

Vrai. La convergence presque sûre (conclusion de la LFGN forte) implique toujours la convergence en probabilité (conclusion de la LFGN faible) — c'est la hiérarchie générale des modes de convergence rappelée en §1.

Exercice 9

Un dé équilibré est lancé n=900n=900 fois ; SnS_n est la somme des résultats. Sachant E[Xi]=3,5E[X_i]=3{,}5 et Var(Xi)=35/122,9167\text{Var}(X_i)=35/12\approx2{,}9167, estimer (via le TCL) P(S9003200)P(S_{900}\geq3200).

Corrigé

Paramètres de S900S_{900} : E[S900]=900×3,5=3150E[S_{900}]=900\times3{,}5=3150, Var(S900)=900×3512=2625\text{Var}(S_{900})=900\times\dfrac{35}{12}=2625, donc l'écart-type est 262551,2\sqrt{2625}\approx51{,}2.

Normalisation TCL : Z=S900315051,2Z=\dfrac{S_{900}-3150}{51{,}2} suit approximativement N(0,1)\mathcal{N}(0,1).

Calcul : P(S9003200)=P(Z3200315051,2)=P(Z0,977)P(S_{900}\geq3200)=P\Big(Z\geq\dfrac{3200-3150}{51{,}2}\Big)=P(Z\geq0{,}977).

D'après la table de la loi normale standard, P(Z0,977)0,164P(Z\geq0{,}977)\approx0{,}164. Donc P(S9003200)0,16P(S_{900}\geq3200)\approx0{,}16 (soit environ 16 % de chances).

Exercice 10

Dans le TCL, que se passe-t-il pour la qualité de l'approximation normale si la loi des XiX_i est très asymétrique (forte skewness) ?

Corrigé

Le TCL reste valable asymptotiquement quelle que soit la forme de la loi (pourvu que la variance soit finie), mais la vitesse de convergence dépend de la loi : plus elle est asymétrique (skewness élevée), plus il faut un nn grand pour que l'approximation normale soit précise en pratique (ce phénomène est quantifié par le théorème de Berry-Esseen, hors programme ici).

Exercice 11

Démontrer, à l'aide des fonctions caractéristiques et en admettant le développement φY(t)=1t2/2+o(t2)\varphi_Y(t)=1-t^2/2+o(t^2) pour YY centrée-réduite, que Zn=1ni=1nYiZ_n=\dfrac1{\sqrt n}\sum_{i=1}^nY_i (avec YiY_i i.i.d. centrées-réduites) converge en loi vers N(0,1)\mathcal{N}(0,1).

Corrigé

Étape 1 — fonction caractéristique de ZnZ_n. Par indépendance des YiY_i et la propriété φaX(t)=φX(at)\varphi_{aX}(t)=\varphi_X(at) :

φZn(t)=φ1nYi(t)=i=1nφYi(tn)=φY1(tn)n\varphi_{Z_n}(t) = \varphi_{\frac{1}{\sqrt n}\sum Y_i}(t) = \prod_{i=1}^n \varphi_{Y_i}\Big(\frac{t}{\sqrt n}\Big) = \varphi_{Y_1}\Big(\frac{t}{\sqrt n}\Big)^n

(égalité des nn facteurs car les YiY_i sont identiquement distribuées).

Étape 2 — développement. Par hypothèse, φY1(u)=1u22+o(u2)\varphi_{Y_1}(u)=1-\dfrac{u^2}{2}+o(u^2) près de u=0u=0. En posant u=t/n0u=t/\sqrt n\to0 quand n+n\to+\infty (tt fixé) :

φY1(tn)=1t22n+o(1n)\varphi_{Y_1}\Big(\frac{t}{\sqrt n}\Big) = 1 - \frac{t^2}{2n} + o\Big(\frac1n\Big)

Étape 3 — passage à la puissance nn.

φZn(t)=(1t22n+o(1n))n\varphi_{Z_n}(t) = \left(1-\frac{t^2}{2n}+o\Big(\frac1n\Big)\right)^n

En utilisant la limite classique (1+xn+o(1n))nex\Big(1+\dfrac{x}{n}+o\big(\frac1n\big)\Big)^n\to e^x (avec ici x=t2/2x=-t^2/2) :

φZn(t)n+et2/2\varphi_{Z_n}(t) \xrightarrow[n\to+\infty]{} e^{-t^2/2}

Conclusion. C'est exactement la fonction caractéristique de N(0,1)\mathcal{N}(0,1). Par le théorème de continuité de Lévy (convergence des fonctions caractéristiques \Leftrightarrow convergence en loi), ZnN(0,1)Z_n\to\mathcal{N}(0,1) en loi. \square

Exercice 12

Soit (Xi)(X_i) i.i.d. de Bernoulli(pp). Démontrer que np^npp(1p)N(0,1)\sqrt n\dfrac{\hat p_n-p}{\sqrt{p(1-p)}}\to\mathcal{N}(0,1) en loi, puis en déduire un intervalle de confiance asymptotique à 95 % pour pp (utiliser P(Z1,96)0,95P(|Z|\leq1{,}96)\approx0{,}95 pour ZN(0,1)Z\sim\mathcal{N}(0,1)).

Corrigé

Application du TCL. p^n=Xn\hat p_n=\overline{X_n} est la moyenne empirique de variables Bernoulli(pp), d'espérance μ=p\mu=p et de variance σ2=p(1p)\sigma^2=p(1-p). Le TCL général n(Xnμ)/σN(0,1)\sqrt n(\overline{X_n}-\mu)/\sigma\to\mathcal{N}(0,1) s'applique directement, donnant :

np^npp(1p)n+loiN(0,1)\sqrt n\,\frac{\hat p_n-p}{\sqrt{p(1-p)}} \xrightarrow[n\to+\infty]{\text{loi}} \mathcal{N}(0,1)

Intervalle de confiance. Pour nn grand, P(np^npp(1p)1,96)0,95P\Big(\Big|\sqrt n\dfrac{\hat p_n-p}{\sqrt{p(1-p)}}\Big|\leq1{,}96\Big)\approx0{,}95. En isolant pp (approximativement, en remplaçant pp par p^n\hat p_n dans l'écart-type pour rendre la formule explicite — c'est l'« intervalle de Wald ») :

P(p^n1,96p^n(1p^n)npp^n+1,96p^n(1p^n)n)0,95P\left(\hat p_n - 1{,}96\sqrt{\frac{\hat p_n(1-\hat p_n)}{n}} \leq p \leq \hat p_n + 1{,}96\sqrt{\frac{\hat p_n(1-\hat p_n)}{n}}\right) \approx 0{,}95

C'est l'intervalle de confiance asymptotique à 95 % classiquement utilisé pour les sondages d'opinion (la fameuse « marge d'erreur »).

Exercice 13

Vrai ou faux : si (Xi)(X_i) est i.i.d. de loi de Cauchy (qui n'a pas d'espérance finie), alors la loi des grands nombres s'applique encore à Xn\overline{X_n}.

Corrigé

Faux. La loi de Cauchy n'a pas d'espérance finie (l'intégrale xf(x)dx\int x f(x)dx diverge), donc l'hypothèse fondamentale de la LGN (existence de μ=E[Xi]\mu=E[X_i] fini) n'est pas vérifiée. En fait, pour la loi de Cauchy, Xn\overline{X_n} a exactement la même loi de Cauchy que X1X_1 pour tout nn (propriété de stabilité de Cauchy) — elle ne converge donc vers aucune constante.

Exercice 14

Expliquer pourquoi le théorème central limite justifie que de nombreuses grandeurs physiques ou biologiques mesurées (tailles, erreurs de mesure, etc.) suivent approximativement une loi normale, même sans connaître le mécanisme exact qui les produit.

Corrigé

Le théorème central limite a une portée qui dépasse le simple calcul de probabilités : il offre une explication structurelle de l'omniprésence de la loi normale dans la nature.

De nombreuses grandeurs mesurées (taille d'un individu, erreur d'un instrument de mesure, etc.) peuvent être vues comme la somme d'un grand nombre de petites contributions indépendantes (facteurs génétiques multiples, multiples sources de bruit de mesure, etc.), chacune ayant potentiellement une loi inconnue et différente des autres.

Le caractère remarquable du TCL est que, quelle que soit la loi individuelle de ces contributions (pourvu qu'elle ait une variance finie et que les contributions soient indépendantes, ou faiblement dépendantes — des versions généralisées du TCL existent), la somme normalisée converge vers une loi normale. Seuls comptent, à la limite, les deux premiers moments (espérance et variance totales) — tous les autres détails de la loi individuelle « s'effacent » asymptotiquement.

C'est cette universalité (indépendance du résultat final par rapport au mécanisme microscopique précis) qui justifie l'omniprésence empirique de la « courbe en cloche » gaussienne dans des contextes très variés, sans qu'il soit nécessaire de connaître le détail du processus générateur sous-jacent.

Exercice 15

Démontrer que la convergence presque sûre implique la convergence en probabilité (sens direct de la hiérarchie évoquée en §1), en utilisant le lemme de Borel-Cantelli ou un argument direct sur les événements An={XnXε}A_n=\{|X_n-X|\geq\varepsilon\}.

Corrigé

Mise en place. Fixons ε>0\varepsilon>0 et posons An={XnXε}A_n=\{|X_n-X|\geq\varepsilon\}. On veut montrer P(An)0P(A_n)\to0.

Utilisation de la convergence presque sûre. Par hypothèse, P(XnX)=1P(X_n\to X)=1, c'est-à-dire P(Ω{XnX})=0P\big(\Omega\setminus\{X_n\to X\}\big)=0. Or sur l'événement {XnX}\{X_n\to X\}, pour tout ε>0\varepsilon>0, il existe (presque sûrement) un rang NN (dépendant de ω\omega) tel que Xn(ω)X(ω)<ε|X_n(\omega)-X(\omega)|<\varepsilon pour tout nNn\geq N — donc seulement un nombre fini des événements AnA_n se produisent pour cet ω\omega. Cela signifie exactement que ωlim supnAn=N1nNAn\omega\notin\limsup_n A_n=\bigcap_{N\geq1}\bigcup_{n\geq N}A_n. Donc {XnX}(lim supnAn)c\{X_n\to X\}\subseteq\big(\limsup_n A_n\big)^c, ce qui donne P(lim supnAn)P({XnX}c)=0P(\limsup_n A_n)\leq P\big(\{X_n\to X\}^c\big)=0.

Passage à P(An)P(A_n). Par définition, AnknAkA_n\subseteq\bigcup_{k\geq n}A_k, donc P(An)P(knAk)P(A_n)\leq P\Big(\bigcup_{k\geq n}A_k\Big). La suite d'événements Bn=knAkB_n=\bigcup_{k\geq n}A_k est décroissante (Bn+1BnB_{n+1}\subseteq B_n) et nBn=lim supnAn\bigcap_n B_n=\limsup_n A_n, donc par continuité décroissante des probabilités :

P(Bn)n+P(lim supnAn)=0P(B_n) \xrightarrow[n\to+\infty]{} P\big(\limsup_n A_n\big) = 0

Donc P(An)P(Bn)0P(A_n)\leq P(B_n)\to0, ce qui donne P(An)0P(A_n)\to0, c'est-à-dire XnXX_n\to X en probabilité. \square

AlphaMath Académie · Lois des grands nombres et théorème central limite · Probabilités L3 — Convergence et théorèmes limites