Fiche récapitulative générée pour impression / export PDF.

Licence 3 · Probabilités L3 — Convergence et théorèmes limites

Inégalités de concentration

Inégalités de concentration

1. Inégalité de Markov

Théorème (Markov) : Si XX est une variable aléatoire positive (X0X\geq0 presque sûrement) admettant une espérance, alors pour tout a>0a>0 :

P(Xa)E[X]aP(X\geq a) \leq \frac{E[X]}{a}

Démonstration : Xa1{Xa}X\geq a\cdot\mathbb{1}_{\{X\geq a\}} presque sûrement (car sur {Xa}\{X\geq a\}, XaX\geq a ; ailleurs le membre de droite est nul et X0X\geq0). En prenant l'espérance (qui préserve les inégalités) :

E[X]aE[1{Xa}]=aP(Xa)E[X] \geq a\cdot E[\mathbb{1}_{\{X\geq a\}}] = a\cdot P(X\geq a)

d'où le résultat en divisant par a>0a>0.

Exemple : si XE(λ)X\sim\mathcal{E}(\lambda) (exponentielle de paramètre λ\lambda), E[X]=1/λE[X]=1/\lambda, donc P(Xa)1λaP(X\geq a)\leq\dfrac{1}{\lambda a}. C'est une borne grossière (la vraie valeur est eλae^{-\lambda a}, bien plus petite), mais elle ne demande de connaître que l'espérance.

2. Inégalité de Bienaymé-Tchebychev

Théorème (Bienaymé-Tchebychev) : Si XX admet une variance σ2=Var(X)\sigma^2=\text{Var}(X), alors pour tout ε>0\varepsilon>0 :

P(XE[X]ε)σ2ε2P\big(|X-E[X]|\geq\varepsilon\big) \leq \frac{\sigma^2}{\varepsilon^2}

Démonstration : On applique Markov à la variable positive Y=(XE[X])2Y=(X-E[X])^2 avec le seuil a=ε2a=\varepsilon^2 :

P(Yε2)E[Y]ε2=Var(X)ε2P(Y\geq\varepsilon^2) \leq \frac{E[Y]}{\varepsilon^2} = \frac{\text{Var}(X)}{\varepsilon^2}

et {Yε2}={XE[X]ε}\{Y\geq\varepsilon^2\}=\{|X-E[X]|\geq\varepsilon\} (car Y=(XE[X])2ε2    XE[X]εY=(X-E[X])^2\geq\varepsilon^2 \iff |X-E[X]|\geq\varepsilon).

Exemple : X1,,XnX_1,\dots,X_n i.i.d. de loi E(1)\mathcal{E}(1) (donc E[Xi]=1E[X_i]=1, Var(Xi)=1\text{Var}(X_i)=1). Pour Xn=1nXi\overline{X_n}=\frac1n\sum X_i, on a E[Xn]=1E[\overline{X_n}]=1 et Var(Xn)=1n\text{Var}(\overline{X_n})=\dfrac{1}{n} (variance de la moyenne d'i.i.d.). Avec n=100n=100 et ε=0,1\varepsilon=0{,}1 :

P(X10010,1)1/1000,01=1P\big(|\overline{X_{100}}-1|\geq0{,}1\big) \leq \frac{1/100}{0{,}01} = 1

(borne triviale ici, mais elle devient utile pour nn grand : avec n=10000n=10\,000, la borne tombe à 0,010{,}01).

3. Inégalité de Cauchy-Schwarz (rappel probabiliste)

Pour X,YX,Y de carré intégrable :

E[XY]E[X2]E[Y2]\big|E[XY]\big| \leq \sqrt{E[X^2]}\sqrt{E[Y^2]}

avec égalité si et seulement si XX et YY sont proportionnelles presque sûrement. Conséquence : le coefficient de corrélation ρ(X,Y)=Cov(X,Y)σXσY\rho(X,Y)=\dfrac{\text{Cov}(X,Y)}{\sigma_X\sigma_Y} vérifie toujours ρ(X,Y)1|\rho(X,Y)|\leq1.

4. Inégalité de Jensen

Théorème (Jensen) : Si φ:RR\varphi:\mathbb{R}\to\mathbb{R} est convexe et XX une variable aléatoire intégrable, alors :

φ(E[X])E[φ(X)]\varphi(E[X]) \leq E[\varphi(X)]

Exemple classique : φ(x)=x2\varphi(x)=x^2 est convexe, donc E[X]2E[X2]E[X]^2\leq E[X^2] — c'est exactement la positivité de Var(X)=E[X2]E[X]20\text{Var}(X)=E[X^2]-E[X]^2\geq0, retrouvée comme cas particulier de Jensen.

5. Pourquoi ces inégalités sont essentielles

Ces inégalités sont les outils de base pour démontrer les théorèmes limites (lois des grands nombres, paragraphes suivants) : elles permettent de majorer une probabilité de déviation sans connaître la loi exacte de la variable, seulement quelques moments (espérance, variance). C'est le principe de la concentration de la mesure.

6. Récapitulatif


InégalitéHypothèseConclusion
|---|---|---|



MarkovX0X\geq0, E[X]<E[X]<\inftyP(Xa)E[X]/aP(X\geq a)\leq E[X]/a
Bienaymé-TchebychevVar(X)<\text{Var}(X)<\inftyP(XE[X]ε)σ2/ε2P(\vert X-E[X]\vert\geq\varepsilon)\leq\sigma^2/\varepsilon^2
Cauchy-SchwarzX,YX,Y carré intégrableE[XY]E[X2]E[Y2]\vert E[XY]\vert\leq\sqrt{E[X^2]E[Y^2]}
Jensenφ\varphi convexeφ(E[X])E[φ(X)]\varphi(E[X])\leq E[\varphi(X)]

Exercices de la leçon

Exercice 1

Que dit l'inégalité de Markov pour une variable aléatoire positive XX ?

Corrigé

L'inégalité de Markov énonce P(Xa)E[X]/aP(X\geq a)\leq E[X]/a pour X0X\geq0 et a>0a>0. C'est une majoration, pas une égalité, et elle ne fait intervenir que l'espérance (pas la variance, contrairement à Bienaymé-Tchebychev).

Exercice 2

Vrai ou faux : l'inégalité de Bienaymé-Tchebychev nécessite que XX admette une variance finie.

Corrigé

Vrai. La démonstration applique Markov à (XE[X])2(X-E[X])^2, dont l'espérance est précisément Var(X)\text{Var}(X) ; il faut donc que cette variance soit finie pour que la borne ait un sens.

Exercice 3

Soit XE(2)X\sim\mathcal{E}(2) (exponentielle de paramètre λ=2\lambda=2, E[X]=1/2E[X]=1/2). Quelle borne de Markov obtient-on pour P(X5)P(X\geq5) ?

Corrigé

Markov donne P(Xa)E[X]/a=(1/2)/5=0,1P(X\geq a)\leq E[X]/a = (1/2)/5 = 0{,}1.

Exercice 4

Soit XX telle que E[X]=10E[X]=10 et Var(X)=4\text{Var}(X)=4. Quelle borne de Bienaymé-Tchebychev obtient-on pour P(X104)P(|X-10|\geq4) ?

Corrigé

P(XE[X]ε)σ2/ε2=4/16=0,25P(|X-E[X]|\geq\varepsilon)\leq\sigma^2/\varepsilon^2 = 4/16 = 0{,}25.

Exercice 5

Vrai ou faux : pour toute variable aléatoire XX de carré intégrable, E[X]2E[X2]E[X]^2\leq E[X^2].

Corrigé

Vrai. C'est l'inégalité de Jensen appliquée à la fonction convexe φ(x)=x2\varphi(x)=x^2, équivalente à Var(X)=E[X2]E[X]20\text{Var}(X)=E[X^2]-E[X]^2\geq0.

Exercice 6

On lance n=10000n=10\,000 fois une pièce équilibrée. Soit SnS_n le nombre de faces, E[Sn]=5000E[S_n]=5000, Var(Sn)=2500\text{Var}(S_n)=2500. Quelle borne de Tchebychev obtient-on pour P(Sn5000100)P(|S_n-5000|\geq100) ?

Corrigé

Var(Sn)=np(1p)=10000×0,5×0,5=2500\text{Var}(S_n)=np(1-p)=10000\times0{,}5\times0{,}5=2500. La borne donne 2500/1002=2500/10000=0,252500/100^2=2500/10000=0{,}25.

Exercice 7

Pourquoi l'inégalité de Markov, appliquée directement à XE(λ)X\sim\mathcal{E}(\lambda), donne-t-elle une borne nettement plus grossière que la valeur exacte P(Xa)=eλaP(X\geq a)=e^{-\lambda a} ?

Corrigé

L'inégalité de Markov est une borne universelle, valable pour n'importe quelle variable positive ayant la même espérance — elle ne « voit » que ce seul moment. Or la loi exponentielle décroît très vite (exponentiellement), alors que la borne de Markov ne décroît qu'en 1/a1/a (polynomialement). L'écart entre 1/(λa)1/(\lambda a) et eλae^{-\lambda a} illustre que les bornes générales (valables pour toute une classe de lois) sont nécessairement moins précises qu'un calcul exact exploitant la forme particulière de la loi.

Exercice 8

Soit XX de loi uniforme sur [0,1][0,1]. Calculer la borne de Tchebychev pour P(X1/21/4)P(|X-1/2|\geq1/4) et comparer à la valeur exacte.

Corrigé

Pour XU[0,1]X\sim\mathcal{U}[0,1], Var(X)=112\text{Var}(X)=\dfrac{1}{12}. La borne de Tchebychev donne P(X1/21/4)1/12(1/4)2=1/121/16=1612=43>1P(|X-1/2|\geq1/4)\leq\dfrac{1/12}{(1/4)^2}=\dfrac{1/12}{1/16}=\dfrac{16}{12}=\dfrac{4}{3}>1 : la borne est triviale (toujours vraie, sans aucune information utile, puisqu'une probabilité est toujours 1\leq1).

La valeur exacte se calcule directement : P(X1/21/4)=P(X1/4)+P(X3/4)=14+14=12P(|X-1/2|\geq1/4)=P(X\leq1/4)+P(X\geq3/4)=\dfrac14+\dfrac14=\dfrac12.

Cela illustre une limite réelle de Tchebychev : pour des écarts modestes par rapport à l'écart-type, la borne peut être inutile ; elle devient pertinente surtout pour des grandes déviations.

Exercice 9

Vrai ou faux : si ρ(X,Y)\rho(X,Y) désigne le coefficient de corrélation de XX et YY, alors ρ(X,Y)=±1\rho(X,Y)=\pm1 si et seulement si YY est une fonction affine de XX presque sûrement.

Corrigé

Vrai. C'est le cas d'égalité dans Cauchy-Schwarz appliqué à XE[X]X-E[X] et YE[Y]Y-E[Y] : l'égalité Cov(X,Y)=σXσY|\text{Cov}(X,Y)|=\sigma_X\sigma_Y équivaut à la proportionnalité presque sûre de XE[X]X-E[X] et YE[Y]Y-E[Y], c'est-à-dire Y=aX+bY=aX+b pour des constantes a,ba,b.

Exercice 10

Soit X1,,XnX_1,\dots,X_n i.i.d. de loi E(1)\mathcal{E}(1) et Xn=1nXi\overline{X_n}=\frac1n\sum X_i. À partir de quel nn la borne de Tchebychev garantit-elle P(Xn10,1)0,05P(|\overline{X_n}-1|\geq0{,}1)\leq0{,}05 ?

Corrigé

Var(Xn)=1/n\text{Var}(\overline{X_n})=1/n. La borne est 1/n0,01=100n\dfrac{1/n}{0{,}01}=\dfrac{100}{n}. On veut 100n0,05\dfrac{100}{n}\leq0{,}05, soit n100/0,05=2000n\geq100/0{,}05=2000.

Exercice 11

Démontrer l'inégalité de Cauchy-Schwarz probabiliste E[XY]E[X2]E[Y2]|E[XY]|\leq\sqrt{E[X^2]}\sqrt{E[Y^2]} en étudiant le polynôme tE[(X+tY)2]t\mapsto E[(X+tY)^2].

Corrigé

Pour tout réel tt, (X+tY)20(X+tY)^2\geq0 presque sûrement, donc en prenant l'espérance (linéarité) :

P(t)=E[(X+tY)2]=E[X2]+2tE[XY]+t2E[Y2]0P(t)=E[(X+tY)^2]=E[X^2]+2tE[XY]+t^2E[Y^2]\geq0

Si E[Y2]=0E[Y^2]=0 alors Y=0Y=0 presque sûrement et l'inégalité est triviale (000\leq0). Sinon PP est un polynôme du second degré en tt, à coefficient dominant E[Y2]>0E[Y^2]>0, qui est toujours positif ou nul : son discriminant doit être négatif ou nul :

Δ=4E[XY]24E[X2]E[Y2]0\Delta = 4E[XY]^2 - 4E[X^2]E[Y^2] \leq 0

D'où E[XY]2E[X2]E[Y2]E[XY]^2\leq E[X^2]\,E[Y^2], et en prenant la racine carrée (les deux membres sont positifs) :

E[XY]E[X2]E[Y2]|E[XY]| \leq \sqrt{E[X^2]}\,\sqrt{E[Y^2]} \qquad \square

Exercice 12

Démontrer l'inégalité de Jensen φ(E[X])E[φ(X)]\varphi(E[X])\leq E[\varphi(X)] pour φ\varphi convexe et dérivable, en utilisant la propriété φ(x)φ(m)+φ(m)(xm)\varphi(x)\geq\varphi(m)+\varphi'(m)(x-m) (tangente sous le graphe en tout point mm).

Corrigé

Propriété de convexité utilisée : pour une fonction φ\varphi convexe et dérivable, le graphe est toujours au-dessus de n'importe quelle tangente : pour tout mm et tout xx,

φ(x)φ(m)+φ(m)(xm)\varphi(x) \geq \varphi(m) + \varphi'(m)(x-m)

Application : posons m=E[X]m=E[X] (un réel fixe) et appliquons l'inégalité ci-dessus en x=X(ω)x=X(\omega) pour chaque issue ω\omega — c'est une inégalité presque sûre entre variables aléatoires :

φ(X)φ(E[X])+φ(E[X])(XE[X])p.s.\varphi(X) \geq \varphi(E[X]) + \varphi'(E[X])\cdot(X-E[X]) \quad \text{p.s.}

Passage à l'espérance (qui préserve les inégalités, et φ(E[X])\varphi(E[X]), φ(E[X])\varphi'(E[X]) sont des constantes) :

E[φ(X)]φ(E[X])+φ(E[X])(E[X]E[X])=φ(E[X])+φ(E[X])0=φ(E[X])E[\varphi(X)] \geq \varphi(E[X]) + \varphi'(E[X])\cdot\big(E[X]-E[X]\big) = \varphi(E[X]) + \varphi'(E[X])\cdot0 = \varphi(E[X])

D'où φ(E[X])E[φ(X)]\varphi(E[X])\leq E[\varphi(X)]. \square

Exercice 13

Soit X0X\geq0 d'espérance E[X]=μE[X]=\mu. Démontrer que pour tout a>μa>\mu, P(Xa)μaP(X\geq a)\leq\dfrac{\mu}{a}, puis donner un exemple de loi pour laquelle cette borne est atteinte exactement (égalité).

Corrigé

L'inégalité P(Xa)μ/aP(X\geq a)\leq\mu/a est l'inégalité de Markov elle-même (cf. §1), valable pour tout a>0a>0 dès que X0X\geq0 et E[X]=μ<E[X]=\mu<\infty.

Cas d'égalité : prenons XX qui ne prend que deux valeurs, 00 et aa, avec P(X=a)=pP(X=a)=p et P(X=0)=1pP(X=0)=1-p. Alors E[X]=apE[X]=ap. Pour avoir E[X]=μE[X]=\mu, on choisit p=μ/ap=\mu/a (valeur licite si μa\mu\leq a, donc en particulier pour a>μa>\mu avec p<1p<1). Dans ce cas :

P(Xa)=P(X=a)=p=μaP(X\geq a) = P(X=a) = p = \frac{\mu}{a}

ce qui réalise l'égalité exacte dans Markov. Cela montre que la borne de Markov est optimale dans le pire cas : il existe toujours une loi (à deux points de masse) pour laquelle l'inégalité devient une égalité.

Exercice 14

Soit XX une variable aléatoire bornée, 0XM0\leq X\leq M, avec E[X]=μE[X]=\mu. Montrer que Var(X)μ(Mμ)\text{Var}(X)\leq\mu(M-\mu).

Corrigé

Idée clé : comme 0XM0\leq X\leq M presque sûrement, on a (MX)X0(M-X)\cdot X\geq0 presque sûrement (produit de deux quantités positives), donc E[(MX)X]0E\big[(M-X)X\big]\geq0.

En développant :

E[(MX)X]=ME[X]E[X2]0    E[X2]MμE[(M-X)X] = M\,E[X] - E[X^2] \geq 0 \implies E[X^2] \leq M\mu

Or Var(X)=E[X2]μ2\text{Var}(X)=E[X^2]-\mu^2, donc :

Var(X)=E[X2]μ2Mμμ2=μ(Mμ)\text{Var}(X) = E[X^2]-\mu^2 \leq M\mu - \mu^2 = \mu(M-\mu) \qquad \square

C'est une borne classique (parfois appelée inégalité de Popoviciu dans un cas voisin) utile pour majorer la variance de variables bornées sans connaître leur loi exacte — par exemple pour les variables de Bernoulli (M=1M=1), elle redonne exactement Var(X)=p(1p)p(1p)\text{Var}(X)=p(1-p)\leq p(1-p) (égalité).

Exercice 15

Vrai ou faux : si XnXX_n \to X en probabilité et que (Xn)(X_n) est bornée par une constante MM pour tout nn, alors E[Xn]E[X]E[X_n]\to E[X].

Corrigé

Vrai. C'est une conséquence du théorème de convergence dominée (ou de sa version pour la convergence en probabilité) : la convergence en probabilité d'une suite uniformément bornée entraîne la convergence des espérances. Sans l'hypothèse de bornitude (ou domination), ce résultat est faux en général — un contre-exemple classique est une suite de variables prenant la valeur nn avec probabilité 1/n1/n et 00 sinon : Xn0X_n\to0 en probabilité mais E[Xn]=1E[X_n]=1 pour tout nn, ne convergeant pas vers E[0]=0E[0]=0.

AlphaMath Académie · Inégalités de concentration · Probabilités L3 — Convergence et théorèmes limites