Fiche récapitulative générée pour impression / export PDF.

Licence 2 · Calcul différentiel L2 — Fonctions de plusieurs variables et optimisation

Matrice hessienne

Matrice hessienne

1. Dérivées partielles secondes

Soit f:R2Rf:\mathbb{R}^2\to\mathbb{R} admettant des dérivées partielles. On peut dériver à nouveau ces dérivées partielles : on obtient les dérivées partielles secondes, notées

2fx2,2fy2,2fxy=x(fy),2fyx=y(fx)\frac{\partial^2 f}{\partial x^2}, \quad \frac{\partial^2 f}{\partial y^2}, \quad \frac{\partial^2 f}{\partial x\partial y} = \frac{\partial}{\partial x}\left(\frac{\partial f}{\partial y}\right), \quad \frac{\partial^2 f}{\partial y\partial x} = \frac{\partial}{\partial y}\left(\frac{\partial f}{\partial x}\right)

On note aussi fxxf_{xx}, fyyf_{yy}, fxyf_{xy}, fyxf_{yx}.

Exemple : f(x,y)=x3y2f(x,y) = x^3y^2. On a fx=3x2y2f_x = 3x^2y^2, fy=2x3yf_y=2x^3y. Puis fxx=6xy2f_{xx} = 6xy^2, fyy=2x3f_{yy}=2x^3, fxy=x(2x3y)=6x2yf_{xy} = \frac{\partial}{\partial x}(2x^3y) = 6x^2y, et fyx=y(3x2y2)=6x2yf_{yx} = \frac{\partial}{\partial y}(3x^2y^2) = 6x^2y. On remarque fxy=fyxf_{xy}=f_{yx}.

2. Théorème de Schwarz

Théorème (Schwarz) : si ff admet des dérivées partielles secondes fxyf_{xy} et fyxf_{yx} continues au voisinage d'un point aa, alors elles sont égales en aa :

2fxy(a)=2fyx(a)\frac{\partial^2 f}{\partial x\partial y}(a) = \frac{\partial^2 f}{\partial y\partial x}(a)

On dit que les dérivées croisées coïncident. Pour toutes les fonctions usuelles (polynômes, exponentielles, fonctions trigonométriques et leurs combinaisons), cette hypothèse de continuité est automatiquement satisfaite, donc on a toujours fxy=fyxf_{xy}=f_{yx} en pratique dans ce cours.

Contre-exemple (hors hypothèses de Schwarz, pour la culture) : il existe des fonctions exotiques pour lesquelles fxy(0,0)fyx(0,0)f_{xy}(0,0)\neq f_{yx}(0,0) — cela ne peut se produire que lorsque ces dérivées secondes ne sont pas continues en ce point.

3. La matrice hessienne

La matrice hessienne de f:RnRf:\mathbb{R}^n\to\mathbb{R} en un point aa est la matrice carrée n×nn\times n des dérivées partielles secondes :

Hf(a)=(2fx12(a)2fx1xn(a)2fxnx1(a)2fxn2(a))H_f(a) = \begin{pmatrix} \dfrac{\partial^2 f}{\partial x_1^2}(a) & \cdots & \dfrac{\partial^2 f}{\partial x_1\partial x_n}(a) \\ \vdots & \ddots & \vdots \\ \dfrac{\partial^2 f}{\partial x_n\partial x_1}(a) & \cdots & \dfrac{\partial^2 f}{\partial x_n^2}(a) \end{pmatrix}

Par le théorème de Schwarz (sous hypothèse de continuité, presque toujours vérifiée en pratique), Hf(a)H_f(a) est une matrice symétrique.

Exemple (suite) : pour f(x,y)=x3y2f(x,y)=x^3y^2, en un point général (x,y)(x,y) :

Hf(x,y)=(6xy26x2y6x2y2x3)H_f(x,y) = \begin{pmatrix} 6xy^2 & 6x^2y \\ 6x^2y & 2x^3 \end{pmatrix}

4. Formule de Taylor à l'ordre 2

Si ff est deux fois différentiable en aa, on a le développement de Taylor :

f(a+h)=f(a)+f(a)h+12hTHf(a)h+o(h2)f(a+h) = f(a) + \nabla f(a)\cdot h + \frac12\, h^T H_f(a)\, h + o(\|h\|^2)

hTHf(a)hh^T H_f(a) h est une forme quadratique en hh. C'est cette forme quadratique qui va déterminer, au voisinage d'un point critique (f(a)=0\nabla f(a)=0), si ff présente un minimum, un maximum, ou un point-selle — c'est l'objet de la leçon suivante.

5. Signe d'une forme quadratique en dimension 2

Pour n=2n=2, Hf(a)=(rsst)H_f(a) = \begin{pmatrix} r & s \\ s & t\end{pmatrix} avec r=fxx(a)r=f_{xx}(a), s=fxy(a)s=f_{xy}(a), t=fyy(a)t=f_{yy}(a). On définit le déterminant (parfois noté Δ\Delta ou disc\operatorname{disc}) :

detHf(a)=rts2\det H_f(a) = rt - s^2

- Si detHf(a)>0\det H_f(a) > 0 et r>0r>0 (ou t>0t>0, même signe) : la forme quadratique est définie positive.
- Si detHf(a)>0\det H_f(a) > 0 et r<0r<0 : la forme quadratique est définie négative.
- Si detHf(a)<0\det H_f(a) < 0 : la forme quadratique est indéfinie (signature mixte).
- Si detHf(a)=0\det H_f(a) = 0 : cas dégénéré, non concluant à cet ordre.

Cette classification se retrouve aussi via les valeurs propres de Hf(a)H_f(a) (matrice symétrique, donc diagonalisable avec valeurs propres réelles) : définie positive     \iff les deux valeurs propres sont >0>0 ; définie négative     \iff les deux sont <0<0 ; indéfinie     \iff les deux valeurs propres sont de signes opposés.

6. Lien avec la convexité locale

Convexité locale : si Hf(a)H_f(a) est définie positive (resp. semi-définie positive sur tout un voisinage), le graphe de ff est localement convexe autour de aa (il se courbe "vers le haut", comme un bol). Si HfH_f est définie positive sur tout l'espace, ff est convexe globalement.

Exemple résolu : soit f(x,y)=x2+4y2f(x,y) = x^2+4y^2. Hf(x,y)=(2008)H_f(x,y) = \begin{pmatrix}2&0\\0&8\end{pmatrix} en tout point (matrice constante car ff est un polynôme de degré 22). detHf=16>0\det H_f = 16>0 et r=2>0r=2>0 : la hessienne est définie positive partout. ff est donc convexe sur tout R2\mathbb{R}^2, et son graphe est un paraboloïde elliptique tourné "vers le haut".

Exercices de la leçon

Exercice 1

Calculer la matrice hessienne de f(x,y)=x2+y2f(x,y) = x^2+y^2.

Corrigé

fx=2xf_x=2x, fy=2yf_y=2y. Puis fxx=2f_{xx}=2, fyy=2f_{yy}=2, fxy=fyx=0f_{xy}=f_{yx}=0. Hf=(2002)H_f = \begin{pmatrix}2&0\\0&2\end{pmatrix} (matrice constante, indépendante du point).

Exercice 2

Vrai ou faux : la matrice hessienne d'une fonction C2\mathcal{C}^2 est toujours symétrique.

Corrigé

Vrai. C'est une conséquence directe du théorème de Schwarz : si les dérivées secondes croisées sont continues (c'est le cas pour une fonction C2\mathcal{C}^2), alors fxy=fyxf_{xy}=f_{yx}, ce qui rend la matrice hessienne symétrique.

Exercice 3

Pour f(x,y)=x2y2f(x,y) = x^2 - y^2, calculer detHf\det H_f et en déduire le signe de la forme quadratique associée.

Corrigé

fxx=2f_{xx}=2, fyy=2f_{yy}=-2, fxy=0f_{xy}=0. Hf=(2002)H_f=\begin{pmatrix}2&0\\0&-2\end{pmatrix}. detHf=2×(2)02=4<0\det H_f = 2\times(-2)-0^2=-4<0 : la forme quadratique est indéfinite (valeurs propres 22 et 2-2, de signes opposés).

Exercice 4

Calculer fxyf_{xy} et fyxf_{yx} pour f(x,y)=sin(xy)f(x,y)=\sin(xy), et vérifier qu'elles coïncident.

Corrigé

fx=ycos(xy)f_x = y\cos(xy). fxy=y[ycos(xy)]=cos(xy)+y×(xsin(xy))=cos(xy)xysin(xy)f_{xy} = \dfrac{\partial}{\partial y}[y\cos(xy)] = \cos(xy) + y\times(-x\sin(xy)) = \cos(xy) - xy\sin(xy). De même fy=xcos(xy)f_y=x\cos(xy), et fyx=x[xcos(xy)]=cos(xy)xysin(xy)f_{yx} = \dfrac{\partial}{\partial x}[x\cos(xy)] = \cos(xy) - xy\sin(xy). On a bien fxy=fyxf_{xy}=f_{yx}, conformément au théorème de Schwarz (sin(xy)\sin(xy) est C\mathcal C^\infty).

Exercice 5

Vrai ou faux : si detHf(a)>0\det H_f(a) > 0 et fxx(a)<0f_{xx}(a) < 0, alors la hessienne est définie négative.

Corrigé

Vrai. Lorsque detHf(a)>0\det H_f(a)>0, les deux valeurs propres sont de même signe (leur produit est positif). Si de plus fxx(a)<0f_{xx}(a)<0 (qui, combiné avec det>0\det>0, force aussi fyy(a)<0f_{yy}(a)<0), les deux valeurs propres sont négatives : la hessienne est définie négative.

Exercice 6

Calculer la matrice hessienne de f(x,y,z)=x2+y2+z22xyf(x,y,z) = x^2+y^2+z^2-2xy.

Corrigé

fx=2x2yf_x=2x-2y, fy=2y2xf_y=2y-2x, fz=2zf_z=2z. Dérivées secondes : fxx=2f_{xx}=2, fyy=2f_{yy}=2, fzz=2f_{zz}=2, fxy=fyx=2f_{xy}=f_{yx}=-2, fxz=fzx=0f_{xz}=f_{zx}=0, fyz=fzy=0f_{yz}=f_{zy}=0. Hf=(220220002)H_f = \begin{pmatrix}2&-2&0\\-2&2&0\\0&0&2\end{pmatrix} — matrice constante et symétrique.

Exercice 7

Pour f(x,y)=x4+y4f(x,y)=x^4+y^4, calculer Hf(0,0)H_f(0,0). Cette matrice est-elle définie positive ?

Corrigé

fx=4x3f_x=4x^3, fy=4y3f_y=4y^3. fxx=12x2f_{xx}=12x^2, fyy=12y2f_{yy}=12y^2, fxy=0f_{xy}=0. En (0,0)(0,0), Hf(0,0)=(0000)H_f(0,0) = \begin{pmatrix}0&0\\0&0\end{pmatrix} — la matrice nulle, qui n'est pas définie positive (elle est seulement semi-définie positive, au sens large). Pourtant (0,0)(0,0) est bien un minimum global de ff (car f(x,y)=x4+y40=f(0,0)f(x,y)=x^4+y^4\geq0=f(0,0)). Cet exemple illustre que le critère de la hessienne définie positive est suffisant mais pas nécessaire pour un minimum : quand detHf=0\det H_f=0, il faut une étude plus fine (ici directe, par positivité de ff).

Exercice 8

Montrer que pour f(x,y)=ax2+2bxy+cy2f(x,y) = ax^2+2bxy+cy^2 (forme quadratique générale), la hessienne est constante et égale à Hf=(2a2b2b2c)H_f = \begin{pmatrix}2a&2b\\2b&2c\end{pmatrix}, puis donner la condition sur a,b,ca,b,c pour qu'elle soit définie positive.

Corrigé

fx=2ax+2byf_x = 2ax+2by, fy=2bx+2cyf_y=2bx+2cy (en utilisant la symétrie du terme croisé 2bxy2bxy). Puis fxx=2af_{xx}=2a, fyy=2cf_{yy}=2c, fxy=fyx=2bf_{xy}=f_{yx}=2b. Hf=(2a2b2b2c)H_f = \begin{pmatrix}2a&2b\\2b&2c\end{pmatrix}, indépendante de (x,y)(x,y) car ff est un polynôme homogène de degré 22. Condition de définie positivité : detHf=4ac4b2=4(acb2)>0\det H_f = 4ac-4b^2 = 4(ac-b^2) > 0 et a>0a>0 (équivalent à fxx>0f_{xx}>0), soit ac>b2ac>b^2 et a>0a>0.

Exercice 9

Vrai ou faux : une matrice hessienne avec detHf=0\det H_f=0 et fxx0f_{xx}\neq0 ne donne aucune information sur le comportement local de ff (cas dégénéré).

Corrigé

Vrai. Lorsque detHf=0\det H_f=0, une des valeurs propres est nulle : la forme quadratique du second ordre ne suffit plus à trancher (il faut étudier des termes d'ordre supérieur ou la fonction directement). C'est le cas \"dégénéré\" du critère de classification des points critiques.

Exercice 10

Calculer les valeurs propres de Hf(1,1)H_f(1,1) pour f(x,y)=x2+3xy+y2f(x,y) = x^2+3xy+y^2, et déterminer si la forme quadratique est définie positive, négative ou indéfinie.

Corrigé

fx=2x+3yf_x=2x+3y, fy=3x+2yf_y=3x+2y. fxx=2f_{xx}=2, fyy=2f_{yy}=2, fxy=fyx=3f_{xy}=f_{yx}=3 (constantes, donc HfH_f identique en tout point, en particulier en (1,1)(1,1)). Hf=(2332)H_f=\begin{pmatrix}2&3\\3&2\end{pmatrix}. Polynôme caractéristique : (2λ)29=0    (2λ)2=9    2λ=±3    λ=23(2-\lambda)^2-9=0 \iff (2-\lambda)^2=9 \iff 2-\lambda=\pm3 \iff \lambda = 2\mp3, soit λ1=5\lambda_1=5 et λ2=1\lambda_2=-1. Signes opposés : la forme quadratique est indéfinie (cohérent avec detHf=49=5<0\det H_f = 4-9=-5<0).

Exercice 11

Soit f:R2Rf:\mathbb{R}^2\to\mathbb{R}, C2\mathcal{C}^2, telle que Hf(a)H_f(a) soit définie positive en un point aa. Que peut-on dire de ff au voisinage immédiat de aa par rapport au plan tangent ?

Corrigé

D'après la formule de Taylor à l'ordre 22 : f(a+h)=f(a)+f(a)h+12hTHf(a)h+o(h2)f(a+h) = f(a) + \nabla f(a)\cdot h + \frac12 h^T H_f(a) h + o(\|h\|^2). Le plan tangent est donné par P(h)=f(a)+f(a)hP(h) = f(a)+\nabla f(a)\cdot h. Donc f(a+h)P(h)=12hTHf(a)h+o(h2)f(a+h) - P(h) = \frac12 h^T H_f(a) h + o(\|h\|^2). Si Hf(a)H_f(a) est définie positive, hTHf(a)hλminh2>0h^T H_f(a) h \geq \lambda_{\min}\|h\|^2 > 0 pour h0h\neq0 (λmin>0\lambda_{\min}>0 la plus petite valeur propre), donc pour hh assez petit le terme quadratique domine le o(h2)o(\|h\|^2) : f(a+h)>P(h)f(a+h) > P(h). Conclusion : le graphe de ff reste au-dessus de son plan tangent au voisinage de aa — c'est la traduction géométrique de la convexité locale stricte.

Exercice 12

Vrai ou faux : si fxx(a)>0f_{xx}(a)>0 et fyy(a)>0f_{yy}(a)>0, alors Hf(a)H_f(a) est nécessairement définie positive.

Corrigé

Faux. Il faut aussi detHf(a)=fxxfyyfxy2>0\det H_f(a) = f_{xx}f_{yy}-f_{xy}^2 > 0. Contre-exemple : fxx=1f_{xx}=1, fyy=1f_{yy}=1, fxy=10f_{xy}=10 : les termes diagonaux sont positifs mais det=1100=99<0\det = 1-100=-99<0, donc la matrice est en réalité indéfinie (pas définie positive), à cause d'un terme croisé trop grand.

Exercice 13

Soit f(x,y)=ln(1+x2+y2)f(x,y) = \ln(1+x^2+y^2). Calculer Hf(0,0)H_f(0,0).

Corrigé

fx=2x1+x2+y2f_x = \dfrac{2x}{1+x^2+y^2}, fy=2y1+x2+y2f_y=\dfrac{2y}{1+x^2+y^2}. En dérivant à nouveau (quotient), fxx=2(1+x2+y2)2x2x(1+x2+y2)2f_{xx} = \dfrac{2(1+x^2+y^2) - 2x\cdot2x}{(1+x^2+y^2)^2}, qui en (0,0)(0,0) donne 2×101=2\dfrac{2\times1-0}{1}=2. Par symétrie des rôles de x,yx,y, fyy(0,0)=2f_{yy}(0,0)=2. Pour fxy=y(2x1+x2+y2)=2x×2y(1+x2+y2)2f_{xy} = \dfrac{\partial}{\partial y}\left(\dfrac{2x}{1+x^2+y^2}\right) = \dfrac{-2x\times2y}{(1+x^2+y^2)^2}, qui s'annule en (0,0)(0,0). Donc Hf(0,0)=(2002)H_f(0,0) = \begin{pmatrix}2&0\\0&2\end{pmatrix}, définie positive : (0,0)(0,0) est bien un minimum local (et global) de ff, cohérent avec ln(1+x2+y2)ln(1)=0=f(0,0)\ln(1+x^2+y^2)\geq\ln(1)=0=f(0,0).

Exercice 14

Soit Hf(a)=(4221)H_f(a) = \begin{pmatrix} 4 & 2 \\ 2 & 1\end{pmatrix}. Calculer detHf(a)\det H_f(a) et conclure sur la nature de la forme quadratique (en précisant le cas limite).

Corrigé

detHf(a)=4×12×2=44=0\det H_f(a) = 4\times1 - 2\times2 = 4-4=0. C'est le cas dégénéré : une des deux valeurs propres est nulle (la trace est 4+1=54+1=5, donc les valeurs propres sont 00 et 55, qui se vérifie aussi car HfH_f a pour vecteur propre (1,2)(1,-2) associé à la valeur propre 00 : Hf(1,2)T=(44,22)=(0,0)H_f(1,-2)^T = (4-4,\,2-2)=(0,0)). La forme quadratique est semi-définie positive (positive ou nulle, jamais négative), mais pas strictement définie positive. Ce cas ne permet pas de conclure directement sur la nature du point critique par le seul critère de la hessienne : il faut examiner des ordres supérieurs ou la fonction directement.

Exercice 15

Expliquer pourquoi, pour une fonction de classe C2\mathcal C^2, la connaissance de Hf(a)H_f(a) permet d'approcher localement ff par une fonction quadratique, et pourquoi cette approximation est dite \"d'ordre 2\".

Corrigé

La formule de Taylor à l'ordre 22 écrit f(a+h)=f(a)+f(a)h+12hTHf(a)h+o(h2)f(a+h) = f(a) + \nabla f(a)\cdot h + \frac12 h^T H_f(a) h + o(\|h\|^2). Le terme de degré 00 (f(a)f(a)), le terme de degré 11 (linéaire en hh, via le gradient) et le terme de degré 22 (quadratique en hh, via la hessienne) forment ensemble un polynôme de degré 22 en hh qui approche ff au voisinage de aa avec une erreur négligeable devant h2\|h\|^2 (et pas seulement devant h\|h\|, comme c'était le cas pour le plan tangent à l'ordre 11). C'est en ce sens que l'on parle d'approximation \"d'ordre 2\" : elle utilise les informations de dérivation jusqu'à l'ordre 22 et offre une précision supérieure, indispensable pour classifier finement les points critiques (un gradient nul à lui seul ne suffit pas, voir leçon suivante).

AlphaMath Académie · Matrice hessienne · Calcul différentiel L2 — Fonctions de plusieurs variables et optimisation