hessen matriisi yleiselle usean muuttujan funktiolle (edwards&penney luku 13.10)

Hessen matriisi yleiselle usean muuttujan funktiolle (Edwards&Penney Luku 13.10)

Neliömuotojen yhteydessä tutustuimme jo reaalisiin, symmetrisiin 33-matriiseihin jatoisaalta kahden muuttujan ääriarvojen etsimisen yhteydessä 2. kl. derivaatojen testiin.Nyt näemme, että nämä kaksi asiaa voidaan yleistää ja yhdistää, kun otetaan käyttöönkäsite Hessen matriisi. Aluksi asetetaan seuraava

Määritelmä. Reaalinen, symmetrinen matriisi A on(i) positiividefiniitti, jos jokaiselle reaaliselle vektorille X (¹ 0) pätee XTAX > 0, (ii) negatiividefiniitti, jos jokaiselle reaaliselle vektorille X (¹ 0) pätee XTAX < 0,(iii) indefiniitti, jos on olemassa reaalinen vektori X jolle XTAX < 0 ja reaalinen vektori Y jolle YTAY > 0.

Esimerkki 1. Koska

z

y

x

)z,y,x(

A

X201

030

102

T

neliömuoto!

xzzyx 2232 222

22222 32 yzxzxzx

03 2222 yzx)zx(

aina, kun (x,y,z) ¹ (0,0,0),on A positiividefiniitti.

Lasketaanpas A:n ominaisarvot eli ratkaistaan l yhtälöstä

0

201

030

102

0

21

123 )(

0123 2 ]))[(( 01203 2 ])[( tai)(

13 321 , taiHuomaamme, että positiividefiniitin matriisin Akaikki ominaisarvot ovat positiivisia. Olisiko tämävain sattumaa?

Esimerkki 2. Koska

z

y

x

)z,y,x(

A

X201

030

102

T

neliömuoto!

xzzyx 2232 222

2222 3yzx)zx(

on A on indefiniitti.

Lasketaan taas A:n ominaisarvot:

0

201

030

102

0

21

123 )(

0123 2 ]))[(( 01203 2 ])[( tai)(

13 321 , tai

Huomaamme, että indefiniitillä matriisilla A on sekäpositiivisia että negatiivisia ominaisarvoja Olisiko tämäkin vain sattuman kauppaa?

0y ja 0 zkun x, ainakin,

0y ja 0zkun x, ainakin,

0

0

Esimerkki 3. Koska

z

y

x

)z,y,x(

A

X310

120

001

T

yzzyx 232 222

22222 22 zzyzyyx

02 2222 z)zy(yx

aina, kun (x,y,z) ¹ (0,0,0),on A negatiividefiniitti.

Laskemalla A:n ominaisarvot huomamme, että ne kaikkiovat negatiivisia.

Yleinen totuus on seuraava

Lause. Reaalinen, symmetrinen matriisi A on(i) posit.definiitti joss A:n ominaisarvot ovat positiivisia,(ii) negat.definiitti joss A:n ominaisarvot ovat negatiivisia,(iii) indefiniitti joss A:lla on sekä positiivisia että negatiivisia ominaisarvoja.

Tarkastellaan nyt yleistä n:n muuttujan reaaliarvoista funktiota f:Rn→R. Oletetaan, ettäf:n kaikki toisen kertaluvun osittaisderivaatat ovat olemassa vieläpä jatkuvina jossakinavaruuden Rn pisteen X = (x1, x2, ... ,xn) ympäristössä. Määritellään funktion f Hessen matriisi seuraavalla tavalla:

nnij

))X(xx

f()X(H

2

X

Kyseessä on siis nn-matriisi,jonka alkioina on funktioita.Koska oletimme osittaisderi-vaatat jatkuviksi, on matriisiH(X) symmetrinen.Kiinteällä X:n arvolla X0

on H(X0) reaalinen. Voimme siis puhua matriisinH(X0) definiittisyydestä!

Esim. Tutki funktion f(x,y) = excos(y) Hessen matriisi definiittisyyttä pisteessä (0,π/2).Ratkaisu. Hesse:

2

22

2

2

2

y

f

yx

fyx

f

x

f

)X(H

excos(y)

11

2

xx

f

21

2

xx

f

nxx

f

1

2

12

2

xx

f

22

2

xx

f

nxx

f

2

2

1

2

xx

f

n

2

2

xx

f

n

nn xx

f

2

-exsin(y)

-exsin(y) -excos(y)

)ycos()ysin(

)ysin()ycos(ex =

)cos()sin(

)sin()cos(e

22

220

01

100H)merkitään(

Nyt det(H0 - lI) = l2 – 1 = 0.Siis l1 = -1 < 0 ja l2 = 1 > 0.

Johtopäätös: Ko. Hessen matriisi on indefiniitti

Tässä vaiheessa huomaamme, että kahden muuttujan funktioon liittyvä diskriminantti, jota tarkastelimme kriittisten pisteiden ja ääriarvojen yhteydesä (toisen derivaatan testi!)on itse asiassa erikoistapaus Hessen matriisiista. Teoriaa voidaan nyt yleistää ja yksin-kertaistaa seuraavasti:

Lause. Olkoon funktiolla f:Rn→R jatkuvat toisen kertaluvun osittaisderivaatat ja olkoonpiste X0 kriittinen piste (käytännössä siis ∂f/∂xi(X0) = 0 kaikilla i = 1, ... , n). Silloin(i) Jos H(X0) on positiividefiniitti, on X0 lokaali minimipiste,(ii) Jos H(X0) on negatiividefiniitti, on X0 lokaali maksimipiste,(iii) Jos H(X0) on indefiniitti, on X0 satulapiste. (Muissa tapauksissa lause ei sano mitään, kriittinen piste on tutkittava muilla keinoin!)

Esim. Tutkitaan funktion f(x,y) = sin(xy) mahdollista ääriarvoa origossa.

(1) Aluksi pitää varmistaa, onko origo funktion f(x,y) kriittinen piste: osittaisderivoidaan!

),xycos(x)y,x(f),xycos(y)y,x(f yx

Erityisesti origossa osittaisderivaattojen arvot ovat

00000

00000

)cos(),(f

)cos(),(f

y

x Kyseessä on kriittinen piste.(2) Muodostetaan Hesse:

2

22

2

2

2

y

f

yx

fyx

f

x

f

)X(H

)xysin(y2

)xysin(x2

)xysin(xy)xycos(

)xysin(xy)xycos(

Erityisesti origossa (merk) H0=

01

10H0

(3) Tutkitaan tämän ominaisarvot:

det(H0-l I) = (-l)2 - 1 = 0 , josta

l1 = -1 < 0 ja l2 = 1 > 0.

Koska kyseinen matriisi onindefiniitti, on origo satulapiste

Differentiaaleista [1-dim tapauksessa, kun y=f(x), on y = f’(x)x] (Erwards&Penney: Luku 13.6)

Olkoon n:n muuttujan funktiolla f(x1,x2,…,xn) on osittaisderivaatatn21 x

f,,

x

f,

x

f

Silloin f:n kokonaisdifferentiaali f on

nn

22

11

Δxx

fΔx

x

fΔx

x

fΔf

Lisäämällä tähän kaavaan itseisarvomerkitsaadaan kaava, jota fysiikassa ym. käytetäänmittaus-, ym. virheen arviointiin, nim.kaava

nn

22

11

max Δxx

fΔx

x

fΔx

x

fΔf

Jos siis muuttujan xi mittaus- tai arviointi-virhe on xi:n suuruinen (i=1,…,n), niin f:nkokonaisvirhe on enintään fmax:n suuruinen.

Esim. Olkoon f(x,y,z) = xyz + xy + 2y2z3, missä x,y ja z ovat mitattuja fysikaalisiasuureita. Jos mittaustulokseksi on saatu x=1, y=2 ja z=3, ja x:n mittauksessa onmahdollista mittausvirhettä 2%, ja y:lle jaz:lle vastaavasti 3% ja 1%, niin mikä onf:n kokonaisvirhe suurimmillaan?

Ratkaisu. x=0.02x, y=0.03y, z=0.01z.

34yzxxzy

f

yyzx

f

22z6yxyz

f

f:n kokonaisvir-heelle saadaan näinyläraja

fmax = |yz +y|0.02x + |xz+x+4yz3|0.03y + |xy + 6y2z2|0.01z x=1y=2z=3

=26.46

Toisaalta f(1,2,3) = 1·2·3 + 1·2 + 2·22 ·33 = 224,joten prosentuaalinenvirhe on 11.82%100%

224

26.46

f(1,2,3)

Δf100 max

Yleensä fysikaalinenmittaustulos annetaanmuodossa f fmax,

tässä 224 26.5

y=2x^2

Huom: E&P käyttäämerkintää df eikä Δf

Usean muuttujan funktion differentioituvuudesta

Usean muuttujan funktion osittaisderivaatat ovat helposti ymmärrettäviä, ja ne yleistävät(eräällä tavalla!) yhden muuttujan funktion derivaatan. Derivaatta voidaan yleistää myöstoisella ’vaativammalla’ tavalla, nimittäin puhutaan differentioituvasta usean muuttujan funktiosta. Käsitellään tämä kolmen muuttujan funktiolle eli funktiotyypille f(x,y,z) = w.

Määr. Funktion f(x,y,z) = w on differentioituva pisteessä/alueessa, jos osittaisderivaatatfx, fy, ja fz, ovat olemassa tässä pisteessä/alueessa JA on olemassa funktio g(x,y,z) siten,että f(x+x,y+y,z+z)-f(x,y,z) = fx(x,y,z)x + fy(x,y,z)y + fz(x,y,z)z +g(x,y,z)eli vektorimuodossa

0)g(

lim missä ),g( )f( )f(-)f(

x

xxxxxxx

0x

Tässä x = (x,y,z) ja 0 = (0,0,0)!

Määritelmän mukaan siis ’f differentioituva f:llä osittaisderivaatat’. Implikaatio toisin päin ei välttämättä päde, mutta aina sen sijaan pätee ’f:llä jatkuvat osittaisderivaatat f differentioituva’Myös voidaan todistaa implikaatio’f differentioituva f jatkuva’

Esim. Onko funktio

22 yx

1y)f(x,

kaikkialla differentioituva?

Kuvaajan perusteellavoi jo päätellä, ettäsuorat y = x ja y = -xovat epäjatkuvuus-kohtia ei osit.deriv. f ei differentioituvasuorilla y= x ja y = -x

Usean muuttujan reaaliarvoisen funktion suunnattu derivaatta yksikkövektorin u suuntaan

määritellään raja-arvona

nn

hu ja :fkun

h

)(f)h(flim )f(D RuRR

xuxx

0

,

Käytännössä suunnattu derivaatta lasketaan vektorin u ja f:n gradienttivektorin

nnx

f

x

f

x

ff eee

22

11

pistetulon avulla, nimittäin

f

Kiinteällä arvolla x = (x1,...,xn) suunnattu derivaatta on luku. Mihin suuntaan se on suurin?

u

Vektoreiden välisen kulman θ cosini toteuttaa tunnetusti

ux f )f(Du

u

u

f

fcos

Siten cosf )f(Du ux

Tämä arvo on suurin, kun θ = 0 eliyksikkövektori u on gradientin suuntainen

Kahden muuttujan funktion gradientti (Edwards&Penney Luku 13.8)

Määr. Funktion f(x,y) = z pisteeseen (a,b,f(a,b))piirretyn gradienttivektorin f(a,b) lauseke on f(a,b) = f1(a,b)i + f2(a,b)j ( luetaan ’nabla’)

Esim. Etsi funktion22 yx

xy)f(x,

gradientti(vektori) pisteessä (1,2,1/5)

Ratkaisu.222

222

1 )y(x

2xyxy)(x,f

x=1y=2

25

3

2222 )y(x

2xyy)(x,f

x=1y=2

25

4

Siis f(1,2) = 1/25(3i - 4j)

Geometrisesti tulkittuna gradientti ilmoittaafunktion f(x,y) suurimman muutossuunnanxy-tasossa pisteessä (a,b).

Esim. Ajatellaan paikkakunnasta piirretyntasokartta, jolla pisteessä (x,y) korkeudenilmoittaa yhtälö h(x,y) = x2y (jossakin rajoi-tetussa alueessa). Jos seisotaan pisteessä(-1,-1,-1), niin missä xy-tason suunnassa(eli kartalla) ’rinne on jyrkin’?

Ratkaisu. Vektorin h(-1,-1) = h1(-1,-1)i + h2(-1,-1)jsuunnassa: h(x,y) = h1(x,y)i + h2(x,y)j = 2xyi + x2j, erityisesti h(-1,-1) = 2i + j

•

Jatkokysymys: Jos pisteeseen (1,3) asetetaan pallo, niin mihin suuntaan se lähtee vierimään?Vastaus: vektorin - h(1,3) = -(2·1·3i + 12j) = -6i - jsuuntaan!

Huom! Tämä suunta on vainajanhetkellä t = 0, se muuttuukun pallo liikkuu eteenpäin,kuitenkin aina (suurin piirtein)suuntaan -h(x,y) Suunnattu derivaatta

Gradienttivektori f(a,b) = f1(a,b)i + f2(a,b)j kertoo funktion f(x,y) suurimman muutos-suunnan (’suunnan, missä mäki on jyrkin ylöspäin’). Voidaan kysyä toisinpäin ja ylei-semmin: jos on annettu jokin xy-tason vektori v, niin paljonko on rinteen ’jyrkkyys’pisteessä (a,b,f(a,b)) tämän vektorin suuntaan? Vastauksen tähän antaa suunnatunderivaatan käsite, joka lasketaan kaavalla

b)f(a,v

vb)f(a,D

v

v

Esim. Laske suunnattu derivaatta funktiolle h(x,y) = x2y pisteessä (-1,-1) vektorin v = i +2jsuuntaan.

Ratkaisu.Aiemmin laskimme jo, että h(-1,-1) = 2i + j.Siten

)2(2

2h(-1,-1)D ji

ji

ji

v

v

5

4

21

211222

Siis rinteen h(x,y) = x2y jyrkkyys suunnassa i +2j on

5

45

4 = n. 60° Nousua arctan

Jatkokysymys 1. Missä xy-tason suun-nassa pisteessä (-1,-1,-1) jyrkkyys = 0eli tapahdu nousua eikä laskua?

Ratkaisu. Etsitään vektori v= xi + yj, s.e.

0h(-1,-1) eli 0h(-1,-1) vv

v

2x+y=0 y =-2xeli v = xi - 2xj, x0

Siis suunnissav= i - 2j taiv= -i + 2j

Gradienttiantaa suurimman kasvusuunnan ?

Jatkokysymys 2. Mitkä ovat niiden xy-tasonkäyrien yhtälöt, joissa h(x,y) = ±1,±2 ja ±4?[ne ovat tasa-arvokäyriä]

Ratkaisu. Merkitään yksinkertaisesti x2y = ±1,±2 ja ±4

Huomaa yhteys tasa-arvokäyrien ja topografi-karttojen korkeuskäyrien välillä: jos kuljetmaastossa kartan mukaan yhdellä korkeskäy-rällä, et nouse ylöspäin etkä laskeudu alaspäin.

Jatkokysymys 3. Jos pisteeseen (-1,-1,-1) ase-tetaan pallo, mitä ’xy-tason käyrää se vierii’ ?

Ratkaisu. Vierimiskäyrä on kohtisuorassa kaik-kia ohittamiaan tasa-arvokäyriä (i) x2y = Cvastaan. Lasketaan siis ensin tasa-arvokäyrientangentin kulmakerroin y’ derivoimalla implisiit-tisesti lauseketta (i), saadaan 2xy + x2y’= 0.Siis

.x

2y-y' Toisiaan vastaan kohtisuorien suorien kulmakertoimille k1 ja k2 on k1 =-1/ k2

Siis ilmeisesti etsityn käyrän tangentin kulma-kertoimelle on voimassa y’= x/2y |·2y

(ii) 2yy’ = x. Mikä on tällainen käyrä?No, senhän pitää selvästikin olla muo-toa y2 =1/2x2 + D (D vakio), nimittäinderivoimalla tämä puolittain x:n suht-teen saadaan tulokseksi yhtälö (ii)!

Ehdosta, että kyseinen käyrä kulkeepisteen (-1,-1) kautta voidaan laskeavakion D arvo: (-1)2 =1/2(-1)2 + D D = 1/2Kysytty vierimiskäyrä on siis y2 =1/2x2 + 1/2

Usean muuttujan funktion sidotut ääriarvot. Lagrangen menetelmä (Edward&Penney Luku 13.8)

Tähän asti olemme etsineet usean muuttujan funktiolle f ääriarvoa asettamatta ratkaisullemitään erityistä rajoitusta. Nyt vaadimme, että ääriarvon tulee lisäksi toteuttaa reunaehto(eli side-ehto) g(x) = 0. Lagrange keksi jo 18. vuosisadalla, miten ongelma ratkaistaan.

Teoreema. n-n muuttujan funktion f(x) sidotut ääriarvot, side-ehtona g(x) = 0, löytyvätLagrangen polynomin L(x,) = f(x) + g(x) (n+1 muuttujaa!) kriit.pist. joukosta.

Esim. Etsi funktion f(x,y,z) = x2 + y2 +z2 ääriarvot lisäehdolla z2 = x2 -1.

Ratkaisu. Lisäehto on yhtäpitävä ehdon g(x) = 0 kanssa, kun g(x) = x2 -1- z2. Siten Lagrangen polynomi on 4:n muuttujan funktio L(x,y,z, ) = x2 + y2 +z2 + (x2 -1- z2). Etsitään L:n kriittiset pisteet, jotka ovat osittaisderivaattojen nolla-kohdat.

Tämä L on neljän muuttujan funktio, joten sen kuvaaja on jokin ’pinta’ 5-ulotteisessa avaruudessa. Bill Gates ei vielä ole keksinyt, miten sen saisi PowerPointilla näkymään ...

02xλ2xx

L -1λ tai0jolloin x 0,λ)x(1

0y02yy

L

02zλ2zz

L

1λ tai0zjolloin 0,λ)z(1

1. z)(xz)-(x eli 0z1xλ

L 22

Jos nyt x = 0 on -z2 = 1 eli z = i, ei käyJos taas z = 0, on x2 = 1 eli x = ± 1. O.K

Siis osittaisderivaattojen nollakohdat saadaan arvoilla x=1, y=0, z=0, = -1; (1,0,0,-1) x=-1, y=0, z=0, = -1; (-1,0,0,-1)Arvo f(±1,0,0) = (±1)2+02+02 = 1on selvästikin funktion minimi.

Maksimia funktiolla f(x,y,z) = x2 + y2 +z2 ei selvästikään ole; kun siihen sijoitetaan side-ehto z2 = x2 -1, saadaan funktio h(x,y) = 2x2 + y2 -1, joka voi saada kuinka suuria arvoja tahansa.

Huomautus. Joskus esiintyy seuraava virhe:sijoitetaan lisäehto g(x) alkuperäiseen minimoi-tavaan funktioon f(x), ja etsitään näin saadunuuden funktion h(x) vapaita ääriarvoja. Näinei tietenkään voida tehdä; edellisen esimerkin tapauksessa saataisiin minimiksi -1.Sijoittamisella siis hukataan lisävaatimus.

L(x,y,z, ) = x2 + y2 +z2 + (x2 -1- z2).

Esim. Etsi funktion f(x,y) = cosxsiny ääriarvot ehdolla x = y alueessa2

πyx,

2

π

Ratkaisu. Lagrangen polynomi on L(x,y,) = cos(x)sin(y) + (x-y), osittaisderivoidaan!

y xeli 0y -xλ

L

0λcosycosxy

L

0λsinysinxx

L

xsinxcos 22

4

πy ja

4

π xelicosx sinx

Siis sidotut ääriarvot ovat

minimi,2

1- )

4

π)cos(-

4

πsin(

maksimi,2

1 )

4

π)cos(

4

πsin(

cosxsiny.mws

Esim. Etsi pisteen (7,2,1) lyhin etäisyys tasosta-2x+8z =-5 Lagrangen menetelmällä.

Ratkaisu. Minimoimme etäisyyttä z)(1y)(2x)(7z)y,D(x, 222

lisäehdolla g(x,y,z) = -2x+8z +5 = 0.Lagrangen polynomi on nyt muotoa

5)8zλ(-2xz)(1y)(2x)(7L 222 Etsitään taas osittaisderivaattojen nollakohdat,siihen tarvitaan vain 2 Maple-käskyä:

>L:=...>solve({diff(L,x)=0, diff(L,y)=0,diff(L,z)=0, diff(L,)=0},{x,y,z, });

ja saadaan vastaus

34

1λ,

17

19z

2y,34

237x

Näillä arvoillaetäisyys on

34

17D

Lagrangen menetelmä, kun side-ehtoja on kaksi kpl; g(x) = ja h(x) =0, saa muodonL(x,,) = f(x) + g(x) +h(x) (n+2 muuttujaa); ratkaisut löytyvät tämän funktionkriittisten pisteiden joukosta

Esim. Tutki, onko funktiolla f(x,y,z) = xyz ääriarvoja side-ehdoilla x2+z2=1 ja x=y.

Ratkaisu. Side-ehdot tulee kirjoittaa muotoon g(x,y,z) = x2+z2-1=0 ja h(x,y,z) = x-y= 0.Silloin Lagrangen polynomi on viiden muuttujan x,y,z,, funktio L(x,y,z,, ) = xyz + (x2+z2-1) +(x-y)Sen kriittiset pisteet ovat osittaisderivaattojen 0-kohdat:

0yxμ

L

01zxλ

L

0z2xyz

L

0μxzy

L

0μ2xyzx

L

22

Tämä viiden tuntemattoman ja viiden yhtälönei-lineaarinen yhtälöryhmä on ratkaistuMaplen solve-käskyllä, joka antaa vastaukseksix = y = 0, z = ± 1, eli kriittisiä pisteitä onkaksi kappaletta: (0,0,-1) ja (0,0,1)Mikä on niiden luonne?Piste (0,0,1) on selvästi satulapiste,* ensinnäkin f (0,0,1) = 0* toisaalta, jos ollaan hyvin lähellä pistettä (0,0,1), saa f(x,y,z) kuinka pieniä positiivisia ja negatiivisia arvoja hyvänsä sen perusteella, onko x ja y positiivinen/negatiivinen.Vastaavalla perusteella (0,0,-1) on satulapiste,

Taylor polynomi usean muuttujan funktiolle

Yhden muuttujan reaaliarvoiselle funktiolle f(x) tunnetaan (m. asteen) Taylor-polynomipisteen c ympäristössä, kun f(x):llä on (ainakin) m+1 asteen jatkuvat derivaatat c:nsisältämällä välillä:

Kun f(x) on ’riittävän säännöllinen’ pisteen c läheisyydessä, voidaan se lisäksi esittääTaylor kehitelmänsä avulla eli lausekkeena

m)m(

m )cx(!m

)c(f...)cx(

!

)c(''f)cx(

!

)c('f)c(f)x(p 2

21

Nämä käsiteet voidaan yleistää n:n muuttujan reaaliarvoiselle funktiolle f(x). Funktionf(x1,...,xn) m. asteen Taylor polynomi pisteen c = (c1,...,cn) ympäristössä on

'.välissän:cjan:'xonmissä

,)cx()!m(

)(f)cx(

!m

)c(f...)cx(

!

)c(''f)cx(

!

)c('f)c(f)x(f m

)m(m

)m(

11

2

121

)cx()cx)((!m

...)cx)(cx)((!

)cx)((!

)(f)(p

mm

m

m

iiii

n

i...ii ix...ixix

f

jjii

n

ji jxix

fii

n

i ix

fm

11

2

1 221

2

c1

c2

1c

1

1cx

1

11

111

kaikki m:n asteen sekaderivaatat... ...pisteessä C

...kertaa vastaavienkoordinaattien erotus

hessen matriisi yleiselle usean muuttujan funktiolle (edwards&penney luku 13.10)

Documents