hessen matriisi yleiselle usean muuttujan funktiolle (edwards&penney luku 13.10)
DESCRIPTION
Hessen matriisi yleiselle usean muuttujan funktiolle (Edwards&Penney Luku 13.10). Neliömuotojen yhteydessä tutustuimme jo reaalisiin, symmetrisiin 3 3-matriiseihin ja toisaalta kahden muuttujan ääriarvojen etsimisen yhteydessä 2. kl. derivaatojen testiin . - PowerPoint PPT PresentationTRANSCRIPT
Hessen matriisi yleiselle usean muuttujan funktiolle (Edwards&Penney Luku 13.10)
Neliömuotojen yhteydessä tutustuimme jo reaalisiin, symmetrisiin 33-matriiseihin jatoisaalta kahden muuttujan ääriarvojen etsimisen yhteydessä 2. kl. derivaatojen testiin.Nyt näemme, että nämä kaksi asiaa voidaan yleistää ja yhdistää, kun otetaan käyttöönkäsite Hessen matriisi. Aluksi asetetaan seuraava
Määritelmä. Reaalinen, symmetrinen matriisi A on(i) positiividefiniitti, jos jokaiselle reaaliselle vektorille X (¹ 0) pätee XTAX > 0, (ii) negatiividefiniitti, jos jokaiselle reaaliselle vektorille X (¹ 0) pätee XTAX < 0,(iii) indefiniitti, jos on olemassa reaalinen vektori X jolle XTAX < 0 ja reaalinen vektori Y jolle YTAY > 0.
Esimerkki 1. Koska
z
y
x
)z,y,x(
A
X201
030
102
T
neliömuoto!
xzzyx 2232 222
22222 32 yzxzxzx
03 2222 yzx)zx(
aina, kun (x,y,z) ¹ (0,0,0),on A positiividefiniitti.
Lasketaanpas A:n ominaisarvot eli ratkaistaan l yhtälöstä
0
201
030
102
0
21
123 )(
0123 2 ]))[(( 01203 2 ])[( tai)(
13 321 , taiHuomaamme, että positiividefiniitin matriisin Akaikki ominaisarvot ovat positiivisia. Olisiko tämävain sattumaa?
Esimerkki 2. Koska
z
y
x
)z,y,x(
A
X201
030
102
T
neliömuoto!
xzzyx 2232 222
2222 3yzx)zx(
on A on indefiniitti.
Lasketaan taas A:n ominaisarvot:
0
201
030
102
0
21
123 )(
0123 2 ]))[(( 01203 2 ])[( tai)(
13 321 , tai
Huomaamme, että indefiniitillä matriisilla A on sekäpositiivisia että negatiivisia ominaisarvoja Olisiko tämäkin vain sattuman kauppaa?
0y ja 0 zkun x, ainakin,
0y ja 0zkun x, ainakin,
0
0
Esimerkki 3. Koska
z
y
x
)z,y,x(
A
X310
120
001
T
yzzyx 232 222
22222 22 zzyzyyx
02 2222 z)zy(yx
aina, kun (x,y,z) ¹ (0,0,0),on A negatiividefiniitti.
Laskemalla A:n ominaisarvot huomamme, että ne kaikkiovat negatiivisia.
Yleinen totuus on seuraava
Lause. Reaalinen, symmetrinen matriisi A on(i) posit.definiitti joss A:n ominaisarvot ovat positiivisia,(ii) negat.definiitti joss A:n ominaisarvot ovat negatiivisia,(iii) indefiniitti joss A:lla on sekä positiivisia että negatiivisia ominaisarvoja.
Tarkastellaan nyt yleistä n:n muuttujan reaaliarvoista funktiota f:Rn→R. Oletetaan, ettäf:n kaikki toisen kertaluvun osittaisderivaatat ovat olemassa vieläpä jatkuvina jossakinavaruuden Rn pisteen X = (x1, x2, ... ,xn) ympäristössä. Määritellään funktion f Hessen matriisi seuraavalla tavalla:
nnij
))X(xx
f()X(H
2
X
Kyseessä on siis nn-matriisi,jonka alkioina on funktioita.Koska oletimme osittaisderi-vaatat jatkuviksi, on matriisiH(X) symmetrinen.Kiinteällä X:n arvolla X0
on H(X0) reaalinen. Voimme siis puhua matriisinH(X0) definiittisyydestä!
Esim. Tutki funktion f(x,y) = excos(y) Hessen matriisi definiittisyyttä pisteessä (0,π/2).Ratkaisu. Hesse:
2
22
2
2
2
y
f
yx
fyx
f
x
f
)X(H
excos(y)
11
2
xx
f
21
2
xx
f
nxx
f
1
2
12
2
xx
f
22
2
xx
f
nxx
f
2
2
1
2
xx
f
n
2
2
xx
f
n
nn xx
f
2
-exsin(y)
-exsin(y) -excos(y)
)ycos()ysin(
)ysin()ycos(ex =
)cos()sin(
)sin()cos(e
22
220
01
100H)merkitään(
Nyt det(H0 - lI) = l2 – 1 = 0.Siis l1 = -1 < 0 ja l2 = 1 > 0.
Johtopäätös: Ko. Hessen matriisi on indefiniitti
Tässä vaiheessa huomaamme, että kahden muuttujan funktioon liittyvä diskriminantti, jota tarkastelimme kriittisten pisteiden ja ääriarvojen yhteydesä (toisen derivaatan testi!)on itse asiassa erikoistapaus Hessen matriisiista. Teoriaa voidaan nyt yleistää ja yksin-kertaistaa seuraavasti:
Lause. Olkoon funktiolla f:Rn→R jatkuvat toisen kertaluvun osittaisderivaatat ja olkoonpiste X0 kriittinen piste (käytännössä siis ∂f/∂xi(X0) = 0 kaikilla i = 1, ... , n). Silloin(i) Jos H(X0) on positiividefiniitti, on X0 lokaali minimipiste,(ii) Jos H(X0) on negatiividefiniitti, on X0 lokaali maksimipiste,(iii) Jos H(X0) on indefiniitti, on X0 satulapiste. (Muissa tapauksissa lause ei sano mitään, kriittinen piste on tutkittava muilla keinoin!)
Esim. Tutkitaan funktion f(x,y) = sin(xy) mahdollista ääriarvoa origossa.
(1) Aluksi pitää varmistaa, onko origo funktion f(x,y) kriittinen piste: osittaisderivoidaan!
),xycos(x)y,x(f),xycos(y)y,x(f yx
Erityisesti origossa osittaisderivaattojen arvot ovat
00000
00000
)cos(),(f
)cos(),(f
y
x Kyseessä on kriittinen piste.(2) Muodostetaan Hesse:
2
22
2
2
2
y
f
yx
fyx
f
x
f
)X(H
)xysin(y2
)xysin(x2
)xysin(xy)xycos(
)xysin(xy)xycos(
Erityisesti origossa (merk) H0=
01
10H0
(3) Tutkitaan tämän ominaisarvot:
det(H0-l I) = (-l)2 - 1 = 0 , josta
l1 = -1 < 0 ja l2 = 1 > 0.
Koska kyseinen matriisi onindefiniitti, on origo satulapiste
Differentiaaleista [1-dim tapauksessa, kun y=f(x), on y = f’(x)x] (Erwards&Penney: Luku 13.6)
Olkoon n:n muuttujan funktiolla f(x1,x2,…,xn) on osittaisderivaatatn21 x
f,,
x
f,
x
f
Silloin f:n kokonaisdifferentiaali f on
nn
22
11
Δxx
fΔx
x
fΔx
x
fΔf
Lisäämällä tähän kaavaan itseisarvomerkitsaadaan kaava, jota fysiikassa ym. käytetäänmittaus-, ym. virheen arviointiin, nim.kaava
nn
22
11
max Δxx
fΔx
x
fΔx
x
fΔf
Jos siis muuttujan xi mittaus- tai arviointi-virhe on xi:n suuruinen (i=1,…,n), niin f:nkokonaisvirhe on enintään fmax:n suuruinen.
Esim. Olkoon f(x,y,z) = xyz + xy + 2y2z3, missä x,y ja z ovat mitattuja fysikaalisiasuureita. Jos mittaustulokseksi on saatu x=1, y=2 ja z=3, ja x:n mittauksessa onmahdollista mittausvirhettä 2%, ja y:lle jaz:lle vastaavasti 3% ja 1%, niin mikä onf:n kokonaisvirhe suurimmillaan?
Ratkaisu. x=0.02x, y=0.03y, z=0.01z.
34yzxxzy
f
yyzx
f
22z6yxyz
f
f:n kokonaisvir-heelle saadaan näinyläraja
fmax = |yz +y|0.02x + |xz+x+4yz3|0.03y + |xy + 6y2z2|0.01z x=1y=2z=3
=26.46
Toisaalta f(1,2,3) = 1·2·3 + 1·2 + 2·22 ·33 = 224,joten prosentuaalinenvirhe on 11.82%100%
224
26.46
f(1,2,3)
Δf100 max
Yleensä fysikaalinenmittaustulos annetaanmuodossa f fmax,
tässä 224 26.5
y=2x^2
Huom: E&P käyttäämerkintää df eikä Δf
Usean muuttujan funktion differentioituvuudesta
Usean muuttujan funktion osittaisderivaatat ovat helposti ymmärrettäviä, ja ne yleistävät(eräällä tavalla!) yhden muuttujan funktion derivaatan. Derivaatta voidaan yleistää myöstoisella ’vaativammalla’ tavalla, nimittäin puhutaan differentioituvasta usean muuttujan funktiosta. Käsitellään tämä kolmen muuttujan funktiolle eli funktiotyypille f(x,y,z) = w.
Määr. Funktion f(x,y,z) = w on differentioituva pisteessä/alueessa, jos osittaisderivaatatfx, fy, ja fz, ovat olemassa tässä pisteessä/alueessa JA on olemassa funktio g(x,y,z) siten,että f(x+x,y+y,z+z)-f(x,y,z) = fx(x,y,z)x + fy(x,y,z)y + fz(x,y,z)z +g(x,y,z)eli vektorimuodossa
0)g(
lim missä ),g( )f( )f(-)f(
x
xxxxxxx
0x
Tässä x = (x,y,z) ja 0 = (0,0,0)!
Määritelmän mukaan siis ’f differentioituva f:llä osittaisderivaatat’. Implikaatio toisin päin ei välttämättä päde, mutta aina sen sijaan pätee ’f:llä jatkuvat osittaisderivaatat f differentioituva’Myös voidaan todistaa implikaatio’f differentioituva f jatkuva’
Esim. Onko funktio
22 yx
1y)f(x,
kaikkialla differentioituva?
Kuvaajan perusteellavoi jo päätellä, ettäsuorat y = x ja y = -xovat epäjatkuvuus-kohtia ei osit.deriv. f ei differentioituvasuorilla y= x ja y = -x
Usean muuttujan reaaliarvoisen funktion suunnattu derivaatta yksikkövektorin u suuntaan
määritellään raja-arvona
nn
hu ja :fkun
h
)(f)h(flim )f(D RuRR
xuxx
0
,
Käytännössä suunnattu derivaatta lasketaan vektorin u ja f:n gradienttivektorin
nnx
f
x
f
x
ff eee
22
11
pistetulon avulla, nimittäin
f
Kiinteällä arvolla x = (x1,...,xn) suunnattu derivaatta on luku. Mihin suuntaan se on suurin?
u
Vektoreiden välisen kulman θ cosini toteuttaa tunnetusti
ux f )f(Du
u
u
f
fcos
Siten cosf )f(Du ux
Tämä arvo on suurin, kun θ = 0 eliyksikkövektori u on gradientin suuntainen
Kahden muuttujan funktion gradientti (Edwards&Penney Luku 13.8)
Määr. Funktion f(x,y) = z pisteeseen (a,b,f(a,b))piirretyn gradienttivektorin f(a,b) lauseke on f(a,b) = f1(a,b)i + f2(a,b)j ( luetaan ’nabla’)
Esim. Etsi funktion22 yx
xy)f(x,
gradientti(vektori) pisteessä (1,2,1/5)
Ratkaisu.222
222
1 )y(x
2xyxy)(x,f
x=1y=2
25
3
2222 )y(x
2xyy)(x,f
x=1y=2
25
4
Siis f(1,2) = 1/25(3i - 4j)
Geometrisesti tulkittuna gradientti ilmoittaafunktion f(x,y) suurimman muutossuunnanxy-tasossa pisteessä (a,b).
Esim. Ajatellaan paikkakunnasta piirretyntasokartta, jolla pisteessä (x,y) korkeudenilmoittaa yhtälö h(x,y) = x2y (jossakin rajoi-tetussa alueessa). Jos seisotaan pisteessä(-1,-1,-1), niin missä xy-tason suunnassa(eli kartalla) ’rinne on jyrkin’?
Ratkaisu. Vektorin h(-1,-1) = h1(-1,-1)i + h2(-1,-1)jsuunnassa: h(x,y) = h1(x,y)i + h2(x,y)j = 2xyi + x2j, erityisesti h(-1,-1) = 2i + j
•
Jatkokysymys: Jos pisteeseen (1,3) asetetaan pallo, niin mihin suuntaan se lähtee vierimään?Vastaus: vektorin - h(1,3) = -(2·1·3i + 12j) = -6i - jsuuntaan!
Huom! Tämä suunta on vainajanhetkellä t = 0, se muuttuukun pallo liikkuu eteenpäin,kuitenkin aina (suurin piirtein)suuntaan -h(x,y) Suunnattu derivaatta
Gradienttivektori f(a,b) = f1(a,b)i + f2(a,b)j kertoo funktion f(x,y) suurimman muutos-suunnan (’suunnan, missä mäki on jyrkin ylöspäin’). Voidaan kysyä toisinpäin ja ylei-semmin: jos on annettu jokin xy-tason vektori v, niin paljonko on rinteen ’jyrkkyys’pisteessä (a,b,f(a,b)) tämän vektorin suuntaan? Vastauksen tähän antaa suunnatunderivaatan käsite, joka lasketaan kaavalla
b)f(a,v
vb)f(a,D
v
v
Esim. Laske suunnattu derivaatta funktiolle h(x,y) = x2y pisteessä (-1,-1) vektorin v = i +2jsuuntaan.
Ratkaisu.Aiemmin laskimme jo, että h(-1,-1) = 2i + j.Siten
)2(2
2h(-1,-1)D ji
ji
ji
v
v
5
4
21
211222
Siis rinteen h(x,y) = x2y jyrkkyys suunnassa i +2j on
5
45
4 = n. 60° Nousua arctan
Jatkokysymys 1. Missä xy-tason suun-nassa pisteessä (-1,-1,-1) jyrkkyys = 0eli tapahdu nousua eikä laskua?
Ratkaisu. Etsitään vektori v= xi + yj, s.e.
0h(-1,-1) eli 0h(-1,-1) vv
v
2x+y=0 y =-2xeli v = xi - 2xj, x0
Siis suunnissav= i - 2j taiv= -i + 2j
Gradienttiantaa suurimman kasvusuunnan ?
Jatkokysymys 2. Mitkä ovat niiden xy-tasonkäyrien yhtälöt, joissa h(x,y) = ±1,±2 ja ±4?[ne ovat tasa-arvokäyriä]
Ratkaisu. Merkitään yksinkertaisesti x2y = ±1,±2 ja ±4
Huomaa yhteys tasa-arvokäyrien ja topografi-karttojen korkeuskäyrien välillä: jos kuljetmaastossa kartan mukaan yhdellä korkeskäy-rällä, et nouse ylöspäin etkä laskeudu alaspäin.
Jatkokysymys 3. Jos pisteeseen (-1,-1,-1) ase-tetaan pallo, mitä ’xy-tason käyrää se vierii’ ?
Ratkaisu. Vierimiskäyrä on kohtisuorassa kaik-kia ohittamiaan tasa-arvokäyriä (i) x2y = Cvastaan. Lasketaan siis ensin tasa-arvokäyrientangentin kulmakerroin y’ derivoimalla implisiit-tisesti lauseketta (i), saadaan 2xy + x2y’= 0.Siis
.x
2y-y' Toisiaan vastaan kohtisuorien suorien kulmakertoimille k1 ja k2 on k1 =-1/ k2
Siis ilmeisesti etsityn käyrän tangentin kulma-kertoimelle on voimassa y’= x/2y |·2y
(ii) 2yy’ = x. Mikä on tällainen käyrä?No, senhän pitää selvästikin olla muo-toa y2 =1/2x2 + D (D vakio), nimittäinderivoimalla tämä puolittain x:n suht-teen saadaan tulokseksi yhtälö (ii)!
Ehdosta, että kyseinen käyrä kulkeepisteen (-1,-1) kautta voidaan laskeavakion D arvo: (-1)2 =1/2(-1)2 + D D = 1/2Kysytty vierimiskäyrä on siis y2 =1/2x2 + 1/2
Usean muuttujan funktion sidotut ääriarvot. Lagrangen menetelmä (Edward&Penney Luku 13.8)
Tähän asti olemme etsineet usean muuttujan funktiolle f ääriarvoa asettamatta ratkaisullemitään erityistä rajoitusta. Nyt vaadimme, että ääriarvon tulee lisäksi toteuttaa reunaehto(eli side-ehto) g(x) = 0. Lagrange keksi jo 18. vuosisadalla, miten ongelma ratkaistaan.
Teoreema. n-n muuttujan funktion f(x) sidotut ääriarvot, side-ehtona g(x) = 0, löytyvätLagrangen polynomin L(x,) = f(x) + g(x) (n+1 muuttujaa!) kriit.pist. joukosta.
Esim. Etsi funktion f(x,y,z) = x2 + y2 +z2 ääriarvot lisäehdolla z2 = x2 -1.
Ratkaisu. Lisäehto on yhtäpitävä ehdon g(x) = 0 kanssa, kun g(x) = x2 -1- z2. Siten Lagrangen polynomi on 4:n muuttujan funktio L(x,y,z, ) = x2 + y2 +z2 + (x2 -1- z2). Etsitään L:n kriittiset pisteet, jotka ovat osittaisderivaattojen nolla-kohdat.
Tämä L on neljän muuttujan funktio, joten sen kuvaaja on jokin ’pinta’ 5-ulotteisessa avaruudessa. Bill Gates ei vielä ole keksinyt, miten sen saisi PowerPointilla näkymään ...
02xλ2xx
L -1λ tai0jolloin x 0,λ)x(1
0y02yy
L
02zλ2zz
L
1λ tai0zjolloin 0,λ)z(1
1. z)(xz)-(x eli 0z1xλ
L 22
Jos nyt x = 0 on -z2 = 1 eli z = i, ei käyJos taas z = 0, on x2 = 1 eli x = ± 1. O.K
Siis osittaisderivaattojen nollakohdat saadaan arvoilla x=1, y=0, z=0, = -1; (1,0,0,-1) x=-1, y=0, z=0, = -1; (-1,0,0,-1)Arvo f(±1,0,0) = (±1)2+02+02 = 1on selvästikin funktion minimi.
Maksimia funktiolla f(x,y,z) = x2 + y2 +z2 ei selvästikään ole; kun siihen sijoitetaan side-ehto z2 = x2 -1, saadaan funktio h(x,y) = 2x2 + y2 -1, joka voi saada kuinka suuria arvoja tahansa.
Huomautus. Joskus esiintyy seuraava virhe:sijoitetaan lisäehto g(x) alkuperäiseen minimoi-tavaan funktioon f(x), ja etsitään näin saadunuuden funktion h(x) vapaita ääriarvoja. Näinei tietenkään voida tehdä; edellisen esimerkin tapauksessa saataisiin minimiksi -1.Sijoittamisella siis hukataan lisävaatimus.
L(x,y,z, ) = x2 + y2 +z2 + (x2 -1- z2).
Esim. Etsi funktion f(x,y) = cosxsiny ääriarvot ehdolla x = y alueessa2
πyx,
2
π
Ratkaisu. Lagrangen polynomi on L(x,y,) = cos(x)sin(y) + (x-y), osittaisderivoidaan!
y xeli 0y -xλ
L
0λcosycosxy
L
0λsinysinxx
L
xsinxcos 22
4
πy ja
4
π xelicosx sinx
Siis sidotut ääriarvot ovat
minimi,2
1- )
4
π)cos(-
4
πsin(
maksimi,2
1 )
4
π)cos(
4
πsin(
cosxsiny.mws
Esim. Etsi pisteen (7,2,1) lyhin etäisyys tasosta-2x+8z =-5 Lagrangen menetelmällä.
Ratkaisu. Minimoimme etäisyyttä z)(1y)(2x)(7z)y,D(x, 222
lisäehdolla g(x,y,z) = -2x+8z +5 = 0.Lagrangen polynomi on nyt muotoa
5)8zλ(-2xz)(1y)(2x)(7L 222 Etsitään taas osittaisderivaattojen nollakohdat,siihen tarvitaan vain 2 Maple-käskyä:
>L:=...>solve({diff(L,x)=0, diff(L,y)=0,diff(L,z)=0, diff(L,)=0},{x,y,z, });
ja saadaan vastaus
34
1λ,
17
19z
2y,34
237x
Näillä arvoillaetäisyys on
34
17D
Lagrangen menetelmä, kun side-ehtoja on kaksi kpl; g(x) = ja h(x) =0, saa muodonL(x,,) = f(x) + g(x) +h(x) (n+2 muuttujaa); ratkaisut löytyvät tämän funktionkriittisten pisteiden joukosta
Esim. Tutki, onko funktiolla f(x,y,z) = xyz ääriarvoja side-ehdoilla x2+z2=1 ja x=y.
Ratkaisu. Side-ehdot tulee kirjoittaa muotoon g(x,y,z) = x2+z2-1=0 ja h(x,y,z) = x-y= 0.Silloin Lagrangen polynomi on viiden muuttujan x,y,z,, funktio L(x,y,z,, ) = xyz + (x2+z2-1) +(x-y)Sen kriittiset pisteet ovat osittaisderivaattojen 0-kohdat:
0yxμ
L
01zxλ
L
0z2xyz
L
0μxzy
L
0μ2xyzx
L
22
Tämä viiden tuntemattoman ja viiden yhtälönei-lineaarinen yhtälöryhmä on ratkaistuMaplen solve-käskyllä, joka antaa vastaukseksix = y = 0, z = ± 1, eli kriittisiä pisteitä onkaksi kappaletta: (0,0,-1) ja (0,0,1)Mikä on niiden luonne?Piste (0,0,1) on selvästi satulapiste,* ensinnäkin f (0,0,1) = 0* toisaalta, jos ollaan hyvin lähellä pistettä (0,0,1), saa f(x,y,z) kuinka pieniä positiivisia ja negatiivisia arvoja hyvänsä sen perusteella, onko x ja y positiivinen/negatiivinen.Vastaavalla perusteella (0,0,-1) on satulapiste,
Taylor polynomi usean muuttujan funktiolle
Yhden muuttujan reaaliarvoiselle funktiolle f(x) tunnetaan (m. asteen) Taylor-polynomipisteen c ympäristössä, kun f(x):llä on (ainakin) m+1 asteen jatkuvat derivaatat c:nsisältämällä välillä:
Kun f(x) on ’riittävän säännöllinen’ pisteen c läheisyydessä, voidaan se lisäksi esittääTaylor kehitelmänsä avulla eli lausekkeena
m)m(
m )cx(!m
)c(f...)cx(
!
)c(''f)cx(
!
)c('f)c(f)x(p 2
21
Nämä käsiteet voidaan yleistää n:n muuttujan reaaliarvoiselle funktiolle f(x). Funktionf(x1,...,xn) m. asteen Taylor polynomi pisteen c = (c1,...,cn) ympäristössä on
'.välissän:cjan:'xonmissä
,)cx()!m(
)(f)cx(
!m
)c(f...)cx(
!
)c(''f)cx(
!
)c('f)c(f)x(f m
)m(m
)m(
11
2
121
)cx()cx)((!m
...)cx)(cx)((!
)cx)((!
)(f)(p
mm
m
m
iiii
n
i...ii ix...ixix
f
jjii
n
ji jxix
fii
n
i ix
fm
11
2
1 221
2
c1
c2
1c
1
1cx
1
11
111
kaikki m:n asteen sekaderivaatat... ...pisteessä C
...kertaa vastaavienkoordinaattien erotus