funkcijski opisi podatkov - vlado.fmf.uni-lj.sivlado.fmf.uni-lj.si/vlado/podstat/it/fun.pdf · l l...
Post on 08-Sep-2019
8 Views
Preview:
TRANSCRIPT
'
&
$
%
10 15 20 25 30 35 40
200
400
600
800
1000
diameter
popu
latio
n
Univerza v Ljubljanipodiplomski studij statistike
Informacijska tehnologijav analizi podatkov
Funkcijskiopisi podatkov
Vladimir BatageljFMF, matematika
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov I-1'
&
$
%
Kazalo1 Podatki Playfair: mesta. . . . . . . . . . . . . . . . . . . . . . 1
2 Funkcije in R / Grid. . . . . . . . . . . . . . . . . . . . . . . . 2
3 Funkcije in R / Lattice . . . . . . . . . . . . . . . . . . . . . . 3
4 Slike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
5 Funkcijske zveze . . . . . . . . . . . . . . . . . . . . . . . . . 5
6 Koraki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
7 Entropija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
8 Informacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
9 . . . Informacija. . . . . . . . . . . . . . . . . . . . . . . . . . . 9
10 Meri povezanosti Raiskega. . . . . . . . . . . . . . . . . . . . 10
11 Pogojna entropija in informacija. . . . . . . . . . . . . . . . . 11
12 . . . Pogojna entropija in informacija. . . . . . . . . . . . . . . . 12
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov I-2'
&
$
%
13 . . . Pogojna entropija in informacija. . . . . . . . . . . . . . . . 13
14 . . . Pogojna entropija in informacija. . . . . . . . . . . . . . . . 14
15 Krivulje / Izbira oblike . . . . . . . . . . . . . . . . . . . . . . 15
16 Glajenje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16
17 . . . Glajenje . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
18 . . . Glajenje . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
19 Eksponentno glajenje. . . . . . . . . . . . . . . . . . . . . . . 19
20 Neomejena naravna rast / diskretna. . . . . . . . . . . . . . . . 20
21 Neomejena naravna rast / zvezna. . . . . . . . . . . . . . . . . 21
22 Omejena naravna rast. . . . . . . . . . . . . . . . . . . . . . . 22
23 Omejena naravna rast / zvezna. . . . . . . . . . . . . . . . . . 23
24 Gostota naseljenosti mesta. . . . . . . . . . . . . . . . . . . . 24
25 Zipf-Mandelbrotov zakon. . . . . . . . . . . . . . . . . . . . . 25
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov I-3'
&
$
%
26 Cobb-Douglasova funkcija produktivnosti. . . . . . . . . . . . 26
27 Ribistvo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27
28 . . . Ribistvo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
29 Standardne krivulje rasti. . . . . . . . . . . . . . . . . . . . . 29
30 Katera funkcija je najustreznejsa? . . . . . . . . . . . . . . . . 30
31 Prirastki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .31
32 Prileganje . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32
33 Prileganje . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33
34 Utezena metoda najmanjsih kvadratov . . . . . . . . . . . . . . 34
35 Optimizacijske naloge . . . . . . . . . . . . . . . . . . . . . . 35
36 Optimizacija vIRn . . . . . . . . . . . . . . . . . . . . . . . . 36
37 Karush-Kuhn-Tuckerjev izrek . . . . . . . . . . . . . . . . . . 37
38 Regresijska premica. . . . . . . . . . . . . . . . . . . . . . . . 38
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov I-4'
&
$
%
39 . . . Regresijska premica. . . . . . . . . . . . . . . . . . . . . . 39
40 . . . Regresijska premica. . . . . . . . . . . . . . . . . . . . . . 40
41 Uporaba regresijske premice. . . . . . . . . . . . . . . . . . . 41
42 Primeri linearizacij . . . . . . . . . . . . . . . . . . . . . . . . 42
43 Posplositve . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
44 Ovrednotenje / Analiza ostanka. . . . . . . . . . . . . . . . . . 44
45 Optimizacija v R . . . . . . . . . . . . . . . . . . . . . . . . . 45
46 Optimizacija v R / linearna. . . . . . . . . . . . . . . . . . . . 46
47 Optimizacija v R / nelinearna. . . . . . . . . . . . . . . . . . . 47
48 Optimizacija v R / OECD. . . . . . . . . . . . . . . . . . . . . 48
49 Optimizacija v R / slika OECD. . . . . . . . . . . . . . . . . . 49
50 Dodatni viri . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 1'
&
$
%
Podatki Playfair: mestacity population diameter
Edinburgh 60 9.144Stockholm 63 9.652
Florence 75 10.160Genoa 80 10.668Turin 80 10.160
Warsaw 80 11.430Copenhagen 90 12.192
Lisbon 120 14.224Palermo 130 14.478
Madrid 140 14.732Berlin 145 14.732
Rome 160 15.240Petersburgh 180 15.748
Venice 200 16.256Dublin 210 16.256
Amsterdam 220 17.272Moscow 250 18.796Vienna 255 19.304Naples 380 23.876
Paris 690 31.496Constantinople 900 35.052
London 1100 39.624
10 15 20 25 30 35 40
200
400
600
800
1000
diameter
popu
latio
n
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 2'
&
$
%
Funkcije in R / Grida <- read.table(file="playfair.dat",header=TRUE,
sep="",row.names=1)plot(a)attach(a); plot(diameter,population)
# risanje funkcijf4 <- function(x)xˆ4 - 14*xˆ3 + 60*xˆ2 - 70*x curve(f4,0,7)
# Rosenbrock Banana functionfun <- function(x,y)100 * (y - x * x)ˆ2 + (1 - x)ˆ2x <- seq(-5,5,0.1); y <- xz <- outer(x,y,fun)contour(x,y,z)contour(x,y,log(z),nlevels=20)
x <- seq(-0.5,1.5,0.01); y <- x; z <- outer(x,y,fun)contour(x,y,log(z),nlevels=20)image(x,y,log(z))persp(x,y,log(z),zlim=c(-10,10),theta=180,phi=45)persp(x,y,log(z),zlim=c(-11,6),theta=180,phi=-10)
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 3'
&
$
%
Funkcije in R / Latticelibrary(lattice)x <- seq(0.9,1.1,0.0025); y <- xg <- expand.grid(x=x,y=y)g$z <- fun(g$x,g$y); g$z <- log(g$z)which.min(g$z)[1] 3281g$z[3281] <- -20levelplot(z˜x*y,data=g,cuts=50,xlab="x",ylab="y",
main="Rosenbrock Banana",colorkey=FALSE)wireframe(z ˜ x * y,data=g,drape=TRUE,colorkey=TRUE,shade=TRUE)
pdf(file="ban1.pdf")wireframe(z ˜ x * y,data=g,drape=TRUE,colorkey=TRUE,shade=TRUE)dev.off(); pdf(file="ban2.pdf")wireframe(z ˜ x * y,data=g,drape=TRUE,colorkey=TRUE,shade=TRUE,
screen=list(z=30,x=-60))dev.off(); pdf(file="ban3.pdf")wireframe(z ˜ x * y,data=g,drape=TRUE,colorkey=TRUE,shade=TRUE,
screen=list(z=25,x=-50),scales=list(draw=FALSE))dev.off()
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 4'
&
$
%
Slike
0 1 2 3 4 5 6 7
−20
020
40
x
f4 (
x)
−0.5 0.0 0.5 1.0 1.5
−0.
50.
00.
51.
01.
5
x
y
log(
z)
−0.5 0.0 0.5 1.0 1.5
−0.
50.
00.
51.
01.
5
x
y
Rosenbrock Banana
x
y
0.9
0.95
1
1.05
1.1
0.9 0.95 1 1.05 1.1
x
y
z
−−20
−−15
−−10
−−5
−0
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 5'
&
$
%
Funkcijske zvezeImamo mnozico podatkov
(xi, yi), i = 1, n, xi ∈ IRk, yi ∈ IR
ki jih zelimo izraziti s funkcijsko zvezoy = f(x).
Za to je lahko vec razlogov:
• povzetje podatkov (redukcija, interpolacija, aproksimacija ...);
• poenostavitev (zamena) zapletenih obrazcev z enostavnimi;
• opis naravnih zakonitosti;
• iskanje naravnih zakonitosti;
• ocenjevanje parametrov;
• dolocanje neznane vrednosti: vrednost v sredini, napovedovanje.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 6'
&
$
%
KorakiZato
• (neobvezno) vrednostiyi zgladimo – odstranimo nakljucne vplive –
sum;
• izberemo obliko zveze – druzino dopustnih funkcij;
• izberemo kriterij prileganja funkcije podatkom in glede nanj izberemo
najboljso prileznico;
• analiziramo, ovrednotimo dobljeno resitev; po potrebi postopek
ponovimo.
V nadaljevanju se bomo pretezno, predvsem v ponazoritvah, omejili na
funkcije ene ali dveh spremenljivk.
Ali sta kolicini sploh funkcijsko povezani?
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 7'
&
$
%
EntropijaNaj bop(X) = (p(xi))n
i=1 verjetnostna porazdelitev lastnostiX. Entropija
porazdelitvep(X) imenujemo kolicino
H(X) = −n∑
i=1
p(xi) lg p(xi)
kjer je lg ≡ log2 in veljap = 0 ⇒ p lg p = 0.
Velja ocena0 ≤ H(X) ≤ lg n . Entropija doseze spodnjo mejo za izrojene
porazdelitvep(xk) = 1; p(xi) = 0, i 6= k in zgornjo mejo za enakomerno
porazdelitevp(xi) = 1n , i = 1, . . . , n. Torej lahko vpeljemorelativno
entropijo
h(X) =H(X)lg n
z vrednostmi na intervalu[0, 1]. Ta nam omogoca tudi primerjavo poraz-
delitev z razlicnim stevilom stanj (enostavnih dogodkov).
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 8'
&
$
%
InformacijaImejmo lastnostiX in Y s porazdelitvamap(X) in p(Y ) ter skupno
porazdelitvijop(XY ). Tedaj jeinformacija med lastnostimaX in Y
dolocena z izrazom
I(X, Y ) =n∑
i=1
m∑j=1
p(xi, yj) lgp(xi, yj)
p(xi)p(yj)
ki jo lahko, ce upostevamo
m∑j=1
p(xi, yj) = p(xi) inn∑
i=1
p(xi, yj) = p(yj)
zapisemo I(X, Y ) = H(X) + H(Y )−H(XY ).
Pokazati je mogoce, da velja
H(X) + H(Y ) ≥ H(XY ) ≥ max(H(X),H(Y ))
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 9'
&
$
%
. . . InformacijaOd tu izhaja
0 ≤ I(X, Y ) ≤ min(H(X),H(Y ))
InformacijaI(X, Y ) doseze vrednost0 natanko takrat, ko za vsak pari, j
veljap(xi, yj) = p(xi)p(yj); kar pomeni verjetnostno neodvisnost lastnosti
X in Y .
Drugo skrajnost dobimo v primeru, ko obstaja medX in Y funkcijska
zveza – v vsakem stolpcu in vsaki vrstici porazdelitvep(XY ) je najvec en
od nic razlicenclen. Tedaj velja
H(X) = H(Y ) = H(XY ) = I(X, Y )
Torej je informacijaI(X, Y ) merafunkcijske odvisnosti(dolocenosti) med
lastnostimaX in Y . Pri tem velja poudariti, da je definirana za vsa vrste
merskih lestvic.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 10'
&
$
%
Meri povezanosti RaiskegaRaiski je leta 1964 vpeljal za mero povezanosti lastnostiX in Y koeficient
R(X ↔ Y ) =I(X, Y )H(XY )
ki ima tudi usmerjeno obliko
R(X → Y ) =I(X, Y )H(Y )
Oba koeficienta zavzemata vrednosti na intervalu[0, 1] in imata vrednost 0,
ko sta lastnosti verjetnostno neodvisni.R(X → Y ) = 1, ko jeY funkcija
X-a;R(X ↔ Y ) = 1, ko obe lastnosti ena drugo natanko dolocata.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 11'
&
$
%
Pogojna entropija in informacijaNaj boA nek dogodek. Tedaj imenujemopogojna entropijalastnostiX pripogojuA entropijo pogojne porazdelitvep(X/A)
H(X;A) = −n∑
i=1
p(xi/A) lg p(xi/A)
V posebnem primeru, ko jeA ≡ yj , meriH(X; yj) nedolocenost lastnostiX pri pogoju, da ima lastnostY vrednostyj .
Od tu dobimo mero za povprecno pogojno entropijo lastnostiX glede naY
H(X;Y ) =m∑
j=1
p(yj)H(X; yj) = −m∑
j=1
p(yj)n∑
i=1
p(xi/yj) lg p(xi/yj) =
in, ker jep(A/B) = p(AB)/p(A),
= −n∑
i=1
m∑j=1
p(xi, yj) lgp(xi, yj)
p(yj)= H(XY )−H(Y )
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 12'
&
$
%
. . . Pogojna entropija in informacijaPokazati je mogoce, da veljaH(X; Y ) ≥ H(X; Y Z). To upostevamo naprej v
I(X, Y )+H(X; Y ) = (H(X)+H(Y )−H(XY ))+(H(XY )−H(Y )) = H(X)
Torej je
H(X) = I(X, Y ) + H(X; Y ) in H(Y ) = I(X, Y ) + H(Y ; X)
Prvo zvezo lahko preberemo: Celotna nedolocenost lastnostiX je enaka vsoti
pojasnjene in preostale nedolocenosti.
Informacija med lastnostimaX in Y pri pogojuA je enaka
I(X, Y ; A) =
n∑i=1
m∑j=1
p((xi, yj)/A) lgp((xi, yj)/A)
p(xi/A)p(yj/A)
= H(X; A) + H(Y ; A)−H(XY ; A)
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 13'
&
$
%
. . . Pogojna entropija in informacijain povprecna informacija medX in Y pri znanih vrednostihZ
I(X, Y ; Z) =∑k
s=1p(zs)I(X, Y ; zs) =
=∑k
s=1p(zs)(H(X; zs) + H(Y ; zs)−H(XY ; zs)) =
= H(X; Z) + H(Y ; Z)−H(XY ; Z) =
= (H(XZ)−H(Z)) + (H(Y Z)−H(Z))− (H(XY Z)−H(Z)) =
= H(XZ) + H(Y Z)−H(Z)−H(XY Z)
Pokazati je mogoce, da vpeljava nove lastnosti poveca informacijo medX in
ostalimi upostevanimi lastnostmi
I(X, Y Z)− I(X, Y ) =
= (H(X) + H(Y Z)−H(XY Z))− (H(X) + H(Y )−H(XY )) =
= (H(XY )−H(Y ))− (H(Y Z)−H(XY Z)) =
= H(X; Y )−H(X; Y Z) ≥ 0
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 14'
&
$
%
. . . Pogojna entropija in informacijaPokazimo se zanimivo zvezo med vsemi tremi oblikami (parno, skupinsko in delno)
informacije
I(X, Y ; Z) = H(XZ) + H(Y Z)−H(Z)−H(XY Z) =
= (H(X) + H(Y Z)−H(XY Z))− (H(X) + H(Z)−H(XZ)) =
= I(X, Y Z)− I(X, Z)
Torej velja
I(X, Y ; Z) = I(X, Y Z)− I(X, Z)
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 15'
&
$
%
Krivulje / Izbira oblikeNajprej moramo izbrati obliko funkcijske zvezef – razred dopustnih funk-
cij F . Izbor lahko opravimo na osnoviteorije – izpeljemo obliko resitev.
Obliko funkcije nam lahko predpisujejo tudi izbrana/dostopna matematicna
in programskaorodja (linearizacija, . . . ). Pogosto pa zaradi pomanjkanja
teorije ali drugih razlogov dolocimo razred na drugacen nacin iz kataloga:
na oko, izkusnje, hevristika, varcnost, enostavnost, zlepki in drugi (polni)
sistemi funkcij, sodila (razlike, sredine), splosne znacilnosti opisovanega
pojava (obnasanje v neskoncnosti, ...).
Zveznost, diskretnost, ekvidistantnost.
Lagrangeov polinom – gre skozi tocke, vendar vmes lahko hudo podivja.
Upostevati je potrebno tudi pricakovane znacilnosti resitve - neprehitro
spreminjanje, narascanje, limitne vrednosti.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 16'
&
$
%
Glajenje
Utezena drseca povprecja: Predpostavimo∆tk = const. Podzaporedja
(intervale) izm podatkov zamenjamo z njihovim (utezenim) povprecjem.
Praviloma jem liho stevilo – povprecje zamenja podatek v sredi intervala.
Za m = 2s + 1 dobimo tako novo zaporedje(yk), k = s + 1, s +2, . . . , n− s, kjer je
yk =s∑
j=−s
αjyk+j , α−i = αi, i = 1, . . . , s ins∑
j=−s
αj = 1
Utezi α dolocimo ’po obcutku’
yi =19(yi−2 + 2yi−1 + 3yi + 2yi+1 + yi+2)
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 17'
&
$
%
. . . Glajenjelahko pa tudi glede na kak cilj – npr. na polinomski aproksimaciji dela
zaporedja. Za primer parabole skozi 5 tock ( k = 2,m = 2 ) dobimo
yi =135
(−3yi−2 + 12yi−1 + 17yi + 12yi+1 − 3yi+2)
Pokazati je mogoce, da sta koeficienta priy−j in yj , j = 1, . . . , s vselej
enaka – shemo zapisemo v zgosceni obliki:
=135
[−3, 12,17]
Na podoben nacin lahko izpeljemo celo vrsto shem:
k = 3 m = 3 121 [−2, 3, 6,7]
k = 3 m = 4 1231 [−21, 14, 39, 54,59]
k = 4 m = 3 1231 [5,−30, 75,131]
k = 4 m = 4 1429 [15,−55, 30, 135,179]
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 18'
&
$
%
. . . GlajenjeIzpeljane sheme ne veljajo na robu – za prvih in zadnjihm clenov. V
primeruk = 2,m = 2 dobimo:
yn−1 = pn−2(1) =135
(2yn−4 − 8yn−3 + 12yn−2 + 27yn−1 + 2yn)
yn = pn−2(2) =170
(−yn−4 + 4yn−3 − 6yn−2 + 4yn−1 + 69yn)
Za y1 in y2 dobimo ’zrcalne’ obrazce.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 19'
&
$
%
Eksponentno glajenjeWiener je predlagal prilagodljivo glajenje
yk = αyk + (1− α)yk−1, y0 = y0
pri cemer jeα ∈ (0, 1] parameter glajenja.
Izpisimo obrazec za splosni clen
yk = αyk + α(1− α)yk−1 + α(1− α)2yk−2 + . . . + α(1− α)syk−s
Ce jeα ≈ 1, vpliv zadnjihclenov hitro slabi. Pokazati je mogoce, da je
E(y) = E(y) in D(y) =α
2− αD(y)
Torej, koα → 0 se nihanje zaporedja vse bolj dusi.
V praksi obicajno izbiramoα ∈ [0.1, 0.3]. Uporablja se tudi veckratno
glajenje.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 20'
&
$
%
Neomejena naravna rast / diskretna
y(x + 1) = ky(x), y(0) = C, x ∈ IN
resitev
y(x) = Ckx
y(x + 1) = ky(x) + p, y(0) = C, x ∈ IN
resitev
y(x) =
kx(C + pk−1 ) + p
k−1 k 6= 1
px + C k = 1
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 21'
&
$
%
Neomejena naravna rast / zvezna
dy
dx= sy, y(0) = C, x ≥ 0
resitev
y(x) = Cesx
Opomba: Ce postavimos = ln k, je kx = esx. Modela sta navidez
enakovredna. Prvi ima zax ∈ IR+0 tudi resitve
y(x) = Ckx + z(x)
kjer jez(x) poljubna funkcija, ki zadosca pogoju
z(x) = 0, x ∈ IN
Na primer
z(x) = sin 2πx
2
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 22'
&
$
%
Omejena naravna rastSlabost obeh prejsnjih modelov je, da v naravi pojavi niso neomejeni – ne
velja: y →∞, ko x →∞.
To slabost odpravljata modela:
∆y(x) = k(1− y(x)m
)y(x), y(0) = C, x ∈ IN
dy
dx= s(1− y
m)y, y(x0) = C, x ≥ x0
kjer m predstavlja mejo zay.
Analiza diskretnega primera je razmeroma zapletena. Zato si bomo ogledali
le zvezni model.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 23'
&
$
%
Omejena naravna rast / zveznaDiferencialno enacbo modela zapisemo v obliki
dy
y+
dy
m− y= sdx
in dobimo resitev ym−y = C ′esx oziromay = mC′
C′+e−sx .
Ce jes > 0, zanjo veljalimx→∞ y(x) = m.
KonstantoC ′ dolocimo iz zvezey(x0) = C. DobimoC ′ = Ce−sx0
m−C in dalje
y(x) =m
1− (1− mC )e−s(x−x0)
Dobljeni krivulji pravimo logisticna krivulja; Pearl, Reed 1920.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 24'
&
$
%
Gostota naseljenosti mestaClarkov krozni model
D = Ae−bx
x – oddaljenost od sredisca,A – gostota v srediscu,b – strnjenost/kompakt-
nost pozidave.
Clarkov model ima vec posplositev. Zarkovni modelD = D(r, ϕ).Medvedkov (1965) je predlagal modelA = A(ϕ) in x = rb(ϕ).
Gurevic in Sauskin (1966): Naj boT hitrost padanja gostote vzdolz zarka
ϕ T = − 1D
∂D∂r . Predpostavljamo , da jeT (r, ϕ) ≥ 0. Iz enacbe dobimo
D = D0e−
∫ r
0Tdr. S tem obrazcem lahko ocenimostevilcnost prebivalstva
v poljubnem obmocju mestaΩ kot
N(Ω) =∫ ∫
Ω
D(r, ϕ)rdrdϕ = D0
∫ ∫Ω
re−
∫ r
0Tdrdrdϕ
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 25'
&
$
%
Zipf-Mandelbrotov zakonImamo besednjak urejen po padajocih relativnih frekvencahpi, i = 1, . . . n.
Tedaj obstajajo konstantek, γ > 0 in ρ, tako da je
pi = k(i + ρ)−γ
Zipf je ugotovil, da za vecino naravnih jezikov velja za porazdelitev besed
k ∼ 0.1, γ ∼ 1, ρ = 0.
vzorec 1000 N γ ρ k
anglescina, proza 260 1.04 ? 0.13
francoscina, elektrotehnika 200 0.98 ? 0.119
nemscina, elektrotehnika 200 0.99 1.59 0.10
ruscina, elektrotehnika 200 0.84 1.90 0.14
cescina, literatura 1500 1.04 1.35 0.132
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 26'
&
$
%
Obstaja vec podobnih/sorodnih zakonov: Pareto, Lotka, Benford, Bradford,
. . .
Cobb-Douglasova funkcija produktivnostiNaj boO produktivnost (output) podjetja (rudnika),C vlozena sredstva
(capital) inL delovna sila (labor force) terk > 0, 0 < γ < 1 konstanti
tedaj velja
O = kCγL1−γ
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 27'
&
$
%
Ribi stvo
Funkcija rasti: von Bertalanffy (1938): l – velikost; t – cas;L∞ –
asimptoticna velikost;t0 – cas velikosti0 (majhno negativno).
l = L∞(1− e−K(t−t0))
Funkcija rasti: Gompertz (1825): W – teza.
Wt = W0eG(1−e−gt)
Funkcija prirastka (obnove): Beverton-Holt (1956): P – stevilcnost
starsevske populacije;R – stevilcnost zaroda (nove generacije).
R =1
α + βP
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 28'
&
$
%
. . . Ribistvo
Funkcija prirastka – Gama: Saila-Lorda (1980):
R = αP γe−βP
Prvi del izraza rodnost, drugi pa vplive gostote.
Funkcija prirastka: Sheperd (1982): α – rodnost;β > 0 – gostota;K –
znacilni delez populacije.
R =αP
1 + ( PK )β
Alometri cna funkcija rasti: W – teza;L – dolzina; praviloma je za ribe
b ∈ [2.5, 3.5].W = aLb
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 29'
&
$
%
Standardne krivulje rastiOsnovni tipi:
• polinom; (m = 1 – premica,m = 2 – parabola)
y(t) = a0 + a1 · t + a2 · t2 + . . . + am · tm
• logaritmicna:y(t) = loga t
• premaknjena (c 6= 0) eksponentna:y(t) = c + a bt
• Gompertzova krivulja:y(t) = c abt
• logisticna krivulja:y(t) = c1+b ef(t)
Obicajno logisticno krivuljo dobimo,ce postavimof(t) = −a · t.
Obstajase vrsta drugih.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 30'
&
$
%
Katera funkcija je najustreznej sa?Lahko za vrsto krivuljo vemo iz teorije; lahko pa samozelimo povzeti
dane podatke z zahtevano natancnostjo scim enostavnejso funkcijo (nacelo
varcnosti –cim manj parametrov).
Prvi pristop je uporaba prikaza (zglajenih) podatkov in ’kataloga’ funkcij.
Drugi pristop temelji na znacilnih prirastkih. Iz danega (zglajenega)
zaporedja izracunamo ’hitrosti’
vk =∆yk
∆xk=
yk+1 − yk
xk+1 − xk
ali (morda natancneje)
vk =yk+1 − yk−1
xk+1 − xk−1
in odlocimo takole:
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 31'
&
$
%
PrirastkiCe je kolicina (skoraj) konstantna je krivulja:
vk premica
∆vk parabola
∆myk polinom stopnjem
vk/yk eksponentna
∆(vk/yk) logaritmicna parabola
∆(log vk) premaknjena eksponentna
∆(log(vk/yk)) Gompertzova krivulja
∆(log(vk/y2k)) logisticna krivulja
Vcasih so problemi z logaritmi negativnihstevil. Delno se jim lahko
izognemo s povecanim glajenjem.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 32'
&
$
%
PrileganjeIz razreda dopustnih funkcijF izberemo tisto, ki se najbolje prilega nasim
podatkom. Naj bo tof(x, a). Tedaj je delna napaka v posamezni tocki
(xk, yk)yk = f(xk, a) + εk
Delne napake zdruzimo v celotno napakoE(f) na vec nacinov
E1(f) =∑
k
|εk|
E2(f) =∑
k
ε2k
E3(f) = maxk|εk|
E4(f) = lik(f) =∏k
f(xk, a), f je porazdelitev
Pri prvih trehmin, pri E4 max.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 33'
&
$
%
PrileganjeNamesto napakeεk bi lahko izbrali tudi kako drugo mero odstopanja
funkcije od podatkov – na primerortogonalno(pravokotno) napako%k.
Za porazdelitve je najprikladnejsametoda najvecjega verjetja(E4).
Za splosne funkcije se najpogosteje uporabljametoda najmanjsih kvadratov
(E2). Njena velika prednost je, da v nekaterih primerih omogoca analiticno
dolocitev resitve; njena glavna slabost pa je, da je mocno obcutljiva na
podatke, ki mocno odstopajo od krivulje. Zato zadnjecase vse pogosteje
uporabljajo tudi metodo absolutnih odstopanj, ki je precej robustnejsa.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 34'
&
$
%
Utezena metoda najmanjsih kvadratov
E(a) =∑
i
wiε2i =
n∑i=1
wi(f(xi, a)− yi)2
Upostevanje natancnosti meritevyi ± σi tedajε′i = εi
σi
E′(a) =∑
i
(ε′i)2 =
∑i
(εi
σi)2 =
∑i
1σ2
i
ε2i
Torejwi = 1σ2
i
.
Relativna napaka:yi = f(xi)(1 + δi)
δi =yi − f(xi)
f(xi)≈ yi − f(xi)
yi⇒ wi =
1y2
i
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 35'
&
$
%
Optimizacijske nalogeNaj bo na mnozici Φ dana funkcijaP : Φ → IR, kjer je IR = IR ∪+∞,−∞. Mnozici Φ bomo reklimnozica dopustnih resitev, funkciji P
panamenskaali kriterijska funkcija.
Najmanjsa vrednostP naΦ je dolocena z
min(Φ, P ) =
infx∈Φ P (x) Φ 6= ∅
∞ Φ = ∅
Nalogo poiskatix∗ ∈ Φ, tako da jeP (x∗) = min(Φ, P ) oznacimo
(Φ, P, min). Na podoben nacin vpeljemo(Φ, P, max).
(Φ, P, max) je enakovredna(Φ,−P,min)
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 36'
&
$
%
Optimizacija v IRn
Izrek 1 Potreben pogoj za to, da ima zvezna in dvakrat zvezno odvedljiva
funkcijaP naloge(IRn, P, min) (lokalni) minimum v tocki x∗, je
∇P (x∗) = 0
in, da je Hessova matrikaH(P, x∗) pozitivno semi-definitna.Ce je
pozitivno definitna, je v tocki x∗ strogi (lokalni) minimum.
∇P (x) = [∂P (x)∂xi
] je gradientfunkcijeP ; Hessova matrikapa
H(P, x) = [∂2P
∂xi∂xj]
je v tocki x ∈ Φ pozitivno semi-definitna
∀y ∈ IRn, y 6= 0 : yT H(P, x)y ≥ 0
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 37'
&
$
%
Karush-Kuhn-Tuckerjev izrekImejmo nalogo(Φ, P, Min), kjer je
Φ = x ∈ IRm : Pi(x) ≤ 0, i ∈ I, Pj(x) = 0, j ∈ J
in soP in Pk, k ∈ K = I ∪ J zvezno odvedljive funkcije.
Izrek 2 Potreben pogoj za to, da ima naloga(Φ, P, min) v tocki x∗ ∈ Φlokalni minimum, je obstoj realnihsteviluj , j ∈ J in ui ≥ 0, i ∈ I, za
katere velja:
∇xP (x∗) +∑i∈I
ui∇xPi(x∗) +∑j∈J
uj∇xPj(x∗) = 0
in uiPi(x∗) = 0, i ∈ I.
Poleg pogojem zaui mora resitevx∗, ce naj bo dopustna, zadoscati seomejitvam
Pi(x∗) ≤ 0, i ∈ I in Pj(x∗) = 0, j ∈ J
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 38'
&
$
%
Regresijska premica
y = f(x, a, b) = ax + b
Po metodi najmanjsih kvadratov poskusimo dolociti koeficientaa in b tako,da bo celotna napaka
E(a, b) =n∑
k=1
wk(axk + b− yk)2
najmanjsa. Kot vemo iz optimizacije, lahko dolocimo parametraa in b kotresitev sistema enacb
∂E
∂a=
∂E
∂b= 0
oziroma
a∑
wkx2k + b
∑wkxk =
∑wkxkyk
a∑
wkxk + b∑
wk =∑
wkyk
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 39'
&
$
%
. . . Regresijska premicaUvedimow =
∑wk in
x =1
w
∑wkxk, y =
1
w
∑wkyk, xy =
1
w
∑wkxkyk, x2 =
1
w
∑wkx2
k
pa dobimo
ax2 + bx = xy
ax + b = y
Sistem ima enolicno resitev
a =xy − xy
x2 − x2b = y − ax
v kateriE doseze najmanjso vrednost. Enacbo regresijske premice lahko
zapisemo tudi v obliki
y − y = a(x− x)
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 40'
&
$
%
. . . Regresijska premicaOznacimo
Sxy =∑
wk(xk − x)(yk − y) = w(xy − x y)
Sxx =∑
wk(xk − x)2 = w(x2 − x2)
Torej velja tudi
a =Sxy
Sxx=
∑wk(xk − x)(yk − y)∑
wk(xk − x)2
Pokazati je mogoce, da jeσ modela
σ2 =Syy − aSxy
n− 2
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 41'
&
$
%
Uporaba regresijske premice
(xi, yi)y = f(x, a, b)
u=g(x,y)v=h(x,y)−→ (ui, vi)
v = Au + B
REG−→ (A,B)
←−−−−−−−−−−−−−−−a = α(A, B)
b = β(A, B)
Primer: Zay = axb+x dobimo
x
y︸︷︷︸v
=b + x
a=
1a︸︷︷︸A
x︸︷︷︸u
+b
a︸︷︷︸B
a =1A
b =A
B
Goljufija !!! – dobljenaa, b nista najboljsa.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 42'
&
$
%
Primeri linearizacij
f(x, a, b) u v a b
y = ax + b x y A B
y = 1ax+b x 1
y A B
y = ax + b 1
x y A B
y = xax+b x x
y A B
y = axx+b x x
y1A
BA
y = axb lnx ln y eA B
y = abx x ln y eA eB
y = ab1x
1x ln y eA eB
y = 1a+be−x e−x 1
y A B
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 43'
&
$
%
PosplositvePogosto uporabljamo tudi modela:
f(x, a1, a2, ..., as) =∑
akϕk(x)
kjer soϕk(x) linearno neodvisne funkcije.
f(x1, x2, ..., xm, a1, a2, ..., am) =∑
akxk
ki se prav tako prevedeta na resevanje sistema linearnih enacb.
V primeru nelinearnih modelov uporabimo numericne postopke.
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 44'
&
$
%
Ovrednotenje / Analiza ostankaKo izberemo najboljso prileznico f∗(x), lahko narisemo graf ostankaεk = yk − f∗(xk). Ce je slika ostanka nakljucna – ostanki so nakljucnoporazdeljeni okrog osi in vzdolz osi enako razprseni smo nalogo opravili;ce pa so v sliki ostanka opazne kake pravilnosti, ostanek najbrz skrivaneupostevane sestavine.
V sliki ostanka se pogosto jasno pokazejo tujki in drugi odstopajoci podatki.
V primeru, ko se razprsenost spreminja vzdolz osi, govorimo o het-eroskedasticnosti. Pogosto je lahko odpravimo s transformacijo osiy.
Zaporedje predznakov ostankov mora biti tudi nakljucno – sicer imamoopravka z avtokorelacijo.
Modeli:
Deskriptivni, opisni – Kako se kaj (bo) obnasa(lo)?
Preskriptivni, normativni – Kako naj se nekaj (idealno) obnasa?
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 45'
&
$
%
Optimizacija v Roptimize – enorazsezna optimizacija
optim – vecrazsezna optimizacija
lm – linearni modeli
glm – posploseni linearni modeli
lsfit – metoda najmanjsih kvadratov
Podatki o mestih:playfair.dat ;
Podatki o drzavah OECD:OECD.dat ;
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 46'
&
$
%
Optimizacija v R / linearnaplot(a)attach(a); plot(diameter,population)b <- lm(population ˜ diameter)bsummary(b)plot(b)plot(diameter,population)abline(b,col="red")pb <- predict(b)points(diameter,pb,pch=16,col="red")
plot(diameter,population)c <- lm(population ˜ 1 + diameter + I(diameterˆ2))x <- seq(5,41,1)pc <- function(x)coef(c)[3]*xˆ2 + coef(c)[2]*x + coef(c)[1]lines(spline(x,pc(x)),col="red")points(diameter,pc(diameter),pch=16,col="red")
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 47'
&
$
%
Optimizacija v R / nelinearnaf4 <- function(x)xˆ4 - 14*xˆ3 + 60*xˆ2 - 70*xcurve(f4,0,7)m4 <- optimize(f4,interval=c(5,7),tol=0.000001)lines(c(m4$min,m4$min,-100),c(-100,m4$obj,m4$obj),col="red")
fr <- function(x) ## Rosenbrock Banana functionx1 <- x[1]; x2 <- x[2];100 * (x2 - x1ˆ2)ˆ2 + (1 - x1)ˆ2
gr <- function(x) ## Gradient of ‘fr’
x1 <- x[1]; x2 <- x[2]c(-400*x1*(x2 - x1ˆ2) - 2*(1 - x1),200*(x2 - x1ˆ2))
m <- optim(c(-1.2,1),fr,control=list(trace=TRUE))mg <- optim(c(-1.2,1),fr,gr=gr,method="BFGS",
control=list(trace=TRUE))
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 48'
&
$
%
Optimizacija v R / OECDpairs(oecd)plot(agr,pcinc,pch="+")
# linearna regresijalin <- lm(pcinc ˜ agr)abline(lin,col="green")lp <- lin$coef[2]*agr + lin$coef[1]sum((lp - pcinc)ˆ2)
# eksponentna z linearno regresijopi <- log(pcinc); m <- lm(pi ˜ agr )b <- exp(m$coef[1]); a <- exp(m$coef[2])pl <- function(x)b*aˆxpoints(agr,pl(agr),col="red",pch=16)
# metoda najmanjsih kvadratovf <- function(t,p)a <- p[1]; b <- p[2]; b*aˆtE <- function(p)d <- f(agr,p) - pcinc; sum(dˆ2)p0 <- c(a,b); best <- optim(p0,E)E(p0)bestpr <- function(x)f(x,best$par)points(agr,pr(agr),col="blue",pch=16)d <- seq(0,84,2); lines(spline(d,pr(d)),col="blue")
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 49'
&
$
%
Optimizacija v R / slika OECD
+
+
+
+
+++ ++ +
++
+
++
+ +++
+
20 40 60 80
500
1000
1500
agr
pcin
c
Univerza v Ljubljani, Podiplomskistudij statistike
V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 50'
&
$
%
Dodatni viriBrian Bunday, Gerald R Garside:Optimisation Methods in Pascal, Edward
Arnold, 1987.
William H. Press, Brian P. Flannery, Saul A. Teukolsky, William T.
Vetterling:Numerical Recipes: The Art of Scientific ComputingCambridge
University Press, 1993.CMU / C.
Julian Faraway:Practical Regression and Anova in R
Thomas P. Ryan:Modern Regression Methods. Wiley-Interscience,1996.
Wentian Li: Zipf’s law; Glottometrics
A Bookstein:lnformetric Distributions, Part I: Unified Overview
Univerza v Ljubljani, Podiplomskistudij statistike
top related