funkcijski opisi podatkov - vlado.fmf.uni-lj.sivlado.fmf.uni-lj.si/vlado/podstat/it/fun.pdf · l l...

55
●● ●● ●● 10 15 20 25 30 35 40 200 400 600 800 1000 diameter population Univerza v Ljubljani podiplomski ˇ studij statistike Informacijska tehnologija v analizi podatkov Funkcijski opisi podatkov Vladimir Batagelj FMF, matematika

Upload: others

Post on 08-Sep-2019

8 views

Category:

Documents


0 download

TRANSCRIPT

'

&

$

%

10 15 20 25 30 35 40

200

400

600

800

1000

diameter

popu

latio

n

Univerza v Ljubljanipodiplomski studij statistike

Informacijska tehnologijav analizi podatkov

Funkcijskiopisi podatkov

Vladimir BatageljFMF, matematika

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov I-1'

&

$

%

Kazalo1 Podatki Playfair: mesta. . . . . . . . . . . . . . . . . . . . . . 1

2 Funkcije in R / Grid. . . . . . . . . . . . . . . . . . . . . . . . 2

3 Funkcije in R / Lattice . . . . . . . . . . . . . . . . . . . . . . 3

4 Slike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

5 Funkcijske zveze . . . . . . . . . . . . . . . . . . . . . . . . . 5

6 Koraki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

7 Entropija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

8 Informacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

9 . . . Informacija. . . . . . . . . . . . . . . . . . . . . . . . . . . 9

10 Meri povezanosti Raiskega. . . . . . . . . . . . . . . . . . . . 10

11 Pogojna entropija in informacija. . . . . . . . . . . . . . . . . 11

12 . . . Pogojna entropija in informacija. . . . . . . . . . . . . . . . 12

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov I-2'

&

$

%

13 . . . Pogojna entropija in informacija. . . . . . . . . . . . . . . . 13

14 . . . Pogojna entropija in informacija. . . . . . . . . . . . . . . . 14

15 Krivulje / Izbira oblike . . . . . . . . . . . . . . . . . . . . . . 15

16 Glajenje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16

17 . . . Glajenje . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

18 . . . Glajenje . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

19 Eksponentno glajenje. . . . . . . . . . . . . . . . . . . . . . . 19

20 Neomejena naravna rast / diskretna. . . . . . . . . . . . . . . . 20

21 Neomejena naravna rast / zvezna. . . . . . . . . . . . . . . . . 21

22 Omejena naravna rast. . . . . . . . . . . . . . . . . . . . . . . 22

23 Omejena naravna rast / zvezna. . . . . . . . . . . . . . . . . . 23

24 Gostota naseljenosti mesta. . . . . . . . . . . . . . . . . . . . 24

25 Zipf-Mandelbrotov zakon. . . . . . . . . . . . . . . . . . . . . 25

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov I-3'

&

$

%

26 Cobb-Douglasova funkcija produktivnosti. . . . . . . . . . . . 26

27 Ribistvo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27

28 . . . Ribistvo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

29 Standardne krivulje rasti. . . . . . . . . . . . . . . . . . . . . 29

30 Katera funkcija je najustreznejsa? . . . . . . . . . . . . . . . . 30

31 Prirastki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .31

32 Prileganje . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32

33 Prileganje . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33

34 Utezena metoda najmanjsih kvadratov . . . . . . . . . . . . . . 34

35 Optimizacijske naloge . . . . . . . . . . . . . . . . . . . . . . 35

36 Optimizacija vIRn . . . . . . . . . . . . . . . . . . . . . . . . 36

37 Karush-Kuhn-Tuckerjev izrek . . . . . . . . . . . . . . . . . . 37

38 Regresijska premica. . . . . . . . . . . . . . . . . . . . . . . . 38

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov I-4'

&

$

%

39 . . . Regresijska premica. . . . . . . . . . . . . . . . . . . . . . 39

40 . . . Regresijska premica. . . . . . . . . . . . . . . . . . . . . . 40

41 Uporaba regresijske premice. . . . . . . . . . . . . . . . . . . 41

42 Primeri linearizacij . . . . . . . . . . . . . . . . . . . . . . . . 42

43 Posplositve . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

44 Ovrednotenje / Analiza ostanka. . . . . . . . . . . . . . . . . . 44

45 Optimizacija v R . . . . . . . . . . . . . . . . . . . . . . . . . 45

46 Optimizacija v R / linearna. . . . . . . . . . . . . . . . . . . . 46

47 Optimizacija v R / nelinearna. . . . . . . . . . . . . . . . . . . 47

48 Optimizacija v R / OECD. . . . . . . . . . . . . . . . . . . . . 48

49 Optimizacija v R / slika OECD. . . . . . . . . . . . . . . . . . 49

50 Dodatni viri . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 1'

&

$

%

Podatki Playfair: mestacity population diameter

Edinburgh 60 9.144Stockholm 63 9.652

Florence 75 10.160Genoa 80 10.668Turin 80 10.160

Warsaw 80 11.430Copenhagen 90 12.192

Lisbon 120 14.224Palermo 130 14.478

Madrid 140 14.732Berlin 145 14.732

Rome 160 15.240Petersburgh 180 15.748

Venice 200 16.256Dublin 210 16.256

Amsterdam 220 17.272Moscow 250 18.796Vienna 255 19.304Naples 380 23.876

Paris 690 31.496Constantinople 900 35.052

London 1100 39.624

10 15 20 25 30 35 40

200

400

600

800

1000

diameter

popu

latio

n

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 2'

&

$

%

Funkcije in R / Grida <- read.table(file="playfair.dat",header=TRUE,

sep="",row.names=1)plot(a)attach(a); plot(diameter,population)

# risanje funkcijf4 <- function(x)xˆ4 - 14*xˆ3 + 60*xˆ2 - 70*x curve(f4,0,7)

# Rosenbrock Banana functionfun <- function(x,y)100 * (y - x * x)ˆ2 + (1 - x)ˆ2x <- seq(-5,5,0.1); y <- xz <- outer(x,y,fun)contour(x,y,z)contour(x,y,log(z),nlevels=20)

x <- seq(-0.5,1.5,0.01); y <- x; z <- outer(x,y,fun)contour(x,y,log(z),nlevels=20)image(x,y,log(z))persp(x,y,log(z),zlim=c(-10,10),theta=180,phi=45)persp(x,y,log(z),zlim=c(-11,6),theta=180,phi=-10)

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 3'

&

$

%

Funkcije in R / Latticelibrary(lattice)x <- seq(0.9,1.1,0.0025); y <- xg <- expand.grid(x=x,y=y)g$z <- fun(g$x,g$y); g$z <- log(g$z)which.min(g$z)[1] 3281g$z[3281] <- -20levelplot(z˜x*y,data=g,cuts=50,xlab="x",ylab="y",

main="Rosenbrock Banana",colorkey=FALSE)wireframe(z ˜ x * y,data=g,drape=TRUE,colorkey=TRUE,shade=TRUE)

pdf(file="ban1.pdf")wireframe(z ˜ x * y,data=g,drape=TRUE,colorkey=TRUE,shade=TRUE)dev.off(); pdf(file="ban2.pdf")wireframe(z ˜ x * y,data=g,drape=TRUE,colorkey=TRUE,shade=TRUE,

screen=list(z=30,x=-60))dev.off(); pdf(file="ban3.pdf")wireframe(z ˜ x * y,data=g,drape=TRUE,colorkey=TRUE,shade=TRUE,

screen=list(z=25,x=-50),scales=list(draw=FALSE))dev.off()

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 4'

&

$

%

Slike

0 1 2 3 4 5 6 7

−20

020

40

x

f4 (

x)

−0.5 0.0 0.5 1.0 1.5

−0.

50.

00.

51.

01.

5

x

y

log(

z)

−0.5 0.0 0.5 1.0 1.5

−0.

50.

00.

51.

01.

5

x

y

Rosenbrock Banana

x

y

0.9

0.95

1

1.05

1.1

0.9 0.95 1 1.05 1.1

x

y

z

−−20

−−15

−−10

−−5

−0

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 5'

&

$

%

Funkcijske zvezeImamo mnozico podatkov

(xi, yi), i = 1, n, xi ∈ IRk, yi ∈ IR

ki jih zelimo izraziti s funkcijsko zvezoy = f(x).

Za to je lahko vec razlogov:

• povzetje podatkov (redukcija, interpolacija, aproksimacija ...);

• poenostavitev (zamena) zapletenih obrazcev z enostavnimi;

• opis naravnih zakonitosti;

• iskanje naravnih zakonitosti;

• ocenjevanje parametrov;

• dolocanje neznane vrednosti: vrednost v sredini, napovedovanje.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 6'

&

$

%

KorakiZato

• (neobvezno) vrednostiyi zgladimo – odstranimo nakljucne vplive –

sum;

• izberemo obliko zveze – druzino dopustnih funkcij;

• izberemo kriterij prileganja funkcije podatkom in glede nanj izberemo

najboljso prileznico;

• analiziramo, ovrednotimo dobljeno resitev; po potrebi postopek

ponovimo.

V nadaljevanju se bomo pretezno, predvsem v ponazoritvah, omejili na

funkcije ene ali dveh spremenljivk.

Ali sta kolicini sploh funkcijsko povezani?

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 7'

&

$

%

EntropijaNaj bop(X) = (p(xi))n

i=1 verjetnostna porazdelitev lastnostiX. Entropija

porazdelitvep(X) imenujemo kolicino

H(X) = −n∑

i=1

p(xi) lg p(xi)

kjer je lg ≡ log2 in veljap = 0 ⇒ p lg p = 0.

Velja ocena0 ≤ H(X) ≤ lg n . Entropija doseze spodnjo mejo za izrojene

porazdelitvep(xk) = 1; p(xi) = 0, i 6= k in zgornjo mejo za enakomerno

porazdelitevp(xi) = 1n , i = 1, . . . , n. Torej lahko vpeljemorelativno

entropijo

h(X) =H(X)lg n

z vrednostmi na intervalu[0, 1]. Ta nam omogoca tudi primerjavo poraz-

delitev z razlicnim stevilom stanj (enostavnih dogodkov).

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 8'

&

$

%

InformacijaImejmo lastnostiX in Y s porazdelitvamap(X) in p(Y ) ter skupno

porazdelitvijop(XY ). Tedaj jeinformacija med lastnostimaX in Y

dolocena z izrazom

I(X, Y ) =n∑

i=1

m∑j=1

p(xi, yj) lgp(xi, yj)

p(xi)p(yj)

ki jo lahko, ce upostevamo

m∑j=1

p(xi, yj) = p(xi) inn∑

i=1

p(xi, yj) = p(yj)

zapisemo I(X, Y ) = H(X) + H(Y )−H(XY ).

Pokazati je mogoce, da velja

H(X) + H(Y ) ≥ H(XY ) ≥ max(H(X),H(Y ))

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 9'

&

$

%

. . . InformacijaOd tu izhaja

0 ≤ I(X, Y ) ≤ min(H(X),H(Y ))

InformacijaI(X, Y ) doseze vrednost0 natanko takrat, ko za vsak pari, j

veljap(xi, yj) = p(xi)p(yj); kar pomeni verjetnostno neodvisnost lastnosti

X in Y .

Drugo skrajnost dobimo v primeru, ko obstaja medX in Y funkcijska

zveza – v vsakem stolpcu in vsaki vrstici porazdelitvep(XY ) je najvec en

od nic razlicenclen. Tedaj velja

H(X) = H(Y ) = H(XY ) = I(X, Y )

Torej je informacijaI(X, Y ) merafunkcijske odvisnosti(dolocenosti) med

lastnostimaX in Y . Pri tem velja poudariti, da je definirana za vsa vrste

merskih lestvic.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 10'

&

$

%

Meri povezanosti RaiskegaRaiski je leta 1964 vpeljal za mero povezanosti lastnostiX in Y koeficient

R(X ↔ Y ) =I(X, Y )H(XY )

ki ima tudi usmerjeno obliko

R(X → Y ) =I(X, Y )H(Y )

Oba koeficienta zavzemata vrednosti na intervalu[0, 1] in imata vrednost 0,

ko sta lastnosti verjetnostno neodvisni.R(X → Y ) = 1, ko jeY funkcija

X-a;R(X ↔ Y ) = 1, ko obe lastnosti ena drugo natanko dolocata.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 11'

&

$

%

Pogojna entropija in informacijaNaj boA nek dogodek. Tedaj imenujemopogojna entropijalastnostiX pripogojuA entropijo pogojne porazdelitvep(X/A)

H(X;A) = −n∑

i=1

p(xi/A) lg p(xi/A)

V posebnem primeru, ko jeA ≡ yj , meriH(X; yj) nedolocenost lastnostiX pri pogoju, da ima lastnostY vrednostyj .

Od tu dobimo mero za povprecno pogojno entropijo lastnostiX glede naY

H(X;Y ) =m∑

j=1

p(yj)H(X; yj) = −m∑

j=1

p(yj)n∑

i=1

p(xi/yj) lg p(xi/yj) =

in, ker jep(A/B) = p(AB)/p(A),

= −n∑

i=1

m∑j=1

p(xi, yj) lgp(xi, yj)

p(yj)= H(XY )−H(Y )

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 12'

&

$

%

. . . Pogojna entropija in informacijaPokazati je mogoce, da veljaH(X; Y ) ≥ H(X; Y Z). To upostevamo naprej v

I(X, Y )+H(X; Y ) = (H(X)+H(Y )−H(XY ))+(H(XY )−H(Y )) = H(X)

Torej je

H(X) = I(X, Y ) + H(X; Y ) in H(Y ) = I(X, Y ) + H(Y ; X)

Prvo zvezo lahko preberemo: Celotna nedolocenost lastnostiX je enaka vsoti

pojasnjene in preostale nedolocenosti.

Informacija med lastnostimaX in Y pri pogojuA je enaka

I(X, Y ; A) =

n∑i=1

m∑j=1

p((xi, yj)/A) lgp((xi, yj)/A)

p(xi/A)p(yj/A)

= H(X; A) + H(Y ; A)−H(XY ; A)

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 13'

&

$

%

. . . Pogojna entropija in informacijain povprecna informacija medX in Y pri znanih vrednostihZ

I(X, Y ; Z) =∑k

s=1p(zs)I(X, Y ; zs) =

=∑k

s=1p(zs)(H(X; zs) + H(Y ; zs)−H(XY ; zs)) =

= H(X; Z) + H(Y ; Z)−H(XY ; Z) =

= (H(XZ)−H(Z)) + (H(Y Z)−H(Z))− (H(XY Z)−H(Z)) =

= H(XZ) + H(Y Z)−H(Z)−H(XY Z)

Pokazati je mogoce, da vpeljava nove lastnosti poveca informacijo medX in

ostalimi upostevanimi lastnostmi

I(X, Y Z)− I(X, Y ) =

= (H(X) + H(Y Z)−H(XY Z))− (H(X) + H(Y )−H(XY )) =

= (H(XY )−H(Y ))− (H(Y Z)−H(XY Z)) =

= H(X; Y )−H(X; Y Z) ≥ 0

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 14'

&

$

%

. . . Pogojna entropija in informacijaPokazimo se zanimivo zvezo med vsemi tremi oblikami (parno, skupinsko in delno)

informacije

I(X, Y ; Z) = H(XZ) + H(Y Z)−H(Z)−H(XY Z) =

= (H(X) + H(Y Z)−H(XY Z))− (H(X) + H(Z)−H(XZ)) =

= I(X, Y Z)− I(X, Z)

Torej velja

I(X, Y ; Z) = I(X, Y Z)− I(X, Z)

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 15'

&

$

%

Krivulje / Izbira oblikeNajprej moramo izbrati obliko funkcijske zvezef – razred dopustnih funk-

cij F . Izbor lahko opravimo na osnoviteorije – izpeljemo obliko resitev.

Obliko funkcije nam lahko predpisujejo tudi izbrana/dostopna matematicna

in programskaorodja (linearizacija, . . . ). Pogosto pa zaradi pomanjkanja

teorije ali drugih razlogov dolocimo razred na drugacen nacin iz kataloga:

na oko, izkusnje, hevristika, varcnost, enostavnost, zlepki in drugi (polni)

sistemi funkcij, sodila (razlike, sredine), splosne znacilnosti opisovanega

pojava (obnasanje v neskoncnosti, ...).

Zveznost, diskretnost, ekvidistantnost.

Lagrangeov polinom – gre skozi tocke, vendar vmes lahko hudo podivja.

Upostevati je potrebno tudi pricakovane znacilnosti resitve - neprehitro

spreminjanje, narascanje, limitne vrednosti.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 16'

&

$

%

Glajenje

Utezena drseca povprecja: Predpostavimo∆tk = const. Podzaporedja

(intervale) izm podatkov zamenjamo z njihovim (utezenim) povprecjem.

Praviloma jem liho stevilo – povprecje zamenja podatek v sredi intervala.

Za m = 2s + 1 dobimo tako novo zaporedje(yk), k = s + 1, s +2, . . . , n− s, kjer je

yk =s∑

j=−s

αjyk+j , α−i = αi, i = 1, . . . , s ins∑

j=−s

αj = 1

Utezi α dolocimo ’po obcutku’

yi =19(yi−2 + 2yi−1 + 3yi + 2yi+1 + yi+2)

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 17'

&

$

%

. . . Glajenjelahko pa tudi glede na kak cilj – npr. na polinomski aproksimaciji dela

zaporedja. Za primer parabole skozi 5 tock ( k = 2,m = 2 ) dobimo

yi =135

(−3yi−2 + 12yi−1 + 17yi + 12yi+1 − 3yi+2)

Pokazati je mogoce, da sta koeficienta priy−j in yj , j = 1, . . . , s vselej

enaka – shemo zapisemo v zgosceni obliki:

=135

[−3, 12,17]

Na podoben nacin lahko izpeljemo celo vrsto shem:

k = 3 m = 3 121 [−2, 3, 6,7]

k = 3 m = 4 1231 [−21, 14, 39, 54,59]

k = 4 m = 3 1231 [5,−30, 75,131]

k = 4 m = 4 1429 [15,−55, 30, 135,179]

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 18'

&

$

%

. . . GlajenjeIzpeljane sheme ne veljajo na robu – za prvih in zadnjihm clenov. V

primeruk = 2,m = 2 dobimo:

yn−1 = pn−2(1) =135

(2yn−4 − 8yn−3 + 12yn−2 + 27yn−1 + 2yn)

yn = pn−2(2) =170

(−yn−4 + 4yn−3 − 6yn−2 + 4yn−1 + 69yn)

Za y1 in y2 dobimo ’zrcalne’ obrazce.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 19'

&

$

%

Eksponentno glajenjeWiener je predlagal prilagodljivo glajenje

yk = αyk + (1− α)yk−1, y0 = y0

pri cemer jeα ∈ (0, 1] parameter glajenja.

Izpisimo obrazec za splosni clen

yk = αyk + α(1− α)yk−1 + α(1− α)2yk−2 + . . . + α(1− α)syk−s

Ce jeα ≈ 1, vpliv zadnjihclenov hitro slabi. Pokazati je mogoce, da je

E(y) = E(y) in D(y) =α

2− αD(y)

Torej, koα → 0 se nihanje zaporedja vse bolj dusi.

V praksi obicajno izbiramoα ∈ [0.1, 0.3]. Uporablja se tudi veckratno

glajenje.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 20'

&

$

%

Neomejena naravna rast / diskretna

y(x + 1) = ky(x), y(0) = C, x ∈ IN

resitev

y(x) = Ckx

y(x + 1) = ky(x) + p, y(0) = C, x ∈ IN

resitev

y(x) =

kx(C + pk−1 ) + p

k−1 k 6= 1

px + C k = 1

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 21'

&

$

%

Neomejena naravna rast / zvezna

dy

dx= sy, y(0) = C, x ≥ 0

resitev

y(x) = Cesx

Opomba: Ce postavimos = ln k, je kx = esx. Modela sta navidez

enakovredna. Prvi ima zax ∈ IR+0 tudi resitve

y(x) = Ckx + z(x)

kjer jez(x) poljubna funkcija, ki zadosca pogoju

z(x) = 0, x ∈ IN

Na primer

z(x) = sin 2πx

2

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 22'

&

$

%

Omejena naravna rastSlabost obeh prejsnjih modelov je, da v naravi pojavi niso neomejeni – ne

velja: y →∞, ko x →∞.

To slabost odpravljata modela:

∆y(x) = k(1− y(x)m

)y(x), y(0) = C, x ∈ IN

dy

dx= s(1− y

m)y, y(x0) = C, x ≥ x0

kjer m predstavlja mejo zay.

Analiza diskretnega primera je razmeroma zapletena. Zato si bomo ogledali

le zvezni model.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 23'

&

$

%

Omejena naravna rast / zveznaDiferencialno enacbo modela zapisemo v obliki

dy

y+

dy

m− y= sdx

in dobimo resitev ym−y = C ′esx oziromay = mC′

C′+e−sx .

Ce jes > 0, zanjo veljalimx→∞ y(x) = m.

KonstantoC ′ dolocimo iz zvezey(x0) = C. DobimoC ′ = Ce−sx0

m−C in dalje

y(x) =m

1− (1− mC )e−s(x−x0)

Dobljeni krivulji pravimo logisticna krivulja; Pearl, Reed 1920.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 24'

&

$

%

Gostota naseljenosti mestaClarkov krozni model

D = Ae−bx

x – oddaljenost od sredisca,A – gostota v srediscu,b – strnjenost/kompakt-

nost pozidave.

Clarkov model ima vec posplositev. Zarkovni modelD = D(r, ϕ).Medvedkov (1965) je predlagal modelA = A(ϕ) in x = rb(ϕ).

Gurevic in Sauskin (1966): Naj boT hitrost padanja gostote vzdolz zarka

ϕ T = − 1D

∂D∂r . Predpostavljamo , da jeT (r, ϕ) ≥ 0. Iz enacbe dobimo

D = D0e−

∫ r

0Tdr. S tem obrazcem lahko ocenimostevilcnost prebivalstva

v poljubnem obmocju mestaΩ kot

N(Ω) =∫ ∫

Ω

D(r, ϕ)rdrdϕ = D0

∫ ∫Ω

re−

∫ r

0Tdrdrdϕ

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 25'

&

$

%

Zipf-Mandelbrotov zakonImamo besednjak urejen po padajocih relativnih frekvencahpi, i = 1, . . . n.

Tedaj obstajajo konstantek, γ > 0 in ρ, tako da je

pi = k(i + ρ)−γ

Zipf je ugotovil, da za vecino naravnih jezikov velja za porazdelitev besed

k ∼ 0.1, γ ∼ 1, ρ = 0.

vzorec 1000 N γ ρ k

anglescina, proza 260 1.04 ? 0.13

francoscina, elektrotehnika 200 0.98 ? 0.119

nemscina, elektrotehnika 200 0.99 1.59 0.10

ruscina, elektrotehnika 200 0.84 1.90 0.14

cescina, literatura 1500 1.04 1.35 0.132

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 26'

&

$

%

Obstaja vec podobnih/sorodnih zakonov: Pareto, Lotka, Benford, Bradford,

. . .

Cobb-Douglasova funkcija produktivnostiNaj boO produktivnost (output) podjetja (rudnika),C vlozena sredstva

(capital) inL delovna sila (labor force) terk > 0, 0 < γ < 1 konstanti

tedaj velja

O = kCγL1−γ

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 27'

&

$

%

Ribi stvo

Funkcija rasti: von Bertalanffy (1938): l – velikost; t – cas;L∞ –

asimptoticna velikost;t0 – cas velikosti0 (majhno negativno).

l = L∞(1− e−K(t−t0))

Funkcija rasti: Gompertz (1825): W – teza.

Wt = W0eG(1−e−gt)

Funkcija prirastka (obnove): Beverton-Holt (1956): P – stevilcnost

starsevske populacije;R – stevilcnost zaroda (nove generacije).

R =1

α + βP

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 28'

&

$

%

. . . Ribistvo

Funkcija prirastka – Gama: Saila-Lorda (1980):

R = αP γe−βP

Prvi del izraza rodnost, drugi pa vplive gostote.

Funkcija prirastka: Sheperd (1982): α – rodnost;β > 0 – gostota;K –

znacilni delez populacije.

R =αP

1 + ( PK )β

Alometri cna funkcija rasti: W – teza;L – dolzina; praviloma je za ribe

b ∈ [2.5, 3.5].W = aLb

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 29'

&

$

%

Standardne krivulje rastiOsnovni tipi:

• polinom; (m = 1 – premica,m = 2 – parabola)

y(t) = a0 + a1 · t + a2 · t2 + . . . + am · tm

• logaritmicna:y(t) = loga t

• premaknjena (c 6= 0) eksponentna:y(t) = c + a bt

• Gompertzova krivulja:y(t) = c abt

• logisticna krivulja:y(t) = c1+b ef(t)

Obicajno logisticno krivuljo dobimo,ce postavimof(t) = −a · t.

Obstajase vrsta drugih.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 30'

&

$

%

Katera funkcija je najustreznej sa?Lahko za vrsto krivuljo vemo iz teorije; lahko pa samozelimo povzeti

dane podatke z zahtevano natancnostjo scim enostavnejso funkcijo (nacelo

varcnosti –cim manj parametrov).

Prvi pristop je uporaba prikaza (zglajenih) podatkov in ’kataloga’ funkcij.

Drugi pristop temelji na znacilnih prirastkih. Iz danega (zglajenega)

zaporedja izracunamo ’hitrosti’

vk =∆yk

∆xk=

yk+1 − yk

xk+1 − xk

ali (morda natancneje)

vk =yk+1 − yk−1

xk+1 − xk−1

in odlocimo takole:

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 31'

&

$

%

PrirastkiCe je kolicina (skoraj) konstantna je krivulja:

vk premica

∆vk parabola

∆myk polinom stopnjem

vk/yk eksponentna

∆(vk/yk) logaritmicna parabola

∆(log vk) premaknjena eksponentna

∆(log(vk/yk)) Gompertzova krivulja

∆(log(vk/y2k)) logisticna krivulja

Vcasih so problemi z logaritmi negativnihstevil. Delno se jim lahko

izognemo s povecanim glajenjem.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 32'

&

$

%

PrileganjeIz razreda dopustnih funkcijF izberemo tisto, ki se najbolje prilega nasim

podatkom. Naj bo tof(x, a). Tedaj je delna napaka v posamezni tocki

(xk, yk)yk = f(xk, a) + εk

Delne napake zdruzimo v celotno napakoE(f) na vec nacinov

E1(f) =∑

k

|εk|

E2(f) =∑

k

ε2k

E3(f) = maxk|εk|

E4(f) = lik(f) =∏k

f(xk, a), f je porazdelitev

Pri prvih trehmin, pri E4 max.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 33'

&

$

%

PrileganjeNamesto napakeεk bi lahko izbrali tudi kako drugo mero odstopanja

funkcije od podatkov – na primerortogonalno(pravokotno) napako%k.

Za porazdelitve je najprikladnejsametoda najvecjega verjetja(E4).

Za splosne funkcije se najpogosteje uporabljametoda najmanjsih kvadratov

(E2). Njena velika prednost je, da v nekaterih primerih omogoca analiticno

dolocitev resitve; njena glavna slabost pa je, da je mocno obcutljiva na

podatke, ki mocno odstopajo od krivulje. Zato zadnjecase vse pogosteje

uporabljajo tudi metodo absolutnih odstopanj, ki je precej robustnejsa.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 34'

&

$

%

Utezena metoda najmanjsih kvadratov

E(a) =∑

i

wiε2i =

n∑i=1

wi(f(xi, a)− yi)2

Upostevanje natancnosti meritevyi ± σi tedajε′i = εi

σi

E′(a) =∑

i

(ε′i)2 =

∑i

(εi

σi)2 =

∑i

1σ2

i

ε2i

Torejwi = 1σ2

i

.

Relativna napaka:yi = f(xi)(1 + δi)

δi =yi − f(xi)

f(xi)≈ yi − f(xi)

yi⇒ wi =

1y2

i

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 35'

&

$

%

Optimizacijske nalogeNaj bo na mnozici Φ dana funkcijaP : Φ → IR, kjer je IR = IR ∪+∞,−∞. Mnozici Φ bomo reklimnozica dopustnih resitev, funkciji P

panamenskaali kriterijska funkcija.

Najmanjsa vrednostP naΦ je dolocena z

min(Φ, P ) =

infx∈Φ P (x) Φ 6= ∅

∞ Φ = ∅

Nalogo poiskatix∗ ∈ Φ, tako da jeP (x∗) = min(Φ, P ) oznacimo

(Φ, P, min). Na podoben nacin vpeljemo(Φ, P, max).

(Φ, P, max) je enakovredna(Φ,−P,min)

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 36'

&

$

%

Optimizacija v IRn

Izrek 1 Potreben pogoj za to, da ima zvezna in dvakrat zvezno odvedljiva

funkcijaP naloge(IRn, P, min) (lokalni) minimum v tocki x∗, je

∇P (x∗) = 0

in, da je Hessova matrikaH(P, x∗) pozitivno semi-definitna.Ce je

pozitivno definitna, je v tocki x∗ strogi (lokalni) minimum.

∇P (x) = [∂P (x)∂xi

] je gradientfunkcijeP ; Hessova matrikapa

H(P, x) = [∂2P

∂xi∂xj]

je v tocki x ∈ Φ pozitivno semi-definitna

∀y ∈ IRn, y 6= 0 : yT H(P, x)y ≥ 0

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 37'

&

$

%

Karush-Kuhn-Tuckerjev izrekImejmo nalogo(Φ, P, Min), kjer je

Φ = x ∈ IRm : Pi(x) ≤ 0, i ∈ I, Pj(x) = 0, j ∈ J

in soP in Pk, k ∈ K = I ∪ J zvezno odvedljive funkcije.

Izrek 2 Potreben pogoj za to, da ima naloga(Φ, P, min) v tocki x∗ ∈ Φlokalni minimum, je obstoj realnihsteviluj , j ∈ J in ui ≥ 0, i ∈ I, za

katere velja:

∇xP (x∗) +∑i∈I

ui∇xPi(x∗) +∑j∈J

uj∇xPj(x∗) = 0

in uiPi(x∗) = 0, i ∈ I.

Poleg pogojem zaui mora resitevx∗, ce naj bo dopustna, zadoscati seomejitvam

Pi(x∗) ≤ 0, i ∈ I in Pj(x∗) = 0, j ∈ J

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 38'

&

$

%

Regresijska premica

y = f(x, a, b) = ax + b

Po metodi najmanjsih kvadratov poskusimo dolociti koeficientaa in b tako,da bo celotna napaka

E(a, b) =n∑

k=1

wk(axk + b− yk)2

najmanjsa. Kot vemo iz optimizacije, lahko dolocimo parametraa in b kotresitev sistema enacb

∂E

∂a=

∂E

∂b= 0

oziroma

a∑

wkx2k + b

∑wkxk =

∑wkxkyk

a∑

wkxk + b∑

wk =∑

wkyk

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 39'

&

$

%

. . . Regresijska premicaUvedimow =

∑wk in

x =1

w

∑wkxk, y =

1

w

∑wkyk, xy =

1

w

∑wkxkyk, x2 =

1

w

∑wkx2

k

pa dobimo

ax2 + bx = xy

ax + b = y

Sistem ima enolicno resitev

a =xy − xy

x2 − x2b = y − ax

v kateriE doseze najmanjso vrednost. Enacbo regresijske premice lahko

zapisemo tudi v obliki

y − y = a(x− x)

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 40'

&

$

%

. . . Regresijska premicaOznacimo

Sxy =∑

wk(xk − x)(yk − y) = w(xy − x y)

Sxx =∑

wk(xk − x)2 = w(x2 − x2)

Torej velja tudi

a =Sxy

Sxx=

∑wk(xk − x)(yk − y)∑

wk(xk − x)2

Pokazati je mogoce, da jeσ modela

σ2 =Syy − aSxy

n− 2

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 41'

&

$

%

Uporaba regresijske premice

(xi, yi)y = f(x, a, b)

u=g(x,y)v=h(x,y)−→ (ui, vi)

v = Au + B

REG−→ (A,B)

←−−−−−−−−−−−−−−−a = α(A, B)

b = β(A, B)

Primer: Zay = axb+x dobimo

x

y︸︷︷︸v

=b + x

a=

1a︸︷︷︸A

x︸︷︷︸u

+b

a︸︷︷︸B

a =1A

b =A

B

Goljufija !!! – dobljenaa, b nista najboljsa.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 42'

&

$

%

Primeri linearizacij

f(x, a, b) u v a b

y = ax + b x y A B

y = 1ax+b x 1

y A B

y = ax + b 1

x y A B

y = xax+b x x

y A B

y = axx+b x x

y1A

BA

y = axb lnx ln y eA B

y = abx x ln y eA eB

y = ab1x

1x ln y eA eB

y = 1a+be−x e−x 1

y A B

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 43'

&

$

%

PosplositvePogosto uporabljamo tudi modela:

f(x, a1, a2, ..., as) =∑

akϕk(x)

kjer soϕk(x) linearno neodvisne funkcije.

f(x1, x2, ..., xm, a1, a2, ..., am) =∑

akxk

ki se prav tako prevedeta na resevanje sistema linearnih enacb.

V primeru nelinearnih modelov uporabimo numericne postopke.

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 44'

&

$

%

Ovrednotenje / Analiza ostankaKo izberemo najboljso prileznico f∗(x), lahko narisemo graf ostankaεk = yk − f∗(xk). Ce je slika ostanka nakljucna – ostanki so nakljucnoporazdeljeni okrog osi in vzdolz osi enako razprseni smo nalogo opravili;ce pa so v sliki ostanka opazne kake pravilnosti, ostanek najbrz skrivaneupostevane sestavine.

V sliki ostanka se pogosto jasno pokazejo tujki in drugi odstopajoci podatki.

V primeru, ko se razprsenost spreminja vzdolz osi, govorimo o het-eroskedasticnosti. Pogosto je lahko odpravimo s transformacijo osiy.

Zaporedje predznakov ostankov mora biti tudi nakljucno – sicer imamoopravka z avtokorelacijo.

Modeli:

Deskriptivni, opisni – Kako se kaj (bo) obnasa(lo)?

Preskriptivni, normativni – Kako naj se nekaj (idealno) obnasa?

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 45'

&

$

%

Optimizacija v Roptimize – enorazsezna optimizacija

optim – vecrazsezna optimizacija

lm – linearni modeli

glm – posploseni linearni modeli

lsfit – metoda najmanjsih kvadratov

Podatki o mestih:playfair.dat ;

Podatki o drzavah OECD:OECD.dat ;

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 46'

&

$

%

Optimizacija v R / linearnaplot(a)attach(a); plot(diameter,population)b <- lm(population ˜ diameter)bsummary(b)plot(b)plot(diameter,population)abline(b,col="red")pb <- predict(b)points(diameter,pb,pch=16,col="red")

plot(diameter,population)c <- lm(population ˜ 1 + diameter + I(diameterˆ2))x <- seq(5,41,1)pc <- function(x)coef(c)[3]*xˆ2 + coef(c)[2]*x + coef(c)[1]lines(spline(x,pc(x)),col="red")points(diameter,pc(diameter),pch=16,col="red")

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 47'

&

$

%

Optimizacija v R / nelinearnaf4 <- function(x)xˆ4 - 14*xˆ3 + 60*xˆ2 - 70*xcurve(f4,0,7)m4 <- optimize(f4,interval=c(5,7),tol=0.000001)lines(c(m4$min,m4$min,-100),c(-100,m4$obj,m4$obj),col="red")

fr <- function(x) ## Rosenbrock Banana functionx1 <- x[1]; x2 <- x[2];100 * (x2 - x1ˆ2)ˆ2 + (1 - x1)ˆ2

gr <- function(x) ## Gradient of ‘fr’

x1 <- x[1]; x2 <- x[2]c(-400*x1*(x2 - x1ˆ2) - 2*(1 - x1),200*(x2 - x1ˆ2))

m <- optim(c(-1.2,1),fr,control=list(trace=TRUE))mg <- optim(c(-1.2,1),fr,gr=gr,method="BFGS",

control=list(trace=TRUE))

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 48'

&

$

%

Optimizacija v R / OECDpairs(oecd)plot(agr,pcinc,pch="+")

# linearna regresijalin <- lm(pcinc ˜ agr)abline(lin,col="green")lp <- lin$coef[2]*agr + lin$coef[1]sum((lp - pcinc)ˆ2)

# eksponentna z linearno regresijopi <- log(pcinc); m <- lm(pi ˜ agr )b <- exp(m$coef[1]); a <- exp(m$coef[2])pl <- function(x)b*aˆxpoints(agr,pl(agr),col="red",pch=16)

# metoda najmanjsih kvadratovf <- function(t,p)a <- p[1]; b <- p[2]; b*aˆtE <- function(p)d <- f(agr,p) - pcinc; sum(dˆ2)p0 <- c(a,b); best <- optim(p0,E)E(p0)bestpr <- function(x)f(x,best$par)points(agr,pr(agr),col="blue",pch=16)d <- seq(0,84,2); lines(spline(d,pr(d)),col="blue")

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 49'

&

$

%

Optimizacija v R / slika OECD

+

+

+

+

+++ ++ +

++

+

++

+ +++

+

20 40 60 80

500

1000

1500

agr

pcin

c

Univerza v Ljubljani, Podiplomskistudij statistike

V. Batagelj: Informacijska tehnologija v analizi podatkov / Funkcijski opisi podatkov 50'

&

$

%

Dodatni viriBrian Bunday, Gerald R Garside:Optimisation Methods in Pascal, Edward

Arnold, 1987.

William H. Press, Brian P. Flannery, Saul A. Teukolsky, William T.

Vetterling:Numerical Recipes: The Art of Scientific ComputingCambridge

University Press, 1993.CMU / C.

Julian Faraway:Practical Regression and Anova in R

Thomas P. Ryan:Modern Regression Methods. Wiley-Interscience,1996.

Wentian Li: Zipf’s law; Glottometrics

A Bookstein:lnformetric Distributions, Part I: Unified Overview

Univerza v Ljubljani, Podiplomskistudij statistike