econ2130 - statistikk 1 forelesning 3: sannsynlighet · •gitt at hun jobber som...

Post on 17-Jul-2020

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ECON2130 - Statistikk 1Forelesning 4: Stokastiske

variable, fordelinger

Jo Thori Lindj.t.lind@econ.uio.no

Oversikt

1. Betinget sannsynlighet

2. Stokastiske variable

3. Forventning og varians

4. Regneregler for forventning og varians

5. Binomisk fordeling

6. Poisson-fordelingen

7. Kontinuerlige fordelinger

1. Betinget sannsynlighet

Betinget sannsynlighet

• Hvis vi vet at B har inntruffet, hvor sannsynlig er det da et også A inntreffer?

• Sannsynligheten for A gitt B er

𝑃 𝐴|𝐵 =𝑃(𝐴 𝑜𝑔 𝐵)

𝑃(𝐵)

Ω

A B

Hva skal vi med betinget sannsynlighet

• Ofte det vi bruker for å sette sammen informasjon

• Hva er sannsynligheten for at hovedindeksen på Oslo børs er over 850 ved utgangen av året• Gitt at den på 1. desember er nede i 720

• Hva er sannsynligheten for at en arbeidstaker tjener mer enn 500 000• Gitt at hun jobber som barnehageassistent

Uavhengighet

• Vi sier at A og B er uavhengige hvis sannsynligheten for A ikke avhenger av om B har inntruffet

• Det vil si hvis𝑃 𝐴 = 𝑃(𝐴|𝐵)

• Hvis A og B er uavhengige har vi𝑃 𝐴 𝑜𝑔 𝐵 = 𝑃 𝐴 × 𝑃(𝐵)

• Eksempel: Sannsynligheten for at to terninger begge viser 6 er1

6×1

6=

1

36

Linda-problemet (Kahneman og Tversky)

Linda er 31 år gammel, single, åpenhjertig og svært intelligent. Hun har en mastergrad i filosofi. Som stundet var hun opptatt av diskriminering og rettferdighet, og deltok flere ganger i fredsdemonstrasjoner

Hva er mest sannsynlig:

1. Linda jobber i bank

2. Linda jobber i bank og er aktiv feminist

Pr 𝐵𝑎𝑛𝑘 = Pr 𝐵𝑎𝑛𝑘 𝑜𝑔 𝑓𝑒𝑚𝑖𝑛𝑖𝑠𝑡 + Pr(𝐵𝑎𝑛𝑘 𝑜𝑔 𝑖𝑘𝑘𝑒 𝑓𝑒𝑚𝑖𝑛𝑖𝑠𝑡)

2. Stokastiske variable

Hva er stokastiske variable

• Når vi gjennomfører et eksperiment (def. forrige uke) kan vi definere en variabel hvor verdien avhenger av utfallet• Vanligvis et tall

• Dette er en stokastisk variabel

• Noen eksempler:• Kaste kron og mynt 10 ganger, telle antall kron

• Trekke 100 tilfeldige personer fra et univers, telle antall kvinner

• Trekke 10 tilfeldige personer fra et univers, beregne total inntekt

Stokastisk variabel vs. utfall

• En stokastisk variabel er variabelen før vi har trukket en verdi• Hva ligger «oppi hatten»

• Hvordan er universet vi trekker fra

• Kan tenke på en stokastisk variabel som en slags maskin (enarmet banditt) som genererer verdier

• Når vi har trukket en verdi er det et utfall• Det er ikke lenger tilfeldig

Beskrive en stokastisk variabel

• Vi trenger to ting for å beskrive en stokastisk variabel1. Utfallsrom: Hvilke verdier er mulige2. Sannsynlighet for hvert utfall

• Kaste kron og mynt 2 ganger, telle opp antall kron1. Utfallsrom: Kan få 0, 1, eller 2 kron2. Sannsynligheter

NB: Sannsynlighetene summerer seg alltid til 1

Verdi Sannsynlighet

0 0.25

1 0.5

2 0.25

Stokastiske variable i R

• R kan trekke utfall fra en stokastisk variabel

• En måte er å bruke sample()

• Skal vi trekke utfall fra utfallsrommet {0,1,2}med sannsynlighetene {0.25,0.5,0.25} bruker vi sample(c(0,1,2),1,prob = c(0.25,0.5,0.25),replace = TRUE)

Utfallsrom Sannsynligheter

Vise fordelingen til variabelen

Bruker sample(c(0,1,2),1000,prob = c(0.25,0.5,0.25),replace = TRUE)

Tabell Graf

Verdi Hyppighet

0 261

1 504

2 235

01

00

20

03

00

40

05

00

tab

le(s

am

ple

(c(0

, 1

, 2

), 1

00

0, p

rob

= c

(0.2

5, 0

.5, 0

.25

), r

ep

lace

= T

RU

E))

0 1 2

Kumulativ fordeling

• Si vi har en stokastisk variable 𝑋• En trekning fra 𝑋 er 𝑥 som er et tall

• Den kumulative fordelingen 𝐹(𝑥)er sannsynligheten for å trekke en verdi mindre enn 𝑥• Formelt 𝐹 𝑥 = Pr(𝑋 ≤ 𝑥)• Kan tegnes som en funksjon

• For 2 kast med kron er da den kumulative fordelingen sannsynligheten for å få mindre enn 𝑥 kron -1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)

Hva skal vi med stokastiske variable?

• Et stokastisk variabel er en modell for en virkelig fenomen• Myntkast: Ganske presis modell

• Antall trafikkulykker på en veistrekning per år

• Verdien på hovedindeksen på børsen på et gitt tidspunkt

• En gitt modell er en mer eller mindre god til å beskrive et fenomen• Avveining enkelthet mot realisme

• Kjenner vi alle faktorene?

• Alltid en forenkling

3. Forventning og varians

Forventningen

• Da vi beskrev datasett så vi på «typiske verdier»• Gjennomsnittet ofte greit for å beskrive typiske verdier

• Kan være interessant å beskrive «typiske verdier» for en stokastisk variabel også• Et slags gjennomsnitt

• Men siden en stokastisk variabel er en teoretisk konstruksjon kan vi ikke beregne dette som et ordentlig gjennomsnitt

• Dette kalles forventning, skrives ofte 𝜇• 𝜇 er den greske bokstaven my, «m» (for mean)

Forventningen (forts.)

• La 𝑋 være en stokastisk variabel med utfallsrom 𝑥1, … , 𝑥𝑁 og sannsynligheter 𝑝1, … , 𝑝𝑁

• Da er forventningen

𝜇 = 𝐸𝑋 =

𝑖=1

𝑁

𝑝𝑖𝑥𝑖

• Vi kaller 𝐸 forventningsoperatoren• En funksjon på stokastiske variable

Forventningen til kron og mynt

Forventningen i tilfellet hvor vi teller antall kron i to kron og mynt kast:

𝜇 = 𝐸𝑋 = 0.25 × 0 + 0.5 × 1 + 0.25 × 2

Dette gir 𝐸𝑋 = 1

Verdi Sannsynlighet

0 0.25

1 0.5

2 0.25

Beregne forventning i R

• Vi kan simulere trekninger av den stokastiske variabelen

• Bruke disse for å beregne forventningen1. Trekk mange verdier fra den stokastiske variabelen

Jo flere, jo høyere presisjon

2. Regn ut gjennomsnittet

• I kron og myntmean(sample(c(0,1,2),100000,prob = c(0.25,0.5,0.25),replace = TRUE))

Varians

• Den empiriske variansen beregne vi med 𝑉𝑎𝑟 =1

𝑁−1σ𝑖=1𝑁 𝑥𝑖 − ҧ𝑥 2

• Hva blir det teoretiske motstykket?• Erstatte ҧ𝑥 med 𝐸𝑋

• Erstatte 1

𝑁−1σ𝑖=1𝑁 med forventning 𝐸

• Da blir den teoretiske variansen til en stokastisk variabel 𝑋𝑉𝑎𝑟 = 𝐸 𝑋 − 𝐸𝑋 2

Variansen med kron og mynt

• I tilfellet hvor 𝑋 er antall kron i to kast med kron og mynt vet vi at𝐸𝑋 = 1

• Da kan vi sette opp

• Da blir variansen𝑉𝑎𝑟 = 0.25 × 1 + 0.5 × 0 + 0.25 × 1 = 0.5

Sannsynlighet 𝒙 𝒙 − 𝑬𝑿 𝒙 − 𝑬𝑿 𝟐

0.25 0 -1 1

0.5 1 0 0

0.25 2 1 1

Standardavvik

• Standardavviket er kvadratrota av variansen

Sd = 𝐸 𝑥 − 𝐸𝑋 2

• Regne ut variansen og standardavviket i R:

var(sample(c(0,1,2),100000,prob = c(0.25,0.5,0.25),replace = TRUE))

sd(sample(c(0,1,2),100000,prob = c(0.25,0.5,0.25),replace = TRUE))

4. Regneregler for forventning og varians

Regneregler for forventning

La 𝑎 og 𝑏 være to tall og 𝑋 og 𝑌 to stokastisk variable. Da gjelder

1. 𝐸(𝑎) = 𝑎 Forventningen av et tall er tallet selv

2. 𝐸(𝑎𝑋) = 𝑎(𝐸𝑋) Tall kan flyttes ut av forventningen

3. 𝐸 𝑎𝑋 + 𝑏 = 𝑎 𝐸𝑋 + 𝑏 …også additivt

4. 𝐸 𝑎𝑋 + 𝑏𝑌 = 𝑎 𝐸𝑋 + 𝑏 𝐸𝑌 Forventningen til en sum er summen av forventninger

Regneregler for varians

La 𝑎 og 𝑏 være to tall og 𝑋 en stokastisk variabel. Da gjelder

1. Var(𝑎) =0 Et tall har ingen varians

2. Var(𝑎𝑋) = 𝑎2𝑉𝑎𝑟(𝑋) Multiplikasjon skal opphøyes i andre

3. 𝑉𝑎𝑟 𝑎𝑋 + 𝑏 = 𝑎2𝑉𝑎𝑟 𝑋 Summen av de to over

Resultater som ikke er sanne

La 𝑋 og 𝑌 være to stokastisk variable. Da gjelder

1. 𝐸 𝑋 × 𝑌 ≠ 𝐸𝑋 × (𝐸𝑌)med mindre 𝑋 og 𝑌 er uavhengige

2. 𝑉𝑎𝑟 𝑋 + 𝑌 ≠ 𝑉𝑎𝑟 𝑋 + 𝑉𝑎𝑟(𝑌)med mindre 𝑋 og 𝑌 er uavhengige

5. Binomisk fordeling

Fordelinger

• Så langt har vi beskrevet en stokastisk variabel ved å liste opp• Hele utfallsrommet

• Alle sannsynlighetene

• I mange tilfeller er en stokastisk variabel en del av en familie med noen felles egenskaper

• Nyttig å se på familier av fordelinger

• Kan ofte vise mye felles for alle stokastiske variable med samme type fordeling

Bernoulli-forsøk

• En veldig enkel type fordeling er Bernoulli-forsøk• Oppkalt etter Jacob Bernoulli (1655-1705)

• Hvis 𝑋 følger en Bernoulli-fordeling med sannsynlighet 𝑝 er

𝑋 = ቊ0 med sannsynlighet 1 − 𝑝1 med sannsynlighet 𝑝

• Et kast med kron og mynt hvor kron teller som 1 og mynt som 0 er et Bernoulli-forsøk med sannsynlighet ½

• Et terningkast hvor sekser er suksess (=1) er et Bernoulli-forsøk med sannsynlighet 1/6

Egenskaper ved Bernoulli-forsøk

Hvis 𝑋 er et Bernoulli-forsøkt med sannsynlighet 𝑝 gjelder:

𝐸𝑋 = 𝑝

𝑉𝑎𝑟 𝑋 = 𝑝(1 − 𝑝)

Utfallsrommet er 0,1

Binomisk fordeling

• En binomisk fordeling er summen av flere uavhengige Bernoulli-forsøk med samme sannsynlighet

• Hvis 𝑋 er summen av 𝑛 Bernoulli-forsøk med sannsynlighet 𝑝 skriver vi

𝑋 ∼ 𝐵𝑖𝑛𝑜𝑚𝑖𝑠𝑘(𝑛, 𝑝)

• Vi vil finne sannsynlighetenePr(𝑋 = 𝑥)

Kron og mynt – fire kast

Verdi Muligheter Sannsynlighet

0 MMMM 1/16

1 KMMM,MKMM,MMKM,MMMK 4/16=1/4

2 KKMM,KMKM,KMMK,MKKM,MKMK,MMKK 6/16=3/8

3 MKKK,KMKK,KKMK,KKKM 4/16=1/4

4 KKKK 1/16

• Sannsynligheten for 𝑋 = 2 avhenger av hvor mange måter man kan kaste to kron og to mynt på

• Gitt ved kombinasjoner: 42

= 6

• Sannsynligheten for hver kombinasjon er 𝑝2 1 − 𝑝 2 =1

16

Binomisk fordeling – sannsynligheten for 𝑋 = 𝑥

• Hvis vi trekker 𝑛 ganger er det 𝑛𝑥

rekkefølger som gir 𝑋 = 𝑥

• Hver av dem har sannsynlighet 𝑝𝑥 1 − 𝑝 𝑛−𝑥

• Derfor har vi

Pr 𝑋 = 𝑥 =𝑛𝑥

𝑝𝑥 1 − 𝑝 𝑛−𝑥

Binomiske sannsynligheter i R

• R kan regne ut dette for oss enkelt

• Sannsynligheten for 2 kron i 4 kastdbinom(2,size = 4,prob = .5)

• Alle sannsynlighetenedbinom(0:4,size = 4,prob = .5)

Binomisk(10,p)

Egenskaper ved binomiske fordelinger

Hvis 𝑋 ∼ 𝐵𝑖𝑛𝑜𝑚𝑖𝑠𝑘 𝑛, 𝑝 har vi

𝐸𝑋 = 𝑛𝑝

𝑉𝑎𝑟 𝑋 = 𝑛𝑝(1 − 𝑝)

Utfallsrommet til 𝑋 er 0,1,2, … , 𝑛

Bruk av binomiske fordelinger

• Hvis 40 % av arbeidsstyrken jobber i offentlig sektor og vi trekker 100 personer tilfeldig, hvor mange jobber i offentlig sektor• Svaret er fordelt binomisk(100,0.4)

• Anta at vanligvis vil 1 av 10 passasjerer ikke dukker opp til flyavgang. Et flyselskap har solgt 105 billetter til et 100 seters fly. Hva er sannsynligheten for at alle får plass?• Antall som dukker opp er fordelt binomisk(105,0.9)

• Må legge sammen sannsynligheten for utfallene 101,..,105

• I R bruker vi sum(dbinom(101:105,size = 105,prob = .9))

• Svaret er 0.0167

Bruk av binomiske fordelinger (forts.)

Anta at sannsynligheten for at en bilfører kommer i en ulykke i løpet av et år er 1/100. Et forsikringsselskap tar en premie på 1000 kr fra hver kunde, og må betale ut 80 000 i tilfelle en bilulykke. Selskapet har 1000 kunder.

1. Hva er selskapets forventede profitt?• La antall ulykker være 𝑈. Da er profitten 𝜋 = 1000 × 1000 − 80 000 × 𝑈• Antall ulykker er fordelt binomisk(1000,0.01)• Forventet antall ulykker er 1000 × 0.01 = 10• Da er forventet profitt 𝐸𝜋 = 1000 × 1000 − 80 000 × 10 = 200 000

2. Hva er sannsynligheten for at selskapet taper penger et år?• Selskapet taper penger hvis 𝜋 < 0 ⇔ 𝑈 >

1 000 000

80 000= 12.5

• Må finne Pr 𝑈 ≥ 13 .• I R bruker vi sum(dbinom(13:1000,size = 1000,prob = .01))• Svaret er 0.201

6. Poisson-fordelingen

Poisson-fordelingen

• Hvis vi trekker mange Bernoulli-eksperiment med lav sannsynlighet kan vi bruke en binomisk fordeling• Men når 𝑛 blir veldig stor blir regnestykkene tunge

• Ekstremtilfellet er når 𝑛 → ∞ og 𝑝 → 0

• Hvis det også er et tall 𝜆 slik at 𝑛𝑝 → 𝜆 har vi en Poisson-fordeling

• Oppkalt etter Siméon Denis Poisson (1781-1840)

Binomiske og Poisson-fordelinger

• Se på en binomisk(𝑛, 𝑝) fordeling

• Hvis 𝑛 er stor kan vi tilnærme fordelingen med en Poisson-fordeling

• Hvilken paramter 𝜆 skal vi velge?• Sett 𝜆 = 𝑛𝑝

• Når 𝑛 er stor gir dette en god tilnærming

Poisson-fordeling – sannsynligheten for 𝑋 = 𝑥

• Hvordan regner vi ut sannsynligheter i Poisson-fordelingen?

• Hvis 𝑋 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆) har vi

Pr 𝑋 = 𝑥 =𝑒−𝜆𝜆𝑥

𝑥!• Her er 𝑒 ≈ 2.718 grunntallet for naturlige logaritmer

• For å regne ut sannsynligheten i R bruker vi dpois• Hvis vi vil vite sannsynligheten for 4 når 𝜆 = 2 bruker vidpois(4, lambda = 2)

Hestespark i den prøyssiske hær

• Hestespark kan være dødelig

• Skjer sjelden, men mange var i sin tid potensielt utsatt

• Uavhengige hendelser

• Derfor bør dødsfall grunnet hestespark følge en Poisson-fordeling

Kilde: Ladislaus von Bortkiewicz (1898), Das Gesetz der kleinen Zahlen

Egenskaper ved Poisson-fordelingen

Hvis 𝑋 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆) har vi

𝐸𝑋 = 𝜆

𝑉𝑎𝑟 𝑋 = 𝜆

Utfallsrommet til 𝑋 er 0,1,2,3, …

Hestespark i den prøyssiske hær – er de Poisson-fordelt?• Hvis vi viste 𝜆 kunne vi sammenlikne

teoretisk fordeling og observert fordeling

• Vet at 𝐸𝑋 = 𝜆• Bruke gjennomsnittlig antall hestespark for å

gjette på 𝜆

• Gir 𝜆 = 0.7

• Da kan vi regne ut teoretisk fordeling med280*dpois(0:4,lambda = 0.7)

Utfall Observert Teoretisk

0 144 139

1 91 97

2 32 34

3 11 8

4 2 1

5 eller mer - 1

Simulere fra fordelinger

• R kan trekke tilfeldige tall med mange gitte fordelinger• Kommandoer som begynner med r (random)

• Trekke hestespark i 40 simulerte avdelingerrpois(40,lambda = 0.7)

• Trekke profitt i 10 forsikringsselskappi<-1000000-80000*rbinom(40,1000,prob = 0.01)

7. Kontinuerlige fordelinger

Diskrete og kontinuerlige fordelinger

• De stokastiske variablene og fordelingene vi har sett på så langt kunne bare ta distinkte verdier• Kron eller mynt/suksess eller fiasko

• Heltallene 0,1,…,10

• Alle positive tall 0,1,2,…

• Slike fordelinger kalles diskrete

• I en del tilfeller er alle verdier (i et intervall) mulige• Høyden på personer

• Tid brukt på å løpe 100m

• Disse sier vi har en kontinuerlig fordeling

Uniform fordeling

• En enkelt kontinuerlig fordeling er den uniforme fordelingn• Tar verdier mellom 𝑎 og 𝑏, vi skriver U(𝑎, 𝑏)

• Hvis X ∼ 𝑈(𝑎, 𝑏) kan 𝑋 ta alle verdier mellom 𝑎 og b, alle er like sannsynlige

• Hva er sannsynligheten Pr(𝑋 = 𝑥)?• Den er 0

• Utfallet 𝑥 er mulig, men et av uendelig mange så sannsynligheten er 0

• I kontinuerlige fordelinger er sannsynligheten for et gitt tall alltid 0

• I stedet må vi se på et intervall

Uniform fordeling (forts.)

• Si at 𝑋 ∼ 𝑈(0,1)

• Hva er sannsynligheten Pr 𝑋 ≤1

2?

• Siden alle verdier er like sannsynlige vil halvparten være under ½

• Derfor er Pr 𝑋 ≤1

2=

1

2

Regne på uniforme sannsynligheter

• Variabelen 𝑥 ∼ 𝑈(𝑎, 𝑏)

• Hele det lyseblå området er tegnet så det har areal=1

• Hva er sannsynligheten for å komme mellom x og y?• Hvor stort er y-x i forhold til b-a

• Det er 𝑦−𝑥

𝑏−𝑎

• Kan finne det ved å regne ut arealet av det mørkeblå området

a b

1

𝑏 − 𝑎

Areal=1

x y

Areal=𝑦−𝑥

𝑏−𝑎

Sannsynlighetstettheter

• Kurven i rødt kalles sansynlighetstettheten

• For den uniforme fordelingen er den

𝑓 𝑥 =

0 hvis 𝑥 < 𝑎1

𝑏 − 𝑎hvis 𝑥 < 𝑎 ≤ 𝑥 ≤ 𝑏

0 hvis 𝑥 > 𝑏• Finnes mange andre kontinuerlige

fordelinger med andre tettheter 𝑓(𝑥)

a b

1

𝑏 − 𝑎

f(x)

top related