oversigt oversigt over emneri 1 sandsynlighed ...people.math.aau.dk/~svante/asta/m2/m2sl.pdf ·...

Oversigt

Oversigt over emner I1 Sandsynlighed

SandsynlighedsbegrebetDefinitionerDiskret fordelingBetinget sandsynlighed og uafhængighed

2 Sandsynlighedsfordeling

3 Diskret fordelingMiddelværdi

4 Kontinuert fordelingStikprøve

5 NormalfordelingSandsynligheder i standard normalfordelingenz-værdier i standard normalfordelingen

6 Fordeling af en stikprøvestatistikEstimatorerFordeling af stikprøvegennemsnit

PSE (I17) ASTA - 2. lektion 1 / 21

Oversigt

Oversigt over emner IICentral grænseværdisætning

Sandsynlighed Sandsynlighedsbegrebet

Tænkt eksperiment

Maling af ventetid i en kø, hvor vi registrerer 1, hvis denne ligger over2 minutter og 0 ellers.

Eksperimentet udføres n gange med registreringer y1, y2, . . . , yn.Eksperimentet antages at være genstand for tilfældig variation, dvsnogle gange registrer vi 1 og andre gange 0.

Empirisk sandsynlighed for overskridelse: pn =∑n

i=1 yin .

Teoretisk sandsynlighed for overskridelse: p = limn→∞pn.

Er p > 0.1, dvs er mere end 10% af kunderne udsat for en ventetidover 2 minutter? Statistisk inferens beskæftiger sig med sadannespørgsmal, nar vi kun har en endelig stikprøve.

Tænkt eksperiment

i=1 yin .

Tænkt eksperiment

i=1 yin .

Tænkt eksperiment

i=1 yin .

Aktuelt eksperiment

John Kerrich, a South African mathematician, was visiting Copenhagenwhen World War II broke out. Two days before he was scheduled to fly toEngland, the Germans invaded Denmark. Kerrich spent the rest of the warinterned at a camp in Jutland and to pass the time he carried out a seriesof experiments in probability theory. In one, he tossed a coin 10,000 times.His results are shown in the following graph.

(The horizontal axis is on a log scale).

Sandsynlighed Definitioner

Generelt set-up for eksperiment

Udfaldsrum: Alle de mulige udfald af eksperimentet.

Hændelse: En delmængde af udfaldsrummet.

Vi udfører eksperimentet n gange. Lad #(A) angive hvor mangegange vi observerer hændelsen A.

I Empirisk sandsynlighed for hændelsen A:

pn(A) =#(A)

nI Teoretisk sandsynlighed for hændelsen A:

P(A) = limn→∞

Der gælder at 0 ≤ P(A) ≤ 1.Hvis A og B er disjunkte

, dvs ikke har nogle udfald til fælles, sagælder #(A og B) = 0 og #(A eller B) = #(A) + #(B) hvoraffølger

I P(A og B) = 0I P(A eller B) = P(A) + P(B)

Hændelse: En delmængde af udfaldsrummet.Vi udfører eksperimentet n gange. Lad #(A) angive hvor mangegange vi observerer hændelsen A.

pn(A) =#(A)

P(A) = limn→∞

pn(A) =#(A)

P(A) = limn→∞

pn(A) =#(A)

P(A) = limn→∞

Der gælder at 0 ≤ P(A) ≤ 1.Hvis A og B er disjunkte, dvs ikke har nogle udfald til fælles, sagælder #(A og B) = 0 og #(A eller B) = #(A) + #(B) hvoraffølger

Sandsynlighed Diskret fordeling

Udfaldsrummet inddeles i 9 gensidigt udelukkende hændelser svarende tilkombinationer af uddannelsesNiveau og antalOrd.De empiriske sandsynligheder fremgar af tabellen.

Lad A1,A2, . . . ,Ak være en opsplitning af udfaldsrummet i parvisdisjunkte hændelser.

Sandsynlighederne P(A1),P(A2), . . . ,P(Ak) kaldes en diskretfordeling og opfylder

k∑i=1

P(Ai ) = 1

Udfaldsrummet inddeles i 9 gensidigt udelukkende hændelser svarende tilkombinationer af uddannelsesNiveau og antalOrd.De empiriske sandsynligheder fremgar af tabellen.

Lad A1,A2, . . . ,Ak være en opsplitning af udfaldsrummet i parvisdisjunkte hændelser.

Sandsynlighederne P(A1),P(A2), . . . ,P(Ak) kaldes en diskretfordeling og opfylder

k∑i=1

P(Ai ) = 1

Example - 3 coin tossesProbability distribution for the number of heads obtained if 3 coins aretossed.

0 heads (TTT)

1 head (HTT, THT, TTH)

2 heads (HHT, HTH, THH)

3 heads (HHH)

There are 8 mutually exclusive and exhaustive outcomes. Assume theseare equally likely - i.e. each has a probability of 1/8Then P(no heads) = P(TTT) = 1/8P(one head) = P(HTT or THT or TTH) = P(HTT) + P(THT) +P(TTH)= 1/8 + 1/8 + 1/8 = 3/8Similarly for 2 or 3 heads.The probability distribution is

Sandsynlighed Betinget sandsynlighed og uafhængighed

Hændelsen A={uddannelsesNiveau=høj} har sandsynlighed

4 + 5 + 9

4 + 5 + 9 + 6 + 6 + 6 + 5 + 8 + 5= 33, 3%

Antag at vi observerer hændelsen B={antalOrd=(146,230]}.Det er da naturligt at ændre sandsynligheden for uddannelsesniveau=høj til

#(A og B)

9 + 6 + 5= 45%

Hændelsen A={uddannelsesNiveau=høj} har sandsynlighed

4 + 5 + 9

4 + 5 + 9 + 6 + 6 + 6 + 5 + 8 + 5= 33, 3%

Antag at vi observerer hændelsen B={antalOrd=(146,230]}.Det er da naturligt at ændre sandsynligheden for uddannelsesniveau=høj til

#(A og B)

9 + 6 + 5= 45%

Vi definerer den betingede sandsynlighed af hændelsen A givethændelsen B:

P(A|B) =P(A og B)

Hvis information om B ikke ændrer sandsynligheden for A tales omuafhængighed, dvs A er uafhængig af B hvis

P(A|B) = P(A)⇔ P(A og B) = P(A)P(B)

Den sidste relation er symmetrisk i A og B, hvorfor vi ogsa vil tale om atA og B er uafhængige hændelser.Generelt er hændelserne A1,A2, . . . ,An uafhængige hvis

P(A1 og A2 og . . . og An) = P(A1)P(A2) . . .P(An)

P(A|B) =P(A og B)

Sandsynlighedsfordeling

Fordeling

Vi skal udføre et eksperiment, hvor vi foretager en kvantitativ maling Y -eksempelvis antal ord i en reklame eller ventetiden i en kø.Pa forhand er der mange mulige udfald af eksperimentet, dvs Y ’s talværdier behæftet med en usikkerhed, som vi kvantificerer vha af Y ’ssandsynlighedsfordeling

P(a < Y < b), −∞ < a < b <∞

dvs for ethvert interval angiver fordelingen sandsynligheden for enobservation i dette interval.

Y er diskret, hvis vi kan nummerere de mulige talværdier for Y , fexantal ord i en reklame.

Y er kontinuert, hvis den kan antage alle mulige værdier i etinterval, fex en maling af ventetid i en kø.

Fordeling

P(a < Y < b), −∞ < a < b <∞

Fordeling

P(a < Y < b), −∞ < a < b <∞

Diskret fordeling

Diskret fordeling:

Mulige værdier for Y : {y1, y2, . . . , yk}Y ’s fordeling:

pi = P(Y = yi ), i = 1, 2, . . . , k

Fordelingen opfylder:∑k

i=1 pi = 1

Eksempelvis binomialfordelingen:Vi udfører et succes/fiasko eksper-iment n gange med sandsynlighedp for succes. Hvis Y angiver antalsuccesser kan det vises at

P(Y = y) =

)py (1− p)n−y

hvor(ny

y !(n−y)! og m! er produk-tet af de første m heltal.

Diskret fordeling

Diskret fordeling:

Mulige værdier for Y : {y1, y2, . . . , yk}Y ’s fordeling: pi = P(Y = yi ), i = 1, 2, . . . , k

i=1 pi = 1

P(Y = y) =

)py (1− p)n−y

hvor(ny

Diskret fordeling

Diskret fordeling:

i=1 pi = 1

P(Y = y) =

)py (1− p)n−y

hvor(ny

Diskret fordeling Middelværdi

Middelværdi

Middelværdien af Y er givet ved

µ = y1p1 + y2p2 + . . .+ ynpn =n∑

Eksempelvis Y = number of heads i 3 møntkast:

hvor middelværdien er

8= 1.5

Bemærk at dette er en værdi, som ikke kan forekomme.

Kontinuert fordeling

Kontinuert fordeling:

Fordelingen karakteriseres ved den sakaldte tæthedsfunktion fY .

Arealet under grafen for tæthedenmellem a og b er lig med sandsyn-ligheden for en observation i detteinterval.

I fY (y) ≥ 0 for alle y .

I Arealet under grafen for fY er ligmed 1.

Eksempelvis ligefordeling fra A til B:

f (y) =

B−A A < y < B

0 ellers

f (y) =

B−A A < y < B

0 ellers

f (y) =

B−A A < y < B

0 ellers

f (y) =

B−A A < y < B

0 ellers

Kontinuert fordeling Stikprøve

Model for stikprøve/sampleVi udfører et eksperiment n gange, hvor udfaldet af det i’te eksperimentsvarer til maling af en stokastisk variabel Yi , hvor vi antager

Eksperimenterne er uafhængige

Variablene Y1, . . . ,Yn har samme fordeling

Histogrammer, hvor arealet af en søjle er lig den relative frekvens afobservationer i det tilhørende delinterval.Ved en kontinuert stokastisk variabel Y vil histogrammerne nærme sigfordelingens tæthedsfunktion, nar samplestørrelsen gar mod uendelig.

Normalfordeling

Der er en hel famile af normalfordelingskurver, som er bestemt af 2parametre:

µ er middelværdien, som bestemmer hvor fordelingen er centreret.

σ er standardafvigelsen, som bestemmer hvor koncentreretfordelingen er omkring middelværdien.

Tæthedsfunktion:

f (y ;µ, σ) =1√

2πσ2exp(− 1

2σ2(y − µ)2)

Nar en stokastisk variabel Y har denne fordeling, sa vil vi angive detteved Y ∼ N(µ, σ).

Hvis Y ∼ N(0, 1), sa siges Y at være standard normalfordelt.

Normalfordeling

Tæthedsfunktion:

f (y ;µ, σ) =1√

2πσ2exp(− 1

2σ2(y − µ)2)

Normalfordeling

Tæthedsfunktion:

f (y ;µ, σ) =1√

2πσ2exp(− 1

2σ2(y − µ)2)

Normalfordeling

Normalfordelingens udstrækning

Tæthed for normalfordelingen

middelværdi µ og standardafvigelse σ

µ − 2σ µ − σ µ µ + σ µ + 2σ µ + 3σµ − 3σ68%95%

Normalfordeling Sandsynligheder i standard normalfordelingen

Sandsynligheder i standard normalfordelingen

halesandsynlighed svarende til z−værdi

Tæthed for standard normalfordelingen

−3 −2 −1 0 1 2 3z−z

Vi kender z. Find arealet p af det skraverede område

Arealet mellem z og −z er lig med 1−2p

Distributions → Conti-

nuous distributions →Normal distribution →Normal probabilities...

Vi beregner sandsynligheder svarende til z = 1, 2, 3. For z = 1 erp = 0.1587, sa sandsynligheden for observation mellem -1 og 1 er1− 2 ∗ 0.1587 = 0.6826.

Normalfordeling z-værdier i standard normalfordelingen

z-værdier(fraktiler) i standard normalfordelingen

z−værdi svarende til halesandsynlighed p

Tæthed for standard normalfordelingen

−3 −2 −1 0 1 2 3z−z

Vi kender p. Find z så arealet af det

skraverede område er lig med p

Arealet mellem z og −z er lig med 1−2p

Distributions

→ Continuous

distributions

→ Normal

distribution →Normal quantiles...

Vi beregner z-værdier svarende til p = 1, 2, 3, . . . , 15 0/00. For p = 5 0/00 ersandsynligheden for observation mellem -2.576 og 2.576 lig med1− 2 ∗ 0.005 = 99%.

Fordeling af en stikprøvestatistik Estimatorer

Eksempler pa stikprøvestatistikker.

Vi er givet en stikprøve y1, y2, . . . , yn.

Stikprøve middelværdien y er den mest almindelige estimator afpopulations middelværdi µ.

Stikprøve standard afvigelsen, s, er den mest almindelige estimator afpopulations standard afvigelse σ.

Vi bemærker at disse statistikker er behæftet med usikkerhed, hvorfor vi erinteresseret i at beskrive deres fordeling.

Fordeling af en stikprøvestatistik Fordeling af stikprøvegennemsnit

Vi er givet en stikprøve y1, y2, . . . , yn fra en population med middelværdi µog standardafvigelse σ.Stikprøvemiddelværdien

n(y1 + y2 + . . .+ yn)

har da en fordeling hvor

Fordelingen har middelværdi µ.

Fordelingen har standardafvigelse σy = σ√n

, hvilket ogsa benævnes

standardfejlen.

Nar n vokser, sa nærmer fordelingen sig en normalfordeling. Dettekaldes den centrale grænseværdisætning.

Fordeling af en stikprøvestatistik Central grænseværdisætning

Central grænseværdisætning

De ovenstaende pointer kan opsummeres saledes

y ≈ N(µ,σ√n

dvs y er approksimativt normalfordelt med middelværdi µ og standardfejlσ√n

Dette tillader os at gøre følgende observationer:

Vi er 95% sikre pa at y ligger i intervallet fra µ− 2 σ√n

til µ+ 2 σ√n

Vi er i praksis sikre pa at y ligger i intervallet fra µ− 3 σ√n

til µ+ 3 σ√n

Dette er ikke brugbart, nar µ er ukendt, men lad os omformulere det førsteudsagn til:Vi er 95% sikre pa at µ ligger i intervallet fra y − 2 σ√

ntil y + 2 σ√

n, dvs vi

udtaler os direkte om usikkerheden pa bestemmelsen af µ.

oversigt oversigt over emneri 1 sandsynlighed ...people.math.aau.dk/~svante/asta/m2/m2sl.pdf ·...

Documents