raspodjele optiplapok 2012 - unizg.hr · • hipergeometrijska (složene kombinacije) • binomna...
TRANSCRIPT
H. CajnerOptimiranje i planiranje pokusa 2012
Raspodjele podataka
• Raspodjele podataka za diskretna obilježja• Raspodjele podataka za kontinuirana obilježja• Teorijske raspodjele podataka
H. CajnerOptimiranje i planiranje pokusa 2012
H. CajnerOptimiranje i planiranje pokusa 2012
Raspodjele (diskretna obilježja)
• Hipergeometrijska (složene kombinacije)
• Binomna (Bernoulli-jev događaj)
• Poisson-ova (zakon rijetkih događaja, potok događaja)
H. CajnerOptimiranje i planiranje pokusa 2012
Hipergeometrijska raspodjela• proizlazi iz dvoslojnog skupa - složene kombinacije – skup od N
elemenata sadrži podskup elemenata sa svojstvom A i podskup elemenata sa svojstvom Ā
n
x el A (n-x) el Ā
UZORAK
N
M (A) N-M (Ā)
SKUP
H. CajnerOptimiranje i planiranje pokusa 2012
nN
n-x
MNx
M
P(x)
• funkcija vjerojatnosti hipergeometrijske raspodjele:
parametri: M, N i n
- n – veličina uzorka
NMMNxn
Mx
1 Nn, M, N ..., N
21
• očekivana vrijednost: NMnxE
);(
• varijanca: 1
1 ];)[( 222
nnN
NM
NMnxE
H. CajnerOptimiranje i planiranje pokusa 2012
543210
0,8
0,6
0,4
0,2
0,0
543210
0,8
0,6
0,4
0,2
0,0
N=10; M=5
X
Pro
bab
ility
N=10; M=3
N=50; M=5 N=50; M=3
Hypergeometric; n=5
• utjecaj parametara na oblik hipergeometrijske raspodjele:
H. CajnerOptimiranje i planiranje pokusa 2012
Binomna raspodjela
• Bernoulli-jev događaj – samo dva ishoda- vjerojatnost događaja se ne mijenja i iznosi p- vjerojatnost q=1-p- nezavisni pokušaji (slučajno uzorkovanje)- broj pokušaja (veličina uzorka), n
p
A Ā
(1-p)=q
UZORAK n - elemenata
• broj N (elementi skupa) teži u beskonačnost – podvrsta hipergeometrijske
H. CajnerOptimiranje i planiranje pokusa 2012
• funkcija vjerojatnosti binomne raspodjele B (n, p):
,...n,xqpxn
P(x) xnx 10,)(
za parametri: n, p
• očekivana vrijednost (aritmetička sredina): pnxE )(
• varijanca: qpn 2
• koeficijent asimetrije:
• koeficijent zaobljenosti:
qpn
q-pM
3 33
qpnqpM
613
44 4
- distribucija će biti uvijek asimetrična ako nijep=q=0,5
H. CajnerOptimiranje i planiranje pokusa 2012
• utjecaj parametara n i p na oblik binomne raspodjele:
76543210
0,30
0,25
0,20
0,15
0,10
0,05
0,00
X
Pro
bab
ility
Binomial; n=10; p=0,2
1086420
0,25
0,20
0,15
0,10
0,05
0,00
XP
rob
abili
ty
Binomial; n=10; p=0,5
11109876543
0,30
0,25
0,20
0,15
0,10
0,05
0,00
X
Pro
bab
ility
Binomial; n=10; p=0,8
543210
0,4
0,3
0,2
0,1
0,0
X
Pro
bab
ility
Binomial; n=5; p=0,2
76543210
0,30
0,25
0,20
0,15
0,10
0,05
0,00
X
Pro
bab
ility
Binomial; n=10; p=0,2
121086420
0,25
0,20
0,15
0,10
0,05
0,00
XP
rob
abili
ty
Distribution PlotBinomial; n=20; p=0,2
H. CajnerOptimiranje i planiranje pokusa 2012
• ‘Galtonova’ daska – binomni eksperiment– kuglicu spuštamo na čavliće koji su složeni u pravilnu trokutastu rešetku– padom na čavlić kuglica može skrenuti na lijevo ili desno (berouli-jev događaj)– daska je pravilna te su ishodi jednako vjerojatni p=0.5– n – broj redova čavlića
Link
H. CajnerOptimiranje i planiranje pokusa 2012
– primjer ‘Galtonove’ daske sa n=4 reda čavlića:
- slučajna varijabla poprima vrijednost:0 - za jedan ishod1 - za 4 ishoda2 – za 6 ishoda3 – za 4 ishoda4 – za 1 ishod
- općenito:
H. CajnerOptimiranje i planiranje pokusa 2012
• primjer 1. binomne raspodjele:Primjer: Svaki izuzeti uzorak vode ima vjerojatnost da je kontaminiran otpadnom
tvari u iznosu od 10% . Pretpostavimo da se uzroci uzimaju nezavisno s obzirom na prisustvo otpadnih tvari. Potrebno je pronaći:
a) Vjerojatnost da će u 18 izuzetih uzoraka biti točno 2 uzorka kontaminirana?
284,0)2(
9,01,02
18)2(
181,0
162
xP
xP
np
vjerojatnost da će biti točno 2 kontaminirana uzorka
b) Vjerojatnost da će od 18 uzoraka biti barem 4 kontaminirana?
0,1 ; 18( 4) ( 0) ( 1) ( 2) ( 3)( 4) 1 [ ( 4)] 0,098
p nP x P x P x P x P xP x P x
H. CajnerOptimiranje i planiranje pokusa 2012
- grafički prikaz (binomna raspodjela):
76543210
76543210
0,30
0,25
0,20
0,15
0,10
0,05
0,00
X
Pro
bab
ility
20 6
0,284
Binomial; n=18; p=0,1
a)
76543210
76543210
0,30
0,25
0,20
0,15
0,10
0,05
0,00
XP
rob
abili
ty
40
0,0982
Binomial; n=18; p=0,1
b)
H. CajnerOptimiranje i planiranje pokusa 2012
• primjer 2. primjene binomne raspodjele:Primjer: Rad jednog automata kontrolira se uzorcima od 15 proizvoda. U svakom uzorku se ustanovljuje broj defektnih proizvoda. Budući da je uzeto 200 uzoraka, dobiveni rezultati su dani kroz tablicu. Potrebno je pronaći adekvatnu raspodjelu po kojoj se ponašaju podaci te vjerojatnost pojave ne više od 2 defektna u uzorku. x 0 1 2 3 4 5 6
fi 77 81 31 7 2 1 1
6543210
90
80
70
60
50
40
30
20
10
0
xi
Freq
uen
cy
Histogram of xi
- radi se o Binomnoj raspodjeli (n konačan):
061,0;15;915,0 nxpnx
9876543210
9876543210
0,4
0,3
0,2
0,1
0,0
X
Pro
bab
ility
2
0,941
4
Binomial; n=15; p=0,061
941,0)2();2(
)1()0()2(
939.0061,015
)( )15(
xPxP
xPxPxPx
xP xx
H. CajnerOptimiranje i planiranje pokusa 2012
xn P(x)x px q(n-x) P(x)
0 1 1 0,389031 0,389031 0,389031
1 15 0,061 0,414303 0,379087 0,768118
2 105 0,003721 0,441217 0,172386 0,940504
3 455 0,000227 0,46988 0,048528 0,989032
4 1365 1,38E-05 0,500405 0,009457 0,998489
5 3003 8,45E-07 0,532913 0,001352 0,999841
6 5005 5,15E-08 0,567532 0,000146 0,999987
7 6435 3,14E-09 0,6044 1,22E-05 0,999999
8 6435 1,92E-10 0,643664 7,94E-07 1
9 5005 1,17E-11 0,685478 4,01E-08 1
10 3003 7,13E-13 0,730009 1,56E-09 1
11 1365 4,35E-14 0,777432 4,62E-11 1
12 455 2,65E-15 0,827936 1E-12 1
13 105 1,62E-16 0,881721 1,5E-14 1
14 15 9,88E-18 0,939 1,39E-16 1
15 1 6,02E-19 1 6,02E-19 1
- tablica vjerojatnostiza primjer 2.
H. CajnerOptimiranje i planiranje pokusa 2012
Poisson-ova raspodjela• proizlazi iz binomne r. uz određene uvjete:
• opisuje rijetke događaje (oni koji se javljaju s malom vjerojatnošću)• potok događaja – vjerojatnost promatranog događaja u vremenskom
periodu (valovi, naleti...) – odabir vremenskog perioda je bitan
vremena) (tijekom .
0
konstpnnp
• funkcija vjerojatnosti Poisson-ove raspodjele P(x):
,...n,xzaex
mP(x) mx
10,!
parametar: m=E(x)
(u literaturi se spominje i λ = parametar m)
H. CajnerOptimiranje i planiranje pokusa 2012
xmpnxE )(
mxmx )(;)(2 • varijanca:
• očekivana vrijednost:
• koeficijent asimetrije:m
M 133 3
• koeficijent zaobljenosti:m
M 1344 4
• rekurzivna formula za Poisson-ovu raspodjelu:
mx
ex
mP(x) !
mx
exm)P(x
)!1(
11
xmxPP(x) )1(
H. CajnerOptimiranje i planiranje pokusa 2012
• utjecaj parametra m na Poisson-ovu raspodjelu :
43210
0,6
0,5
0,4
0,3
0,2
0,1
0,0
X
Pro
bab
ility
Poisson; Mean=0,5
121086420
0,20
0,15
0,10
0,05
0,00
X
Prob
abili
ty
Poisson; Mean=4
876543210
0,30
0,25
0,20
0,15
0,10
0,05
0,00
X
Pro
bab
ility
Poisson; Mean=2
- nakon pokazuje se mod – da su dvije susjedne vrijednosti istih vjerojatnosti
- kada gubi se asimetričnost i Poisson-ova raspodjela teži simetričnoj
m
1m
H. CajnerOptimiranje i planiranje pokusa 2012
• primjer 1. primjene Poisson-ove raspodjele:Primjer: U slučaju tanke bakrene žice, pretpostavlja se da broj pukotina slijedi
zakon Poisson-ove raspodjele sa očekivanjem od 2.3 mikropukotine po milimetru. Potrebno je odrediti:
a) vjerojatnost da se dogodi baš 2 mikropukotine po jednom milimetru žice.- varijabla x – broj mikropukotina po mm žice
32)( ,xmxE
3,2
!3,2 ex
P(x)x
265,0!23,22 3,2
2
e)P(x
0,30
0,25
0,20
0,15
0,10
0,05
0,00
X
Pro
bab
ility
2
0,265
0 8
Distribution PlotPoisson; Mean=2,3
H. CajnerOptimiranje i planiranje pokusa 2012
b) Vjerojatnost da se pojavi barem jedna mikropukotina u 2 mm žice.- varijabla x – broj mikropukotina na 2mm žice
64322)( ,,xE
6,4
!6,4 ex
P(x)x
9899,0)0(11 xP)P(x
0101,0!06,40 6,4
0
e)P(x
0,20
0,15
0,10
0,05
0,00
XP
rob
abili
ty10
0,9899
Distribution PlotPoisson; Mean=4,6
H. CajnerOptimiranje i planiranje pokusa 2012
• primjer 2. primjene Poisson-ove raspodjele:Primjer: Tijekom drugog svjetskog rata London je gađan projektilima V1. Britance je zanimalo kako iz podataka o padanju projektila zaključiti da li je riječ o gađanju nasumce ili se cilja neka točka u Londonu.
- London je podijeljen na 576 sektora- U vremenskom periodu promatranja palo je 537 projektila
x >=43210
250
200
150
100
50
0
Val
ue
ExpectedObserved
Chart of Observed and Expected Values Poisson mean for x = 0,928819
Poisson Contributionx Observed Probability Expected Chi-Sq0 229 0,395020 226,74 0,0094791 211 0,366902 211,39 0,0005332 93 0,170393 98,54 0,2698463 35 0,052755 30,62 0,7003804 7 0,014931 7,14 0,0418605 (6,7..) 1 1,57
TEST:N N* DF Chi-Sq P-Value
576 0 3 1,02210 0,796
- podaci se ponašaju po Poisson-ovoj razdiobi!- zaključak - V1 nije imao navođenje
H. CajnerOptimiranje i planiranje pokusa 2012
Raspodjele (kontinuirana obilježja)
• Normalna • Jedinična normalna• Lognormalna• Weibullova
H. CajnerOptimiranje i planiranje pokusa 2012
Normalna raspodjela • prvi definirao Abraham de Moivre • upotrijebio Gauss (Gauss-ova raspodjela)• najčešće korištena raspodjela – čak 33% procesa u prirodi slijedi zakon
normalne raspodjele• funkcija gustoće vjerojatnosti f(x) – zbog kontinuiranog obilježja • nastanak normalne r. - binomni poučak (razvijanje binoma u red , A. de
Moivre)
2
21
0
21)(
50
)()(
)(...)()()(
x
xnxn
x
xxnn
n
exfP(x)
n,qp
qpxn
xPbaxn
ba
babababa
i uvjet uz
binomna r.
funkcija gustoće vjerojatnosti normalne r.
H. CajnerOptimiranje i planiranje pokusa 2012
• funkcija gustoće vjerojatnosti normalne raspodjele f(x):
xexfx
- za 2
21
21)(
• očekivana vrijednost: E(x)= μ
parametri: μ i σ2(x)
• varijanca: σ2(x)
• koeficijent asimetrije: α3= 0 - simetrična razdioba
• koeficijent zaobljenosti: α4= 3 (α’4= 0) – normalno zaobljena
• svojstva funkcije gustoće vjerojatnosti f(x):
1.
2.
3.
xxf svaki za 0)(
1)( dxxf
2
121 )()(
x
xxxxPdxxf
H. CajnerOptimiranje i planiranje pokusa 2012
• veza funkcije gustoće vjerojatnosti f(x) i funkcija distribucije F(x)normalne raspodjele:
2
1
)()(x
xdxxfxF
H. CajnerOptimiranje i planiranje pokusa 2012
• vjerojatnosti ispod normalne raspodjele N{μ, σ2}:
• utjecaj parametara μ i σ2 na oblik normalne raspodjele:
H. CajnerOptimiranje i planiranje pokusa 2012
Jedinična normalna raspodjela N{0,1}• standardizirana normalna raspodjela sa parametrima μ=0 i σ2=1• sve druge normalne raspodjele svodimo (z-transformacija) na jediničnu
normalnu raspodjelu• bilo koja vrijednost u x domeni se može prikazati kao μ ± k·σ
x
z• transformacija:
H. CajnerOptimiranje i planiranje pokusa 2012
• funkcija gustoće vjerojatnosti jedinične normalne raspodjele f(z):
1;0;21)( 2
221
z
ezf
• upotrebom jedinične normalne razdiobe standardiziramo odstupanja preko parametra z:
1. |z|=1 → P(z)=0,68272. |z|=1,96 → P(z)=0,95003. |z|=2,0 → P(z)=0,95454. |z|=3 → P(z)=0,9973
• područje ±3σ koje se koristi u konstrukcijama naziva se tolerancija• danas procesi u području ±3σ više nisu dovoljno dobri pa se prelazi
na sustav od ±6σ• područje od ±6σ ima vjerojatnost pojave od 99,9999998 %
H. CajnerOptimiranje i planiranje pokusa 2012
• ostale vjerojatnosti kod normalne razdiobe:
H. CajnerOptimiranje i planiranje pokusa 2012
• primjer 1. primjene normalne raspodjele:Primjer: Pretpostavimo da se izmjerena jakost struje u vodiču pokorava zakonu normalne raspodjele sa očekivanjem μ=10 mA i varijancom σ2=4 mA2. Kolika je vjerojatnost da će jakost struje premašiti 13 mA?
17,515,012,510,07,55,0
17,515,012,510,07,55,0
0,20
0,15
0,10
0,05
0,00
X
Den
sity
1310
Normal; Mean=10; StDev=2
06681,0)5,1(1)5,1()13(
5,12
)1013()(
zPzPxP
zxz
3210-1-2-3
3210-1-2-3
0,4
0,3
0,2
0,1
0,0
z
Den
sity
1,5
0,0668
0
Normal; Mean=0; StDev=1
H. CajnerOptimiranje i planiranje pokusa 2012
Lognormalna raspodjela
• slučaj kada je logaritam varijable x ( ln(x) ) normalno distribuiran
anadistribuirnormalno- yx )ln(• vjerojatnosti pojave varijable x se dobivaju transformacijom varijable y
sa naznakom da je ),0( x
• ako y ima normalnu distribuciju sa očekivanjem α i varijancom β2 tada možemo napisati x=ey što je lognormalna varijabla sa funkcijom gustoće vjerojatnosti:
ostalo za
, za
0
002
1)(
22
2)(ln
βxexxf
x
• raspodjela koja dobro opisuje slučajeve: duljina trajanja proizvodnje, plaće zaposlenika...
parametri: α i β2
H. CajnerOptimiranje i planiranje pokusa 2012
• utjecaj parametara na oblik lognormalne raspodjele:
H. CajnerOptimiranje i planiranje pokusa 2012
• primjer primjene lognormalne raspodjele:Primjer: Životni vijek poluvodičkog lasera je lognormalno distribuiran sa očekivanjem od =10 h i standardnom devijacijom =1,5 h. Kolika je vjerojatnost da životni vijek premaši 10 000 sati?
701,0)52,0(1)10000(
52,05,1
102103,9;2103,9
);ln(;;10000);10000(1)10000(
zFxP
zx
yxeyyxPxP
x
0,000008
0,000007
0,000006
0,000005
0,000004
0,000003
0,000002
0,000001
0,000000
XD
ensi
ty10000
0,701
0
Lognormal; Loc=10; Scale=1,5; Thresh=0
H. CajnerOptimiranje i planiranje pokusa 2012
Weibull-ova raspodjela • definira vjekove trajanja tehničkih sustava – krivulja kade• parametri ove raspodjele daju veliku fleksibilnost prilikom opisivanja
različitih slučajeva kada broj otkaza raste sa vremenom (trošenje ležaja), ostaje konstantan ili pada s vremenom (neki poluvodiči)
• funkcija gustoće vjerojatnosti Weibull-ove raspodjele:
ostalo za , za )
00,00()(
)(1 βxexxfx
parametri: α, β
H. CajnerOptimiranje i planiranje pokusa 2012
• utjecaj parametara na oblik Weibull-ove raspodjele:
H. CajnerOptimiranje i planiranje pokusa 2012
• krivulja kade (krivulja mortaliteta):
I. period – ‘dječje bolesti’ – 1. raspodjela e-t
II. period – ‘normalne eksploatacije’, slučajni kvarovi – 2. raspodjela uniformnaIII. period – zbog ‘trošenja dijelova’, vremenski kvarovi – 3. raspodjela normalna
H. CajnerOptimiranje i planiranje pokusa 2012
Teorijske raspodjele
• Studentova ‘t’ raspodjela • raspodjela• F - raspodjela
H. CajnerOptimiranje i planiranje pokusa 2012
Studentova t-raspodjela• definirao ju W. S. Gosset kao razdiobu varijable t• proizašla iz raspodjele aritmetičkih sredina• kada n raste približava se
normalnoj razdiobi k=30
12
2
11 2( ) (1 ) ; ( 1)!
2
nn
tf t n nn nn
H. CajnerOptimiranje i planiranje pokusa 2012
• tablica Studentove ras.-za određenu vrijednost površine (vjerojatnosti) i stupnja slobode daje vrijednosti parametra t
Primjer: Za =0,01 u uzorku veličine 10 elemenata (k=10-1=9 stupnjeva slobode) t=2,821
• treba s oprezom primjenjivati tablice zbog različitog korištenja termina – površina samo jednog ‘repa’ ili oba?!
H. CajnerOptimiranje i planiranje pokusa 2012
(hi-kvadrat) raspodjela• varijance se ne pokoravaju normalnoj raspodjeli• poseban slučaj razdiobe definira raspodjelu varijable 2
• varijabla 2 sa samo jednim parametrom k=n-1 → stupanj slobode2
1
0
2
n
i
ixx
kE )( 2 - očekivana vrijednost
H. CajnerOptimiranje i planiranje pokusa 2012
• tablica 2 ras.- za određenu vrijednost površine (vjerojatnosti) i stupnja slobode daje vrijednosti parametra 2
• kod čitanja vrijednosti 2P
treba imati na umu da se to odnosi na ‘unutrašnju’ površinu.
Primjer: Pronaći vrijednosti i za vjerojatnost pogreške 5% i k=9. = =2,70= =19,02
H. CajnerOptimiranje i planiranje pokusa 2012
F - raspodjela• definirao G. Snedecor , R. Fisher • to je raspodjela varijable F koja je definirana kao omjer
procijenjenih varijanci• raspodjela ima samo dva parametra:
– stupanj slobode brojnika kbrojnika
– stupanj slobode nazivnika knazivnika
2
2
2
1
ssF
-parametri: kbrojnika=n1-1; knazivnika=n2-1
- preduvjet: (s1>s2)
H. CajnerOptimiranje i planiranje pokusa 2012
• Tablica F-raspodjele daje vrijednosti varijable F za vjerojatnost (površinu desnog repa), stupanj slobode brojnika i nazivnika.
Primjer: Pronaći vrijednost varijable F za =0.25, kb=9 i kn=11.
F=1,53
vrijednosti parametra F
H. CajnerOptimiranje i planiranje pokusa 2012
Papir vjerojatnosti• još jedna od grafičkih metoda analize podataka (iz uzorka)
kontinuiranog obilježja• utvrđuje se da li se podaci ponašaju po jednoj od promatranih
raspodjela i koliko koji elementi odstupaju • za svaku raspodjelu posebno konstruira se papir vjerojatnosti:
– papir vjerojatnosti normalne raspodjele (najčešće)– papir vjerojatnosti Weibull-ove raspodjele– papir vjerojatnosti lognormalne raspodjele– ...
• uzima se funkcija distribucije određene raspodjele i promjenom mjerila dobiva se funkcija distribucije u obliku pravca (Henry-jev pravac)
H. CajnerOptimiranje i planiranje pokusa 2012
• konstruiranje papira vjerojatnosti normalne raspodjele
20151050
99
95
90
80
7060504030
20
10
5
1
x%
Normal Papir vjerojatnosti
20151050
100
80
60
40
20
0
x
%
Normal Funkcija distribucije
~84%
• Henry-jev pravac se ucrtava tako da se odrede dvije čvrste točke:– 1. točka : (x=, y=50%)– 2. točka : (x=y=84%)
H. CajnerOptimiranje i planiranje pokusa 2012
• primjena papira vjerojatnostiPrimjer: Provjeriti da li se podaci iz uzorka rasipaju po normalnoj raspodjeli.
- promatranjem podataka može se utvrditi da li se podaci rasipaju po normalnoj raspodjeli.
- uzeta je raspodjela sa parametrima )(2
0xx i