dr. balogh albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · a statisztikai adatfeldolgozás...

19
1 A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

Upload: others

Post on 23-Mar-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

1

A statisztikai adatfeldolgozás néhány érdekessége

Dr. Balogh Albert:

2009/05/19

Page 2: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

2

Kérdések: 1.Hogyan becsüljük a tapasztalati eloszlásfüggvényt?

2.Mi az a rendezett minta?

3.Mi az a medián rang és milyen becslések vannak?

4.Hogyan becsüljük a hibaarány 50%-os felsőkonfidencia határát?

5.Miért tér el az Excel és Minitab kvartilis-számítása?

Page 3: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

3

1.A tapasztalati eloszlásfüggvényt rendszerint a Weibull és a normális eloszlás esetében grafikus módszerrel becsülik.

Ekkor a becsléseket például Gauss(Weibull)papíron ábrázolva normális eloszlás esetében egy egyenest kapunk.

2.A tapasztalati eloszlásfüggvényt a rendezett mintaelemek eloszlásának jellemzőiből határozzuk meg.

Legyenek a rendezett mintaelemek nagyság szerint növekvők:

Ekkor az ezekhez tartozó yi=F(xi) értékek is rendezett növekvő mintát adnak. y1<y2<…<yi<…<yn..

ni xxxx <<<<< ......21

Page 4: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

4

Normális eloszlásfüggvény

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 2 4 6 8 10 12 14 16 18

Megfigyelt x értékek

Öaa

zegz

ett e

losz

lás

függ

vény

10=μ 11=∗ix

),( ii yx7,0=∗

iy

1. ábra A normális eloszlásfüggvény

Page 5: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

Egyenes Gauss-papíron ábrázolva

⊗ Kérdés: mivel becsüljük az 1. 2…i-edik mintaelemhez tartozótyyy i −,...,, 21

⎟⎠⎞

⎜⎝⎛ −

Φ=Φ=σμxuy )(

x)( ii xMedx =

)( ii yMedy =

μ

=0,5

σμ−

=xu

⊗ ),( ii yx

)0(Φ

Page 6: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

6

3. Mi az a medián rang?

Az x1,<x2<,…<xi,…<xn rendezett mintaelemek sorszáma a rang. Az ezekhez tartozó yi eloszlásfüggvény-értékek is rendezett mintát alkotnak, azaz y1<y2<…<yi <…<yn is rendezett minta, ezek sorszáma is rang.

Az yi rendezett mintaelem (rangja i) a [0,1] intervallumban egyenletes eloszlásúvalószínűségi változó, amelynek sűrűségfüggvénye:

).10(;)1.(1.)!()!1(

!)( 1 ≤≤−−−

= −− yyyini

nyg inii

sorrendek száma

(i-1)db elem kisebb vszge

i-edikelem sfv-e

(n-i) dbelem nagyobbvszge

Ennek az eloszlásnak az eloszlásfüggvénye az ymediánhelyen veszi fel a 0,5 értéket.

Angol: median rank. Magyar: a rang mediánja.

Page 7: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

7

3.A tapasztalati eloszlásfüggvény szokásos becsléseit részben yi eloszlásából származtatják. A szokásos becslések egy része gyakorlati meggondolások alapján a következők:

nii =)(1ϕ .1)(2 n

ii −=ϕ .2

1

)(3 n

ii

−=ϕ

,1

)(4 +=

niiϕ

,11)(5 −

−=

niiϕ

.4,03,0)(6 +

−≈

niiϕ

,11

4,03,0

1 −−

<+−

<+ n

ini

ni in

<+2

1

).10(;)1()!()!1(

!)( 1 ≤≤−−−

= −− yyyini

nyg inii

( ) ( ) ( )∑ ∑ −−=−−=−−=−∑=−

= +−=−+

−−−

=

1

0 11 )1(1)1(1)1(1)1()(

i

k

n

inkin

knknk

knknk

knkn

ik

nki yGyyyyyyyG

Ez yi eloszlásának várható értéke.

Ez yi eloszlásának módusa.

Ez yi eloszlásának közelítő mediánja, vagyis a medián rang.

ha

Ez yi sűrűségfüggvénye,ebből Gi(y):

(Montgomery)

Page 8: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

8

A medián rang közelítő képletének származtatása:

( ) ( ) ( )∑ ∑ −−=−−=−−=−∑=−

= +−=−+

−−−

=

1

0 11 1(1)1(1)1(1)1()(

i

k

n

inkin

knknk

knknk

knkn

ik

nki yGyyyyyyyG

Gi(y)=Gn+1-i(1-y).

).(1)1( iin ϕϕ −=+−

5,0)1(1 1 =−− ∗+− iin yG

.11bn

ainbnai

++−+

=+−

− b=1-2a

( ) 5,021

121

1

0=⎟

⎠⎞

⎜⎝⎛

−+−

−∑ ⎟⎠⎞

⎜⎝⎛

−+− −−

=

knki

k

nk an

aian

ai

Ha ∞→n , akkor a fenti képlet az (i-a) paraméterű Poisson eloszlással közelíthető, és kapjuk, hogy a jó közelítéssel 0,3.

Keressük a becslést alakban. bnaii

+−

=)(ϕ

4,03,0

21)(

+−

≈−+−

=ni

anaiiϕ

Page 9: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

9

Adatsor2

y=F(x)

y=0,5

14 +=

niϕ

4,03,0

6 +−

== ∗niyiϕ

11

5 −−

=niϕ

)4,03,0(1

+−

= −∗niFxi

• •ixx

y

A három becslési módszer ábrázolása

Page 10: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

10

A becslések tulajdonságai és összehasonlításuk:

1.Az i/(n+1) becslés az eseteknek több, mint felében az egyenes alatt van. 2.Az (i-1)/(n-1) becslés az eseteknek több, mint felében az egyenes felett van.

3. Mivel ,erre is teljesül a fenti megállapítás.

4. Az (i-0,3)/(n+0,4) becslés közel azonos számú esetben van az egyenes alatt és felett. 5. A 2. és 3. esetben alábecsülik a normális eloszlás szórását, az 1. esetben pedig túl nagy szórást becsülnek. Ez azért van, mert az egyenes meredeksége fordítottan arányos a szórással. Az egyenes 0,5 ordinátájú pontjához tartozó x érték becsüli a várható értéket, az egyenes meredeksége pedig a szórás reciprok értéke.

21,

4,03,05,0 +

>+−

>− ni

ni

ni

Page 11: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

11

Page 12: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

12

N(35;15)

(i-0,5)/n

Page 13: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

13

N(35;15)

Page 14: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

14

-3

-2,5

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

5 6 7 8 9 10 11 12 13 14

Eloszlásfv.

Mintaelemek megfigyelt értékei

Sorozatok1

Sorozatok2

Sorozatok3

Sorozatok4

Sorozatok5

N(10,5;2)

i/(n+1)

(i-1)/(n -1)

(i-0,5)/n

(i-0,3)/(n+0,4)

Lineáris (Sorozatok1)

Lineáris (Sorozatok2)

Lineáris (Sorozatok3)

Lineáris (Sorozatok4)

Lineáris (Sorozatok5)

(i-1)/(n-1)

(i-0,3/(n+0,4)

N(10,5;2)

(i-0,5)/n

Page 15: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

15

-3

-2,5

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

5 6 7 8 9 10 11 12 13 14

Eloszlásfv.

Mintaelemek megfigyelt értékei

Sorozatok1

Sorozatok2

Sorozatok3

Sorozatok4

Sorozatok5

N(10,5;2)

i/ (n+1)

(i-1)/ (n-1)

(i-0,5)/n

(i-0,3)/ (n+0,4)

Lineáris (Sorozatok1)

Lineáris (Sorozatok2)

Lineáris (Sorozatok3)

Lineáris (Sorozatok4)

Lineáris (Sorozatok5)

(i-0,1)/(n-1)

N(10,5;2)

(i-0,3)/(n+0,4)

(i-0,5)/n

Page 16: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

4.A hibaarány 50%-os felső konfidencia határa:

,4,07,0

4,03,0)1(ˆ

++

=+−+

≈ni

nip

( ),

22,221

1

1ˆ50,0 +−×⎟

⎠⎞

⎜⎝⎛

+−+

=iinF

iin

p

( ) %.100)1(10

×⎥⎦

⎤⎢⎣

⎡∑ −×−==

−i

k

knknkU ppC Binomiális eloszlásból kiszámítva.

A fenti képletből adódik a pontos képlet.

Ez a közelítő képlet a medián rangból.

Értékelési mód

Minta

Gyakorlati megfontolás

Excel (i-1)/(n-1) Minitabprogram(i/(n+1)

25%

50%

75%

25%

50%

75%

25%

50%

75%

1,4,5,6,9,10,12 4 6 10 4,5 6,0 9,5 4 6 10

1,4,6,9,12,15 4 7,5 12 4,5 7,5 11,25 3,25 7,5 12,75

5. Kvartilisek és a medián százalékos értékeinek összehasonlító táblázata

Montgomery (i -0,5)/n

25%

50%

75%

4,5 6 9.75

4 7,5 12

Page 17: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

17

Kvartilisek számítási képletei:

Az Excel a 11ˆ−−

=nip képletből indul ki és így p=1/4 esetén

;1)1(41

+−= ni Ennek a számnak egész részét kell venni, ezt a sorszámútagot kell kiinduló értéknek tekinteni és ehhez hozzá kell adni ennek a számnak a törtrészének és következő mintaelemtől való távolságának szorzatát. p=3/4 esetén hasonló az eljárás.

A Minitab a 1

ˆ+

=n

ip képletből indul ki és így p=1/4-re i=1/4(n+1); eztkövetően az eljárás azonos.

Ennek megfelelően az Excel képletei a 25 és 75%-os kvartilisekre, ahol [x] x egész része,{x} x törtrésze:

{ } [ ] [ ] { } [ ]3']13'[33'75,01']11'[1]1'[25,0 (');(' wwwwww XXwXXXXwXX −+=−+= ++

A Minitab képletei:{ } [ ] [ ] { } [ ]3]13[3375,01]11[1]1[25,0 ();( wwwwww XXwXXXXwXX −+=−+= ++

nip 5,0ˆ −

= esetén. ha p=1/4, akkor i=(1/4).n +0,5, ezután az eljárás azonos.

Page 18: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

18

{ }{ }{ }{ }{ }{ }{ }{ }{ } { } excelitabww

itabknhawitabknhaw

itabknhawitabknhaw

excelknhaw

excelknhaw

excelknhawexcelknhaw

;min;5,0

;min;34,,0min;24,,75,0

;min;14,,5,0;min;4,,25,0

;;14,,0

;;4,,75,0

;;34,;5,0';;24,;25,0'

'

'

'

=−

+==+==+==

==+==

==

+==+==

Page 19: Dr. Balogh Albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · A statisztikai adatfeldolgozás néhány érdekessége Dr. Balogh Albert: 2009/05/19

19

p becslése w értéke p-kvantilisp=i/(n+1) w=(n+1)p xp=x[w]+{w}(x[w]+1-x[w])

p=(i-1)/(n-1) w=(n-1)p+1 xp=x[w]+{w}(x[w]+1-x[w])

p=(i-0,5)/n w=np+0,5 xp=x[w]+{w}(x[w]+1-x[w])

p=(i-0,3)/(n+0,4) w=(n+0,4)p+0,3

xp=x[w]+{w}(x[w]+1-x[w])

Jelölések: [w] w egész része; {w} w tört része; F(xp)=p.

p- kvantilis mintabeli becslése