statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · statisztikai programcsomagok...

26

Upload: others

Post on 25-Oct-2019

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Statisztikai programcsomagok

Sz¶cs Gábor

Szegedi Tudományegyetem, Bolyai Intézet

Szeged, 2012. tavaszi félév

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 1 / 26

Page 2: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Bevezetés Statisztikai alapfogalmak

Statisztikai alapfogalmak

Valószín¶ségelmélet: Ismert eloszlású véletlen változók tulajdonságai.

Matematikai statisztika: A változók eloszlása ismeretlen, a vizsgálatotempirikus adatok (meg�gyelések) alapján végezzük.

Leíró statisztika: Az empirikus adatok összegy¶jtése és feldolgozása.

Statisztikai minta: Meg�gyelések egy véletlen (vektor-)változó értékeire.

Statisztikaelmélet: X1, . . . ,Xn FAE véletlen (vektor-)változók.

Gyakorlat: A változók egy realizációja, x1, . . . , xn meg�gyelések.

Az n értéket a minta méretének nevezzük.

Kérdés: Mit állíthatunk a változók közös eloszlásáról a minta alapján.

Glivenlo�Cantelli-tétel: A háttéreloszlás 1 valószín¶séggel tetsz®legespontosággal meghatározható, amint az n mintaméret tart a végtelenbe.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 2 / 26

Page 3: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Bevezetés Statisztikai alapfogalmak

Néhány fontosabb alapprobléma:

Becsléselmélet: ismeretlen mennyiségek becslése.

Alapstatisztikák: várható érték, szórás, kovariancia, stb.

Eloszlások ismeretlen paraméterei.

Kon�dencia-intervallumok: intervallumbecslés.

Hipotézisvizsgálat: állítások valóságtartalmának tesztelése.

Alapstatisztikák becslésének tesztelése.

Eloszlástesztek.

Ha a meg�gyelések egy X = (X (1), . . . ,X (d)) vektorváltozóravonatkoznak, akkor milyen kapcsolat van a komponensek között?

Függetlenségvizsgálat.

Regresszióanalízis: függvénykapcsolat a komponensek között.

F®komponens-analízis, faktoranalízis: a komponensek számánakcsökkentése kis információveszteséggel.

Klaszteranalízis: a meg�gyelések típuscsoportokba rendezése.Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 3 / 26

Page 4: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Bevezetés Statisztikai alapfogalmak

Fontosabb alkalmazási területek:

Gyógyászat: betegségtesztek, gyógyszerkísérletek.

Közvéleménykutatások: politika és marketing.

Pénzügyi matematika, biztosításmatematika.

Egyéb: min®ségellen®rzés, meteorológia, adatbányászat, stb.

Nehézség: A statisztikai módszerek számításigényesek.

Néhány számítógépes szoftver:

Egyszer¶bb alkalmazások: Excel, Mathematica, Matlab.

Statisztikai programcsomagok: SPSS, SAS, R.

SPSS (Statistical Package for the Social Sciences), version 19.

1968-2010: Stanford University, SPSS Inc., v1-v18.

2010-: IBM, v19-v20.

Az SPSS v20 angol nyelv¶ leírása az interneten:

http://publib.boulder.ibm.com/infocenter/spssstat/v20r0m0/index.jspSz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 4 / 26

Page 5: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Bevezetés Az SPSS programcsomag

Az SPSS programcsomag

Input Window:

Data View: bemeneti adatok, Variables and Cases.Variable View: a változók tulajdonságai.

1 Var12 Var23 Var34 Var4

Var1 Var2 Name Type

Variables

Cases

Data View

Properties

Variables

Variable View

Output Window: a statisztikai vizsgálatok eredményei. Másolás MicrosoftO�ce termékekbe, exportálás több formátumban.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 5 / 26

Page 6: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Bevezetés Az SPSS programcsomag

Beállítások a Variable View lapon:

Name: a változó neve. Max. 8 karakter, tiltott: , �, %, . . .Type: a változó típusa. Szám, szöveg, dátum, valuta, stb.Width: mez®szélesség, a megjelenített karakterek maximális száma.Decimals: az ábrázolt tizedesjegyek száma.Labels: cimkék, hosszabb magyarázat a változónevekhez.Values: a változó értékeinek kódolása, cimkézése.Missing: a hiányzó meg�gyelések kezelése, pl. többféle hiányok.Columns: a táblázat oszlopainak szélessége.Align: szövegigazítás jobbra, balra, középre.Measure: a változó mértéke. Meghatározza, hogy milyen statisztikaim¶veleteket hajthatunk végre a változó értékein.

Scale: értelmezhet®ek a matematikai m¶veletek az értékeken.

Ordinal: nincsenek matematikai m¶veletek, de van rendezés.

Nominal: a változó értékei között nincs rendezés.

Role: a változó szerepe a vizsgálatban, id®nként van jelent®sége.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 6 / 26

Page 7: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Alapfogalmak

Becsléselmélet és adatok ábrázolása

Statisztikai minta: X1, . . . ,Xn ∼ F FAE, F (x), x ∈ R, ismeretlen.

Feladat: Adjunk becslést az F eloszlás valamely θ = θ(F ) függvényére.

Alapstatisztikák: várható érték, szórás, kovariancia.

Paraméteres eloszláscsaládokban a paraméter becslése.

Kétfajta becsléssel fogunk dolgozni:

Pontbecslések: A θ értéket a változóknak egy θ̂n = θ̂n(X1, . . . ,Xn)statisztikával becsüljük.

Intervallumbecslések: A minta függvényében megadunk egy [an, bn]intervallumot, mely nagy valószín¶séggel tartalmazza a θ értéket.

Legyen θ̂n = θ̂n(X1, . . . ,Xn) a θ pontbecslése a minta alapján.

A becslés torzítatlan, ha E (θ̂n) = θ.

A becslés gyengén konzisztens, ha θ̂nP−→ θ, n→∞.

A becslés er®sen konzisztens, ha θ̂n → θ m.b.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 7 / 26

Page 8: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Alapstatisztikák

Várható érték: E (X ) =∫R x dF (x).

Empirikus várható érték, mintaátlag, mean:

En(X ) = X :=X1 + · · ·+ Xn

n.

Tulajdonságai: torzítatlan és er®sen konzisztens.Variancia:

Var(X ) = E[X − E (X )

]2= E

(X 2)− E 2(X ) .

(Korrigálatlan) empirikus variancia:

Varn(X ) :=X 21 + · · ·+ X 2

n

n−(X)2.

Tulajdonságai: er®sen konzisztens, de torzított, ugyanis

E(Varn(X )

)=

n − 1n

Var(X ) .

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 8 / 26

Page 9: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Variancia (folytatás):

Korrigált empirikus variancia, variance:

Var∗n(X ) :=n

n − 1Varn(X ) .

Tulajdonságai: torzítatlan és er®sen konzisztens.Szórás: D(X ) =

√Var(X ).

(Korrigálatlan) és korrigált empirikus szórás, standard deviation:

Dn(X ) :=√Varn(X ) , D∗n(X ) :=

√Var∗n(X ) =

√n

n − 1Varn(X ) .

Tulajdonságaik: mindkett® er®sen konzisztens, a korrigált torzítatlan.A mintaátlag szórása:

Var(X)

= Var

(X1 + · · ·+ Xn

n

)=

Var(X )

n, D

(X)

=D(X )√

n.

A mintaátlag szórásának becslése, standard error of the mean:

SEn(X ) :=D∗n(X )√

n.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 9 / 26

Page 10: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Ferdeség, skewness:

γ1 := E

(X − E (X )

D(X )

)3

=E[X − E (X )

]3(E[X − E (X )

]2)3/2 .Jelentése:

Ha γ1 = 0, akkor az eloszlás szimmetrikus a várható értékre.Példa: normális eloszlás, fekete s¶r¶ségfüggvény.Ha γ1 > 0, akkor az eloszlás balra d®l, kék görbe.Ha γ1 < 0, akkor az eloszlás jobbra d®l, piros görbe.

Empirikus ferdeség:

g1 :=

∑n

i=1

(Xi − X

)3/n(∑

n

i=1

(Xi − X

)2/n)3/2 .

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 10 / 26

Page 11: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Lapultság, kurtosis:

γ2 :=E[X − E (X )

]4(E[X − E (X )

]2)2 − 3 .

Jelentése:

Ha γ2 = 0, akkor az eloszlás olyan mértékben lapult, mint anormális eloszlás; fekete s¶r¶ségfüggvény.Ha γ2 > 0, akkor az eloszlás csúcsosabb, mint a normális; kék görbe.Ha γ2 < 0, akkor az eloszlás lapultabb, mint a normális; piros görbe.

Empirikus lapultság:

g2 :=

∑n

i=1

(Xi − X

)4/n(∑

n

i=1

(Xi − X

)2/n)2−3 .

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 11 / 26

Page 12: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Alapstatisztikák

A qα érték az X változó α-kvantilise, (0 < α < 1,) ha

P(X < qα) ≤ α ≤ P(X ≤ qα) .

Az α-kvantilis nem mindig egyértelm¶.

y

x

α

qα qα qα qα

Kvantilisfüggvény: Q(α) = inf{x ∈ R : F (x) ≥ α}.Speciális kvantilisek:

Medián: α = 0, 5.

Alsó és fels® kvartilis: α = 0, 25 és α = 0, 75.

Decilisek: α = 0, 1, . . . , 0, 9.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 12 / 26

Page 13: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Kvantilisek (folytatás): Empirikus kvantilisfüggvény:

X ∗1

1n+1

X ∗2 X ∗3 ,X∗4

3n+1

X ∗n

n

n+1

1

k

n+1

X ∗k

α

k+1n+1

X ∗k+1

k = bα(n + 1)c

A minta empirikus kvantilisei, percentiles:

qα = X ∗1 , α ≤ 1n + 1

, qα = X ∗n , α ≥ n

n + 1,

qα = X ∗bα(n+1)c+(α(n+1)−

⌊α(n+1)

⌋)X ∗bα(n+1)c+1 , egyébként.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 13 / 26

Page 14: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Medián becslése:

mn =

{X ∗k+1 , n = 2k + 1 ,

(X ∗k

+ X ∗k+1)/2 , n = 2k .

Minimum, maximum: X ∗1 , X∗n .

A minta terjedelme, range: X ∗n − X ∗1 .

Interkvartilis távolság, Interquartile range: q0,75 − q0,25.

Empirikus relatív szórás: D∗n(X )/X .

Módusz: A minta legnagyobb gyakoriságú eleme.

Diszkrét eloszlás esetén a legnagyobb valószín¶ség¶ értékbecslése.

Abszolút folytonos eloszlás esetén a s¶r¶ségfüggvénymaximumának becslése.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 14 / 26

Page 15: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Gra�konok

Gra�konok

Gra�konok az empirikus eloszlás ábrázolására:

Oszlopdiagramm, Bar: Diszkrét (kevés érték¶) változó eloszlása.

Például: 100 kockadobás után az eredmények gyakorisága.Hisztogramm, Histogram: Folytonos (sok érték¶) változó eloszlása.

Például: 100 elem¶ minta standard normális eloszlásból.

14

20

11

25

15 15

1 2 3 4 5 6

4

17

2832

16

3

-3 -2 -1 0 1 2 3

Boxplot: Kvartilisek, ferdeség és extremális elemek ábrázolása.

Ábra a honlapomon.Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 15 / 26

Page 16: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Intervallumbecslések

Intervallumbecslések

Legyen θ = θ(F ) a háttéreloszlés egy függvénye, 0 < α < 1.

Cél: Adjunk meg egy [a, b] intervallumot, mely nagy valószín¶séggeltartalmazza a θ értéket.

Statisztikák: an = an(X1, . . . ,Xn), bn = bn(X1, . . . ,Xn).

1− α megbízhatósági szint¶ kon�dencia-intervallum:

P(θ ∈ [an, bn]

)= 1− α .

Megjegyzések:

Jellemz®en α = 0, 1, 0, 05, 0, 01.

A minta egy x1, . . . , xn realizációja esetén az [an, bn] intervallumvagy tartalmazza a θ paramétert, vagy nem. A minták 1− αhányada a � jó minta�, amikor θ ∈ [an, bn].

Sok esetben csak közelít®leg 1− α megbízhatóságú kon�denciaintervallumot tudunk konstruálni.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 16 / 26

Page 17: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Intervallumbecslések

Példák:

Kon�dencia intervallumot egy X ∼ N(0, 1) változó értékére

xα = Φ(−1)(1− α/2) , a = −xα , b = xα ,

P(X ∈ [−xα, xα]

)= P

(− xα ≤ X ≤ xα

)= 2Φ(xα)− 1 = 1− α .

Kon�dencia intervallumot egy X ∼ Student(n) változó értékére

xα = Φ(−1)n

(1− α/2

), a = −xα , b = xα ,

P(X ∈ [−xα, xα]

)= P

(− xα ≤ X ≤ xα

)= 2Φ(xα)− 1 = 1− α .

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 17 / 26

Page 18: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Becsléselmélet és adatok ábrázolása Intervallumbecslések

Példa: Kon�dencia intervallum egy véges szórású X változó µ = E (X )várható értékre, ha a σ = D(X ) szórás ismert, xα = Φ−1

(1− α/2

).

Ha X1, . . . ,Xn ∼ N(µ, σ2) FAE, akkor

X ∼ N(µ, σ2/n

),

X − µσ/√n∼ N(0, 1) ,

és így az alábbi valószín¶ség 1− α:

P

(− xα + µ ≤ X − µ

σ/√n≤ xα + µ

)= P

(X − xα

σ√n≤ µ ≤ X + xα

σ√n

).

Ha X általános, akkor a centrális határeloszlás-tételb®l

X − µσ

D−→N(0, 1) ,

és így

1− α← P

(− xα + µ ≤ X − µ

σ/√n≤ xα + µ

)= P

(X − xα

σ√n≤ µ ≤ X + xα

σ√n

).

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 18 / 26

Page 19: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Hipotézisvizsgálat Alapfogalmak

Hipotézisvizsgálat

Adott egy X1, . . . ,Xn minta és két egymást kizáró állítás:

Nullhipotézis: H0.

Ellenhipotézis: H1.

Feltesszük, hogy vagy H0 vagy H1 igaz.

Feladat: Döntsük el, hogy elfogadjuk vagy elvetjük H0-t.

Nehézség: A véletlen minta alapján nem állíthatunk biztosat.

Els®fajú hiba: P(elvetjük H0-t | H0 igaz).

Másodfajú hiba: P(elfogadjuk H0-t | H0 nem igaz).

Legyen 0 < α < 1 rögzített érték, (általában 0, 1, 0, 05, 0, 01,) ez aszigni�kancia szint, a próba szigora. Célok:

Megbízhatóság: P(elfogadjuk H0-t | H0 igaz) = 1− α.Er®: P(elvetjük H0-t | H0 nem igaz)→ max.

Rögzített α mellett, ha a mintaméret n→∞, akkor er®→ 1.Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 19 / 26

Page 20: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Hipotézisvizsgálat Alapfogalmak

Legyen Θ0 ∪Θ1 = Rn, Θ0 ∩Θ0 = ∅, olyan módon, hogy

P(

(X1, . . . ,Xn) ∈ Θ0 | H0

)= 1− α .

Ekkor elfogadjuk H0-t ⇐⇒ (X1, . . . ,Xn) ∈ Θ0.

Elfogadási vagy kritikus tartomány: Θ0.

Lehetne ezt esetlen egyszer¶bben? Tekintsünk

egy próbastatisztikát: Sn = Sn(X1, . . . ,Xn),

és egy kritikus értéket: xα, (ez α monoton növekv® függvénye.)

úgy, hogy |Sn| ≤ xα ⇐⇒ (X1, . . . ,Xn) ∈ Θ0 ⇐⇒ elfogadjuk H0-t.

Kérdés: Hogyan teszteljünk egyszerre több α szigni�kancia szinten?

Vegyük észre, hogy tetsz®leges minta esetén,

ha α elég kicsi, (tehát Θ0 elég b®,) akkor elfogadjuk H0-t;

ha α elég nagy, (tehát Θ0 elég sz¶k,) akkor elvetjük H0-t.

Adjuk meg azt a kritikus szigni�kancia szintet, mely alatt elfogadjuk, ésmely fölött elvetjük a nullhipotézist. Ez az az α, melyre |Sn| = xα.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 20 / 26

Page 21: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Hipotézisvizsgálat Az u-próba

Az u-próba

Tegyük fel, hogy σ = D(X ) ismert, és legyen

H0 : E (X ) = µ0 , H1 : E (X ) 6= µ0 .

Próbastatisztika, kritikus érték:

u =X − µ0σ/√n, xα = Φ−1

(1− α/2

).

Tegyük fel, hogy H0 igaz. Ha a háttéreloszlás normális, akkor

P(|u| ≤ xα

)= P

(X − xα

σ√n≤ µ0 ≤ X + xα

σ√n

)= 1− α .

Ha H0 igaz, de a háttéreloszlás nem normális, akkor

P(|u| ≤ xα

)= P

(X − xα

σ√n≤ µ0 ≤ X + xα

σ√n

)→ 1− α .

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 21 / 26

Page 22: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Hipotézisvizsgálat További paraméteres próbák

További paraméteres próbák

Legyen X1, . . . ,Xn FAE minta,

H0 : E (X ) = µ0 , H1 : E (X ) 6= µ0 .

Egymintás t-próba: A D(X ) szórás nem ismert.

Próbastatisztika, illetve az eloszlása normális eloszlású minta esetén

tn =X − µ0

D∗n(X )/√n∼ Student(n − 1) .

Kritikus érték: xα = Φn−1(1− α/2).

Emlékeztet®ül, a kon�dencia intervallum a várható értékre:

[an, bn] =

[X − xα

D∗n(X )√n

,X + xαD∗n(X )√

n

].

Ekkor E (X ) ∈ [an, bn] ⇐⇒ −xα ≤ tn ≤ xα.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 22 / 26

Page 23: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Hipotézisvizsgálat További paraméteres próbák

Legyen X1, . . . ,Xn és Y1, . . . ,Ym két egymástól független minta,

H0 : E (X )− E (Y ) = µ0 , H1 : E (X )− E (Y ) 6= µ0 .

Kétmintás t-próba: Feltétel: D(X ) = D(Y ).

Próbastatisztika, illetve az eloszlása normális esetben:

tn,m =X − Y − µ0

D∗n,m√

(n + m)/nm∼ Student(n + m − 2) ,

ahol

D∗n,m =

√(n − 1)Var∗n(X ) + (m − 1)Var∗m(Y )

n + m − 2≈ D(X ) = D(Y ) .

Ennek segítségével kon�dencia intervallum is adható azE (X )− E (Y ) különbségre.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 23 / 26

Page 24: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Hipotézisvizsgálat További paraméteres próbák

Legyen X1, . . . ,Xn és Y1, . . . ,Ym két egymástól független minta,

H0 : E (X )− E (Y ) = µ0 , H1 : E (X )− E (Y ) 6= µ0 .

Welch-próba: Nincs feltétel.

Próbastatisztika, illetve az eloszlása normális esetben:

t ′n,m =X − Y − µ0

Var∗n(X )/n + Varm ∗ (Y )/m∼ Student(ν) ,

ahol

ν =

(Var∗n(X )/n + Var∗m(Y )/m

)2(Var∗n(X )/n

)2/(n − 1) +

(Var∗m(Y )/m

)2/(m − 1)

.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 24 / 26

Page 25: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Hipotézisvizsgálat További paraméteres próbák

Legyenek (X1,Y1), . . . , (Xn,Yn) FAE mintaelemek,

H0 : E (X )− E (Y ) = µ0 , H1 : E (X )− E (Y ) 6= µ0 .

Páros t-próba: Nincs feltétel.

Próbastatisztika, illetve az eloszlása normális esetben:

tn =X − Y − µ0

Var∗n(X − Y )/√n∼ Student(n − 1) .

Tegyük fel, hogy az (X ,Y ) vektor komponensei függetlenek. Mivelteszteljük H0-t, kétmintás t-próbával, (szükség esetén Welch-próbával,)vagy páros t-próbával?

Válasz: A kétmintás t-próbánál nagyobb a szabadsági fok, azért nagyobb apróba ereje, azt érdemes választani.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 25 / 26

Page 26: Statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · Statisztikai programcsomagok Sz¶cs Gábor Szegedi udományTegyetem, Bolyai Intézet Szeged, 2012. tavaszi félév

Hipotézisvizsgálat További paraméteres próbák

F-próba: X1, . . . ,Xn és Y1, . . . ,Ym egymástól független minták,

H0 : D(X )/D(Y ) = σ0 , H1 : D(X )/D(Y ) 6= σ0 .

Próbastatisztika, illetve az eloszlása normális esetben:

f =Var∗n(X )

Var∗m(Y )σ20∼ Fn−1,m−1 .

Kritikus értékek: x1 = Fn−1,m−1(α/2), x2 = Fn−1,m−1(1− α/2).

Akkor fogadjuk el a null-hipotézist, ha x1 ≤ f ≤ x2.

F-próba egy minta esetén: X1, . . . ,Xn FAE,

H0 : D(X ) = σ0 , H1 : D(X ) 6= σ0 .

Próbastatisztika, illetve az eloszlása normális esetben:

f = Var∗n(X )/σ20 ∼ Fn−1,∞ .

Kritikus értékek, elfogadás: mint a kétmintás esetben.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 26 / 26