statisztikai programcsomagokszucsg/oktatas/statprog_slides.pdf · statisztikai programcsomagok...

Post on 25-Oct-2019

6 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Statisztikai programcsomagok

Sz¶cs Gábor

Szegedi Tudományegyetem, Bolyai Intézet

Szeged, 2012. tavaszi félév

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 1 / 26

Bevezetés Statisztikai alapfogalmak

Statisztikai alapfogalmak

Valószín¶ségelmélet: Ismert eloszlású véletlen változók tulajdonságai.

Matematikai statisztika: A változók eloszlása ismeretlen, a vizsgálatotempirikus adatok (meg�gyelések) alapján végezzük.

Leíró statisztika: Az empirikus adatok összegy¶jtése és feldolgozása.

Statisztikai minta: Meg�gyelések egy véletlen (vektor-)változó értékeire.

Statisztikaelmélet: X1, . . . ,Xn FAE véletlen (vektor-)változók.

Gyakorlat: A változók egy realizációja, x1, . . . , xn meg�gyelések.

Az n értéket a minta méretének nevezzük.

Kérdés: Mit állíthatunk a változók közös eloszlásáról a minta alapján.

Glivenlo�Cantelli-tétel: A háttéreloszlás 1 valószín¶séggel tetsz®legespontosággal meghatározható, amint az n mintaméret tart a végtelenbe.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 2 / 26

Bevezetés Statisztikai alapfogalmak

Néhány fontosabb alapprobléma:

Becsléselmélet: ismeretlen mennyiségek becslése.

Alapstatisztikák: várható érték, szórás, kovariancia, stb.

Eloszlások ismeretlen paraméterei.

Kon�dencia-intervallumok: intervallumbecslés.

Hipotézisvizsgálat: állítások valóságtartalmának tesztelése.

Alapstatisztikák becslésének tesztelése.

Eloszlástesztek.

Ha a meg�gyelések egy X = (X (1), . . . ,X (d)) vektorváltozóravonatkoznak, akkor milyen kapcsolat van a komponensek között?

Függetlenségvizsgálat.

Regresszióanalízis: függvénykapcsolat a komponensek között.

F®komponens-analízis, faktoranalízis: a komponensek számánakcsökkentése kis információveszteséggel.

Klaszteranalízis: a meg�gyelések típuscsoportokba rendezése.Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 3 / 26

Bevezetés Statisztikai alapfogalmak

Fontosabb alkalmazási területek:

Gyógyászat: betegségtesztek, gyógyszerkísérletek.

Közvéleménykutatások: politika és marketing.

Pénzügyi matematika, biztosításmatematika.

Egyéb: min®ségellen®rzés, meteorológia, adatbányászat, stb.

Nehézség: A statisztikai módszerek számításigényesek.

Néhány számítógépes szoftver:

Egyszer¶bb alkalmazások: Excel, Mathematica, Matlab.

Statisztikai programcsomagok: SPSS, SAS, R.

SPSS (Statistical Package for the Social Sciences), version 19.

1968-2010: Stanford University, SPSS Inc., v1-v18.

2010-: IBM, v19-v20.

Az SPSS v20 angol nyelv¶ leírása az interneten:

http://publib.boulder.ibm.com/infocenter/spssstat/v20r0m0/index.jspSz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 4 / 26

Bevezetés Az SPSS programcsomag

Az SPSS programcsomag

Input Window:

Data View: bemeneti adatok, Variables and Cases.Variable View: a változók tulajdonságai.

1 Var12 Var23 Var34 Var4

Var1 Var2 Name Type

Variables

Cases

Data View

Properties

Variables

Variable View

Output Window: a statisztikai vizsgálatok eredményei. Másolás MicrosoftO�ce termékekbe, exportálás több formátumban.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 5 / 26

Bevezetés Az SPSS programcsomag

Beállítások a Variable View lapon:

Name: a változó neve. Max. 8 karakter, tiltott: , �, %, . . .Type: a változó típusa. Szám, szöveg, dátum, valuta, stb.Width: mez®szélesség, a megjelenített karakterek maximális száma.Decimals: az ábrázolt tizedesjegyek száma.Labels: cimkék, hosszabb magyarázat a változónevekhez.Values: a változó értékeinek kódolása, cimkézése.Missing: a hiányzó meg�gyelések kezelése, pl. többféle hiányok.Columns: a táblázat oszlopainak szélessége.Align: szövegigazítás jobbra, balra, középre.Measure: a változó mértéke. Meghatározza, hogy milyen statisztikaim¶veleteket hajthatunk végre a változó értékein.

Scale: értelmezhet®ek a matematikai m¶veletek az értékeken.

Ordinal: nincsenek matematikai m¶veletek, de van rendezés.

Nominal: a változó értékei között nincs rendezés.

Role: a változó szerepe a vizsgálatban, id®nként van jelent®sége.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 6 / 26

Becsléselmélet és adatok ábrázolása Alapfogalmak

Becsléselmélet és adatok ábrázolása

Statisztikai minta: X1, . . . ,Xn ∼ F FAE, F (x), x ∈ R, ismeretlen.

Feladat: Adjunk becslést az F eloszlás valamely θ = θ(F ) függvényére.

Alapstatisztikák: várható érték, szórás, kovariancia.

Paraméteres eloszláscsaládokban a paraméter becslése.

Kétfajta becsléssel fogunk dolgozni:

Pontbecslések: A θ értéket a változóknak egy θ̂n = θ̂n(X1, . . . ,Xn)statisztikával becsüljük.

Intervallumbecslések: A minta függvényében megadunk egy [an, bn]intervallumot, mely nagy valószín¶séggel tartalmazza a θ értéket.

Legyen θ̂n = θ̂n(X1, . . . ,Xn) a θ pontbecslése a minta alapján.

A becslés torzítatlan, ha E (θ̂n) = θ.

A becslés gyengén konzisztens, ha θ̂nP−→ θ, n→∞.

A becslés er®sen konzisztens, ha θ̂n → θ m.b.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 7 / 26

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Alapstatisztikák

Várható érték: E (X ) =∫R x dF (x).

Empirikus várható érték, mintaátlag, mean:

En(X ) = X :=X1 + · · ·+ Xn

n.

Tulajdonságai: torzítatlan és er®sen konzisztens.Variancia:

Var(X ) = E[X − E (X )

]2= E

(X 2)− E 2(X ) .

(Korrigálatlan) empirikus variancia:

Varn(X ) :=X 21 + · · ·+ X 2

n

n−(X)2.

Tulajdonságai: er®sen konzisztens, de torzított, ugyanis

E(Varn(X )

)=

n − 1n

Var(X ) .

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 8 / 26

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Variancia (folytatás):

Korrigált empirikus variancia, variance:

Var∗n(X ) :=n

n − 1Varn(X ) .

Tulajdonságai: torzítatlan és er®sen konzisztens.Szórás: D(X ) =

√Var(X ).

(Korrigálatlan) és korrigált empirikus szórás, standard deviation:

Dn(X ) :=√Varn(X ) , D∗n(X ) :=

√Var∗n(X ) =

√n

n − 1Varn(X ) .

Tulajdonságaik: mindkett® er®sen konzisztens, a korrigált torzítatlan.A mintaátlag szórása:

Var(X)

= Var

(X1 + · · ·+ Xn

n

)=

Var(X )

n, D

(X)

=D(X )√

n.

A mintaátlag szórásának becslése, standard error of the mean:

SEn(X ) :=D∗n(X )√

n.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 9 / 26

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Ferdeség, skewness:

γ1 := E

(X − E (X )

D(X )

)3

=E[X − E (X )

]3(E[X − E (X )

]2)3/2 .Jelentése:

Ha γ1 = 0, akkor az eloszlás szimmetrikus a várható értékre.Példa: normális eloszlás, fekete s¶r¶ségfüggvény.Ha γ1 > 0, akkor az eloszlás balra d®l, kék görbe.Ha γ1 < 0, akkor az eloszlás jobbra d®l, piros görbe.

Empirikus ferdeség:

g1 :=

∑n

i=1

(Xi − X

)3/n(∑

n

i=1

(Xi − X

)2/n)3/2 .

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 10 / 26

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Lapultság, kurtosis:

γ2 :=E[X − E (X )

]4(E[X − E (X )

]2)2 − 3 .

Jelentése:

Ha γ2 = 0, akkor az eloszlás olyan mértékben lapult, mint anormális eloszlás; fekete s¶r¶ségfüggvény.Ha γ2 > 0, akkor az eloszlás csúcsosabb, mint a normális; kék görbe.Ha γ2 < 0, akkor az eloszlás lapultabb, mint a normális; piros görbe.

Empirikus lapultság:

g2 :=

∑n

i=1

(Xi − X

)4/n(∑

n

i=1

(Xi − X

)2/n)2−3 .

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 11 / 26

Becsléselmélet és adatok ábrázolása Alapstatisztikák

A qα érték az X változó α-kvantilise, (0 < α < 1,) ha

P(X < qα) ≤ α ≤ P(X ≤ qα) .

Az α-kvantilis nem mindig egyértelm¶.

y

x

α

qα qα qα qα

Kvantilisfüggvény: Q(α) = inf{x ∈ R : F (x) ≥ α}.Speciális kvantilisek:

Medián: α = 0, 5.

Alsó és fels® kvartilis: α = 0, 25 és α = 0, 75.

Decilisek: α = 0, 1, . . . , 0, 9.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 12 / 26

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Kvantilisek (folytatás): Empirikus kvantilisfüggvény:

X ∗1

1n+1

X ∗2 X ∗3 ,X∗4

3n+1

X ∗n

n

n+1

1

k

n+1

X ∗k

α

k+1n+1

X ∗k+1

k = bα(n + 1)c

A minta empirikus kvantilisei, percentiles:

qα = X ∗1 , α ≤ 1n + 1

, qα = X ∗n , α ≥ n

n + 1,

qα = X ∗bα(n+1)c+(α(n+1)−

⌊α(n+1)

⌋)X ∗bα(n+1)c+1 , egyébként.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 13 / 26

Becsléselmélet és adatok ábrázolása Alapstatisztikák

Medián becslése:

mn =

{X ∗k+1 , n = 2k + 1 ,

(X ∗k

+ X ∗k+1)/2 , n = 2k .

Minimum, maximum: X ∗1 , X∗n .

A minta terjedelme, range: X ∗n − X ∗1 .

Interkvartilis távolság, Interquartile range: q0,75 − q0,25.

Empirikus relatív szórás: D∗n(X )/X .

Módusz: A minta legnagyobb gyakoriságú eleme.

Diszkrét eloszlás esetén a legnagyobb valószín¶ség¶ értékbecslése.

Abszolút folytonos eloszlás esetén a s¶r¶ségfüggvénymaximumának becslése.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 14 / 26

Becsléselmélet és adatok ábrázolása Gra�konok

Gra�konok

Gra�konok az empirikus eloszlás ábrázolására:

Oszlopdiagramm, Bar: Diszkrét (kevés érték¶) változó eloszlása.

Például: 100 kockadobás után az eredmények gyakorisága.Hisztogramm, Histogram: Folytonos (sok érték¶) változó eloszlása.

Például: 100 elem¶ minta standard normális eloszlásból.

14

20

11

25

15 15

1 2 3 4 5 6

4

17

2832

16

3

-3 -2 -1 0 1 2 3

Boxplot: Kvartilisek, ferdeség és extremális elemek ábrázolása.

Ábra a honlapomon.Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 15 / 26

Becsléselmélet és adatok ábrázolása Intervallumbecslések

Intervallumbecslések

Legyen θ = θ(F ) a háttéreloszlés egy függvénye, 0 < α < 1.

Cél: Adjunk meg egy [a, b] intervallumot, mely nagy valószín¶séggeltartalmazza a θ értéket.

Statisztikák: an = an(X1, . . . ,Xn), bn = bn(X1, . . . ,Xn).

1− α megbízhatósági szint¶ kon�dencia-intervallum:

P(θ ∈ [an, bn]

)= 1− α .

Megjegyzések:

Jellemz®en α = 0, 1, 0, 05, 0, 01.

A minta egy x1, . . . , xn realizációja esetén az [an, bn] intervallumvagy tartalmazza a θ paramétert, vagy nem. A minták 1− αhányada a � jó minta�, amikor θ ∈ [an, bn].

Sok esetben csak közelít®leg 1− α megbízhatóságú kon�denciaintervallumot tudunk konstruálni.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 16 / 26

Becsléselmélet és adatok ábrázolása Intervallumbecslések

Példák:

Kon�dencia intervallumot egy X ∼ N(0, 1) változó értékére

xα = Φ(−1)(1− α/2) , a = −xα , b = xα ,

P(X ∈ [−xα, xα]

)= P

(− xα ≤ X ≤ xα

)= 2Φ(xα)− 1 = 1− α .

Kon�dencia intervallumot egy X ∼ Student(n) változó értékére

xα = Φ(−1)n

(1− α/2

), a = −xα , b = xα ,

P(X ∈ [−xα, xα]

)= P

(− xα ≤ X ≤ xα

)= 2Φ(xα)− 1 = 1− α .

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 17 / 26

Becsléselmélet és adatok ábrázolása Intervallumbecslések

Példa: Kon�dencia intervallum egy véges szórású X változó µ = E (X )várható értékre, ha a σ = D(X ) szórás ismert, xα = Φ−1

(1− α/2

).

Ha X1, . . . ,Xn ∼ N(µ, σ2) FAE, akkor

X ∼ N(µ, σ2/n

),

X − µσ/√n∼ N(0, 1) ,

és így az alábbi valószín¶ség 1− α:

P

(− xα + µ ≤ X − µ

σ/√n≤ xα + µ

)= P

(X − xα

σ√n≤ µ ≤ X + xα

σ√n

).

Ha X általános, akkor a centrális határeloszlás-tételb®l

X − µσ

D−→N(0, 1) ,

és így

1− α← P

(− xα + µ ≤ X − µ

σ/√n≤ xα + µ

)= P

(X − xα

σ√n≤ µ ≤ X + xα

σ√n

).

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 18 / 26

Hipotézisvizsgálat Alapfogalmak

Hipotézisvizsgálat

Adott egy X1, . . . ,Xn minta és két egymást kizáró állítás:

Nullhipotézis: H0.

Ellenhipotézis: H1.

Feltesszük, hogy vagy H0 vagy H1 igaz.

Feladat: Döntsük el, hogy elfogadjuk vagy elvetjük H0-t.

Nehézség: A véletlen minta alapján nem állíthatunk biztosat.

Els®fajú hiba: P(elvetjük H0-t | H0 igaz).

Másodfajú hiba: P(elfogadjuk H0-t | H0 nem igaz).

Legyen 0 < α < 1 rögzített érték, (általában 0, 1, 0, 05, 0, 01,) ez aszigni�kancia szint, a próba szigora. Célok:

Megbízhatóság: P(elfogadjuk H0-t | H0 igaz) = 1− α.Er®: P(elvetjük H0-t | H0 nem igaz)→ max.

Rögzített α mellett, ha a mintaméret n→∞, akkor er®→ 1.Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 19 / 26

Hipotézisvizsgálat Alapfogalmak

Legyen Θ0 ∪Θ1 = Rn, Θ0 ∩Θ0 = ∅, olyan módon, hogy

P(

(X1, . . . ,Xn) ∈ Θ0 | H0

)= 1− α .

Ekkor elfogadjuk H0-t ⇐⇒ (X1, . . . ,Xn) ∈ Θ0.

Elfogadási vagy kritikus tartomány: Θ0.

Lehetne ezt esetlen egyszer¶bben? Tekintsünk

egy próbastatisztikát: Sn = Sn(X1, . . . ,Xn),

és egy kritikus értéket: xα, (ez α monoton növekv® függvénye.)

úgy, hogy |Sn| ≤ xα ⇐⇒ (X1, . . . ,Xn) ∈ Θ0 ⇐⇒ elfogadjuk H0-t.

Kérdés: Hogyan teszteljünk egyszerre több α szigni�kancia szinten?

Vegyük észre, hogy tetsz®leges minta esetén,

ha α elég kicsi, (tehát Θ0 elég b®,) akkor elfogadjuk H0-t;

ha α elég nagy, (tehát Θ0 elég sz¶k,) akkor elvetjük H0-t.

Adjuk meg azt a kritikus szigni�kancia szintet, mely alatt elfogadjuk, ésmely fölött elvetjük a nullhipotézist. Ez az az α, melyre |Sn| = xα.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 20 / 26

Hipotézisvizsgálat Az u-próba

Az u-próba

Tegyük fel, hogy σ = D(X ) ismert, és legyen

H0 : E (X ) = µ0 , H1 : E (X ) 6= µ0 .

Próbastatisztika, kritikus érték:

u =X − µ0σ/√n, xα = Φ−1

(1− α/2

).

Tegyük fel, hogy H0 igaz. Ha a háttéreloszlás normális, akkor

P(|u| ≤ xα

)= P

(X − xα

σ√n≤ µ0 ≤ X + xα

σ√n

)= 1− α .

Ha H0 igaz, de a háttéreloszlás nem normális, akkor

P(|u| ≤ xα

)= P

(X − xα

σ√n≤ µ0 ≤ X + xα

σ√n

)→ 1− α .

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 21 / 26

Hipotézisvizsgálat További paraméteres próbák

További paraméteres próbák

Legyen X1, . . . ,Xn FAE minta,

H0 : E (X ) = µ0 , H1 : E (X ) 6= µ0 .

Egymintás t-próba: A D(X ) szórás nem ismert.

Próbastatisztika, illetve az eloszlása normális eloszlású minta esetén

tn =X − µ0

D∗n(X )/√n∼ Student(n − 1) .

Kritikus érték: xα = Φn−1(1− α/2).

Emlékeztet®ül, a kon�dencia intervallum a várható értékre:

[an, bn] =

[X − xα

D∗n(X )√n

,X + xαD∗n(X )√

n

].

Ekkor E (X ) ∈ [an, bn] ⇐⇒ −xα ≤ tn ≤ xα.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 22 / 26

Hipotézisvizsgálat További paraméteres próbák

Legyen X1, . . . ,Xn és Y1, . . . ,Ym két egymástól független minta,

H0 : E (X )− E (Y ) = µ0 , H1 : E (X )− E (Y ) 6= µ0 .

Kétmintás t-próba: Feltétel: D(X ) = D(Y ).

Próbastatisztika, illetve az eloszlása normális esetben:

tn,m =X − Y − µ0

D∗n,m√

(n + m)/nm∼ Student(n + m − 2) ,

ahol

D∗n,m =

√(n − 1)Var∗n(X ) + (m − 1)Var∗m(Y )

n + m − 2≈ D(X ) = D(Y ) .

Ennek segítségével kon�dencia intervallum is adható azE (X )− E (Y ) különbségre.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 23 / 26

Hipotézisvizsgálat További paraméteres próbák

Legyen X1, . . . ,Xn és Y1, . . . ,Ym két egymástól független minta,

H0 : E (X )− E (Y ) = µ0 , H1 : E (X )− E (Y ) 6= µ0 .

Welch-próba: Nincs feltétel.

Próbastatisztika, illetve az eloszlása normális esetben:

t ′n,m =X − Y − µ0

Var∗n(X )/n + Varm ∗ (Y )/m∼ Student(ν) ,

ahol

ν =

(Var∗n(X )/n + Var∗m(Y )/m

)2(Var∗n(X )/n

)2/(n − 1) +

(Var∗m(Y )/m

)2/(m − 1)

.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 24 / 26

Hipotézisvizsgálat További paraméteres próbák

Legyenek (X1,Y1), . . . , (Xn,Yn) FAE mintaelemek,

H0 : E (X )− E (Y ) = µ0 , H1 : E (X )− E (Y ) 6= µ0 .

Páros t-próba: Nincs feltétel.

Próbastatisztika, illetve az eloszlása normális esetben:

tn =X − Y − µ0

Var∗n(X − Y )/√n∼ Student(n − 1) .

Tegyük fel, hogy az (X ,Y ) vektor komponensei függetlenek. Mivelteszteljük H0-t, kétmintás t-próbával, (szükség esetén Welch-próbával,)vagy páros t-próbával?

Válasz: A kétmintás t-próbánál nagyobb a szabadsági fok, azért nagyobb apróba ereje, azt érdemes választani.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 25 / 26

Hipotézisvizsgálat További paraméteres próbák

F-próba: X1, . . . ,Xn és Y1, . . . ,Ym egymástól független minták,

H0 : D(X )/D(Y ) = σ0 , H1 : D(X )/D(Y ) 6= σ0 .

Próbastatisztika, illetve az eloszlása normális esetben:

f =Var∗n(X )

Var∗m(Y )σ20∼ Fn−1,m−1 .

Kritikus értékek: x1 = Fn−1,m−1(α/2), x2 = Fn−1,m−1(1− α/2).

Akkor fogadjuk el a null-hipotézist, ha x1 ≤ f ≤ x2.

F-próba egy minta esetén: X1, . . . ,Xn FAE,

H0 : D(X ) = σ0 , H1 : D(X ) 6= σ0 .

Próbastatisztika, illetve az eloszlása normális esetben:

f = Var∗n(X )/σ20 ∼ Fn−1,∞ .

Kritikus értékek, elfogadás: mint a kétmintás esetben.

Sz¶cs Gábor (SZTE, Bolyai Intézet) Statisztikai programcsomagok 2012. tavaszi félév 26 / 26

top related