matematikai statisztika [3mm] programtervezo...

31
Matematikai statisztika PROGRAMTERVEZ ˝ O INFORMATIKUS alapszak, A szakirány Arató Miklós Valószín˝ uségelméleti és Statisztika Tanszék Természettudományi Kar 2019. február 11. Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 1 / 31

Upload: others

Post on 01-Jan-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Matematikai statisztikaPROGRAMTERVEZO INFORMATIKUS alapszak, A szakirány

Arató Miklós

Valószínuségelméleti és Statisztika TanszékTermészettudományi Kar

2019. február 11.

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 1 / 31

Tudnivalók a tantárgyról

Kötelezo irodalom: az eloadásokon és gyakorlatokon elhangzottak– a bemutatott módszerek, definíciók, tételek, bizonyítások, példák.Ajánlott irodalom:

Korpásné: Általános statisztika I. tankönyv leíró statisztikáhozMolnárné-Tóthné: Általános statisztika példatár I. példatár leíró

statisztikáhozBolla-Krámli: Statisztikai következtetések elmélete. tankönyv

matematikai statisztikáhozFazekas (szerk.): Bevezetés a matematikai statisztikába. tankönyv

matematikai statisztikáhozMóri-Szeidl-Zempléni: Matematikai statisztika példatár.Pröhle-Zempléni: Statistical Problem Solving in R. Elérési helye:http://zempleni.elte.hu/Stat_R_Prohle_Zempleni R programnyelv bevezeto, a benne szereplo statisztikai témák erosenátfednek az eloadással

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 2 / 31

Tudnivalók a tantárgyról, követelmények

A tárgy felvételéhez a Valószínuségszámítás tárgy elvégzéseszükségesA jelenlét kötelezo az eloadáson és a gyakorlaton is (3-3 hiányzáslehetséges)Gyakorlati jegy pontszámai

2 alkalommal 90 perces dolgozat, 50 pontért3 alkalommal 15 perces röpdolgozat, 12 pontértLesz egy javítási lehetoség is (a nagy dolgozatoknak legalább 15

pontosoknak kell lenniük)Beadandó önálló feladat (statisztikai elemzés), 50 pontért. Mindenki

válasszon adatbázist (határido: március 14). Az elemzés beadásihatárideje május 20, de ha elobb elkészül, van ido javítani avisszajelzések alapján. Legalább 20 pontot el kell érni!Tervezett ponthatárok: 2-es 75 ponttól,, 5-ös 150 ponttól

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 3 / 31

A tananyagról

Tervezett tematika:Leíró statisztikaBecsléselméletHipotézisvizsgálatTöbbdimenziós statisztika elemei

A matematika a táblán fog megszületni; a leíró statisztikaianyagrészek nagy része, közérdeku infók, feladatok szövegei,érdekességek, szimulációk, egyéb ábrák lesznek kivetítveA diák az anyagnak csak egy részét fedik le!!!

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 4 / 31

Felhasznált szoftver/programnyelv: R

Statisztikai modellezésre, adatok elemzésére kiválóan alkalmasprogramnyelvNyílt forráskódú, ma már alig van probléma, feladat, aminek amegoldására ne lenne valamilyen package – akár több isNépszerusége 2017 februárjában az összes programozási nyelvmezonyében:

9. hely – PYPL index16. hely – TIOBE index

Jelenleg a legelterjedtebb matematikai célú programnyelv

Letöltési helye: https://cran.r-project.org/Szövegszerkesztésre ajánlott szoftver: RStudioletöltési helye: https://www.rstudio.com/products/rstudio/download3/

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 5 / 31

A statisztika történeteKezdetek: népszámlálások az ókorban (Kína, Római Birodalom)A statisztika szó eredete (vitatott):

status [latin]: állapotStaat [német]: állam Sokáig a statisztika az állam állapotáról fontos információkbegyujtését jelentette.Tudománnyá válásának kezdete: 17. század – demográfia(népesség/társadalomstatisztika)A 19. századtól

a statisztika mindenféle információ begyujtésének, feldolgozásának ésértelmezésének a tudományává váltÖsszekapcsolódás a valószínuségelmélettel

A számítógépek megjelenésével fejlodése felgyorsult ésjelentosége megnottA statisztika megítélése vegyes, az eredményeket mindig kritikusankell szemlélni Churchill: "I only believe in statistics that I doctoredmyself " (Csak azoknak a statisztikáknak hiszek, amiket én magamhamisítottam.)

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 6 / 31

Motiváció

Kérdések, amikre statisztikai eszközökkel – bizonyos mértékig –választ tudunk adni:

A tavalyelotti egy nagyon hideg január volt a Kárpát-medencében.Állíthatjuk-e, hogy nincs is globális felmelegedés?A dohányzás mennyivel növeli annak az esélyét, hogy valaki 70éves koráig tüdorákban betegszik meg?A legutóbbi USA-beli elnökválasztáson a közvélemény-kutatókWisconsin államban közvetlenül a választás elott átlagosan6,5%-os Clinton-elonyt mértek. Mi az esélye, hogy Wisconsin-banTrump fog gyozni? [ 0,7%-kal Trump nyert]Vajon állíthatjuk-e, hogy egy év során a bizonyos méretetmeghaladó napfoltok száma Poisson-eloszlást követ? Elore tudjukjelezni a múltbeli adatok alapján, hogy 2019-ben hány napfoltotfognak észlelni?

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 7 / 31

A statisztika fogalma és ágai

Statisztika: a valóság tömör, számszeru jellemzésére szolgálótudományos módszertan, illetve gyakorlati tevékenység.Ágai:

Leíró statisztika: magába foglalja az információk összegyujtését,összegzését, ábrázolását, tömör, számszeru jellemzését szolgálómódszereketMatematikai statisztika: matematikai tudomány, adatokfeldolgozásáról, értelmezésérol és felhasználásáról szólótudományos módszertan

Megjegyzés: a statisztika szó másik jelentése – matematikaistatisztikai értelemben a statisztika egy valószínuségi (vektor)változó,amit a mintából számolunk (késobb bovebben)

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 8 / 31

Leíró statisztikai alapfogalmak I.

Statisztikai egység: a statisztikai vizsgálat tárgyát képezo egyedStatisztikai sokaság: a megfigyelés tárgyát képezo egyedekösszessége, halmaza. Röviden: sokaság.Statisztikai adat: valamely sokaság elemeinek száma vagy asokaság valamilyen másféle számszeru jellemzoje, mérésieredmény.Statisztikai ismérv: a sokaság egyedeit jellemzo tulajdonság.Röviden: ismérv.Ismérvváltozatok: az ismérvek lehetséges kimenetelei.Minta: a sokaság véges számosságú részhalmaza. [A minta másértelmezéseirol késobb...]

Statisztikai következtetés: a valóságban a teljes sokaságot nemtudjuk vagy akarjuk megfigyelni, ezért csak az egyedek egy szukebbcsoportját figyeljük meg. A viszonylag kisszámú egyedre vonatkozóinformációk alapján szeretnénk a teljes sokaság egészére, egyesjellemzoire, tulajdonságaira érvényes következtetéseket kimondani.

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 9 / 31

Leíró statisztikai alapfogalmak II.

Példák:

Sokaság: most a teremben lévo homo sapiensekStatisztikai egység: a teremben lévo oktatóAdat: a legmagasabb hallgató testtömegindexeIsmérv: nem

Ismérvváltozatok: férfi (→ 1), no (→ 0)Minta: 5 véletlenül választott hallgató

Sokaság: az ELTE TTK Matematikai szakgyujteményébenlévo könyvek

Statisztikai egység: a BF 13873 raktári jelzetu könyvAdat: a szakgyujteményben lévo könyvek számaIsmérv: oldalak száma

Ismérvváltozatok: 631, 321, 153, 463, . . .Minta: a Rényi: Valószínuségszámítás címu könyvek

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 10 / 31

Csoportosítások, adatok fajtáiA sokaságok csoportosítása:1.) A sokaság egységeinek megkülönböztethetosége szerint:

diszkrét: a sokaság egységei elkülönülnek egymástólfolytonos: a sokaság egységeit nem tudjuk természetes módon

elkülöníteni (pl. bauxittermelés)2.) A sokaság idopontra vagy idotartamra értelmezheto-e:

álló: csak egy adott idopontra értelmezhetomozgó: csak egy adott idotartamra értelmezheto

3.) A sokaság számossága szerint:véges (a gyakorlatban általában ilyenekkel foglalkozunk)végtelen

A statisztikai adatok fajtái:Alapadatok: közvetlenül a sokaságból származnak (méréssel,megszámlálással)Leszármaztatott adatok: alapadatokból muveletek eredményekéntadódnak (pl. átlagolással, osztással)

A statisztikai adatok nem mindig pontosak – a mért és a ténylegesadat eltérhet egymástól, például kerekítési okokból.

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 11 / 31

Ismérvek

Az ismérvek típusai I.◦ minoségi ismérv: az egyedek számszeruen nem mérheto tulajdonsága◦ mennyiségi ismérv: az egyedek számszeruen mérheto tulajdonsága.

Két fajtájukat különböztetjük meg:� diszkrét: véges vagy megszámlálhatóan sok értéket vehet fel� folytonos: egy adott intervallumon belül kontinuum számosságú értéket

felvehet

◦ idobeli ismérv: az egységek idobeli elhelyezésére szolgálórendezoelvek◦ területi ismérv: az egységek térbeli elhelyezésére szolgáló

rendezoelvekAz ismérvek típusai II.◦ közös ismérvek: tulajdonságok, amik szerint a sok. egyedei egyformák◦ megkülönbözteto ismérv: azok a tulajdonságok, amik szerint a sokaság

egyedei különböznek egymástól

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 12 / 31

Ismérvek (példa)

Legyen a sokaság: a teremben lévo hallgatók. Példák ismérvekre:minoségi: szemszín, nem közös: orrok számadiszkrét mennyiségi: testvérek száma megkülönbözteto: testsúlyfolytonos mennyiségi: testmagasságidobeli: születési idoterületi: születési hely

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 13 / 31

Skálák

Mérési skálák (mérési szintek):Névleges (nominális): a számok csak ún. kódszámok, amik asokaság egyedeinek azonosítására szolgálnak. Ezek közöttmatematikai relációkat és muveleteket nincs értelme végezni. Pl. ahallgatók neme.Sorrendi (ordinális): a sokaság egyedeinek valamely tulajdonságalapján sorba való rendezése. Az egyedek tulajdonsága közöttikülönbséget nem lehet mérni. Pl. a hallgatók jegyei egy tárgyból.Intervallumskála: a skálaértékek különbségei is valós információtadnak a sokaság egyedeirol. A skálán a nullpont meghatározásaönkényes. Ilyen skálákhoz mértékegység is tartozik. Pl.homérséklet.Arányskála: a skálának van valódi nullpontja is. Mindenmatematikai muvelet elvégezheto ezekkel a számokkal. Pl. ahallgatók magassága.

[Metrikus skála: intervallum- és arányskála közös neve – ritkábbanhasználatos elnevezés]

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 14 / 31

Ismérvek és skálák

Az ismérvek és a mérési skálák kapcsolódása:

Területi // Nominális

Minoségi

55

// Ordinális

Mennyiségi

55

//

))

Különbségi

Idobeli

55

Arány

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 15 / 31

Sorok

Statisztikai sor: a sokaság egyes jellemzoinek felsorolása.Az ismérvek fajtája szerint beszélhetünk minoségi, mennyiségi, idobeliés területi sorokról.A statisztikai sorok további csoportosítása:

Csoportosító sor: a sokaság egy megkülönbözteto ismérv szerintiosztályozásának eredménye; az adatok összegezhetok (van’Összesen’ sor)Összehasonlító sor: a sokaság egy részének a sokaságot egymegkülönbözteto ismérv szerinti osztályozásának eredménye; azadatok nem összegezhetokLeíró sor: különbözo fajta, gyakran eltéro mértékegységustatisztikai adatokat tartalmaz

Például ha egy statisztikai sor tartalmazza az osztályteremben ahallgatókat nemek szerint, akkor ez a sor minoségi csoportosító sor.

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 16 / 31

Táblák

Statisztikai tábla: a statisztikai sorok összefüggo rendszere.A statisztikai táblák fajtái:

Egyszeru tábla: nem tartalmaz csoportosítást, nincs benneösszegzo sorCsoportosító tábla: egyetlen csoportosító sort tartalmazKombinációs tábla vagy kontingenciatábla vagy kereszttábla:legalább két csoportosító sort tartalmaz

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 17 / 31

Viszonyszámok

A statisztikai elemzések egyik legfontosabb eszközei a viszonyszámok(alias: indikátorok). A viszonyszám két statisztikai adat hányadosa.Jelölések:

V = AB

ahol V : viszonyszám; A: a viszonyítás tárgya; B: a viszonyítás alapja.A viszonyszámok fajtái:

Megoszlási: a sokaság egy részének a sokaság egészéhez valóviszonyításaKoordinációs: a sokaság egy részének a sokaság egy másikrészéhez való viszonyításaDinamikus: két idopont vagy idoszak adatának hányadosaIntenzitási: különbözo fajta adatok viszonyítása egymáshoz;gyakran a mértékegységük is eltéro.

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 18 / 31

A statisztikai elemzés lépései

1.) Tervezésa.) Mit vizsgálunk, mi a probléma/feladatb.) Hogyan gyujtjük az adatokatc.) Elozetes sejtések, hipotézisek megfogalmazása

2.) Terepmunka – adatgyujtés3.) Adatbevitel, kódolás (ha szükséges)4.) Adatok validálása (biztosan rossz értékek kiszurése, mint például

életkornál a 9999)5.) Adatelemzés, adatellenorzés: leíró statisztikákkal, grafikonok

készítése6.) Hibás adatok kijavítása vagy kihagyása7.) Adatelemzés, statisztikai következtetések levonása – a

matematikai statisztika módszereivel8.) Az eredmények értelmezése, visszacsatolás

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 19 / 31

A grafikus megjelenítés szerepe

A statisztikus legfobb kommunikációs eszközei a diagramok.Az emberek többsége utálja a

barokkos körmondatokkal teletuzdelt statisztikai jelentéseket.számokkal teli táblázatokat.

Az adatokban rejlo információk gyorsabb kinyerését ésfeldolgozását segítik az azokból készített különféle ábrák,diagramok:

kördiagram: megoszlás érzékeltetéséreoszlopdiagram: idosorok ábrázolásáravonaldiagram: idosorok ábrázolásárahisztogram: mennyiségi sorok ábrázolásárastb.

Milyen a jó diagram?illeszkedik az ábrázolt adatok fajtájához és a probléma jellegéheza célközönség meg tudja érteniáttekintheto, olvashatók rajta a feliratok, jelölésekkreatív, esztétikus

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 20 / 31

Vonaldiagram

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 21 / 31

Bot(pálcika)diagram

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 22 / 31

Poligon

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 23 / 31

Oszlopdiagram

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 24 / 31

Sávdiagram

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 25 / 31

Kördiagram

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 26 / 31

Kördiagram (folyt.)

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 27 / 31

Hisztogram

Hisztogram – Ha a mennyiségi ismérv folytonos vagy sok ismérvértékvan, akkor alkalmas módon osztályokat képezünk, majd minden egyesadatot pontosan egy osztályhoz rendeljük. A hisztogram az osztályokgyakoriságait ábrázolja.

javaslat az osztályok számára:k = blog2 ncha azonos hosszúságú (h)osztályközöket akarunk létrehozni,akkor h =

x∗n −x∗

1k

az fi gyakoriságokat ábrázoljuk afüggoleges tengelyensuruséghisztogramnál a gi =

fin

relatív gyakoriságokat ábrázoljuk afüggoleges tengelyen

Lemerülési ido (óra)

Gya

koris

ágok

12 14 16 18 20 22

01

23

45

ha az osztályközök különbözo hosszúságúak, akkor agyakoriságokat egy közös hosszra kell arányosítani

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 28 / 31

Hisztogram (folyt.)

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 29 / 31

Hisztogram (folyt.)

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 30 / 31

Hisztogram (folyt.)

Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 31 / 31