wst ęp do probabilistyki i statystyki - strona główna...

46
Wstęp do probabilistyki i statystyki Wykład dr inż. Barbara Swatowska Katedra Elektroniki, AGH e-mail: swatow@agh.edu.pl http://home.agh.edu.pl/~swatow

Upload: vothu

Post on 17-Aug-2018

214 views

Category:

Documents


1 download

TRANSCRIPT

Wstęp do probabilistyki i statystyki

Wykład

dr inż. Barbara Swatowska

Katedra Elektroniki, AGH

e-mail: [email protected]

http://home.agh.edu.pl/~swatow

Plan zajęć

Zajęcia:

Wykład 10 h oraz Ćwiczenia 10 h

PLAN realizacji tematyki:

1. Kombinatoryka, symbol Newtona

2. Prawdopodobieństwo całkowite, warunkowe i niezależne, Twierdzenie Bayesa

3. Zmienna losowa i dystrybuanta

4. Obliczanie prawdopodobieństwa z wykorzystaniem gęstości

5. Wprowadzenie do statystyki, średnia, odchylenie standardowe, wariancja

6. Analiza regresji przykładowych danych

7. Obliczanie przedziału ufności dla różnych danych

8. Estymacja i wnioskowanie statystyczne

2WdPiS – wykład dla EiT – B. Swatowska

Literatura:

3

1. Krysicki W., Bartos J., i inni., Rachunek prawdopodobieństwa i statystyka matematyczna część I, II, Wydawnictwo Naukowe PWN, Warszawa 1997.

2. Plucińska A. , Pluciński E.: Zadania z rachunku prawdopodobieństwa i statystyki matematycznej dla studentów politechnik, PWN

3. Plucińska A. , Pluciński E.: Probabilistyka, Rachunek prawdopodobieństwa, statystyka matematyczna, procesy stochastyczne, Wydawnictwo Naukowo-Techniczne, Warszawa 2000

4. Jakubowski J., Sztencel R.: Wstęp do teorii prawdopodobieństwa, SCRIPT, 2000

5. Ostasiewicz S., Rusnak Z., Siedlecka U., Statystyka. Elementy teorii i zadania. Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, 1999

6. Greń Jerzy: Statystyka matematyczna. Modele i zadania.

7. Sobczyk Mieczysław: Statystyka, Wydawnictwo Naukowe PWN, Warszawa, 1996

8. Koronacki J, Mielniczuk J.: Statystyka dla studentów kierunków technicznych i przyrodniczych, Wydawnictwo Naukowo-Techniczne, Warszawa 2001

WdPiS – wykład dla EiT – B. Swatowska

Czym zajmuje się probabilistyka i statystyka?

4

Teoria prawdopodobie ństwa (także rachunek prawdopodobie ństwa lub probabilistyka ) – dział matematyki zajmujący się zdarzeniami losowymi. Zdarzenie losowe to wynik doświadczenia losowego.

Doświadczenie losowe może być powtarzane dowolnie wiele razy w warunkach identycznych lub bardzo zbliżonych a jego wynik nie daje się przewidziećjednoznacznie.

Częstość zdarzenia:

gdzie l oznacza ile razy zaszło zdarzenie, gdy doświadczenie powtarzano n razy.

Prawidłowość statystyczna – przy coraz większej liczbie doświadczeń losowych częstość zdarzenia dąży do pewnej stałej liczby

n

l

WdPiS – wykład dla EiT – B. Swatowska

Czym zajmuje się probabilistyka i statystyka?

5

Statystyka zajmuje się metodami zbierania informacji(liczbowych) oraz ich analizą i interpretacją.

Rachunek prawdopodobieństwa zajmuje się badaniem abstrakcyjnych pojęć matematycznych stworzonych do opisu zjawisk, które nie są deterministyczne: 1. zmiennych losowych w przypadku pojedynczych zdarzeń oraz2. procesów stochastycznych w przypadku zdarzeń powtarzających się

(w czasie).

Jako matematyczny fundament statystyki, teoria prawdopodobieństwa odgrywa istotną rolę w sytuacjach, w których konieczna jest analiza dużych zbiorów danych.

Jednym z największych osiągnięć fizyki dwudziestego wieku było odkrycie probabilistycznej natury zjawisk fizycznych w skali mikroskopowej, co zaowocowało powstaniem mechaniki kwantowej.

WdPiS – wykład dla EiT – B. Swatowska

Statystyka

Czym zajmuje się probabilistyka i statystyka?

OPISOWA ANALIZA DANYCH(DESCRIPTIVE STATISTICS)

Organizacja danych

Podsumowanie danych

Prezentacja danych

DEDUKCYJNA – MODELOWANIE STOCHASTYCZNE( STATISTICAL INFERENCE)

Podaje metody formułowania wniosków dotyczące obiektu badań (populacji generalnej) w oparciu o mniej liczny zbiór (próbę)

6

GRAFICZNA NUMERYCZNA

WdPiS – wykład dla EiT – B. Swatowska

Rys historyczny

7

• Matematyczna teoria prawdopodobieństwa sięga swoimi korzeniami do analizy gier losowych podjętej w siedemnastym wieku przez Pierre de Fermata oraz Blaise Pascala.

• Z tego powodu, początkowo teoria prawdopodobieństwa zajmowała się niemal wyłącznie zjawiskami dyskretnymi i używała metod kombinatorycznych. Zmienne ciągłe zostały wprowadzone do teorii prawdopodobieństwa znacznie później.

• Za początek stworzenia współczesnej teorii prawdopodobieństwa powszechnie uważa się jej aksjomatyzację, której w 1933 dokonał Andriej Kołmogorow.

WdPiS – wykład dla EiT – B. Swatowska

Hazard

Zdecydowana większość gier losowych opiera się na prawdopodobieństwie zdarzenia...

...oraz może być pod tym kątem analizowana.

Prawdopodobieństwo trafienia „oczka”

Ilość unikatowych rozdań w pokerze

8

...najprostszy,jak rzut monetą, ...

...całkowicie losowy jak ruletka...

...złożony, jak rozdanie pokera...

WdPiS – wykład dla EiT – B. Swatowska

Rys historyczny

9

Blaise Pascal (1601-1662)

knkn

k

n bak

nba −

=

=+ ∑

0

)(

dwumian Newtona

XVII w. , Pary ż, Francja

Unieśmiertelnił kawalera de Méré oraz jego paradoks hazardowy

„Trójk ąt Pascala” wykorzystywany przy pot ędze sumy

WdPiS – wykład dla EiT – B. Swatowska

Trójkąt Pascala

16

66

5

615

4

620

3

615

2

66

1

61

0

66

15

55

4

510

3

510

2

55

1

51

0

55

14

44

3

46

2

44

1

41

0

44

13

33

2

33

1

31

0

33

12

22

1

21

0

22

11

11

0

11

10

00

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

n

n

n

n

n

n

n

10

!!)(

!

kkn

n

k

n

−=

Symbol

WdPiS – wykład dla EiT – B. Swatowska

Trójkąt Pascala

1

1 1

1 2 1

1 3 3 1

1 4 6 4 1

1 5 10 10 5 1

1 6 15 20 15 6 1

11

n = 0

n = 1

n = 2

n = 3

n = 4

n = 5

n = 6

+

WdPiS – wykład dla EiT – B. Swatowska

Rys historyczny

12

Pierre de Fermat (1601-1665)

Początek XVII w., Touluse, Francja

Badał wła ściwo ści liczb pierwszych, teori ę liczb, równolegle opracował metod ę współrz ędnych w geometrii. Razem z Pascalem stworzył podstawy pod współczesny rachunek prawdopodobie ństwa.

WdPiS – wykład dla EiT – B. Swatowska

Rys historyczny

Siméon Denis Poisson (1781-1840)

13

XVIII-XIX w., Pary ż, Francja

Przyjaciel Lagrange'a, ucze ń Laplace'a na sławnej École Polytechnique.

Poza zagadnieniami fizycznymi zajmował si ę teori ą prawdopodobie ństwa.

Proces stochastyczny (podobnie jak pr. Markowa), rozkład Poissona - dystrybuanta!

WdPiS – wykład dla EiT – B. Swatowska

Carl Frederich Gauss (1777-1855)

XVIII-XIX w., Getynga, Niemcy

Profesor Uniwersytetu w Getyndze

Genialny matematyk, który ju ż w dzieci ństwie wyprzedzał umiej ętnościami rówie śników. W szkole podstawowej jako jedyny rozwi ązał zadanie nauczyciela - zsumowanie liczb 1 do 40 – zauwa żając, że jest to (40+1)*20

Rozkład normalny, zwany krzyw ą Gaussa.

Rys historyczny

14WdPiS – wykład dla EiT – B. Swatowska

Paradoks kawalera de Méré

15

Dwaj hazardziści S1 i S2 umawiają się, że zagrają pewną serię partii i że zwycięzcą będzie ten, kto pierwszy wygra pięć partii.

Co należy zrobić, gdy trzeba będzie grę przedwcześnie przerwać?

Załóżmy, że S1 wygrywa cztery partie, a S2tylko trzy. Jak sprawiedliwie podzielić stawki?

Propozycja 1:

podzielić stawki w stosunku 4:3

Propozycja 2:

podzielić stawki w stosunku (5-3):(5-4)=2:1

wg W.R. Fuchs, Matematyka popularna, Wiedza Powszechna, Warszawa 1972

WdPiS – wykład dla EiT – B. Swatowska

Paradoks kawalera de Méré

16

Blaise Pascal rozwiązał zadanie rozumując bardzo prosto. Aby rozstrzygnąć grę, należy zagrać jeszcze najwyżej dwie partie.

Jeżeli pierwszą partię wygra S1, to gra będzie rozstrzygnięta od razu.

Gdy pierwszą partię wygra S2, to wygranie drugiej partii przez S1przesądziłoby grę na jego korzyść.

Jednak je śli pozostałe dwie partie wygra S2 to on zostanie zwyci ęzcą. Zatem sprawiedliwy podział stawki to 3:1.

WdPiS – wykład dla EiT – B. Swatowska

Statystyka - typy danych

17

ILOŚCIOWE

(QUANTITATIVE, NUMERICAL)

Przykłady:

Zbiór ludzi

Wiek

Wzrost

Wysokość zarobków

Obliczenia pewnych parametrów, jak np. średnia arytmetyczna, mediana, ekstrema, mają sens

JAKOŚCIOWE

(QUALITATIVE, CATEGORIAL)

Przykłady:

Płeć

Stan cywilny

Można przypisać różnym cechom arbitralne wartości liczbowe.

Obliczenia parametrów nie mają sensu, można jedynie podawać np. udział procentowy

WdPiS – wykład dla EiT – B. Swatowska

Pojęcie zmiennej losowej

RxeX

RX

ee

ii ∈=→Ω

)(

:

,, 21 K

18

Zmienna losowa jest to funkcja X, która przypisuje liczbę rzeczywistą x danemu wynikowi eksperymentu losowego.

Przykłady: 1. Rzut monetą: zdarzeniu ‘orzeł’ przypisujemy 1; zdarzeniu reszka

przypisujemy 0.2. Analog. losowanie wyrobów: zdarzeniu ‘brak’ (wadliwy) - 0, dobry – 13. Rzut kostką wyrzucenie ‘1’ – 1, ‘2’ – 2 itd…4. Odcinek [a, b] na osi liczbowej – wybór punktu o współrzędnej ‘x’

przypisujemy np. wartość x ; wartość sin2(3x+17) itp.…

WdPiS – wykład dla EiT – B. Swatowska

Zmienna losowa

19

dyskretna

Gdy wartości zmiennej losowej X są izolowanymi punktami na osi liczbowej (obejmują skończonyprzedział wartości).

• Rzut monetą• Błędy przy transmisji• Wadliwe układy na linii produkcyjnej• Ilość połączeń przychodzących w ciągu 5 minut

ciągła

Gdy wartości zmiennej losowej stanowią wszystkie punkty odcinka(obejmują przedziałliczb rzeczywistych)

• Natężenie prądu w przewodniku• Temperatura• Ciśnienie

WdPiS – wykład dla EiT – B. Swatowska

Graficzna prezentacja danych

20

Dane statystyczne można prezentowa ć na wiele sposobów, np. cz ęstość wyst ępowania danej cechy

x Ilość wystąpień Częstotliwość

1 3 3/23 = 0,1304

2 5 5/23 = 0,2174

3 10 10/23 = 0,4348

4 4 4/23 = 0,1739

5 1 1/23 = 0,0435

Razem: 23 1,0000

WdPiS – wykład dla EiT – B. Swatowska

21WdPiS – wykład dla EiT – B. Swatowska

Graficzna prezentacja danych

13%

22%

44%

17%

4%

Wykres kołowy

1 2 3 4 5

1 0,13043478

2 0,2173913

3 0,43

4 0,17391

5 0,04347826

graf1

22

Graficzna prezentacja danych

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

1 2 3 4 5

Wykres kolumnowy

Serie1

1 0,13043478

2 0,2173913

3 0,43

4 0,17391

5 0,04347826

WdPiS – wykład dla EiT – B. Swatowska

Dane ilościowe

23WdPiS – wykład dla EiT – B. Swatowska

Wyniki 34 pomiarów (np. wielkość ziaren w [nm], temperatura w kolejnych dniach o godz. 11:00 w [deg. C], czas rozmów telefonicznych w [min], itp.

3,6 13,2 12 12,8 13,5 15,2 4,8

12,3 9,1 16,6 15,3 11,7 6,2 9,4

6,2 6,2 15,3 8 8,2 6,2 6,3

12,1 8,4 14,5 16,6 19,3 15,3 19,2

6,5 10,4 11,2 7,2 6,2 2,3

Tak podane warto ści s ą mało czytelne!

24WdPiS – wykład dla EiT – B. Swatowska

Histogram

Sporządzenie wykresu (histogramu):

1. Uporządkować zbiór wg. rosnących (lub malejących) wartości – program Excel ma taką opcję.

2. Wyniki próby (o liczebności n) stanowią zbiór n-liczb (niekoniecznie różniących się od siebie). Celem ich ilustracji dzieli się je na klasy, tworząc tzn. szereg rozdzielczy.

3. Szerokość poszczególnych klas nie musi być taka sama, choć zwykle stosuje się klasy o tej samej szerokości

4. Ilość klas nie może być zbyt mała ani też zbyt liczna. Najbardziej optymalną liczbę klas 'k' określa reguła Sturge'a.

25WdPiS – wykład dla EiT – B. Swatowska

Histogram

0 2 8 14 200

2

4

6

8

10

12

14

16

3 klasy

x

Czę

stość

bezw

glę

dna

26

Histogram

0 2 3,5 5 6,5 8 9,5 11 12,5 14 15,5 17 18,5 200

1

2

3

4

5

6

7

8

12 klas

x

Czę

stość

be

zwzg

lędn

a

WdPiS – wykład dla EiT – B. Swatowska

27

Histogram

WdPiS – wykład dla EiT – B. Swatowska

0 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10 10,5 11 11,5 12 12,513 13,5 14 14,5 15 15,5 16 16,5 17 17,5 18 18,5 19 19,50

1

2

3

4

5

6

7

8

35 klas

x

Czę

stość

bez

wzg

lęd

na

28WdPiS – wykład dla EiT – B. Swatowska

Reguła Sturge'a

k= 1+3,3log10n

n= 34k= 5.59 ≈ 6

Dla naszego przykładu:

Liczebność próbki, n Liczba klas, k

< 50 5 – 7

50 – 200 7 – 9

200 – 500 9 – 10

500 – 1000 10 -11

1000 – 5000 11 – 13

5000 – 50000 13 – 17

50000 < 17 – 20

29

Histogram optymalny

0 2 5 8 11 14 17 200

0,05

0,1

0,15

0,2

0,25

0,3

6 klas (optymalnie)

x

Czę

stość

wzg

lęd

na

WdPiS – wykład dla EiT – B. Swatowska

30WdPiS – wykład dla EiT – B. Swatowska

Rachunek prawdopodobieństwa i statystyka w nauce i technice

Statystyka umożliwia analizę i modelowanie rozwoju chorób oraz pomaga zapobiegać epidemiom.

Statystyka medyczna, np. średnia liczba zachorowań w regionie.

Statystyka społeczna, np. gęstość zaludnienia.

Statystyka gospodarcza, np. PKB, wydatki na opiekę zdrowotną.

Liczba zachorowań na świńską grypę w roku 2009 w USA(Źródło: http://commons.wikimedia.org)

31WdPiS – wykład dla EiT – B. Swatowska

Meteorologia

Modele pogodowe umożliwiające przewidywanie pogody oraz wykrywanie potencjalnych kataklizmów, np. huraganów

(Źródło:stormdebris.net/Math_Forecasting.html)

Opis problemu

Identyfikacja najważ-niejszychczynników

Przeprowadzenie eksperymentów

Propozycja modelu

Modyfikacja modelu

32

Potwierdzenierozwiązania

Wnioski i rekomendacje

Jak rozwi ązuje si ę problem inżynierski?

WdPiS – wykład dla EiT – B. Swatowska

Przykład : Załóżmy, że inżynier projektuje przewód paliwowy, który mazastosowanie w silnikach samochodowych. Inżynier wybiera grubośćściany 3/32 cale ale nie jest pewny czy to jest wystarczające dlauzyskania odpowiedniej siły ciągu.

Opis problemu

Identyfikacja najwa żniejszych czynników

Wyprodukowano osiem elementów, dla których zmierzono siły ciągu i otrzymano następujące wartości (w funtach): 12.6, 12.9, 13.4, 12.3, 13.6, 13.5, 12.6, 13.1. Siła ciągu może być traktowana jako zmienna losowa.

33WdPiS – wykład dla EiT – B. Swatowska

Jak rozwi ązuje si ę problem inżynierski?

Propozycja modelu

Przyjmijmy model, w którym zmienna losowa X jest przedstawiona jako:

Stała warto ść Zaburzenie (bł ąd, szum)

Stała µ nie zmienia się przy kolejnych pomiarach. Małe zmiany w otoczeniu, układzie pomiarowym, różnice obserwowane dla obiektu mierzonego wpływają na wartość zaburzenia ε. W świecie rzeczywistym zawsze istnieją czynniki prowadzące do niezerowego zaburzenia. Musimy je opisać w sposób ilościowy i znaleźć sposób na ograniczenie ich wpływu na wynik pomiaru.

34WdPiS – wykład dla EiT – B. Swatowska

Jak rozwi ązuje si ę problem inżynierski?

Rysunek 1-2 przedstawia uzyskane wyniki w postaci diagramu punktowego (dot diagram) .

Diagramy tego typu są użyteczne dla małej ilości danych (do ok. 20 obserwacji).

Wykresy tego typu pozwalają ocenić położenie (środek) i rozproszenie (rozrzut)

Średnia wartość siły ciągu wynosi 13.0 funtów.

Przeprowadzenie eksperymentów

35

Jak rozwi ązuje si ę problem inżynierski?

WdPiS – wykład dla EiT – B. Swatowska

Inżynier zmienia grubość ściany do 1/8 cali zakładając, że pomoże to zwiększyć siłę ciągu. Znowu zbudowano 8 prototypów, przeprowadzono eksperymenty i otrzymano wyniki siły ciągu: 12.9, 13.7, 12.8, 13.9, 14.2, 13.2, 13.5, 13.1. Wyniki, w porównaniu z poprzednim eksperymentem, zestawiono na Rys. 1-3.

.

Średnia wartość siły ciągu wynosi 13.4 funty.

Modyfikacja (udoskonalenie) modelu

36

Jak rozwi ązuje si ę problem inżynierski?

WdPiS – wykład dla EiT – B. Swatowska

Wykres stwarza wrażenie, że zwiększenie grubości ściany prowadzi do wzrostu siły ciągu.

Potwierdzenie rozwi ązania?

Jednak, pozostaje pytanie czy jest tak istotnie?

37WdPiS – wykład dla EiT – B. Swatowska

Jak rozwi ązuje si ę problem inżynierski?

Statystyka pomoże nam udzielić odpowiedzi na pytania:

• Skąd pewność, że inna próbka elementów nie da innych wyników?

• Czy próbka 8-elementowa jest wystarczająca aby dać wyniki, którym można ufać?

• Jeżeli użyjemy wyników, które do tej pory otrzymaliśmy, aby sformułować wniosek (decyzja), że wzrost grubości ściany jest korzystny, jak oszacować ryzyko z tym związane?

• Czy jest możliwe, że pozorny wzrost siły ciągu obserwowany dla grubszych elementów ma charakter jedynie losowy? Może nie ma sensu zwiększanie grubości ścian (powiększanie kosztów produkcji)?

Wnioski (rekomendacje?)

38

Jak rozwi ązuje si ę problem inżynierski?

WdPiS – wykład dla EiT – B. Swatowska

0 40 80 120 160 200 240 280 32060708090

100110120130140150160170180

39

Czy ten wykres jest narysowany zgodnie z zasadami?

1. Należy wyra źnie zaznaczy ć punkty eksperymentalne !!!

Zasady rysowania wykresów

WdPiS – wykład dla EiT – B. Swatowska

2. Trzeba nanie ść błąd pomiaru

0 40 80 120 160 200 240 280 32060708090

100110120130140150160170180

40WdPiS – wykład dla EiT – B. Swatowska

3. Dobrać zakresy osi współrz ędnych odpowiednio do zakresu zmienno ści danych pomiarowych !!!

0 40 80 120 160 200 240 280 32060708090

100110120130140150160170180

41WdPiS – wykład dla EiT – B. Swatowska

42WdPiS – wykład dla EiT – B. Swatowska

4. Właściwie opisa ć osie współrz ędnych i dobra ć skal ę, tak aby łatwo mo żna było odczyta ć warto ści zmierzone.

co jest na osiach ???

5. Nie łączyć punktów eksperymentalnych lini ą łaman ą!!! Jeśli znany jest przebieg teoretyczny to dokona ć

dopasowania teorii do do świadczenia (przeprowadzi ć fitowanie)

160 200 240 280 32060

90

120

150

180

ρ [µ

Ω c

m]

T [K]

43WdPiS – wykład dla EiT – B. Swatowska

44WdPiS – wykład dla EiT – B. Swatowska

6. Zadbać o aspekt estetyczny wykresu(opis, zamkni ęcie ramk ą, itp.)

45

46

Dziękuję za uwagę