podstawy probabilistyki z przykŁadami ...cieciura.net/mp/ksiazka/czesc2.pdf2 statystyka jest...
Post on 28-Feb-2021
0 Views
Preview:
TRANSCRIPT
Data ostatniej aktualizacji czwartek 20 października 2011 godzina 1720
Marek Cieciura Janusz Zacharski
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ
W INFORMATYCE
CZĘŚĆ II
STATYSTYKA OPISOWA
Na prawach rękopisu
Warszawa wrzesień 2011
2
Statystyka jest bardziej sposobem myślenia lub wnioskowania niŜ pęczkiem recept
na młoacutecenie danych w celu odsłonięcia odpowiedzi - Calyampudi Radhakrishna Rao
Podręcznik
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ
W INFORMATYCE
publikowany jest w częściach podanych poniŜej
Nr Tytuł
I Wprowadzenie
II Statystyka opisowa
III Rachunek prawdopodobieństwa
IV Statystyka matematyczna
V Przykłady zastosowań w informatyce
VI Wybrane twierdzenia z dowodami
VII Tablice statystyczne
Autorzy proszą o przesyłanie wszelkich uwagi i propozycji dotyczących zawartości podręcznika z wykorzystaniem formularza kontaktowego zamieszczonego w portalu httpcieciuranetmp
Publikowane części będą na bieŜąco poprawiane w kaŜdej będzie podawana data ostatniej aktualizacji
Podręcznik udostępnia się na warunku licencji Creative Commons (CC) Uznanie Autorstwa
ndash UŜycie Niekomercyjne ndash Bez Utworoacutew ZaleŜnych (CC-BY-NC-ND)co oznacza
bull Uznanie Autorstwa (ang Attribution - BY) zezwala się na kopiowanie dystrybucję wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych pod warunkiem umieszczenia informacji o twoacutercy
bull UŜycie Niekomercyjne (ang Noncommercial - NC) zezwala się na kopiowanie dystrybucję wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych tylko w celach niekomercyjnych
bull Bez Utworoacutew ZaleŜnych (ang No Derivative Works - ND) zezwala się na kopiowanie dystrybucję wyświetlanie tylko dokładnych (dosłownych) kopii dzieła niedozwolone jest jego zmienianie i tworzenie na jego bazie pochodnych
Podręcznik i skorelowany z nim portal są w pełni i powszechnie dostępne stanowią więc Otwarte Zasoby Edukacyjne - OZE (ang Open Educational Resources ndash OER)
STATYSTYKA OPISOWA
3
SPIS TREŚCI
2 CHARAKTERYSTYKI LICZBOWE5
21 UWAGI WSTĘPNE5 22 CHARAKTERYSTYKI POŁOśENIA 5
221 Średnia arytmetyczna danych statystycznych 5 223 Dominanta danych statystycznych 7 224 Średnia waŜona danych statystycznych11 225 Średnia ucinana danych statystycznych 12 226 Średnia geometryczna danych statystycznych 13 227 Średnia harmoniczna danych statystycznych 13 228 Średnia kwadratowa danych statystycznych14
23 CHARAKTERYSTYKI ROZPROSZENIA 15 231 Wariancja danych statystycznych 15 232 Odchylenie standardowe danych statystycznych 16 233 Wspoacutełczynnik zmienności danych statystycznych 16 234 Rozstęp danych 16 235 Przedział typowych jednostek populacji16 235 Kwantyle 17 236 Wskaźnik struktury 18
24 CHARAKTERYSTYKI ASYMETRII20 241 Wspoacutełczynniki asymetrii 20 242 Interpretacja symetrii w przypadku rozkładu jednomodalnego 21 243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego 23
25 CHARAKTERYSTYKI SPŁASZCZENIA 24 26 PODSUMOWANIE 26
261 Wybrane charakterystyki liczbowe w postaci graficznej26 262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali 27 263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel 27
27 PRZYKŁADY ANALIZY STATYSTYCZNEJ DANYCH 28 28 ANALIZA DANYCH PRZEDSTAWIONYCH W POSTACI SZEREGU ROZDZIELCZEGO
PRZEDZIAŁOWEGO 35 281 Prezentacja danych statystycznych 35 282 Charakterystyki liczbowe 35
3 BADANIE ZALEśNOŚCI CECH POPULACJI 38
31 WPROWADZENIE 38 311 Dane statystyczne dwoacutech cech populacji 38 312 Prezentacja danych statystycznych pary cech populacji38
32 ZALEśNOŚĆ CECH POPULACJI 42 321 ZaleŜność funkcyjna cech populacji42 322 ZaleŜność stochastyczna (statystyczna) cech populacji 42 323 ZaleŜność korelacyjna cech populacji 42
33 CHARAKTERYSTYKI LICZBOWE DWOacuteCH CECH 45 331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym45 332 Własności wspoacutełczynnika korelacji46 333 Interpretacja wspoacutełczynnika korelacji 46 334 Wspoacutełczynnik korelacji Spearmana 49
STATYSTYKA OPISOWA
4
34 REGRESJA 51 341 Pojęcie regresji I rodzaju 51 342 Pojęcie regresji II rodzaju52 343 Liniowa regresja II rodzaju52
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
5
2 CHARAKTERYSTYKI LICZBOWE
21 Uwagi wstępne
Niech 1 2 nx x x będą wartościami cechy X wszystkich elementoacutew populacji albo proacuteby
Są to tzw dane statystyczne
Charakterystyki liczbowe (opisowe) są to liczby charakteryzujące rozkład cechy populacji Charakterystyki liczbowe cechy X podobnie jak parametry rozkładu zmiennej losowej dzielimy na
bull Charakterystyki połoŜenia (średnia mediana dominanta) bull Charakterystyki rozproszenia (wariancja odchylenie standardowe wspoacutełczynnik
zmienności odchylenie przeciętne rozstęp) bull Charakterystyki asymetrii (wspoacutełczynnik asymetrii wskaźnik asymetrii) bull Charakterystyki spłaszczenia (kurtoza)
22 Charakterystyki połoŜenia
Inne nazwy charakterystyk połoŜenia to charakterystykimiary przeciętne średnie tendencji centralnej
221 Średnia arytmetyczna danych statystycznych n
ii=1
1x x
n= sum
Przykład 21
Z pewnego egzaminu uzyskano następujące oceny 3 4 5 2 3 4 3 4 2 5 NaleŜy obliczyć ich średnia arytmetyczną
3+4+5+2+3+4+3+4+2+5x 35
10= =
Średnią arytmetyczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIA wpisując wcześniej dane w komoacuterki A1J1
STATYSTYKA OPISOWA
6
Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1
1 min maxx x xle le
2 n
ii 1
(x x) 0=
minus =sum
3 i i
i ix x x x
(x x) (x x )gt lt
minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie
4 WyraŜenie n
2i
i 1
(x c)=
minussum ma wartość najmniejszą gdy c= x
222 Mediana danych statystycznych
Uporządkujmy dane statystyczne od najmniejszej do największej
(1) (2) (n)x x x
Mediana danych statystycznych jest to liczba
n+1
2
e n n 2
2 2
x gdy n jest liczbą nieparzystą
m x x
gdy n jest liczbą parzystą2
+
= +
Przykład 22
Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach
a) 3 0 2 1 6 7 4 2 5
b) 3 0 2 1 6 7 4 2
Rozwiązanie
a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc
e (5)n+1
2
m x x 3
= = =
b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7
PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc
[ ]e n n+2 (4) (5)( ) ( )2 2
1 1 1m x x x x 2 3 25
2 2 2
= + = + = + =
Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
7
Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9
223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą
Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1
Rozwiązanie
a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje
Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9
STATYSTYKA OPISOWA
8
Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji
Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)
Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie
Dominanta jest najbardziej typową daną statystyczną
Jak określać przeciętny poziom cechy
Przykład 24
W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela
Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem
Liczba pracownikoacutew
5 45 70 50 10 2 3 3 12 15 13 11 11 250
Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach
Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
9
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel
5
45
70
50
10
2 3 3
1215 13 11 11
0
10
20
30
40
50
60
70
2 3 4 5 6 7 8 9 10 11 12 13 14
6152 Średnia
5 Mediana
4 Dominanta
Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł
Przykład 25
Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela
Liczba punktoacutew
0 5 10 70 75 80 85 90 95 100 Razem
Liczba studentoacutew
5 4 1 1 2 4 5 6 9 13 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych
arkusza Excel
54
1 12
45
6
9
13
0
2
4
6
8
10
12
14
0 5 10 70 75 80 85 90 95 100
738 Średnia
90 Mediana
100 Dominanta
STATYSTYKA OPISOWA
10
Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100
Przykład 26
W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela
Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem
Liczba studentoacutew
2 3 4 6 5 3 2 2 3 4 7 4 4 1 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji
statystycznych arkusza Excel
2
3
4
6
5
3
2 2
3
4
7
4 4
1
0
1
2
3
4
5
6
7
19 20 21 22 23 24 25 31 32 33 34 35 36 37
28 Średnia
28 Mediana
34 Dominanta
Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy
bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Inne charakterystyki połoŜenia
224 Średnia waŜona danych statystycznych
z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez
n
i i1 1 2 2 n n i 1
w n1 2 n
ii 1
w xw x w x w x
xw w w w
=
=
+ + += =
+ + +
sum
sum
W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi
Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej
Przykład 27
W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew
bull 02 oceny 2x pracy dyplomowej
bull 02 oceny 3x egzaminu dyplomowego
Jest to przykład średniej waŜonej
1 2 3w 1 2 3
06x 02x 0 2xx 06x 02x 02x
06 02 02
+ += = + +
+ +
Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =
Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
2
Statystyka jest bardziej sposobem myślenia lub wnioskowania niŜ pęczkiem recept
na młoacutecenie danych w celu odsłonięcia odpowiedzi - Calyampudi Radhakrishna Rao
Podręcznik
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ
W INFORMATYCE
publikowany jest w częściach podanych poniŜej
Nr Tytuł
I Wprowadzenie
II Statystyka opisowa
III Rachunek prawdopodobieństwa
IV Statystyka matematyczna
V Przykłady zastosowań w informatyce
VI Wybrane twierdzenia z dowodami
VII Tablice statystyczne
Autorzy proszą o przesyłanie wszelkich uwagi i propozycji dotyczących zawartości podręcznika z wykorzystaniem formularza kontaktowego zamieszczonego w portalu httpcieciuranetmp
Publikowane części będą na bieŜąco poprawiane w kaŜdej będzie podawana data ostatniej aktualizacji
Podręcznik udostępnia się na warunku licencji Creative Commons (CC) Uznanie Autorstwa
ndash UŜycie Niekomercyjne ndash Bez Utworoacutew ZaleŜnych (CC-BY-NC-ND)co oznacza
bull Uznanie Autorstwa (ang Attribution - BY) zezwala się na kopiowanie dystrybucję wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych pod warunkiem umieszczenia informacji o twoacutercy
bull UŜycie Niekomercyjne (ang Noncommercial - NC) zezwala się na kopiowanie dystrybucję wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych tylko w celach niekomercyjnych
bull Bez Utworoacutew ZaleŜnych (ang No Derivative Works - ND) zezwala się na kopiowanie dystrybucję wyświetlanie tylko dokładnych (dosłownych) kopii dzieła niedozwolone jest jego zmienianie i tworzenie na jego bazie pochodnych
Podręcznik i skorelowany z nim portal są w pełni i powszechnie dostępne stanowią więc Otwarte Zasoby Edukacyjne - OZE (ang Open Educational Resources ndash OER)
STATYSTYKA OPISOWA
3
SPIS TREŚCI
2 CHARAKTERYSTYKI LICZBOWE5
21 UWAGI WSTĘPNE5 22 CHARAKTERYSTYKI POŁOśENIA 5
221 Średnia arytmetyczna danych statystycznych 5 223 Dominanta danych statystycznych 7 224 Średnia waŜona danych statystycznych11 225 Średnia ucinana danych statystycznych 12 226 Średnia geometryczna danych statystycznych 13 227 Średnia harmoniczna danych statystycznych 13 228 Średnia kwadratowa danych statystycznych14
23 CHARAKTERYSTYKI ROZPROSZENIA 15 231 Wariancja danych statystycznych 15 232 Odchylenie standardowe danych statystycznych 16 233 Wspoacutełczynnik zmienności danych statystycznych 16 234 Rozstęp danych 16 235 Przedział typowych jednostek populacji16 235 Kwantyle 17 236 Wskaźnik struktury 18
24 CHARAKTERYSTYKI ASYMETRII20 241 Wspoacutełczynniki asymetrii 20 242 Interpretacja symetrii w przypadku rozkładu jednomodalnego 21 243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego 23
25 CHARAKTERYSTYKI SPŁASZCZENIA 24 26 PODSUMOWANIE 26
261 Wybrane charakterystyki liczbowe w postaci graficznej26 262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali 27 263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel 27
27 PRZYKŁADY ANALIZY STATYSTYCZNEJ DANYCH 28 28 ANALIZA DANYCH PRZEDSTAWIONYCH W POSTACI SZEREGU ROZDZIELCZEGO
PRZEDZIAŁOWEGO 35 281 Prezentacja danych statystycznych 35 282 Charakterystyki liczbowe 35
3 BADANIE ZALEśNOŚCI CECH POPULACJI 38
31 WPROWADZENIE 38 311 Dane statystyczne dwoacutech cech populacji 38 312 Prezentacja danych statystycznych pary cech populacji38
32 ZALEśNOŚĆ CECH POPULACJI 42 321 ZaleŜność funkcyjna cech populacji42 322 ZaleŜność stochastyczna (statystyczna) cech populacji 42 323 ZaleŜność korelacyjna cech populacji 42
33 CHARAKTERYSTYKI LICZBOWE DWOacuteCH CECH 45 331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym45 332 Własności wspoacutełczynnika korelacji46 333 Interpretacja wspoacutełczynnika korelacji 46 334 Wspoacutełczynnik korelacji Spearmana 49
STATYSTYKA OPISOWA
4
34 REGRESJA 51 341 Pojęcie regresji I rodzaju 51 342 Pojęcie regresji II rodzaju52 343 Liniowa regresja II rodzaju52
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
5
2 CHARAKTERYSTYKI LICZBOWE
21 Uwagi wstępne
Niech 1 2 nx x x będą wartościami cechy X wszystkich elementoacutew populacji albo proacuteby
Są to tzw dane statystyczne
Charakterystyki liczbowe (opisowe) są to liczby charakteryzujące rozkład cechy populacji Charakterystyki liczbowe cechy X podobnie jak parametry rozkładu zmiennej losowej dzielimy na
bull Charakterystyki połoŜenia (średnia mediana dominanta) bull Charakterystyki rozproszenia (wariancja odchylenie standardowe wspoacutełczynnik
zmienności odchylenie przeciętne rozstęp) bull Charakterystyki asymetrii (wspoacutełczynnik asymetrii wskaźnik asymetrii) bull Charakterystyki spłaszczenia (kurtoza)
22 Charakterystyki połoŜenia
Inne nazwy charakterystyk połoŜenia to charakterystykimiary przeciętne średnie tendencji centralnej
221 Średnia arytmetyczna danych statystycznych n
ii=1
1x x
n= sum
Przykład 21
Z pewnego egzaminu uzyskano następujące oceny 3 4 5 2 3 4 3 4 2 5 NaleŜy obliczyć ich średnia arytmetyczną
3+4+5+2+3+4+3+4+2+5x 35
10= =
Średnią arytmetyczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIA wpisując wcześniej dane w komoacuterki A1J1
STATYSTYKA OPISOWA
6
Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1
1 min maxx x xle le
2 n
ii 1
(x x) 0=
minus =sum
3 i i
i ix x x x
(x x) (x x )gt lt
minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie
4 WyraŜenie n
2i
i 1
(x c)=
minussum ma wartość najmniejszą gdy c= x
222 Mediana danych statystycznych
Uporządkujmy dane statystyczne od najmniejszej do największej
(1) (2) (n)x x x
Mediana danych statystycznych jest to liczba
n+1
2
e n n 2
2 2
x gdy n jest liczbą nieparzystą
m x x
gdy n jest liczbą parzystą2
+
= +
Przykład 22
Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach
a) 3 0 2 1 6 7 4 2 5
b) 3 0 2 1 6 7 4 2
Rozwiązanie
a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc
e (5)n+1
2
m x x 3
= = =
b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7
PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc
[ ]e n n+2 (4) (5)( ) ( )2 2
1 1 1m x x x x 2 3 25
2 2 2
= + = + = + =
Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
7
Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9
223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą
Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1
Rozwiązanie
a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje
Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9
STATYSTYKA OPISOWA
8
Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji
Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)
Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie
Dominanta jest najbardziej typową daną statystyczną
Jak określać przeciętny poziom cechy
Przykład 24
W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela
Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem
Liczba pracownikoacutew
5 45 70 50 10 2 3 3 12 15 13 11 11 250
Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach
Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
9
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel
5
45
70
50
10
2 3 3
1215 13 11 11
0
10
20
30
40
50
60
70
2 3 4 5 6 7 8 9 10 11 12 13 14
6152 Średnia
5 Mediana
4 Dominanta
Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł
Przykład 25
Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela
Liczba punktoacutew
0 5 10 70 75 80 85 90 95 100 Razem
Liczba studentoacutew
5 4 1 1 2 4 5 6 9 13 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych
arkusza Excel
54
1 12
45
6
9
13
0
2
4
6
8
10
12
14
0 5 10 70 75 80 85 90 95 100
738 Średnia
90 Mediana
100 Dominanta
STATYSTYKA OPISOWA
10
Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100
Przykład 26
W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela
Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem
Liczba studentoacutew
2 3 4 6 5 3 2 2 3 4 7 4 4 1 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji
statystycznych arkusza Excel
2
3
4
6
5
3
2 2
3
4
7
4 4
1
0
1
2
3
4
5
6
7
19 20 21 22 23 24 25 31 32 33 34 35 36 37
28 Średnia
28 Mediana
34 Dominanta
Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy
bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Inne charakterystyki połoŜenia
224 Średnia waŜona danych statystycznych
z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez
n
i i1 1 2 2 n n i 1
w n1 2 n
ii 1
w xw x w x w x
xw w w w
=
=
+ + += =
+ + +
sum
sum
W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi
Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej
Przykład 27
W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew
bull 02 oceny 2x pracy dyplomowej
bull 02 oceny 3x egzaminu dyplomowego
Jest to przykład średniej waŜonej
1 2 3w 1 2 3
06x 02x 0 2xx 06x 02x 02x
06 02 02
+ += = + +
+ +
Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =
Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
3
SPIS TREŚCI
2 CHARAKTERYSTYKI LICZBOWE5
21 UWAGI WSTĘPNE5 22 CHARAKTERYSTYKI POŁOśENIA 5
221 Średnia arytmetyczna danych statystycznych 5 223 Dominanta danych statystycznych 7 224 Średnia waŜona danych statystycznych11 225 Średnia ucinana danych statystycznych 12 226 Średnia geometryczna danych statystycznych 13 227 Średnia harmoniczna danych statystycznych 13 228 Średnia kwadratowa danych statystycznych14
23 CHARAKTERYSTYKI ROZPROSZENIA 15 231 Wariancja danych statystycznych 15 232 Odchylenie standardowe danych statystycznych 16 233 Wspoacutełczynnik zmienności danych statystycznych 16 234 Rozstęp danych 16 235 Przedział typowych jednostek populacji16 235 Kwantyle 17 236 Wskaźnik struktury 18
24 CHARAKTERYSTYKI ASYMETRII20 241 Wspoacutełczynniki asymetrii 20 242 Interpretacja symetrii w przypadku rozkładu jednomodalnego 21 243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego 23
25 CHARAKTERYSTYKI SPŁASZCZENIA 24 26 PODSUMOWANIE 26
261 Wybrane charakterystyki liczbowe w postaci graficznej26 262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali 27 263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel 27
27 PRZYKŁADY ANALIZY STATYSTYCZNEJ DANYCH 28 28 ANALIZA DANYCH PRZEDSTAWIONYCH W POSTACI SZEREGU ROZDZIELCZEGO
PRZEDZIAŁOWEGO 35 281 Prezentacja danych statystycznych 35 282 Charakterystyki liczbowe 35
3 BADANIE ZALEśNOŚCI CECH POPULACJI 38
31 WPROWADZENIE 38 311 Dane statystyczne dwoacutech cech populacji 38 312 Prezentacja danych statystycznych pary cech populacji38
32 ZALEśNOŚĆ CECH POPULACJI 42 321 ZaleŜność funkcyjna cech populacji42 322 ZaleŜność stochastyczna (statystyczna) cech populacji 42 323 ZaleŜność korelacyjna cech populacji 42
33 CHARAKTERYSTYKI LICZBOWE DWOacuteCH CECH 45 331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym45 332 Własności wspoacutełczynnika korelacji46 333 Interpretacja wspoacutełczynnika korelacji 46 334 Wspoacutełczynnik korelacji Spearmana 49
STATYSTYKA OPISOWA
4
34 REGRESJA 51 341 Pojęcie regresji I rodzaju 51 342 Pojęcie regresji II rodzaju52 343 Liniowa regresja II rodzaju52
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
5
2 CHARAKTERYSTYKI LICZBOWE
21 Uwagi wstępne
Niech 1 2 nx x x będą wartościami cechy X wszystkich elementoacutew populacji albo proacuteby
Są to tzw dane statystyczne
Charakterystyki liczbowe (opisowe) są to liczby charakteryzujące rozkład cechy populacji Charakterystyki liczbowe cechy X podobnie jak parametry rozkładu zmiennej losowej dzielimy na
bull Charakterystyki połoŜenia (średnia mediana dominanta) bull Charakterystyki rozproszenia (wariancja odchylenie standardowe wspoacutełczynnik
zmienności odchylenie przeciętne rozstęp) bull Charakterystyki asymetrii (wspoacutełczynnik asymetrii wskaźnik asymetrii) bull Charakterystyki spłaszczenia (kurtoza)
22 Charakterystyki połoŜenia
Inne nazwy charakterystyk połoŜenia to charakterystykimiary przeciętne średnie tendencji centralnej
221 Średnia arytmetyczna danych statystycznych n
ii=1
1x x
n= sum
Przykład 21
Z pewnego egzaminu uzyskano następujące oceny 3 4 5 2 3 4 3 4 2 5 NaleŜy obliczyć ich średnia arytmetyczną
3+4+5+2+3+4+3+4+2+5x 35
10= =
Średnią arytmetyczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIA wpisując wcześniej dane w komoacuterki A1J1
STATYSTYKA OPISOWA
6
Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1
1 min maxx x xle le
2 n
ii 1
(x x) 0=
minus =sum
3 i i
i ix x x x
(x x) (x x )gt lt
minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie
4 WyraŜenie n
2i
i 1
(x c)=
minussum ma wartość najmniejszą gdy c= x
222 Mediana danych statystycznych
Uporządkujmy dane statystyczne od najmniejszej do największej
(1) (2) (n)x x x
Mediana danych statystycznych jest to liczba
n+1
2
e n n 2
2 2
x gdy n jest liczbą nieparzystą
m x x
gdy n jest liczbą parzystą2
+
= +
Przykład 22
Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach
a) 3 0 2 1 6 7 4 2 5
b) 3 0 2 1 6 7 4 2
Rozwiązanie
a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc
e (5)n+1
2
m x x 3
= = =
b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7
PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc
[ ]e n n+2 (4) (5)( ) ( )2 2
1 1 1m x x x x 2 3 25
2 2 2
= + = + = + =
Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
7
Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9
223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą
Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1
Rozwiązanie
a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje
Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9
STATYSTYKA OPISOWA
8
Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji
Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)
Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie
Dominanta jest najbardziej typową daną statystyczną
Jak określać przeciętny poziom cechy
Przykład 24
W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela
Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem
Liczba pracownikoacutew
5 45 70 50 10 2 3 3 12 15 13 11 11 250
Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach
Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
9
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel
5
45
70
50
10
2 3 3
1215 13 11 11
0
10
20
30
40
50
60
70
2 3 4 5 6 7 8 9 10 11 12 13 14
6152 Średnia
5 Mediana
4 Dominanta
Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł
Przykład 25
Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela
Liczba punktoacutew
0 5 10 70 75 80 85 90 95 100 Razem
Liczba studentoacutew
5 4 1 1 2 4 5 6 9 13 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych
arkusza Excel
54
1 12
45
6
9
13
0
2
4
6
8
10
12
14
0 5 10 70 75 80 85 90 95 100
738 Średnia
90 Mediana
100 Dominanta
STATYSTYKA OPISOWA
10
Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100
Przykład 26
W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela
Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem
Liczba studentoacutew
2 3 4 6 5 3 2 2 3 4 7 4 4 1 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji
statystycznych arkusza Excel
2
3
4
6
5
3
2 2
3
4
7
4 4
1
0
1
2
3
4
5
6
7
19 20 21 22 23 24 25 31 32 33 34 35 36 37
28 Średnia
28 Mediana
34 Dominanta
Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy
bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Inne charakterystyki połoŜenia
224 Średnia waŜona danych statystycznych
z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez
n
i i1 1 2 2 n n i 1
w n1 2 n
ii 1
w xw x w x w x
xw w w w
=
=
+ + += =
+ + +
sum
sum
W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi
Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej
Przykład 27
W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew
bull 02 oceny 2x pracy dyplomowej
bull 02 oceny 3x egzaminu dyplomowego
Jest to przykład średniej waŜonej
1 2 3w 1 2 3
06x 02x 0 2xx 06x 02x 02x
06 02 02
+ += = + +
+ +
Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =
Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
4
34 REGRESJA 51 341 Pojęcie regresji I rodzaju 51 342 Pojęcie regresji II rodzaju52 343 Liniowa regresja II rodzaju52
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
5
2 CHARAKTERYSTYKI LICZBOWE
21 Uwagi wstępne
Niech 1 2 nx x x będą wartościami cechy X wszystkich elementoacutew populacji albo proacuteby
Są to tzw dane statystyczne
Charakterystyki liczbowe (opisowe) są to liczby charakteryzujące rozkład cechy populacji Charakterystyki liczbowe cechy X podobnie jak parametry rozkładu zmiennej losowej dzielimy na
bull Charakterystyki połoŜenia (średnia mediana dominanta) bull Charakterystyki rozproszenia (wariancja odchylenie standardowe wspoacutełczynnik
zmienności odchylenie przeciętne rozstęp) bull Charakterystyki asymetrii (wspoacutełczynnik asymetrii wskaźnik asymetrii) bull Charakterystyki spłaszczenia (kurtoza)
22 Charakterystyki połoŜenia
Inne nazwy charakterystyk połoŜenia to charakterystykimiary przeciętne średnie tendencji centralnej
221 Średnia arytmetyczna danych statystycznych n
ii=1
1x x
n= sum
Przykład 21
Z pewnego egzaminu uzyskano następujące oceny 3 4 5 2 3 4 3 4 2 5 NaleŜy obliczyć ich średnia arytmetyczną
3+4+5+2+3+4+3+4+2+5x 35
10= =
Średnią arytmetyczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIA wpisując wcześniej dane w komoacuterki A1J1
STATYSTYKA OPISOWA
6
Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1
1 min maxx x xle le
2 n
ii 1
(x x) 0=
minus =sum
3 i i
i ix x x x
(x x) (x x )gt lt
minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie
4 WyraŜenie n
2i
i 1
(x c)=
minussum ma wartość najmniejszą gdy c= x
222 Mediana danych statystycznych
Uporządkujmy dane statystyczne od najmniejszej do największej
(1) (2) (n)x x x
Mediana danych statystycznych jest to liczba
n+1
2
e n n 2
2 2
x gdy n jest liczbą nieparzystą
m x x
gdy n jest liczbą parzystą2
+
= +
Przykład 22
Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach
a) 3 0 2 1 6 7 4 2 5
b) 3 0 2 1 6 7 4 2
Rozwiązanie
a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc
e (5)n+1
2
m x x 3
= = =
b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7
PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc
[ ]e n n+2 (4) (5)( ) ( )2 2
1 1 1m x x x x 2 3 25
2 2 2
= + = + = + =
Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
7
Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9
223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą
Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1
Rozwiązanie
a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje
Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9
STATYSTYKA OPISOWA
8
Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji
Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)
Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie
Dominanta jest najbardziej typową daną statystyczną
Jak określać przeciętny poziom cechy
Przykład 24
W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela
Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem
Liczba pracownikoacutew
5 45 70 50 10 2 3 3 12 15 13 11 11 250
Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach
Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
9
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel
5
45
70
50
10
2 3 3
1215 13 11 11
0
10
20
30
40
50
60
70
2 3 4 5 6 7 8 9 10 11 12 13 14
6152 Średnia
5 Mediana
4 Dominanta
Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł
Przykład 25
Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela
Liczba punktoacutew
0 5 10 70 75 80 85 90 95 100 Razem
Liczba studentoacutew
5 4 1 1 2 4 5 6 9 13 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych
arkusza Excel
54
1 12
45
6
9
13
0
2
4
6
8
10
12
14
0 5 10 70 75 80 85 90 95 100
738 Średnia
90 Mediana
100 Dominanta
STATYSTYKA OPISOWA
10
Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100
Przykład 26
W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela
Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem
Liczba studentoacutew
2 3 4 6 5 3 2 2 3 4 7 4 4 1 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji
statystycznych arkusza Excel
2
3
4
6
5
3
2 2
3
4
7
4 4
1
0
1
2
3
4
5
6
7
19 20 21 22 23 24 25 31 32 33 34 35 36 37
28 Średnia
28 Mediana
34 Dominanta
Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy
bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Inne charakterystyki połoŜenia
224 Średnia waŜona danych statystycznych
z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez
n
i i1 1 2 2 n n i 1
w n1 2 n
ii 1
w xw x w x w x
xw w w w
=
=
+ + += =
+ + +
sum
sum
W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi
Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej
Przykład 27
W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew
bull 02 oceny 2x pracy dyplomowej
bull 02 oceny 3x egzaminu dyplomowego
Jest to przykład średniej waŜonej
1 2 3w 1 2 3
06x 02x 0 2xx 06x 02x 02x
06 02 02
+ += = + +
+ +
Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =
Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
5
2 CHARAKTERYSTYKI LICZBOWE
21 Uwagi wstępne
Niech 1 2 nx x x będą wartościami cechy X wszystkich elementoacutew populacji albo proacuteby
Są to tzw dane statystyczne
Charakterystyki liczbowe (opisowe) są to liczby charakteryzujące rozkład cechy populacji Charakterystyki liczbowe cechy X podobnie jak parametry rozkładu zmiennej losowej dzielimy na
bull Charakterystyki połoŜenia (średnia mediana dominanta) bull Charakterystyki rozproszenia (wariancja odchylenie standardowe wspoacutełczynnik
zmienności odchylenie przeciętne rozstęp) bull Charakterystyki asymetrii (wspoacutełczynnik asymetrii wskaźnik asymetrii) bull Charakterystyki spłaszczenia (kurtoza)
22 Charakterystyki połoŜenia
Inne nazwy charakterystyk połoŜenia to charakterystykimiary przeciętne średnie tendencji centralnej
221 Średnia arytmetyczna danych statystycznych n
ii=1
1x x
n= sum
Przykład 21
Z pewnego egzaminu uzyskano następujące oceny 3 4 5 2 3 4 3 4 2 5 NaleŜy obliczyć ich średnia arytmetyczną
3+4+5+2+3+4+3+4+2+5x 35
10= =
Średnią arytmetyczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIA wpisując wcześniej dane w komoacuterki A1J1
STATYSTYKA OPISOWA
6
Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1
1 min maxx x xle le
2 n
ii 1
(x x) 0=
minus =sum
3 i i
i ix x x x
(x x) (x x )gt lt
minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie
4 WyraŜenie n
2i
i 1
(x c)=
minussum ma wartość najmniejszą gdy c= x
222 Mediana danych statystycznych
Uporządkujmy dane statystyczne od najmniejszej do największej
(1) (2) (n)x x x
Mediana danych statystycznych jest to liczba
n+1
2
e n n 2
2 2
x gdy n jest liczbą nieparzystą
m x x
gdy n jest liczbą parzystą2
+
= +
Przykład 22
Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach
a) 3 0 2 1 6 7 4 2 5
b) 3 0 2 1 6 7 4 2
Rozwiązanie
a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc
e (5)n+1
2
m x x 3
= = =
b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7
PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc
[ ]e n n+2 (4) (5)( ) ( )2 2
1 1 1m x x x x 2 3 25
2 2 2
= + = + = + =
Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
7
Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9
223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą
Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1
Rozwiązanie
a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje
Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9
STATYSTYKA OPISOWA
8
Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji
Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)
Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie
Dominanta jest najbardziej typową daną statystyczną
Jak określać przeciętny poziom cechy
Przykład 24
W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela
Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem
Liczba pracownikoacutew
5 45 70 50 10 2 3 3 12 15 13 11 11 250
Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach
Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
9
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel
5
45
70
50
10
2 3 3
1215 13 11 11
0
10
20
30
40
50
60
70
2 3 4 5 6 7 8 9 10 11 12 13 14
6152 Średnia
5 Mediana
4 Dominanta
Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł
Przykład 25
Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela
Liczba punktoacutew
0 5 10 70 75 80 85 90 95 100 Razem
Liczba studentoacutew
5 4 1 1 2 4 5 6 9 13 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych
arkusza Excel
54
1 12
45
6
9
13
0
2
4
6
8
10
12
14
0 5 10 70 75 80 85 90 95 100
738 Średnia
90 Mediana
100 Dominanta
STATYSTYKA OPISOWA
10
Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100
Przykład 26
W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela
Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem
Liczba studentoacutew
2 3 4 6 5 3 2 2 3 4 7 4 4 1 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji
statystycznych arkusza Excel
2
3
4
6
5
3
2 2
3
4
7
4 4
1
0
1
2
3
4
5
6
7
19 20 21 22 23 24 25 31 32 33 34 35 36 37
28 Średnia
28 Mediana
34 Dominanta
Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy
bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Inne charakterystyki połoŜenia
224 Średnia waŜona danych statystycznych
z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez
n
i i1 1 2 2 n n i 1
w n1 2 n
ii 1
w xw x w x w x
xw w w w
=
=
+ + += =
+ + +
sum
sum
W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi
Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej
Przykład 27
W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew
bull 02 oceny 2x pracy dyplomowej
bull 02 oceny 3x egzaminu dyplomowego
Jest to przykład średniej waŜonej
1 2 3w 1 2 3
06x 02x 0 2xx 06x 02x 02x
06 02 02
+ += = + +
+ +
Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =
Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
6
Własności średniej arytmetycznej danych statystycznych 1 2 n(x x x ) 1
1 min maxx x xle le
2 n
ii 1
(x x) 0=
minus =sum
3 i i
i ix x x x
(x x) (x x )gt lt
minus = minussum sum zwraca się uwagę Ŝe w nawiasach są wartości dodatnie
4 WyraŜenie n
2i
i 1
(x c)=
minussum ma wartość najmniejszą gdy c= x
222 Mediana danych statystycznych
Uporządkujmy dane statystyczne od najmniejszej do największej
(1) (2) (n)x x x
Mediana danych statystycznych jest to liczba
n+1
2
e n n 2
2 2
x gdy n jest liczbą nieparzystą
m x x
gdy n jest liczbą parzystą2
+
= +
Przykład 22
Wyznaczymy medianę dla danych statystycznych w dwoacutech przypadkach
a) 3 0 2 1 6 7 4 2 5
b) 3 0 2 1 6 7 4 2
Rozwiązanie
a) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 5 6 7 PoniewaŜ liczba danych statystycznych jest n = 9 ( liczba nieparzysta więc
e (5)n+1
2
m x x 3
= = =
b) Porządkujemy dane statystyczne od najmniejszej do największej 0 1 2 2 3 4 6 7
PoniewaŜ liczba danych statystycznych jest n = 8 (liczba parzysta więc
[ ]e n n+2 (4) (5)( ) ( )2 2
1 1 1m x x x x 2 3 25
2 2 2
= + = + = + =
Medianę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
1 Patrz punkt 191 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
7
Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9
223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą
Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1
Rozwiązanie
a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje
Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9
STATYSTYKA OPISOWA
8
Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji
Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)
Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie
Dominanta jest najbardziej typową daną statystyczną
Jak określać przeciętny poziom cechy
Przykład 24
W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela
Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem
Liczba pracownikoacutew
5 45 70 50 10 2 3 3 12 15 13 11 11 250
Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach
Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
9
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel
5
45
70
50
10
2 3 3
1215 13 11 11
0
10
20
30
40
50
60
70
2 3 4 5 6 7 8 9 10 11 12 13 14
6152 Średnia
5 Mediana
4 Dominanta
Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł
Przykład 25
Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela
Liczba punktoacutew
0 5 10 70 75 80 85 90 95 100 Razem
Liczba studentoacutew
5 4 1 1 2 4 5 6 9 13 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych
arkusza Excel
54
1 12
45
6
9
13
0
2
4
6
8
10
12
14
0 5 10 70 75 80 85 90 95 100
738 Średnia
90 Mediana
100 Dominanta
STATYSTYKA OPISOWA
10
Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100
Przykład 26
W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela
Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem
Liczba studentoacutew
2 3 4 6 5 3 2 2 3 4 7 4 4 1 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji
statystycznych arkusza Excel
2
3
4
6
5
3
2 2
3
4
7
4 4
1
0
1
2
3
4
5
6
7
19 20 21 22 23 24 25 31 32 33 34 35 36 37
28 Średnia
28 Mediana
34 Dominanta
Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy
bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Inne charakterystyki połoŜenia
224 Średnia waŜona danych statystycznych
z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez
n
i i1 1 2 2 n n i 1
w n1 2 n
ii 1
w xw x w x w x
xw w w w
=
=
+ + += =
+ + +
sum
sum
W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi
Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej
Przykład 27
W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew
bull 02 oceny 2x pracy dyplomowej
bull 02 oceny 3x egzaminu dyplomowego
Jest to przykład średniej waŜonej
1 2 3w 1 2 3
06x 02x 0 2xx 06x 02x 02x
06 02 02
+ += = + +
+ +
Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =
Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
7
Wykorzystano funkcję statystyczną MEDIANA wpisując wcześniej dane w komoacuterki a3i9
223 Dominanta danych statystycznych Jest to najczęściej występująca dana statystyczna (o ile istnieje) oznacza się litera d Dominanta jest takŜe nazywana modą
Przykład 23 Wyznaczymy dominantę dla danych statystycznych w dwoacutech przypadkach a) 4 0 4 1 4 7 0 2 b) 3 0 2 1 6 7 4 2 1 4 2 1
Rozwiązanie
a) Najczęściej występującą daną statystyczną jest liczba 4 (występuje 3 razy) zatem d = 4 b) Nie ma danej statystycznej występującej najczęściej Dominanta tych danych nie istnieje
Dominantę moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla pierwszego przypadku ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WYSTNAJCZESCIEJ wpisując dane w komoacuterki a3i9
STATYSTYKA OPISOWA
8
Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji
Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)
Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie
Dominanta jest najbardziej typową daną statystyczną
Jak określać przeciętny poziom cechy
Przykład 24
W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela
Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem
Liczba pracownikoacutew
5 45 70 50 10 2 3 3 12 15 13 11 11 250
Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach
Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
9
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel
5
45
70
50
10
2 3 3
1215 13 11 11
0
10
20
30
40
50
60
70
2 3 4 5 6 7 8 9 10 11 12 13 14
6152 Średnia
5 Mediana
4 Dominanta
Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł
Przykład 25
Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela
Liczba punktoacutew
0 5 10 70 75 80 85 90 95 100 Razem
Liczba studentoacutew
5 4 1 1 2 4 5 6 9 13 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych
arkusza Excel
54
1 12
45
6
9
13
0
2
4
6
8
10
12
14
0 5 10 70 75 80 85 90 95 100
738 Średnia
90 Mediana
100 Dominanta
STATYSTYKA OPISOWA
10
Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100
Przykład 26
W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela
Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem
Liczba studentoacutew
2 3 4 6 5 3 2 2 3 4 7 4 4 1 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji
statystycznych arkusza Excel
2
3
4
6
5
3
2 2
3
4
7
4 4
1
0
1
2
3
4
5
6
7
19 20 21 22 23 24 25 31 32 33 34 35 36 37
28 Średnia
28 Mediana
34 Dominanta
Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy
bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Inne charakterystyki połoŜenia
224 Średnia waŜona danych statystycznych
z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez
n
i i1 1 2 2 n n i 1
w n1 2 n
ii 1
w xw x w x w x
xw w w w
=
=
+ + += =
+ + +
sum
sum
W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi
Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej
Przykład 27
W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew
bull 02 oceny 2x pracy dyplomowej
bull 02 oceny 3x egzaminu dyplomowego
Jest to przykład średniej waŜonej
1 2 3w 1 2 3
06x 02x 0 2xx 06x 02x 02x
06 02 02
+ += = + +
+ +
Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =
Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
8
Interpretacja charakterystyk połoŜenia Średnia arytmetyczna mediana i dominanta są przykładami tzw charakterystyk połoŜenia czyli wielkości informujących o przeciętnej wielkości cechy populacji Wokoacuteł tych wielkości skupiają się na ogoacuteł wartości cechy populacji Inaczej wyraŜamy to moacutewiąc Ŝe poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji
Średnia arytmetyczna jest liczbą informującą o tym jaką wartość cechy powinny mieć elementy populacji gdyby wszystkie dane statystyczne były sobie roacutewne i suma tych wartości byłaby taka sama ( podział wielkości na n roacutewnych części)
Mediana dzieli zbioacuter danych statystycznych na dwa roacutewnoliczne podzbiory do jednego z nich naleŜą dane mniejsze lub roacutewne medianie zaś do drugiego dane większe lub roacutewne medianie
Dominanta jest najbardziej typową daną statystyczną
Jak określać przeciętny poziom cechy
Przykład 24
W pewnej firmie postanowiono przeanalizować zarobki pracownikoacutew Dane w tys zł dotyczące wszystkich 250 pracownikoacutew przedstawia poniŜsza tabela
Zarobki 2 3 4 5 6 7 8 9 10 11 12 13 14 Razem
Liczba pracownikoacutew
5 45 70 50 10 2 3 3 12 15 13 11 11 250
Tabelę otrzymano zliczając takie same zarobki w analizowanych danych przy pomocy funkcji statystycznej bdquoWystępowanie ndash ile razyrdquo arkusza Excel ndash tak samo postąpiono w 2 kolejnych przykładach
Innym sposobem jest wykorzystanie narzędzia analizy bdquoHistogramrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel ndash otrzymuje się od razu liczby pracownikoacutew dla wszystkich poziomoacutew zarobkoacutew
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
9
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel
5
45
70
50
10
2 3 3
1215 13 11 11
0
10
20
30
40
50
60
70
2 3 4 5 6 7 8 9 10 11 12 13 14
6152 Średnia
5 Mediana
4 Dominanta
Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł
Przykład 25
Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela
Liczba punktoacutew
0 5 10 70 75 80 85 90 95 100 Razem
Liczba studentoacutew
5 4 1 1 2 4 5 6 9 13 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych
arkusza Excel
54
1 12
45
6
9
13
0
2
4
6
8
10
12
14
0 5 10 70 75 80 85 90 95 100
738 Średnia
90 Mediana
100 Dominanta
STATYSTYKA OPISOWA
10
Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100
Przykład 26
W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela
Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem
Liczba studentoacutew
2 3 4 6 5 3 2 2 3 4 7 4 4 1 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji
statystycznych arkusza Excel
2
3
4
6
5
3
2 2
3
4
7
4 4
1
0
1
2
3
4
5
6
7
19 20 21 22 23 24 25 31 32 33 34 35 36 37
28 Średnia
28 Mediana
34 Dominanta
Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy
bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Inne charakterystyki połoŜenia
224 Średnia waŜona danych statystycznych
z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez
n
i i1 1 2 2 n n i 1
w n1 2 n
ii 1
w xw x w x w x
xw w w w
=
=
+ + += =
+ + +
sum
sum
W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi
Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej
Przykład 27
W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew
bull 02 oceny 2x pracy dyplomowej
bull 02 oceny 3x egzaminu dyplomowego
Jest to przykład średniej waŜonej
1 2 3w 1 2 3
06x 02x 0 2xx 06x 02x 02x
06 02 02
+ += = + +
+ +
Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =
Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
9
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych arkusza Excel
5
45
70
50
10
2 3 3
1215 13 11 11
0
10
20
30
40
50
60
70
2 3 4 5 6 7 8 9 10 11 12 13 14
6152 Średnia
5 Mediana
4 Dominanta
Chcemy określić przeciętne wynagrodzenie w firmie Średnia arytmetyczna wynosi 6152 zł a 180 pracownikoacutew czyli 72 otrzymuje wynagrodzenia poniŜej średniej arytmetycznej W tym przypadku jako przeciętne wynagrodzenie naleŜy przyjąć medianę ktoacutera w tym przypadku wynosi 5 tys zł Zwraca się uwagę Ŝe najczęściej występującym wynagrodzeniem czyli dominantą jest pensja w wysokości 4 tys zł
Przykład 25
Wykładowca postanowił przeanalizować wyniki testu z bdquoMetod probabilistycznychrdquo Dane dotyczące liczby zdobytych punktoacutew przez 50 studentoacutew przedstawia poniŜsza tabela
Liczba punktoacutew
0 5 10 70 75 80 85 90 95 100 Razem
Liczba studentoacutew
5 4 1 1 2 4 5 6 9 13 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji statystycznych
arkusza Excel
54
1 12
45
6
9
13
0
2
4
6
8
10
12
14
0 5 10 70 75 80 85 90 95 100
738 Średnia
90 Mediana
100 Dominanta
STATYSTYKA OPISOWA
10
Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100
Przykład 26
W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela
Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem
Liczba studentoacutew
2 3 4 6 5 3 2 2 3 4 7 4 4 1 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji
statystycznych arkusza Excel
2
3
4
6
5
3
2 2
3
4
7
4 4
1
0
1
2
3
4
5
6
7
19 20 21 22 23 24 25 31 32 33 34 35 36 37
28 Średnia
28 Mediana
34 Dominanta
Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy
bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Inne charakterystyki połoŜenia
224 Średnia waŜona danych statystycznych
z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez
n
i i1 1 2 2 n n i 1
w n1 2 n
ii 1
w xw x w x w x
xw w w w
=
=
+ + += =
+ + +
sum
sum
W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi
Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej
Przykład 27
W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew
bull 02 oceny 2x pracy dyplomowej
bull 02 oceny 3x egzaminu dyplomowego
Jest to przykład średniej waŜonej
1 2 3w 1 2 3
06x 02x 0 2xx 06x 02x 02x
06 02 02
+ += = + +
+ +
Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =
Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
10
Średnia arytmetyczna wynikoacutew testu wynosi 738 czyli dotyczy jedynie 3 wynikoacutew - spowodowane jest to tym Ŝe 5 studentoacutew tzn 10 wypadło bardzo słabo otrzymując 0 5 lub 10 punktoacutew Stąd jako przeciętny wynik testu naleŜy przyjąć medianę ktoacutera jest roacutewna 90 punktoacutew Zwraca się uwagę Ŝe najczęściej występującym wynikiem czyli dominantą jest maksymalna liczba punktoacutew roacutewna 100
Przykład 26
W pewnej uczelni postanowiono przeanalizować wiek studentoacutew na specjalności bazy danych ndash w sumie 50 studentoacutew Dane przedstawia poniŜsza tabela
Wiek 19 20 21 22 23 24 25 31 32 33 34 35 36 37 Razem
Liczba studentoacutew
2 3 4 6 5 3 2 2 3 4 7 4 4 1 50
Ilustracja graficzna otrzymane przy pomocy modułu Microsoft Graph
Wyniki otrzymane przy pomocy funkcji
statystycznych arkusza Excel
2
3
4
6
5
3
2 2
3
4
7
4 4
1
0
1
2
3
4
5
6
7
19 20 21 22 23 24 25 31 32 33 34 35 36 37
28 Średnia
28 Mediana
34 Dominanta
Średnia arytmetyczna wieku studentoacutew jest roacutewna 28 ZauwaŜmy Ŝe nie ma ani jednego studenta o takim wieku a takŜe wieku zbliŜonego (brak studentoacutew o wieku 26 27 28 29 i 30) W tym przypadku dla określenia przeciętnego wieku studentoacutew naleŜy podać dwa najczęściej występujące poziomy wieku 22 i 34 ndash być moŜe dotyczą one przeciętnego wieku studentoacutew studioacutew stacjonarnych i niestacjonarnych W tym przypadku podanie średniej arytmetycznej i mediany jest mylące Podsumowanie ndash jak określać przeciętny poziom cechy
bull Średnia arytmetyczna - jeŜeli rozkład jest symetryczny z jedną modą bull Mediana - jeŜeli rozkład jest niesymetryczny z jedną modą bull Moda ndash jeŜeli rozkład jest wielo modalny podając ją dla kaŜdego obszaru zmienności
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Inne charakterystyki połoŜenia
224 Średnia waŜona danych statystycznych
z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez
n
i i1 1 2 2 n n i 1
w n1 2 n
ii 1
w xw x w x w x
xw w w w
=
=
+ + += =
+ + +
sum
sum
W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi
Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej
Przykład 27
W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew
bull 02 oceny 2x pracy dyplomowej
bull 02 oceny 3x egzaminu dyplomowego
Jest to przykład średniej waŜonej
1 2 3w 1 2 3
06x 02x 0 2xx 06x 02x 02x
06 02 02
+ += = + +
+ +
Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =
Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Inne charakterystyki połoŜenia
224 Średnia waŜona danych statystycznych
z odnoszącymi się do ich nieujemnymi wagami 1 2 nw w w z ktoacuterych co najmniej jedna jest dodatnia jest określona przez
n
i i1 1 2 2 n n i 1
w n1 2 n
ii 1
w xw x w x w x
xw w w w
=
=
+ + += =
+ + +
sum
sum
W ten sposoacuteb dane ktoacuterym przypisano większe wagi mają większy udział w określeniu średniej waŜonej niŜ dane ktoacuterym przypisano mniejsze wagi
Jeśli wszystkie wagi są roacutewne woacutewczas średnia waŜona jest roacutewna średniej arytmetycznej
Przykład 27
W pewnej uczelni ocenę ukończenia studioacutew stanowi suma bull 06 średniej wszystkich ocen 1x z egzaminoacutew i zaliczeń - cały okres studioacutew
bull 02 oceny 2x pracy dyplomowej
bull 02 oceny 3x egzaminu dyplomowego
Jest to przykład średniej waŜonej
1 2 3w 1 2 3
06x 02x 0 2xx 06x 02x 02x
06 02 02
+ += = + +
+ +
Niech x1=35 x2=45 x3=40 Wtedy wx 06 35 02 45 02 40 21 09 08 38= sdot + sdot + sdot = + + =
Średnią waŜoną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję matematyczną SUMAILOCZYNOacuteW wpisując wcześniej dane w komoacuterki a1a3 oraz b1b3 W ogoacutelnym przypadku (kiedy suma wag jest roacuteŜna od 1) wynik naleŜy podzielić przez sumę wag ktoacuterą moŜna obliczyć z wykorzystaniem funkcji matematycznej SUMA
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
12
225 Średnia ucinana danych statystycznych
Inne nazwy to średnia obcięta lub średnia trymowana Jest innych średnich mody i mediany jedną z miar statystycznych tendencji centralnej
Najprostszym przykładem jest sędziowanie zawodoacutew sportowych przez 5 sędzioacutew Odrzuca się najniŜszą i najwyŜszą ocenę a pozostałe sumuje się
Przy obliczaniu średniej ucinanej obserwacje porządkuje się od najmniejszej do największej odrzuca się mały procent najbardziej ekstremalnych obserwacji na obu krańcach (wartości najmniejsze oraz największe w proacutebce) na ogoacuteł roacutewnej liczności a następnie oblicza się średnią z pozostałych obserwacji Na ogoacuteł odrzuca się minimum i maksimum z proacutebki lub wartości poniŜej 25 centyla i powyŜej 75 centyla
Wartości poniŜej 25 centyla
Wartości poniŜej 50 centyla
Wartości poniŜej 75 centyla
Wartości poniŜej 100 centyla
Odrzucanie Obliczanie średniej Odrzucanie
Rysunek 21
Średnia ucinana jest charakterystyką mało wraŜliwą na wartości odstające
Średnia ucinana wykorzystywana jest do oceny zawodnikoacutew w roacuteŜnych konkurencjach odrzuca się wtedy ocenę najwyŜszą i najniŜszą a następnie z pozostałych oblicza się średnią arytmetyczną
Przykład 28
Pięciu sędzioacutew oceniło skok do wody pewnego zawodnika wystawiając oceny 3 4 4 5 4
Obliczyć średnią ocen po odrzuceniu oceny najniŜszej i najwyŜszej
Rozwiązanie
Ocena najniŜsza to 3 a ocena najwyŜsza 5 Pozostałe oceny to 4 zatem ich średnia wynosi 4
Średnią ucinaną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAWEWN wpisując wcześniej dane w komoacuterki a13e13 oraz określając Ŝe 40 danych ma być odrzuconych (20 najmniejszych i 20 największych)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
226 Średnia geometryczna danych statystycznych
nn n
g 1 2 n ii 1
x x x x x=
= sdot sdotsdotsdot = prod
Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk ktoacuterych rozwoacutej jest przedstawiony w postaci szeregoacutew dynamicznych np do uśredniania indeksoacutew łańcuchowych2
Przykład 29
Roczny procentowy przyrost przychodoacutew pewnej firmy informatycznej w kolejnych czterech latach wynosił 10 20 5 15 Jaki był średni przyrost w tym okresie
24 4 2 2gx 11 12 105 115 15939 15939 12625 11236= sdot sdot sdot = = = =
Średnia geometryczna powyŜszych danych wynosi 125
Średnią geometryczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAGEOMETRYCZNA wpisując wcześniej dane w komoacuterki a9d9
227 Średnia harmoniczna danych statystycznych
h n n
i 1 i 1i i
1 nx
1 1 1n x x= =
= =
sum sum
Tak więc jest średnia harmoniczna (dla danych statystycznych roacuteŜnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych
Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np ms cmosoba)
2 Indeks łańcuchowy - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie poprzedzającym okres badany
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
14
Przykład 210
Odległość z miasta A do B rowerzysta przejeŜdŜa z prędkością 10 kmgodz z powrotem jedzie z prędkością 5 kmgodz Jaka była prędkość średnia rowerzysty
Średnia arytmetyczna 10 5
x 752
+= =
Średnia harmoniczna h
2 2 20x 667
1 1 1 2 310 5 10
= = = =+
+
ZałoacuteŜmy Ŝe odległość pomiędzy miastami wynosi 10 km Zatem czas przejazdu z A do B wynosi 1 godz a powrotem 2 godz Sumaryczna odległość wynosi 20 km sumaryczny czas przejazdu 3 godz zatem średnia prędkość wynosi 203 = 667 kmgodz i pokrywa się ze średnią harmoniczną Średnią harmoniczną moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ŚREDNIAHARMONICZNA wpisując wcześniej dane w komoacuterki A11B1
228 Średnia kwadratowa danych statystycznych
n2
k ii 1
1x x
n =
= sum
MoŜna wykazać prawdziwość zaleŜności pomiędzy elementami proacuteby 1 2 n(x x x ) 3 1
n n nn2
i i ini 1 i 1i 1
i 1 i
1 1 1x x x
1 1 n nn x
= ==
=
le le le
sum sumprodsum
Zwraca się uwagę Ŝe elementy powyŜszej zaleŜności liczone od lewej to średnia harmoniczna średnia geometryczna średnia arytmetyczna i średnia kwadratowa
3 Patrz punkt 192 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
23 Charakterystyki rozproszenia
Inne nazwy charakterystyk rozproszenia to charakterystykimiary zroacuteŜnicowania dyspersji
231 Wariancja danych statystycznych n
2 2x i
i 1
1s (x x)
n =
= minussum
Wariancję moŜna wyznaczyć ze wzoru4
( )n n n
22 2 2 2 2x i n i i k
i 1 i 1 i 1
1 1 1s (x x ) x ( x ) x x
n n n
minus
= = =
= minus = minus = minussum sum sum
Wzoacuter ten umoŜliwia obliczenie wariancji w jednym przebiegu
Przykład 211
Obliczyć wariancję wynikoacutew egzaminu podanych w przykładzie 215
Pierwszy etap obliczeń zgodnie z powyŜszym wzorem przedstawiono w poniŜszej tabeli
i 1 2 3 4 5 6 7 8 9 10 Suma Suma10
xi 3 4 5 2 3 4 3 4 2 5 35 35
2ix 9 16 25 4 9 16 9 16 4 25 133 133
Zatem
( )22 2 2
x ks x x 133 35 133 1225 105minus
= minus = minus = minus =
Wariancję moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną WARIANCJA wpisując wcześniej dane w komoacuterki A1A10
4 Patrz punkt 193 części VII Wybrane twierdzenia z dowodami 5 Rekomenduje się przeprowadzenie obliczeń z wykorzystaniem arkusza Excel
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
16
Zwraca się uwagę na roacuteŜnicę w wynikach Spowodowane jest to tym Ŝe w arkuszu Excel we
wzorze według ktoacuterego obliczana jest wariancja zamiast 1
n występuje
1
n 1minus po to aby
zapewnić nieobciąŜoność wariancji pojęcie zostanie wyjaśnione w statystyce matematycznej
Powody zostaną wyjaśnione przy omawianiu Statystyki matematycznej
232 Odchylenie standardowe danych statystycznych Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji
2x xs s=
Przykład 212
Obliczyć odchylenie standardowe wynikoacutew egzaminu podanych w przykładzie 21
Odchylenie moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną ODCHSTANDARDOWE wpisując wcześniej dane w komoacuterki A1A10
233 Wspoacutełczynnik zmienności danych statystycznych
xx
sv 100
x=
przy załoŜeniu Ŝe x 0ne
234 Rozstęp danych
0 max minr x x= minus gdzie xmin najmniejsza dana statystyczna xmax ndash największa dana statystyczna
Rozstęp moŜna wyznaczyć jako roacuteŜnicę wynikoacutew uzyskiwanych za pomocą dwoacutech funkcji statystycznych arkusza Excel MAX i MIN
235 Przedział typowych jednostek populacji
x xx s x sminus +
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Interpretacja charakterystyk rozproszenia
Wariancja odchylenie standardowe wspoacutełczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności zroacuteŜnicowania)
KaŜda z tych charakterystyk ma wartość roacutewną zeru tylko w przypadku roacutewnych wszystkich danych statystycznych (nie ma wtedy zroacuteŜnicowania danych) i ma coraz większą wartość gdy dane są bardziej zroacuteŜnicowane
Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej
Jeśli dane statystyczne są wyraŜone w pewnych jednostkach to wariancja jest wyraŜona w tej jednostce do kwadratu Tej niedogodności nie ma odchylenie standardowe
Wspoacutełczynnik zmienności wyraŜa jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej Jest wielkością niemianowaną (bez jednostki) Nadaje się więc do poroacutewnywania zroacuteŜnicowania cech populacji wyraŜonych w roacuteŜnych jednostkach
Rozstęp wyraŜa długość najkroacutetszego przedziału do ktoacuterego naleŜą wszystkie dane statystyczne
235 Kwantyle
Kwantylem rzędu p (p-tym kwantylem) cechy X populacji nazywamy liczbę (oznaczenie kp) taką Ŝe co najmniej p procent danych statystycznych jest mniejszych lub roacutewnych tej liczbie oraz co najmniej 1-p procent danych statystycznych jest większych lub roacutewnych tej liczbie przy czym liczba pisin(0 1)
Kwartyle q1 q2 q3 pierwszy drugi oraz trzeci są to kwantyle odpowiednio rzędu 025 050 075 Kwartyl drugi q2 jest oczywiście medianą cechy X
Kwintyl to kwantyl rzędu 15 (pierwszy kwintyl dolny kwintyl6) 25 35 lub 45 (czwarty kwintyl goacuterny kwintyl) 20 obserwacji ma wartości poniŜej dolnego kwintyla a 20 powyŜej goacuternego kwintyla
Decyle d1 d2 hellip d9 pierwszy drugi itd do dziewiątego są to kwantyle odpowiednio rzędoacutew 01 02 hellip 09
Centyle c1 c2 hellip c99 pierwszy drugi itd oraz dziewięćdziesiąty dziewiąty są to kwantyle odpowiednio rzędu 001 002 hellip 099 ndash centyl jest więc wielkością poniŜej ktoacuterej padają wartości zadanego procentu proacutebek UŜywa się takŜe nazwy percentyl
Kwartyle kwintale decyle i centyle dzielą dane statystyczne na odpowiednio cztery dziesięć oraz sto roacutewnolicznych podzbioroacutew co wykorzystuje się gdy danych statycznych jest duŜo
Przykład 213
Badano wydajność 20 serwisantoacutew Otrzymane dane dotyczące czasu usuwania określonej awarii uporządkowano niemalejąco
48 52 53 54 56 64 65 68 68 68 70 72 72 73 74 76 83 87 89 120
Obliczymy kwantyle rzędu 015 i rzędu 028
Obliczamy 15 liczebności danych statystycznych n = 20
l = 015 20 = 3
Zatem k015 = x(3) = 53 (trzeci wyraz w uporządkowanym niemalejąco ciągu danych statystycznych)
Sprawdzimy czy otrzymany wynik jest zgodny z definicją kwantyla k015
6 Przy pomocy kwintyli często redaguje się zasadę Pareto dolny kwintyl obiektoacutew generuje 80 zasoboacutew
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
18
Danych statystycznych co najwyŜej roacutewnych 53 mamy 3 czyli 15 wszystkich danych natomiast danych co najmniej roacutewnych 53 mamy 18 czyli 90 co jest większe od 100 ndash 15 wszystkich danych Kwantyl k015 został zatem wyznaczony poprawnie
Obliczamy 28 liczebności danych statystycznych
l = 02820 = 56 asymp 6 Przyjmujemy Ŝe k028 = x(6) = 64
Rzeczywiście danych co najwyŜej roacutewnych 64 mamy 6 co stanowi 30 wszystkich danych Jest to więcej niŜ 28 Z drugiej strony danych co najmniej roacutewnych 64 mamy 15 co stanowi 75 wszystkich danych Jest to więcej niŜ 100 - 28 Zatem kwantyl k028 został wyznaczony poprawnie ZauwaŜmy Ŝe w tym przypadku kaŜda liczba z przedziału (56 64gt jest kwantylem k028
Obliczymy teraz trzeci kwartyl q3 PoniewaŜ 75 liczby 20 wynosi 15 to q3 = x(15) =73
Kwartyle moŜna obliczyć korzystając z arkusza kalkulacyjnego Excel co dla trzeciego ilustruje poniŜszy rysunek
Wykorzystano funkcję statystyczną KWARTYL wpisując wcześniej dane w komoacuterki a7t7
236 Wskaźnik struktury RozwaŜmy cechę X i pewien wariant tej cechy
Wskaźnik struktury wariantu cechy X populacji jest to stosunek liczby danych statystycznych roacutewnych wariantowi do liczby wszystkich danych statystycznych
kw
n=
k ndash liczba danych statystycznych roacutewnych danemu wariantowi n ndash liczba wszystkich danych statystycznych
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
Przykład 214
Populacja Partia towaru licząca 1000 sztuk w tym 30 wadliwych Cecha populacji X zmienna losowa przyjmująca 1 gdy sztuka jest wadliwa i wartość 0 gdy sztuka jest dobra Wskaźnik struktury wariantu 1 (sztuka wadliwa) jest roacutewny
30w = 3
1000=
i w rozwaŜanej sytuacji nazywa się wadliwością towaru oznacza procent sztuk wadliwych w całej partii
Przykład 215
Obliczymy częstości występowania wynikoacutew egzaminu podanych w przykładzie 21 korzystając z arkusza kalkulacyjnego Excel co ilustrują poniŜsze rysunki
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
20
24 Charakterystyki asymetrii7
241 Wspoacutełczynniki asymetrii
Wspoacutełczynnik asymetrii
n3
ii=1
k 3x
1(x x)
na =
s
minussum
gdzie s jest odchyleniem standardowym zaś licznik nazywa się momentem centralnym rzędu 3
Wskaźnik asymetrii
sx
x da
s
minus=
gdzie x d s są odpowiednio średnią dominantą i odchyleniem standardowym cechy X
Jest to tzw klasyczny miernik asymetrii standaryzowany
Jeśli ak i as są roacutewne 0 to rozkład cechy X jest symetryczny jeśli są roacuteŜne od zera to rozkład jest asymetryczny przy czym jeśli są dodatnie to asymetria rozkładu jest prawostronna jeśli są ujemne to asymetria jest lewostronna
Wartość bezwzględna wspoacutełczynnika i wskaźnika asymetrii mierzy siłę asymetrii im jest większa tym asymetria jest silniejsza
Wspoacutełczynnik i wskaźnik asymetrii są jednostkami niemianowanymi mogą więc słuŜyć do poroacutewnywania asymetrii cech populacji wyraŜonych w roacuteŜnych jednostkach
Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej SKOŚNOŚĆ w ktoacuterej stosowany jest nieco zmieniony wzoacuter na wspoacutełczynnik asymetrii
n3
i i 1K 3
x
(x x)1
a(n 1)(n 2) s
=
minus
=minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
7 UŜywana jest nazwa skośność
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
242 Interpretacja symetrii w przypadku rozkładu jednomodalnego8
W tym przypadku mediana jest zawarta między średnią i dominantą czyli prawdziwa jest jedna z poniŜszych nieroacutewności podwoacutejnych
e ex m d lub d m xle le le le
Zatem
Jeśli cecha X populacji ma rozkład symetryczny to średnia arytmetyczna mediana i dominanta tej cechy są sobie roacutewne ex m d= = tzn w ciągu uporządko-
wanych monotonicznie danych statystycznych na lewo i na prawo od średniej jest tyle samo tych danych oraz średnia jest roacutewna najczęściej występującej danej statystycznej (rys 22)
Rys 22 Rozkład symetryczny
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii prawostronnej (dodatniej) nazywany takŜe rozkładem prawostronnie skośnym to jest więcej danych statystycznych mniejszych od średniej niŜ danych statystycznych większych od tej średniej oraz najczęściej występująca dana statystyczna jest mniejsza od średniej (rys 23)
Rys 23 Rozkład o asymetrii prawostronnej
bull Jeśli cecha X populacji ma rozkład asymetryczny o asymetrii lewostronnej (ujemnej) nazywany takŜe rozkładem o lewostronnie skośnym to jest więcej danych statystycznych większych od średniej niŜ danych statystycznych mniejszych od tej średniej oraz najczęściej występująca dana statystyczna jest większa od średniej (rys 24)
Rys 24Rozkład o asymetrii lewostronnej
Przykład 216
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 1 3 6 8 2
Wyniki obliczeń z wykorzystaniem funkcji statystycznej SKOSNOŚĆ
8 Rozkładu z tylko jedną dominującą wartością
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
22
Rozkłady ocen przedstawiają poniŜsze rysunki
1
3
12
3
1
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
7
8
2 3 4 5 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
I w końcu wyniki obliczenia charakterystyk liczbowych korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak
Rekomenduje się Czytelnikowi przeanalizowanie powyŜszych wynikoacutew
243 Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Za pomocą wykresu szeregu rozdzielczego łatwo określić istnienie asymetrii i jej znak mianowicie
Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o roacutewnaniu postaci x = a) to cecha ta ma rozkład symetryczny - patrz rys 22 i 25 (średnia mediana i dominanta są roacutewne a)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii dodatniej czyli prawostronnej (patrz rysunki 23 26)
Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem Ŝadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłuŜona to cecha ta ma rozkład asymetryczny o asymetrii ujemnej czyli lewostronnej patrz (rysunki 24 i 27)
PoniŜsze trzy wykresy szeregoacutew rozdzielczych dotyczą odpowiednio cechy o rozkładzie symetrycznym asymetrycznym o asymetrii dodatniej i asymetrycznym o asymetrii ujemnej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
24
Rys 25 Rozkład symetryczny Rys 26 Rozkład asymetryczny
o asymetrii prawostronnej
(dodatniej)
Rys 27 Rozkład asymetryczny
o asymetrii lewostronnej
(ujemnej)
25 Charakterystyki spłaszczenia 9
Miernik spłaszczenia n
44 i
i 1
1m (x x)
n =
= minussum
Wspoacutełczynnik spłaszczenia (kurtoza) n
4i
i 14x
1(x x)
nk 3
s=
minus
= minussum
Kurioza jest miarą skupienia wokoacuteł średniej arytmetycznej im większa jest jej wartość tym bardziej wartości zmiennej koncentrują się wokoacuteł średniej ndash miarą odniesienia jest rozkład normalny Jeśli kurioza jest ujemna to rozkład jest bardziej spłaszczony od normalnego10 jeśli dodatnia to rozkład jest bardziej wysmukły niŜ normalny Uwaga W pakiecie Excel wspoacutełczynnik asymetrii moŜna obliczyć za pomocą funkcji statystycznej KURTOZA w ktoacuterej stosowany jest nieco zmieniony wzoacuter
n4
2i i 1
4x
(x x)n(n 1) 3(n 1)
k(n 1)(n 2)(n 3) s (n 2)(n 3)
=
minus+ minus
= minusminus minus minus minus minus
sum
po to aby zapewnić nieobciąŜoność wspoacutełczynnika pojęcie zostanie wyjaśnione w statystyce matematycznej
Przykład 217
Ocenić kurtozę rozkładu ocen z egzaminu w dwoacutech grupach ktoacutere podano w poniŜszej tabeli
2 3 4 5 6
Grupa 1 1 3 12 3 1
Grupa 2 2 3 6 4 3
9 Inna nazwa to charakterystyki ekscesu 10 Patrz punkt 822
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Wyniki obliczeń z wykorzystaniem funkcji statystycznej KURTOZA
Rozkłady ocen przedstawiają poniŜsze rysunki
0
2
4
6
8
10
12
2 3 4 5 6
0
1
2
3
4
5
6
2 3 4 5 6
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
26
26 Podsumowanie
261 Wybrane charakterystyki liczbowe w postaci graficznej
Rysunek 28 Charakterystyki połoŜenia
Rysunek 29 Charakterystyki rozproszenia
CHARAKTERYSTYKI POŁ0śENIA
Klasyczne Pozycyjne
Średnia arytmetyczna
Średnia waŜona
Średnia harmoniczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Kwartyle
Centyle
Decyle
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
262 MoŜliwości obliczania charakterystyk liczbowych w zaleŜności od skali
SKALA RODZAJ
CHARAKTERYSTYKI
NAZWA
CHARAKTERYSTYKI Nominalna Porządkowa11 Przedziałowa
Średnia arytmetyczna +
Średnia harmoniczna +
Średnia geometryczna +
Dominanta (moda) + + +
Kwantyle + +
Miary połoŜenia
Mediana + +
Wariancja +
Odchylenie standardowe +
Odchylenie przeciętne + Miary zroacuteŜnicowania
Rozstęp + +
Miary asymetrii (skośności)
Miernik asymetrii klasyczny +
Miary spłaszczenia Wspoacutełczynnik spłaszczenia +
263 MoŜliwości obliczania charakterystyk liczbowych w arkuszu Excel
Lp Charakterystyki liczbowe Funkcje statystyczne STATYSTYKA OPISOWA
1 Średnia arytmetyczna ŚREDNIA +
2 Mediana MEDIANA
3 Dominanta WYSTNAJCZESCIEJ +
4 Średnia waŜona SUMAILOCZYNOacuteW
5 Średnia ucinana ŚREDNIAWEWN
6 Średnia geometryczna ŚREDNIAGEOMETRYCZNA
7 Średnia harmoniczna ŚREDNIAHARMONICZNA
8 Wariancja WARIANCJA +
9 Odchylenie standardowe ODCHSTANDARDOWE +
10 Kwartle KWARTYL +
11 Wspoacutełczynnik asymetrii SKOŚNOŚĆ +
12 Wspoacutełczynnik spłaszczenia KURTOZA +
11 Działania na rangach nie maja uzasadnienia
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
28
27 Przykłady analizy statystycznej danych
Zakładamy Ŝe cecha X populacji jest mierzalna Aby poznać strukturę tej cechy naleŜy zgromadzić i opracować dane statystyczne Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i graficznej) oraz obliczeniu charakterystyk liczbowych
Podamy przykłady analizy gdy cecha X jest skokowa o umiarkowanej liczbie wariantoacutew (do 25)12 Danych statystycznych jest znacznie więcej niŜ wariantoacutew Z powyŜszych załoŜeń wynika Ŝe niektoacutere warianty cechy muszą się powtarzać
Oznaczenia
X - cecha populacji r - liczba wariantoacutew w1 w2 wr - warianty cechy X n - liczba danych statystycznych ni - liczebność wariantu wi ( ile razy powtarza się wariant wi)
Prezentacja danych statystycznych
bull Tabelaryczna - za pomocą szeregu statystycznego punktowego
Wariant wi Liczebność ni w1 n1 w2 n2 hellip hellip wr nr
Suma n
bull graficzna - wykres szeregu punktowego
Charakterystyki liczbowe
Wzory na średnią arytmetyczną wariancję i wspoacutełczynnik asymetrii przybierają teraz postać
Średnia arytmetyczna Wariancja Wspoacutełczynnik asymetrii
r
i ii=1
1x n w
n= sum
r2 2x i i
i=1
1s n (w x)
n= minussum
( )r
3
i ii=1
k 3x
1n w - x
nas
=sum
Przykład 218
Badano liczbę błędoacutew w kodzie źroacutedłowym 30 programistoacutew (cecha X populacji) Otrzymano następujące wyniki 3 2 1 3 4 5 3 1 0 2 6 3 4 5 3 1 5 3 0 1 2 2 4 3 4 4 3 2 6 5 Opracujemy te dane
Prezentacja tabelaryczna Szereg statystyczny punktowy
Liczba błędoacutew wi 0 1 2 3 4 5 6 Razem
Liczebność ni 2 4 5 8 5 4 2 30
12 JeŜeli cecha ma rozkład skokowy i wariantoacutew jest duŜo lub ma rozkład ciągły dane statystyczne grupujemy w
klasach ktoacuterych liczba zaleŜy od ilości danych Tym przypadkiem nie będziemy się zajmować
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Prezentacja graficzna
Rys 210 Prezentacje graficzne danych
Charakterystyki liczbowe Liczba błędoacutew wi Liczebność ni niwi Liczebność skumulowana13 si 2
i in (w x)minus 0 2 0 2 18 1 4 4 6 16 2 5 10 11 5 3 8 24 19 0 4 5 20 24 5 5 4 20 28 16 6 2 12 30 18
Razem 30 90 78
Charakterystyki tendencji centralnej Charakterystyki zroacuteŜnicowania r
i ii=1
1 90x= n w = =3
n 30sum 2sx = 26
( ) ( ) [ ]e 15 16
1 1m = x +x = 3+3 =3
2 2 - patrz 14 s = 161
d = 3 r0 = 6 ndash 0 = 6 v = 533
Przedział typowych jednostek populacji lt139 461gt Do tego przedziału naleŜą programiści ktoacuterzy popełnili 2 3 lub 4 błędy Jest ich 18
Rozkład cechy jest symetryczny bo x = me= d więc wskaźnik asymetrii a1= 0
Histogram jest symetryczny względem prostej x = 3
13 Suma liczebności danych statystycznych roacutewnych wariantowi wi oraz liczebności wszystkich wariantoacutew lt wi 14 x(15) i x(16) oznaczają piętnasty i szesnasty wynik w ciągu uporządkowanych niemalejąco danych Z czwartej
kolumny tabeli wynika Ŝe x(12) do x(19) są roacutewne 3
Histogram
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
Liczba błędoacutew
Lic
zb
a m
aszyn
iste
k
Wykres kołowy
713
17
26
17
137
0
1
2
3
4
5
6
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
30
Przykład 219
Dane dotyczące działu pewnej firmy informatycznej Przyjęte oznaczenia
Płeć Wykształcenie Specjalność Stanowisko Ocena roczna
1 - kobieta 2 - męŜczyzna
1 ndash średnie 2 ndash studia 1 stopnia 3 ndash studia 2 stopnia 4 ndash studia 3 stopnia
1ndash Tester 2 ndash Grafik 3 ndash Programista 4 ndash Analityk 5 ndash Projektant
1 ndash pracownik 2 ndash kierownik 3 ndash dyrektor
1 ndash niedostateczna 2 ndash dostateczna 3 ndash dobra 4 ndash bardzo dobra 5 ndash wzorowa
Dane
Lp Wiek Płeć Wykształcenie Specjalność StaŜ Stanowisko Zarobki Ocena roczna
1 23 2 1 1 4 1 2000 3 2 25 2 2 1 2 1 2000 2 3 24 2 1 2 1 1 2500 3 4 30 2 3 3 4 1 3000 5 5 26 2 3 3 2 1 3000 4 6 25 1 2 3 3 1 3000 4 7 27 2 3 3 5 1 3000 3 8 31 2 3 3 5 2 4000 5 9 26 1 2 3 3 2 4000 4 10 35 2 3 4 8 1 3000 4 11 37 1 3 4 10 1 3500 4 12 37 1 4 4 7 3 5000 4 13 38 2 3 5 9 1 3500 4 14 39 1 3 5 2 1 3500 3 15 39 2 4 5 5 2 4000 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
Obliczanie w Excelu wariancji oraz skośności i kurtozy
Wiek Wiek-sr (Wiek-sr)2 (Wiek-sr)3 (Wiek-sr)4 Wiek-sr 23 -7800000 60840000 -474552000 3701505600 7800000 25 -5800000 33640000 -195112000 1131649600 5800000 24 -6800000 46240000 -314432000 2138137600 6800000 30 -0800000 0640000 -0512000 0409600 0800000 26 -4800000 23040000 -110592000 530841600 4800000 25 -5800000 33640000 -195112000 1131649600 5800000 27 -3800000 14440000 -54872000 208513600 3800000 31 0200000 0040000 0008000 0001600 0200000 26 -4800000 23040000 -110592000 530841600 4800000 35 4200000 17640000 74088000 311169600 4200000 37 6200000 38440000 238328000 1477633600 6200000 37 6200000 38440000 238328000 1477633600 6200000 38 7200000 51840000 373248000 2687385600 7200000 39 8200000 67240000 551368000 4521217600 8200000 39 8200000 67240000 551368000 4521217600 8200000 Suma 462 0000000 516400000 570960000 24369808000 80800000 36885714 0210058 -1800917051 5386667 Wariancja (n-1) Skosnosc nieobciazona Kurtoza nieobciąŜona Odch przec 6073361037 Odchylenie
Wyniki dotyczące wieku otrzymane funkcjami statystycznymi Excela
Srednia 308 Kurtoza -180092 Mediana 30 Skosnosc 0210058
Minimum 23 Moda 25 Maksimum 39 Percentyl 05 30 Wariancja 3688571 Licznosc 15
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
32
Obliczymy teraz charakterystyki liczbowe korzystając z narzędzia bdquoStatystyka opisowardquo pakietu Analysis ToolPak Dane i wpisane parametry narzędzia podano poniŜej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
Część 1 otrzymanych wynikoacutew
Wiek
Płeć
Wykształcenie
Specjalność
Średnia 308 Średnia 1666666667 Średnia 2666666667 Średnia 3266667
Błąd standardowy 1568135077 Błąd standardowy 0125988158 Błąd standardowy 0232310684 Błąd standardowy 0330464
Mediana 30 Mediana 2 Mediana 3 Mediana 3
Moda 25 Moda 2 Moda 3 Moda 3 Odchylenie standardowe 6073361037
Odchylenie standardowe 0487950036
Odchylenie standardowe 0899735411
Odchylenie standardowe 1279881
Wariancja proacutebki 3688571429 Wariancja proacutebki 0238095238 Wariancja proacutebki 080952381 Wariancja proacutebki 1638095
Kurtoza -1800917051 Kurtoza -1615384615 Kurtoza -0005589566 Kurtoza -035601
Skośność 0210057532 Skośność -0788226982 Skośność -0578350018 Skośność -03393
Zakres 16 Zakres 1 Zakres 3 Zakres 4
Minimum 23 Minimum 1 Minimum 1 Minimum 1
Maksimum 39 Maksimum 2 Maksimum 4 Maksimum 5
Suma 462 Suma 25 Suma 40 Suma 49
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 39 Największy(1) 2 Największy(1) 4 Największy(1) 5
Najmniejszy(1) 23 Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 1
Poziom ufności(950) 3363315227 Poziom ufności(950) 0270217723 Poziom ufności(950) 0498256861 Poziom ufności(950) 0708774
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
STATYSTYKA OPISOWA
34
Część 2 otrzymanych wynikoacutew
StaŜ
Stanowisko
Zarobki
Ocena roczna
Średnia 4666667 Średnia 1333333 Średnia 3266667 Średnia 37333333
Błąd standardowy 0708228 Błąd standardowy 0159364 Błąd standardowy 2062515 Błąd standardowy 02062515
Mediana 4 Mediana 1 Mediana 3000 Mediana 4
Moda 2 Moda 1 Moda 3000 Moda 4 Odchylenie standardowe 2742956
Odchylenie standardowe 0617213
Odchylenie standardowe 7988086
Odchylenie standardowe 07988086
Wariancja proacutebki 752381 Wariancja proacutebki 0380952 Wariancja proacutebki 6380952 Wariancja proacutebki 06380952
Kurtoza -05407 Kurtoza 2625 Kurtoza 039314 Kurtoza 0379646
Skośność 0666485 Skośność 1791551 Skośność 0294102 Skośność -04153717
Zakres 9 Zakres 2 Zakres 3000 Zakres 3
Minimum 1 Minimum 1 Minimum 2000 Minimum 2
Maksimum 10 Maksimum 3 Maksimum 5000 Maksimum 5
Suma 70 Suma 20 Suma 49000 Suma 56
Licznik 15 Licznik 15 Licznik 15 Licznik 15
Największy(1) 10 Największy(1) 3 Największy(1) 5000 Największy(1) 5
Najmniejszy(1) 1 Najmniejszy(1) 1 Najmniejszy(1) 2000 Najmniejszy(1) 2
Poziom ufności(950) 1518999 Poziom ufności(950) 0341801 Poziom ufności(950) 4423655 Poziom ufności(950) 04423655
Dla kaŜdej cechy wyznaczone zostały takie same wyniki nie wszystkie mają sens ndash patrz bdquoMoŜliwość obliczania charakterystyk liczbowych zbiorowościrdquo
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
28 Analiza danych przedstawionych w postaci szeregu rozdzielczego przedziałowego
Cecha populacji X ma rozkład skokowy i wariantoacutew jest duŜo ( gt25) lub ma rozkład ciągły
281 Prezentacja danych statystycznych
Prezentacja tabelaryczna - szereg rozdzielczy przedziałowy Dane statystyczne grupujemy w r klasach
282 Charakterystyki liczbowe
Charakterystyki połoŜenia Charakterystyki rozproszenia
Średnia arytmetyczna r
i ii=1
1x= n x
nsum
gdzie ix - środek klasy o numerze i
Wariancja r
2 2i i
i=1
1s = n (x -x)
nsum
Odchylenie standardowe 2s= s Wspoacutełczynnik zmienności
sv
x=
Mediana e k k-1k
b nm =a + -s
n 2
ak - lewy koniec klasy mediany15 b - długość klasy mediany nk - liczebność klasy mediany sk-1 - liczebność skumulowana klasy poprzedzającej
klasę mediany
Rozstęp o r+1 1r =a -a
Dominanta k k 1k
k k 1 k 1
n nd a b
2n n nminus
minus +
minus= +
minus minus
ak - lewy koniec klasy dominanty b - długość klasy dominanty nk - liczebność klasy dominanty nk-1 - liczebność klasy poprzedzającej klasę dominanty nk+1 - liczebność klasy następującej po klasie dominanty
Przedział typowych jednostek populacji ltx-s x+sgt
Asymetria - wskaźnik asymetrii
1
x-da =
s
Wspoacutełczynnik asymetrii
( )r
3
i ii=1
1 3
1n x -x
na =s
sum
15 tj klasy do ktoacuterej naleŜy mediana
Klasa ltai ai+1)
Liczebność klasy ni
lta1 a2) n1 lta2 a3) n2
ltar ar+1) nr
Suma n
STATYSTYKA OPISOWA
36
Uwagi
1 Stosując powyŜsze wzory obliczamy jedynie w przybliŜeniu wartości charakterystyk opisowych gdyŜ obliczenia nie są wykonywane przy pomocy indywidualnych danych statystycznych
2 Dominanta nie moŜe być obliczona z podanego wzoru gdy najbardziej liczna jest klasa pierwsza lub ostatnia a takŜe w przypadku gdy klasa najliczniejsza nie istnieje
Przykład 220
Badano wysokości kredytoacutew w tysiącach złotych udzielonych przez pewien bank w ciągu lutego 2005 r Otrzymane dane są przedstawione w szeregu rozdzielczym przedziałowym
Wysokość kredytu 0 ndash10 10 ndash 20 20 ndash 30 30 ndash 40 40 ndash 50 50- 60 60 ndash 70 Razem
Liczba kredytoacutew 32 88 73 58 25 16 8 300
Opracujemy te dane
Rozwiązanie
Prezentacja graficzna
Rys 211 Histogram wielkości kredytoacutew
Charakterystyki liczbowe
Nr klasy
i
Klasa
i i+1lta a ) Liczebność
in
Liczebność skumulowana
iS
Środek klasy
ix
i in x
2
i in (x -x)
1 0 - 10 32 32 5 160 1438208 2 10 - 20 88 120 15 1320 1103872 3 20 - 30 73 193 25 1825 10512 4 30 - 40 58 251 35 2030 449152 5 40 - 50 25 276 45 1125 883600 6 50 - 60 16 292 55 880 1327104 7 60 - 70 8 300 65 520 1204352 Suma 300 7860 64168
Histogram
32
88
73
58
25
16
8
0
10
20
30
40
50
60
70
80
90
100
5 15 25 35 45 55 65Wielkość kredytu
Lic
zb
a k
red
ytoacute
w
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
Charakterystyki tendencji centralnej
Średnia arytmetyczna x = 262 tys zł
Mediana me =
minus+ 120
2
300
73
1020 = 2411 tys zł
Dominanta d = 88 32
10 10 17892 88 32 73
minus+ sdot =
sdot minus minus tys zł
Miary zroacuteŜnicowania
Wariancja s2 = 21389 tys zł2 Odchylenie standardowe s = 1463 tys zł
Rozstęp r0 = 70 ndash 0 = 70 tys zł Wspoacutełczynnik zmienności v = 56
Przedział typowych wielkości kredytoacutew lt 116 408gt Wskaźnik asymetrii a1 = 057 (asymetria prawostronna ndash wydłuŜona prawa część wykresu rys poniŜej ndash takŜe rysunek 102)
Rys 212 Wykres liczebności kredytobiorcoacutew dla wyroacuteŜnionych wysokości kredytoacutew
32
88
73
58
2516
80
20
40
60
80
100
0 20 40 60 80
STATYSTYKA OPISOWA
38
3 BADANIE ZALEśNOŚCI CECH POPULACJI
31 Wprowadzenie
Badamy populację ze względu na dwie cechy X i Y czyli ze względu na parę cech (X Y) Przedstawimy metody badania pozwalające stwierdzić czy cechy te są zaleŜne i jak silnie (analiza korelacji) oraz jakim wzorem moŜna przedstawić tę zaleŜność o ile ona istnieje i jest dostatecznie silna (analiza regresji)
Omoacutewimy najpierw stosowne pojęcia
311 Dane statystyczne dwoacutech cech populacji Badamy populację ze względu na parę cech (XY) KaŜdemu elementowi populacji lub proacuteby przyporządkowujemy parę (x y) gdzie x jest wartością cechy X y wartością cechy Y badanego elementu Pary te nazywamy danymi statystycznymi pary (XY) cech populacji
Ograniczymy nasze rozwaŜania do przypadku w ktoacuterym danych statystycznych jest skończenie wiele Ich liczbę oznaczymy n
312 Prezentacja danych statystycznych pary cech populacji
Prezentacji tabelarycznej danych statystycznych pary cech (X Y) dokonujemy za pomocą szeregu statystycznego lub tablicy korelacyjnej natomiast prezentacji graficznej za pomocą wykresu szeregu statystycznego lub wykresu tablicy korelacyjnej
Szereg statystyczny pary cech (X Y) jest to tabela
i xi yi 1 x1 y1 2 x2 y2
hellip hellip hellip n xn yn
w ktoacuterej występują wszystkie dane statystyczne i są uporządkowane wg pewnego kryterium
Tablica korelacyjna pary cech (XY) gdzie X i Y są skokowe o niezbyt duŜej liczbie wariantoacutew (do 20) i jest wiele danych statystycznych to tablica postaci
jv
iw 1 2 sv v v
1w 11n 12n hellip 1sn
2w 21n 22n hellip 2sn
rw r1n r2n hellip rsn
gdzie r - liczba wariantoacutew cechy X
1 2 rw w w - warianty cechy X
s - liczba wariantoacutew cechy Y
1 2 sv v v - warianty cechy Y
ijn - liczba danych statystycznych roacutewnych parze wariantoacutew i j(w v )
Tak więc w boczku tablicy korelacyjnej znajdują się warianty cechy X natomiast w głoacutewce warianty cechy Y zaś w komoacuterkach - liczby danych statystycznych ktoacuterych wartość cechy X
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
jest roacutewna wariantowi znajdującemu się w wierszu komoacuterki oraz wartość cechy Y jest roacutewna wariantowi znajdującemu się w kolumnie komoacuterki
Jeśli cechy X i Y populacji są ciągłe lub skokowe o duŜej liczbie wariantoacutew (powyŜej 20) to warianty tych cech dzielimy na klasy zgodnie z procedurą przedstawioną w punkcie 103 Woacutewczas w boczku i głoacutewce tablicy korelacyjnej umieszcza się klasy poszczegoacutelnych cech Za pomocą szeregu statystycznego moŜna prezentować dane statystyczne niezaleŜnie od ich rodzaju i liczebności danych statystycznych Jednak gdy tych danych jest duŜo (ponad 20) to prezentacja ta nie jest przejrzysta Dlatego dane statystyczne przedstawiamy wtedy w tablicy korelacyjnej
W poniŜszych przykładach pokazujemy konstrukcję szeregoacutew statystycznych i tablic korelacyjnych oraz prezentację graficzną danych statystycznych
Przykład 221
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X- ocena końcowa z matematyki Y - ocena końcowa ze statystyki Otrzymano wyniki (34) (44) (55) (54) (22) (23) (22) (34) (33) (32) (23) (45) (33) (22) (44)
Dokonamy prezentacji tabelarycznej i graficznej otrzymanych danych statystycznych Szereg statystyczny
Porządkując dane niemalejąco ze względu na wartości cechy X i niemalejąco ze względu na wartości cechy Y gdy wartości cechy X są jednakowe otrzymujemy szereg statystyczny
xi 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
yi 2 2 2 3 3 2 3 3 4 4 4 4 5 4 5
Tablica korelacyjna
PoniewaŜ wiele danych jest jednakowych moŜna więc utworzyć tablicę korelacyjną pomimo małej liczby wszystkich danych statystycznych
j
i
v
w 2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
STATYSTYKA OPISOWA
40
Prezentacja graficzna
Wykres szeregu statystycznego
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Oceny z matematyki
Oc
en
y z
e s
taty
sty
ki
Rys 213 Wykres szeregu statystycznego dla danych z przykładu 221
2 3 4 5
2
40
1
2
3
Liczebność
Oceny z matematyki
Oceny ze
statystyki
Wykres tabeli korelacyjnej
Rys 214 Wykres tablicy korelacyjnej dla danych z przykładu 221
Przykład 222
Populację 30 testeroacutew oprogramowania ktoacutere w ciągu czasu T sprawdzali poprawność postaci źroacutedłowej oprogramowania badano ze względu na parę cech (XY) X ndash liczba niewykrytych błędoacutew w sprawdzanym programie Y ndash liczba sprawdzonych linii kodu Otrzymane wyniki przedstawione są w poniŜszym szeregu statystycznym
xi 2 2 5 0 0 1 0 4 4 0 1 2 3 1 3
iy 2240 2350 2350 2357 2400 2411 2412 2420 2450 2451 2480 2483 2520 2550 2588
xi 6 3 0 1 7 8 1 3 6 3 3 4 6 8 5
iy 2590 2600 2630 2630 2654 2670 2680 2702 2706 2710 2750 2780 2790 2800 2839
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Przedstawimy te dane w tablicy korelacyjnej W tym celu najpierw podzielimy warianty cechy Y na 6 klas
Wykres szeregu statystycznego
2200
2300
2400
2500
2600
2700
2800
2900
0 1 2 3 4 5 6 7 8 9
Liczba błędoacutew
Lic
zb
a lin
ii k
od
u
Rys 215 Wykres szeregu dla danych z przykładu 1212
Cecha Y
Liczba klas r = 6
Najmniejsza wartość miny = 2240
Największa wartość maxy = 2839
Rozstęp o max minr y y= minus = 599
Dokładność danych α = 1
Długość klasy ob r r 100= asymp 16
Lewy koniec 1 klasy 1 mina y 2 22395= + α =
Prawy koniec 1 klasy 2 1a a b 23395= + =
Końce pozostałych klas otrzymujemy dodając kolejno do końcoacutew 1a i 2a pierwszej klasy długość przedziału b
Bj Ωi
2239523395 2339524395 2439525395 2539526395 2639527395 2739528395
0 1 3 1 1 1 1 1 1 2 2 1 1 2 3 1 2 1 4 1 1 1 5 1 1 6 1 1 1 7 1 8 1 1
16 Do wyniku dzielenia dodano dokładność danych czyli 50 (uogoacutelniona zasada zaokrąglania w goacuterę) powoduje to Ŝe wszystkie dane zmieszczą się w wyznaczonych klasach
STATYSTYKA OPISOWA
42
32 ZaleŜność cech populacji
Jak juŜ było powiedziane jednym z głoacutewnych zadań statystyki przy badaniu populacji ze względu na parę cech jest wypracowanie metod badania pozwalających stwierdzić czy cechy te są zaleŜne Wymaga to jednak ścisłego określenia tego pojęcia Okazuje się Ŝe pojęcie zaleŜności cech moŜe być rozumiane rozmaicie
321 ZaleŜność funkcyjna cech populacji
Moacutewimy Ŝe cechy X i Y są zaleŜne funkcyjne jeśli istnieje taka funkcja f Ŝe
Y = f(X) lub X = f(Y)
czyli wszystkie dane statystyczne naleŜą do wykresu tej funkcji
ZaleŜność funkcyjna ma duŜe znaczenie zaroacutewno teoretyczne jak roacutewnieŜ praktyczne pozwala bowiem wyznaczyć szereg rozdzielczy jednej cechy na podstawie szeregu rozdzielczego drugiej cechy obliczyć charakterystyki liczbowej jednej cechy na podstawie charakterystyk drugiej cechy a takŜe co jest szczegoacutelnie waŜne wyznaczyć wartość jednej cechy gdy znana jest wartość drugiej cechy Jednak w zagadnieniach praktycznych zaleŜność funkcyjna występuje niezmiernie rzadko Dlatego istnieje potrzeba wprowadzenia ogoacutelniejszych definicji zaleŜności cech populacji i ustalenia zasad kiedy taka zaleŜność moŜe być przybliŜana z małym błędem zaleŜnością funkcyjną
322 ZaleŜność stochastyczna (statystyczna) cech populacji
RozwaŜmy szeregi rozdzielcze warunkowe cechy postaci XY= jv dla wszystkich
wariantoacutew jv Jeśli w kaŜdym z tych szeregoacutew dowolny wariant iw cechy X występuje z
jednakową częstością to cechę X nazywamy cechą stochastycznie niezaleŜną od cechy Y
Analogicznie definiuje się niezaleŜność stochastyczną cechy Y od cechy X Moacutewimy Ŝe cechy X i Y są niezaleŜne stochastycznie jeśli cecha X nie zaleŜy stochastycznie od cechy Y i Y nie zaleŜy w tym sensie od X
NiezaleŜność stochastyczna bywa nazywana takŜe niezaleŜnością statystyczną NiezaleŜność stochastyczna cech X i Y oznacza Ŝe przyjęcie przez jedną cechę dowolnej wartości nie ma wpływu na wielkość częstości z ktoacuterą przyjmowane są wartości przez drugą cechę
Cechy X i Y są zaleŜne stochastycznie jeśli przynajmniej w dwoacutech szeregach warunkowych nie wszystkie warianty mają jednakową częstość ZaleŜność stochastyczna oznacza więc Ŝe fakt przyjęcia przez jedną cechę pewnej wartości moŜe mieć wpływ na częstości przyjmowania wartości przez drugą cechę
323 ZaleŜność korelacyjna cech populacji Cecha X populacji jest niezaleŜna korelacyjnie od cechy Y jeśli warunkowa wartość oczekiwana cechy XY=vj jest dla dowolnego wariantu vj cechy Y taka sama czyli gdy
1x(v ) = 2x(v ) = hellip = sx(v )
Analogicznie definiuje się niezaleŜność korelacyjną cechy Y od cechy X Jeśli cechy X i Y oraz Y i X są niezaleŜne w powyŜszym sensie to moacutewimy Ŝe są one niezaleŜne korelacyjnie
Cechy są zaleŜne korelacyjnie jeśli przynajmniej w dwoacutech szeregach warunkowych średnie warunkowe są roacuteŜne
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Przykład 223
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ndash patrz przykład 221 Przedstawiono w tym przykładzie tablicę korelacyjną
vj wi
2 3 4 5
2 3 2 3 1 2 2 4 2 1 5 1 1
a) Wyznaczymy szeregi brzegowe b) Wyznaczymy szeregi warunkowe XY=vj
c) Wyznaczymy szeregi warunkowe YX=wi d) Obliczymy warunkowe średnie e) Stwierdzimy w jakim sensie cechy X i Y są zaleŜne
Rozwiązanie
a) Szeregi brzegowe
Szereg brzegowy cechy X Struktura ocen z matematyki
Szereg brzegowy cechy Y Struktura ocen ze statystyki
Oceny z matematyki
iw
Liczebności ocen
in bull Oceny ze
statystyki
jv
Liczebności ocen
jnbull
2 5 2 4 3 5 3 4 4 3 4 5 5 2 5 2
Suma 15 Suma 15
b) Szeregi warunkowe XY=vj
Szereg warunkowy XY=2 Struktura ocen z matematyki studentoacutew mających ocenę 2
ze statystyki
Szereg warunkowy XY=3 Struktura ocen z matematyki studentoacutew mających ocenę 3
ze statystyki Ocena z
matematyki
iw
Liczebność
i1n
Ocena z matematyki
iw
Liczebność
i2n
2 3 2 2 3 1 3 2
Suma 4 Suma 4
STATYSTYKA OPISOWA
44
Szereg warunkowy XY=4
Struktura ocen z matematyki studentoacutew mających ocenę 4
ze statystyki
Szereg warunkowy XY=5 Struktura ocen z matematyki studentoacutew mających ocenę 5
ze statystyki Ocena z
matematyki
iw
Liczebność
i3n
Ocena z matematyki
iw
Liczebność
i4n
3 2 4 1 4 2 5 1 5 1 Suma 2
Suma 5
c) Szeregi warunkowe YX=wi
Szereg warunkowy YX=2 Struktura ocen ze statystyki studentoacutew mających ocenę 2
z matematyki
Szereg warunkowy YX=3 Struktura ocen ze statystyki studentoacutew mających ocenę 3
z matematyki Ocena ze statystyki
vj
Liczebność
1jn
Ocena ze statystyki
vj
Liczebność
2 jn
2 3 2 1 3 2 3 2
Suma 5 4 2 Suma 5
Szereg warunkowy YX=4 Struktura ocen ze statystyki studentoacutew mających ocenę 4
z matematyki
Szereg warunkowy YX=5 Struktura ocen ze statystyki studentoacutew mających ocenę 5
z matematyki Ocena ze statystyki
vj Liczebność
3jn
Częstość Wariantu
vj
3j jn nbull
Ocena ze statystyki
vj Liczebność
4 jn
Częstość Wariantu
vj
4 j jn nbull
4 2 23=067 4 1 12=05 5 1 13=033 5 1 12=05
Suma 3 1 Suma 2 1
Ostatnie dwie tabele rozszerzono o kolumnę częstości warunkowych wariantoacutew Widzimy Ŝe częstość otrzymania oceny 4 ze statystyki gdy student z matematyki otrzymał takŜe 4 nie jest roacutewna częstości otrzymania tej oceny ze statystyki gdy z matematyki otrzymał 5 Oznacza to Ŝe ocena ze statystyki zaleŜy stochastycznie od otrzymanej oceny z matematyki Zatem cechy X i Y są zaleŜne stochastycznie
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
d) Warunkowe średnie
Warunkowe średnie obliczymy na podstawie powyŜszych szeregoacutew warunkowych Warunkowe średnie cech XY= jv
j jx(v ) średnia warunkowa cechy X Y v= =
2 3 3 1x(2) 225
4
sdot + sdot= =
2 2 3 2x(3) 25
4
sdot + sdot= =
3 2 4 2 5 1x(4) 38
5
sdot + sdot + sdot= =
4 1 5 1x(5) 45
2
sdot + sdot= =
Warunkowe wartości oczekiwane cechy YX=wi
i iy(w ) średnia warunkowa cech Y X w= =
2 3 3 2y(2) 24
5
sdot + sdot= =
2 1 3 2 4 2y(3) 32
5
sdot + sdot + sdot= =
4 2 5 1y(4) 43
3
sdot + sdot= =
4 1 5 1y(5) 45
2
sdot + sdot= =
e) ZaleŜność cech
Cechy X i Y są zaleŜne stochastycznie co zostało wykazane w punkcie a)
Cechy X i Y są zaleŜne korelacyjnie gdyŜ warunkowe średnie cech postaci XY=vj nie są sobie roacutewne
Cechy X i Y nie są zaleŜne funkcyjnie (patrz tablica korelacyjna w przykładzie 1212 i rysunek 211)
33 Charakterystyki liczbowe dwoacutech cech
331 Charakterystyki liczbowe dwoacutech cech gdy dane przedstawione są w szeregu
statystycznym Badamy populację ze względu na parę cech (XY)
Zakładamy Ŝe dane statystyczne przedstawione są w szeregu statystycznym
xi x1 x2 hellip xn
yi y1 y2 hellip yn
Przedstawimy najwaŜniejsze charakterystyki liczbowe tych cech
Nazwa charakterystyki Określenie charakterystyki Nr
Średnia cechy X i średnia cechy Y
n ni i
i 1 i 1
1 1x x y y
n n= =
= =sum sum (231)
Moment rzędu 2 cechy X i cechy Y n n2 2 2 2
i ii 1 i 1
1 1x x y y
n n= =
= =sum sum (232)
Wariancja cechy X i wariancja cechy Y n n2 2 2 2
x i y ii 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (233)
STATYSTYKA OPISOWA
46
Związki między charakterystykami
2 2 2xs x (x)= minus 2 2 2
ys y (y)= minus (238)
xycov xy x y= minus sdot (239)
2 2 2 2
xy x yr
x (x) y (y)
minus sdot=
minus minus
(2310)
n n ni i i i
i 1 i 1 i 1
2 2n n n n2 2i i i i
i 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minussum sum sum =
minus minussum sum sum sum
(2311)
Nowymi charakterystykami są te ktoacutere dotyczą obu cech łącznie NajwaŜniejsza z nich to wspoacutełczynnik korelacji Omoacutewimy jego własności
332 Własności wspoacutełczynnika korelacji 1 Wspoacutełczynnik korelacji r cech X i Y jest liczbą z przedziału domkniętego lt-1 1gt
1 r 1minus le le
2 Wspoacutełczynnik korelacji r jest roacutewny 1 lub -1 wtedy i tylko wtedy gdy cechy X i Y są zaleŜne liniowo tzn gdy istnieją liczby a i b takie Ŝe Y = aX + b przy czym jeśli r = 1 to agt0 (zaleŜność jest liniowa rosnąca) jeśli r = -1 to alt0 (zaleŜność jest liniowa malejąca)
3 Jeśli cechy X i Y są niezaleŜne stochastycznie to wspoacutełczynnik korelacji jest roacutewny 0
Uwaga Twierdzenie odwrotne do własności 3 nie jest prawdziwe bowiem z faktu iŜ r = 0 nie wynika Ŝe cechy X i Y są niezaleŜne stochastycznie
333 Interpretacja wspoacutełczynnika korelacji
Wspoacutełczynnik korelacji r cech X i Y jest miarą siły zaleŜności liniowej tych cech Im wartość bezwzględna r jest bliŜsza 1 tym zaleŜność stochastyczna mniej roacuteŜni się od zaleŜności liniowej przy czym dla rgt0 upodabnia się do zaleŜności liniowej rosnącej natomiast dla rlt0 do zaleŜności malejącej Dla |r| =1 staje się zaleŜnością liniową
Odchylenie standardowe cechy X i cechy Y
n n2 2x i Y i
i 1 i 1
1 1s (x x) s (y y)
n n= =
= minus = minussum sum (234)
Średnia iloczynu cech X i Y n
i ii 1
1xy x y
n =
= sum (235)
Kowariancja cech X i Y n
xy i ii 1
1cov (x x)(y y)
n =
= minus minussum (236)
Wspoacutełczynnik korelacji cech X i Y xy
x y
covr
s s= (237)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Nazwy cech w zaleŜności od wielkości wspoacutełczynnika korelacji r
Wielkość wspoacutełczynnika korelacji r Nazwa cech
r ne 0 Cechy skorelowane
r =0 Cechy nieskorelowane
r gt 0 Cechy skorelowane dodatnio
r lt 0 Cechy skorelowane ujemnie
Niektoacuterzy praktycy przyjmują następującą zasadę określania siły korelacji (liniowej) cech populacji za pomocą wspoacutełczynnika korelacji r tych cech
Wielkość wspoacutełczynnika korelacji r Siła korelacji cech
0 r 03lt lt Cechy skorelowane słabo
03 r 05le lt Cechy skorelowane średnio
05 r 07le lt Cechy skorelowane mocno
r 07ge Cechy skorelowane bardzo mocno
Przykład 224
W 15 osobowej grupie studentoacutew przeprowadzono badanie ze względu na parę cech (X Y) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221) Otrzymane wyniki przedstawione są w szeregu statystycznym
Zbadamy siłę związku liniowego obu cech obliczając wspoacutełczynnik korelacji tych cech
ix jy 2ix 2
iy i jx y
2 2 4 4 4 2 2 4 4 4 2 2 4 4 4 2 3 4 9 6 2 3 4 9 6 3 2 9 4 6 3 3 9 9 9 3 3 9 9 9 3 4 9 16 12 3 4 9 16 12 4 4 16 16 16 4 4 16 16 16 4 5 16 25 20 5 4 25 16 20 5 5 25 25 25
Suma 47 50 163 182 169
STATYSTYKA OPISOWA
48
Korzystamy ze wzoru (211) n n n
i i i ii 1 i 1 i 1
2 2n n n n2 2
i i i ii 1 i 1 i 1 i 1
n x y x y
r
n x x n y y
= = =
= = = =
minus =
minus minus
sum sum sum
sum sum sum sum
= 79050182154716315
50471691522
=
minussdotminussdot
sdotminussdot
Wspoacutełczynniki korelacji moŜna wprost obliczyć z wykorzystaniem arkusza Excel na dwa sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z
bull Funkcji statystycznej WSP KORELACJI
bull Narzędzia analizy z bdquoKorelacjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak arkusza Excel
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
Wnioski Cechy nie są zaleŜne liniowo bo r 1ne są bardzo silnie skorelowane dodatnio bo
rgt0 i |r| gt07 Zatem moŜna z niewielkim błędem aproksymować powyŜszą zaleŜność zaleŜnością liniową
334 Wspoacutełczynnik korelacji Spearmana
Przy podstawieniu we wzorze na wspoacutełczynnik korelacji ( ) zamiast wynikoacutew ix oraz iy ich
rangi ic oraz id przy czym ic 1 nisin id 1 nisin otrzymuje się tzw wspoacutełczynnik
korelacji Spearmana17
n2
i ii 1
S 2
6 (c d )r 1
n(n 1)=
minus
= minusminus
sum
Kluczowym elementem wzoru na wspoacutełczynnik korelacji Spearmana jest suma kwadratoacutew
roacuteŜnic pomiędzy rangami S=n
2i i
i 1(c d )
=
minussum ge0 Przy jej wykorzystaniu otrzymujemy wzoacuter
S 2 2
6S 6Sr 1 1 cS gdzie c 0
n(n 1) n(n 1)= minus = minus = gt
minus minus
bull ZaleŜność wspoacutełczynnika korelacji rS od sumy S jest liniowa przy czym wartość wspoacutełczynnika korelacji maleje ze wzrostem wartości tej sumy
bull Wspoacutełczynnik korelacji przyjmuje wartość maksymalną jeŜeli S=0 wartość ta jest roacutewna jeden Sytuacja ta występuje wtedy jeŜeli rangi są parami roacutewne W tym przypadku uporządkowanie wynikoacutew obu proacuteb jest takie samo
bull Kiedy uporządkowania elementoacutew pierwszej proacuteby jest odwrotne do uporządkowania elementoacutew drugiej proacuteby wspoacutełczynnik korelacji jest roacutewny -1
17 Patrz punkt 194 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
50
Rys 216 Zalezność wspoacutełczynnika korelacji Spearmana od sumy S
Przykład 215a
Wyznaczymy wspoacutełczynnik korelacji Spearmana dla danych z przykładu 215
Do rangowania dwukrotnie wykorzystamy narzędzie analizy bdquoRanga i percentylrdquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
Wykorzystując obliczone rangi obliczamy wartość wspoacutełczynnika co przedstawiono poniŜej
n(n2-1)6
0
1
-1
S
rS
n(n2-1)3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
34 Regresja
341 Pojęcie regresji I rodzaju Dotychczas zajmowaliśmy się przedstawianiem metod badania istnienia i siły zaleŜności cech populacji Teraz podamy metody aproksymacji zaleŜności cech zaleŜnością funkcyjną i oceną dokładności tej aproksymacji
Wydaje się Ŝe naturalne jest przedstawić cechę Y jako funkcję cechy X przyporządkowując kaŜdemu wariantowi iw cechy X średnią warunkową iy(w ) MoŜna udowodnić Ŝe
postępowanie to jest optymalne ( pod pewnym względem)
Regresją I rodzaju cechy Y względem cechy X nazywamy przyporządkowanie kaŜdemu wariantowi wi cechy X warunkowej średniej cechy YX= wi Oznaczamy ją symbolem
Y Y X w= =
Krzywa regresji I rodzaju cechy Y względem cechy X jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
i i(w y(w )) dla i = 1 2 hellip q
wi wariant cechy X iy(w ) - średnia warunkowa cechy YX= wi
Regresją I rodzaju cechy X względem cechy Y nazywamy przyporządkowanie kaŜdemu wariantowi vj cechy Y warunkowej wartości oczekiwanej cechy XY=vj Oznaczamy ją
symbolem X X Y v= =
Krzywa regresji I rodzaju cechy X względem cechy Y jest to wykres tej regresji czyli zbioacuter wszystkich punktoacutew płaszczyzny postaci
j j(x(v ) v ) dla j = 1 2 hellip s
vj wariant cechy Y jx(v ) - średnia warunkowa cechy XY= vj
STATYSTYKA OPISOWA
52
342 Pojęcie regresji II rodzaju
Regresję I rodzaju cechy Y względem cechy X wybiera się zgodnie z zasadą najmniejszych kwadratoacutew ze zbioru wszystkich funkcji Jednak posługiwanie się tą regresją jest niewygodne gdyŜ nie moŜna na ogoacuteł przedstawić jej wzorem zaleŜnym od parametroacutew co utrudnia przewidywanie wartości cechy Y dla ustalonej wartości cechy X (dla ktoacuterej regresja nie jest określona) Dlatego bardzo często ograniczamy wyboacuter funkcji do pewnej klasy K
Niech K będzie klasą funkcji określonych wspoacutelnym wzorem zaleŜnym od parametroacutew
Regresją II rodzaju cechy Y względem X w klasie K nazywamy funkcję Y h(X)= gdzie funkcja h jest wybrana zgodnie z zasadą najmniejszych kwadratoacutew spośroacuted funkcji naleŜących do klasy K
343 Liniowa regresja II rodzaju
Liniowa regresja II rodzaju cechy Y względem cechy X jest to regresja II rodzaju cechy Y względem X w klasie K wszystkich funkcji liniowych postaci y ax b= +
Miarą aproksymacji jest wzoacuter
n 2
i ii 1
f (a b) (y ax b)=
= minus minussum
Zgodnie z zasadą najmniejszych kwadratoacutew naleŜy wyznaczyć punkt y y(a b ) w ktoacuterym
funkcja f ma wartość najmniejszą MoŜna wykazać18 Ŝe funkcja f ma wartość najmniejszą w punkcie y y(a b ) gdzie
n n ni i i i
yi 1 i 1 i 1y 2n n x2
i ii 1 i 1
y y
n x y x ys
a rs
n x x
b y a x
= = =
= =
minussum sum sum = =
minussum sum
= minus
(1240)
Zatem
y yY a X b= + - regresja II rodzaju liniowa cechy Y względem cechy X
y yy a x b= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X
yy y
x
sa r b y ax
s= = minus - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
Interpretacja wspoacutełczynnikoacutew regresji
ya minus średnia zmiana cechy Y gdy cecha X wzrosła o jednostkę
yb minus rzędna punktu przecięcia prostej regresji y yy a x b= + z osią Ox
Analogicznie definiujemy regresję II rodzaju liniową cechy X względem cechy Y
x xX a Y b= + - regresja II rodzaju liniowa cechy X względem cechy Y
x xx a y b= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
x xa b - wspoacutełczynniki regresji liniowej II rodzaju cechy Y względem cechy X
18 Patrz punkt 195 części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
gdzie n n n
i i i ii 1 i 1 i 1 x
x 2n n y2i i
i 1 i 1
x x
n x y x ys
a rs
n y y
b x a y
= = =
= =
minussum sum sum = =
minussum sum
= minus
Funkcję regresji charakteryzują następujące własności19
bull Suma roacuteŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji
jest roacutewna zeru n
i ii 1
ˆK (y y ) 0=
= minus =sum
bull Suma odchyleń dodatnich od funkcji regresji jest roacutewna sumie odchyleń ujemnych
i i i i
i i i iˆ ˆy y y y
ˆ ˆ(y y ) (y y )gt lt
minus = minussum sum
Przykład 225
W 15 osobowej grupie studentoacutew informatyki przeprowadzono badanie ze względu na parę cech (XY) X - ocena końcowa z matematyki Y - ocena końcowa ze statystyki ( patrz przykład 221)
W przykładzie 215 obliczyliśmy Ŝe 15 15 15 15 152 2
i i i i i ii 1 i 1 i 1 i 1 i 1
x 47 y 50 x 163 y 182 x y 169= = = = =
= = = = =sum sum sum sum sum
więc n n n
i i i ii 1 i 1 i 1
y 2 2n n2i i
i 1 i 1
y y
n x y x y15 169 47 50
a 07815 163 47
n x x
50 47b y a x 078 088
15 15
= = =
= =
minussum sum sum
sdot minus sdot = = =sdot minus
minussum sum
= minus = minus sdot =
y ya 078 b 088= = - wspoacutełczynniki regresji II rodzaju liniowej cechy Y względem cechy X
Y 078X 088= + - regresja II rodzaju liniowa cechy Y względem cechy X y 078x 088= + - roacutewnanie prostej regresji II rodzaju cechy Y względem cechy X MoŜna obliczyć Ŝe x 080y 045= + - roacutewnanie prostej regresji II rodzaju cechy X względem cechy Y
Wspoacutełczynniki regresji moŜna obliczyć z wykorzystaniem arkusza Excel na cztery sposoby (dane i wynik podane są w arkuszu 5 pliku Przykłady ) korzystając z bull Obliczając na podstawie danych poszczegoacutelne elementy wzoru na wspoacutełczynnik korelacji
takie jakie obliczono w przykładzie hellipi na ich podstawie obliczyć wspoacutełczynnik korelacji bull Kreatora wykresu
1 Wybiera się typ wykresu XY punktowy 2 Wybiera się myszą jeden z punktoacutew wykresu naciska prawy przycisk myszy wybiera
z menu opcję Dodaj linie trendu i wybiera Trend liniowy
19 Patrz punkt 196 części VII Wybrane twierdzenia z dowodami
STATYSTYKA OPISOWA
54
3 Wskazuje się myszą linię trendu wybiera opcję Formatuj linię trendu i zaznacza Wyświetl roacutewnanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie NaleŜy wyjaśnić Ŝe R jest wspoacutełczynnikiem korelacji pomiędzy analizowanymi wartościami Y a wartościami Y obliczonymi z roacutewnania regresji na podstawie wartości X ndash podano je w arkuszu 5 pliku Przykłady Pod wartościami Y podano obliczona wartość R i jego kwadrat
bull Funkcji statystycznej REGLINP W tym celu naleŜy
1 Wyselekcjonować obszar na wyniki 1 wiersz i 2 kolumny poniewaŜ chcemy otrzymać tylko wartości wspoacutełczynnikoacutew regresji
2 Wpisać do tego obszaru nazwę funkcji z zakresem danych ndash w naszym przypadku =REGLINP(B1B15A1A1511)
3 Roacutewnocześnie nacisnąć przyciski CTRL+SHIFT+ENTER
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
bull Narzędzia analizy z bdquoRegresjardquo z pakietu bdquoAnaliza danychrdquo - Analysis ToolPak
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
W otrzymywanych wynikach zacieniowane te ktoacutere otrzymano na wykresie pozostałe zostaną omoacutewione w ramach analizy statystycznej
top related