„statystyka w analizie i planowaniu eksperymentu”jkpiechota.pl/pdfstat/cw1-html.pdf · 12....

Post on 27-Feb-2019

216 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Wprowadzenie

Prowadzący zajęcia: dr Janusz PiechotaZakład Biofizyki

Kierownik zajęć: dr Paweł BłażejZakład Genomiki

Na zajęciach przydają się:

dobre chęci, myślenie, zdrowy rozsądek, kalkulatory, tablice statystyczne.

„Statystyka w analizie i planowaniu eksperymentu”

Program zajęć

1. Kryteria oceny metod analitycznych. 1.1. Rzetelność metody 1.2. Dokładność metody1.3. Powtarzalność metody

2. Ocena błędów popełnianych podczas pomiarów.2.1. Rodzaje popełnianych błędów:2.1.1. błędy przypadkowe (losowe)2.1.2. błędy systematyczne2.1.3. błędy grube2.2. Błąd pomiaru (błąd bezwzględny), błąd względny, błąd procentowy.2.3. Ocena rzetelności pojedynczego wyniku z próby2.4. Test Q Dixona2.5. Test Grubbsa

Program zajęć

3. Pomiary w biologii i graficzne przedstawienie danych.3.1. Rodzaje skal:3.1.1. nominalna3.1.2. porządkowa3.1.3. interwałowa3.2. Procenty, stosunki, proporcje3.3. Dokładność pomiarów i zaokrąglanie liczb3.4. Kodowanie danych3.5. Graficzne przedstawienie danych3.5.1. ogiwa3.5.2. wielobok liczebności3.5.3. histogramy itp.

Program zajęć

4. Miary tendencji centralnej4.1. Średnie:4.1.1. arytmetyczna4.1.2. ważona4.1.3. geometryczna4.1.4. harmoniczna4.2. Mediana4.3. Moda

5. Miary zmienności. Idea graficznego przedstawiania zmienności.5.1. zakres5.2. odchylenie standardowe5.3. wariancja5.4. odchylenie standardowe średnie arytmetycznej5.5. współczynnik zmienności (wskaźnik Pearsona)

Program zajęć

6. Kurtoza

7. Skośność

8. Wiarygodność wyników pomiarowych: rozkład normalny.8.1. standaryzacja pomiarów8.2 skala Z8.3. skala centylowa8.4. przedział normy8.5. przedział krytyczny

9. Rozkład t. Zastosowanie testu t-Studenta.9.1. poziom istotności9.2. poziom ufności9.3. ocena istotności różnic dwóch wartości średnich (test t dla grup zależnych, test t dla grup niezależnych, test t dla jednej próby)9.4. istotność współczynnika korelacji liniowej9.5. test C – Cochrana-Coxa

Program zajęć

10. Rozkład F. Podstawy analizy wariancji.10.1. porównanie jednorodności wariancji dwóch szeregów statystycznych10.2. test F

11. Współzależność zmiennych – korelacja Pearsonowska.11.1. korelacja, współczynnik korelacji, współczynnik determinacji11.2. regresja liniowa, współczynnik regresji11.3. odchylenie standardowe resztkowe zmiennej zależnej

12. Analiza frekwencji.12.1. test istotności różnicy frakcji12.2. test zgodności (test χ2)

12. Analiza frekwencji.12.1. test istotności różnicy frakcji12.2. test zgodności (test χ2)

Literatura:

A. Zgirski, R. Gondko, „Obliczenia biochemiczne”;

A. Łomnicki, „Wprowadzenie do statystyki dla przyrodników”;

K. Doerffel, „Statystyka dla biochemików”;

R. Gondko, A. Zgirski, M. Adamska, „Biostatystyka w zadaniach”.

Statystyka

Statystyka dzieli się na statystykę opisową oraz statystykę matematyczną (wnioskowanie statystyczne).

Statystyka opisowa – umożliwia opis, uporządkowanie, zestawienie danych liczbowych i ich reprezentację w postaci szeregów, tabel i wykresów.

Statystyka matematyczna - zbiór recept do opracowania danych doświadczalnych. Również pewien sposób myślenia w których oceniamy wpływ czynników losowych. Statystyka matematyczna dostarcza narzędzi do odpowiedniego zaplanowania, analizy i interpretacji wszelkiego rodzaju eksperymentów empirycznych.

Populacja

Przedmiotem badań statystycznych jest zbiorowość statystyczna określana mianem populacji.

Populacja może być: ● skończona – zbiorowość o ustalonej lub możliwej do ustalenia

liczbie elementów.● nieskończona – zbiór elementów zbiorowości jest

nieograniczony lub niemożliwy do ustalenia.

Badania obejmujące całą populację (wszystkie jej jednostki) są badaniami kompletnymi. Badania, które obejmują tylko część populacji zwanej próbą są badaniami częściowymi. Aby badania częściowe były wiarygodne próba musi być losowa (tzn. każdy element populacji będzie miał takie samo prawdopodobieństwo dostania się do próby) i reprezentatywna (tzn. tj. jej struktura musi być jak najbardziej zbliżona do struktury całej zbiorowości statystycznej).

Przykład:Sondaż przedwyborczy poparcia dwóch kandydatów na prezydenta wskazywał, że kandydat X cieszy się poparciem 54%, zaś kandydata Y popiera 46% respondentów. Badania przeprowadzono na próbie 1000 osób w badaniu telefonicznym przeprowadzonym w dniu .... w godzinach 8-15. Dopuszczalny błąd badania wynosi 3%.

Kilka dni później w wyborach kandydat X dostaje 46%, zaś kandydat Y 54% poparcia. Dlaczego? Czy potrafisz wskazać możliwe źródła błędów w przeprowadzonym sondażu?

Przykład:Dwóch studentów dostało tackę z 40 roślinami. Każdy z nich miał wybrać 10 roślin, zważyć je i policzyć średnią masę rośliny. Wyniki uzyskane przez każdego ze studentów znacząco się od siebie różniły. Dlaczego?

Student 1 Student 2

Jak należałoby postąpić w sposób prawidłowy?

Przykład prawidłowego rozwiązania

Przykład:Testowano dwie odmiany pszenicy pod względem plonowania. W tym celu określony areał podzielono na dwa poletka, na których wysiano testowane odmiany. Plon zebrany z odmiany 2 był prawie dwukrotnie wyższy od plonu uzyskanego z odmiany 1. Czy uzyskany wynik jest wiarygodny?

LAS

JEZI

OR

O

Odm

iana

1

Odm

iana

2

Czy taki układ jest lepszy?

LAS

JEZI

OR

O

Odmiana 1

Odmiana 2

A taki?

LAS

JEZI

OR

O

Odmiana 1

Odmiana 1

Odmiana 2

Odmiana 2

Statystyka matematyczna:

Dyscyplina dostarczająca informacji niezbędnych do:● planowania doświadczeń;● sposobu zbierania danych;● sposobu analizy uzyskanych danych liczbowych;● sposobu wnioskowania na podstawie danych liczbowych.

Zadaniem wnioskowania statystycznego jest:● estymacja nieznanych parametrów np. średniej badanej wartości

w danej populacji;● testowanie istotności hipotez;● wysnuwanie właściwych wniosków z obserwacji poczynionych

na próbie i przenoszenie ich na badane populacje.

CECHY

1) Mierzalne (skalarne, ciągłe) – wyrażone w liczbach rzeczywistych, mogące przyjąć dowolną wartość, np. Wzrost, masa ciała, stężenie związku itp.

2) Policzalne (skokowe, dyskretne) – wyrażone w liczbach naturalnych, przyjmujące tylko określone wartości, np. liczba dzieci w rodzinie.

3) Niemierzalne (jakościowe) – zaliczane do wcześniej ustalonych kategorii, np. kolor oczu.

SKALA INTERWAŁOWA

W tej skali zmienność jest ciągła.

Przykłady:1) Pomierzono długości nóg 10-ciu wróbli. Pomiar wykonano z dokładnością do 0,1 cm: 2,8; 2,8; 3,0; 3,2; 3,6; 3,6; 4,0; 4,5; 5,1; 5,4. Zakres 2,8 – 5,4.

2) Oznaczono zawartość chlorofilu w 7-miu preparatach chloroplastów wyizolowanych z 1 g liści groszku hodowanego w warunkach hydroponicznych. (Każdy 1 g liści pochodził z odrębnej rośliny). Pomiar wykonano z dokładnością do 0,001 mg: 0,132; 0,140; 0,195; 0,195; 0,280; 0,353; 0,378. Zakres 0,132 – 0,378.

3) Badano wpływ metali ciężkich na rozwój roślin. W pewnym doświadczeniu analizowano zawartość białka w 5-ciu preparatach mitochondriów izolowanych z 1 g liści roślin uprawianych na pożywce zawierającej metale ciężkie oraz w 6-ciu preparatach mitochondriów izolowanych z 1 g liści kontrolnych. Pomiar wykonano z dokładnością do 0,001 mg. Grupa badana: 0,440; 0,476; 0,485; 0,604; 0,505 (zakres: 0,440 – 0,505). Grupa kontrolna: 0,485; 0,485: 0,516; 0,520; 0,522 (zakres: 0,485 - 0,522).

Skalę interwałową można zamienić na skalę porządkową, zaś skalę porządkową na skalę nominalną. Nie można tego uczynić w drugą stronę.

SKALA PORZĄDKOWA

W tej skali nadajemy poszczególnym obiektom badanym rangi.

SKALA NOMINALNA

W tej skali przydzielamy poszczególne obiekty do określonych kategorii.

Szeregi

Szereg prosty (statystyczny): rosnący lub malejący – uzyskuje się porządkując uzyskane wyniki rosnąco lub malejąco.

Przy dużej liczbie pomiarów dane grupuje się w klasy (przedziały) tworząc szereg rozdzielczy (zgrupowany). Liczba klas nie powinna być mniejsza od 6 ani większa od 30.

Z szeregu rozdzielczego łatwo tworzy się szereg skumulowany, który wskazuje ogólną liczbę pomiarów wartości cechy, poniżej określonej wartości górnej granicy danej klasy.

Graficzna reprezentacja wyników

Graficzna reprezentacja wyników

Graficzna reprezentacja wyników

Szereg rozdzielczy zgrupowany wielostopniowy

Szereg taki otrzymujemy przez podział wartości cechy ciągłej na klasy oraz przyporządkowanie poszczególnym klasom odpowiednich liczebności wartości zmiennej.

Postępowanie:

1) ustalenie liczby klas (k)

gdzie N to liczba pomiarów.

2) ustalenie szerokości klas (h)

gdzie R to rozstęp.

3) określenie granic przedziałów.Dolna granica pierwszej klasy to wartość:Górna granica pierwszej klasy to wartość:Górna granica jednej klasy jest jednocześnie dolną granicą klasy następnej.Xmin. - najmniejsza wartość pomiaruα - niedokładność pomiaru.

k=od N /2doN

h=R : k

X min.−/2X min.−/2h

49,1 60,7 65,0 70,0 74,4 78,253,2 60,9 65,6 70,4 74,9 78,754,0 61,0 66,7 70,9 75,0 79,054,1 61,5 66,8 71,6 75,0 79,454,5 62,2 67,0 71,9 75,2 82,155,4 62,8 67,4 72,6 75,6 83,856,3 63,0 68,3 72,7 75,9 85,557,7 63,4 68,9 73,1 76,2 87,158,4 64,0 69,0 73,3 76,559,0 64,6 69,5 74,0 78,1

ZadanieZ populacji mężczyzn, celem określenia ich masy, wybrano losowo próbę złożoną z 58 osób. Ich masę określono z dokładnością do 0.1 kg. Otrzymano następujące dane liczbowe:

Uporządkować otrzymane dane tworząc: a) szereg rozdzielczy zgrupowany, b) szereg skumulowany. Przedstawić otrzymane dane w postaci wykresu: c) histogramu liczności (wartości bezwględne); histogramu częstości procentowych; e) histogramu gęstości; f) diagramu; g) histogramu wartości skumulowanych bezwględnych; h) histogramu skumulowanych częstości względnych; i) dystrybuanty empirycznej.

Ustalamy ilość klas i ich szerokość:

k=58=7,61≈8

h= Rk=87,1−49,1

8=38

8=4,75≈5

Szereg rozdzielczy i skumulowany:zastawienie zbiorcze.

Nrklasy

Graniceklas

Licznośćklas ni

Frakcja Wi

(%) (ni/N)*100%

Gęstośćczęstości

ni/h

Szereg skumulowanyCzęstości Σni Frakcji (%)ΣWi

-1- -2- -3- -4- -5- -6- -7-12345678

Trochę o prawdopodobieństwach

Jakie jest prawdopodobieństwo wyrzucenia orła/reszki w jednym rzucie monetą?Jakie jest prawdopodobieństwo wyrzucenia dwóch orłów przy dwukrotnym rzuceniu monetą?Jakie jest prawdopodobieństwo wyrzucenia przynajmniej dwóch reszek przy trzech rzutach monetą?Jakie jest prawdopodobieństwo wyrzucenia 2 orłów w 10 rzutach monetą?

Rozkład dwumianowy Bernouliego

P r ,n , p=nr pr qn−rp – prawdopodobieństwo sukcesuq – prawdopodobieństwo porażki (q = 1 - p)n – liczba powtórzeń (wielkość próby)r – liczba sukcesów

nr = n!n−r !r !

- dwumian Newtona

Wartość dwumianu Newtona można określić z trójkąta Pascala

P r , n , p=nr prqn−r

P 2 ;10 ;0,5=nr pr qn−r=102 1

2 r

1−12

10−r

=45∗ 12

r

12

10−r

=45∗12

10

= 451024

P(r=0) =P(r=1) =P(r=2) =P(r=3) =P(r=4) =P(r=5) =P(r=6) =P(r=7) =P(r=8) =P(r=9) =P(r=10) =

Należy obliczyć prawdopodobieństwo otrzymania r sukcesów dla r∈⟨0,10⟩

P(r=0) = 1/1024P(r=1) = 10/1024P(r=2) = 45/1024P(r=3) = 120/1024P(r=4) = 210/1024P(r=5) = 252/1024P(r=6) = 210/1024P(r=7) = 120/1024P(r=8) = 45/1024P(r=9) = 10/1024P(r=10) = 1/1024

Należy obliczyć prawdopodobieństwo otrzymania r sukcesów dla r∈⟨0,10⟩

0 1 2 3 4 5 6 7 8 9 100,000

0,050

0,100

0,150

0,200

0,250

0,300

r

P(r)

Jakie jest prawdopodobieństwo uzyskania mniej niż 7 reszek w 10 rzutach monetą?

P(r=0) = 1/1024P(r=1) = 10/1024P(r=2) = 45/1024P(r=3) = 120/1024P(r=4) = 210/1024P(r=5) = 252/1024P(r=6) = 210/1024P(r=7) = 120/1024P(r=8) = 45/1024P(r=9) = 10/1024P(r=10) = 1/1024

Jakie jest prawdopodobieństwo uzyskania mniej niż 7 reszek w 10 rzutach monetą?

P(r=0) = 1/1024P(r<=1) = 11/1024P(r<=2) = 56/1024P(r<=3) = 176/1024P(r<=4) = 386/1024P(r<=5) = 638/1024P(r<=6) = 848/1024P(r<=7) = 968/1024P(r<=8) = 1013/1024P(r<=9) = 1023/1024P(r<=10) = 1024/1024

P(r<7) = 848/1024 = 0,83

0 1 2 3 4 5 6 7 8 9 100,0

0,2

0,4

0,6

0,8

1,0

1,2

r

ΣP(r

)

Zadanie: W 10 rzutach monetą uzyskano 2 reszki i 8 orłów. Czy na tej podstawie można powiedzieć, że moneta jest krzywa?

Rozwiązanie: Sposób 1: Obliczenie prawdopodobieństwa otrzymania wyniku takiego takiego, jaki został uzyskany lub bardziej skrajnego.

P(r=0) = 1/1024P(r=1) = 10/1024P(r=2) = 45/1024P(r=3) = 120/1024P(r=4) = 210/1024P(r=5) = 252/1024P(r=6) = 210/1024P(r=7) = 120/1024P(r=8) = 45/1024P(r=9) = 10/1024P(r=10) = 1/1024

p = 112/1024 = 10,9%

P(r=0) = 1/1024P(r=1) = 10/1024P(r=2) = 45/1024P(r=3) = 120/1024P(r=4) = 210/1024P(r=5) = 252/1024P(r=6) = 210/1024P(r=7) = 120/1024P(r=8) = 45/1024P(r=9) = 10/1024P(r=10) = 1/1024

Rozwiązanie: Sposób 2: Wyznaczenie przedziału ufności i obszaru krytycznego.

p = 22/1024 = 2,1%

0 1 2 3 4 5 6 7 8 9 100,000

0,050

0,100

0,150

0,200

0,250

0,300

r

P(r)

Przedział ufności

Obszar krytycznydla α = 0,05

α/2 α/2

top related