mańkowski d. r. 2008. system sas w badaniach rolniczych
TRANSCRIPT
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
SYSTEM SAS®
W BADANIACH ROLNICZYCH
MATERIAŁY SZKOLENIOWE
Mgr inż. Dariusz R. Mańkowski Pracownia Ekonomiki Nasiennictwa i Hodowli Roślin
Zakłada Nasiennictwa i Nasionoznawstwa
IHAR — Radzików
RADZIKÓW, 2008
2 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
SZCZEGÓŁOWY PROGRAM SEMINARIUM: „SYSTEM SAS® W BADANIACH ROLNICZYCH”
(SPS. 11/2008)
Kierownik merytoryczny:
Dr hab. Zbigniew Laudański, prof. nadzw. Katedra Biometrii,
Wydział Zastosowań Informatyki i Matematyki,
SGGW Warszawa
Data i miejsce:
23–24 września 2008
IHAR — Radzików / SGGW — Warszawa*
Szkolenie skierowane jest do pracowników naukowych i hodowców, chcących wykorzystywać do analiz statystycznych w swojej pracy naukowej System SAS® oraz SAS® Enterprise Guide (SAS Institute Inc.).
Szkolenie ma na celu zapoznanie uczestników z podstawami obsługi oprogramowania w zakresie analiz statystycznych, wykonywanych najczęściej w badaniach rolniczych i przyrodniczych. Zajęcia będą się odbywały w formie ćwiczeń przy komputerach.
DATA TEMAT LICZBA
GODZIN
GODZINY
OD – DO PROWADZĄCY
1 2 3 4 5
23
wrzesień
2008 r.
(wtorek)
Otwarcie seminarium; sprawy
organizacyjne; przedstawienie celu;
wprowadzenie merytoryczne.
925–1000
Sekcja Promocji
i Szkoleń Kierownik
merytoryczny
BLOK I
Środowisko graficzne SAS® Enterprise
Guide
1. Zapoznanie z SAS® Enterprise Guide.
Środowisko pracy. Budowa projektów. Wczytywanie danych.
1 1005–1050
Zależnie od grupy:
mgr inż. Dariusz
Mańkowski Pracownia Ekonomiki
Nasiennictwa i Hodowli
Roślin; IHAR — Radzików
dr inż. Monika Janaszek Wydział Inżynierii Produkcji; SGGW — Warszawa
2. Podstawowe analizy statystyczne.
Badania rozkładu cech. Wyznaczanie podstawowych statystyk. Testy t
porównania średniej z normą, porównania dwóch średnich z populacji zależnych i niezależnych.
1 1050–1135
Przerwa kawowa: 1135–1200
3. Analiza wariancji. Doświadczenia jednoczynnikowe w układach całkowicie losowym i losowanych bloków. Doświadczenia dwu-
i wieloczynnikowe w układach całkowicie losowym i losowanych
bloków. Analizy dla danych niekompletnych.
2 1200–1330 jw.
Przerwa: 1330–1345
SYSTEM SAS®
W BADANIACH ROLNICZYCH 3
DARIUSZ R. MAŃKOWSKI
4. Badanie zależności pomiędzy cechami. Analiza współczynników korelacji liniowej Pearsona i rangowej
Spearmana. Analiza funkcji regresji
prostej i wielokrotnej.
1 1345–1430 jw.
Przerwa obiadowa: 1430–1530
5. Analizy nieparametryczne — testy
chi-kwadrat — badanie niezależności cech skokowych.
0,5 1530–1555 jw.
6. Analizy wielowymiarowe. Analiza
składowych głównych (PCA), analiza czynnikowa oraz analiza skupień.
1,5 1555–1700 jw.
Kolacja: 1720
Wyjazd do teatru: 1800
24
wrzesień
2008 r.
(środa)
BLOK II
Środowisko programistyczne Systemu SAS®
1. Środowisko pracy. Biblioteki i wczytywanie danych. Podstawy języka SAS® 4GL. Przykładowe procedury.
1 930–1015
Zależnie od grupy:
mgr inż. Dariusz
Mańkowski Pracownia Ekonomiki
Nasiennictwa i Hodowli
Roślin; IHAR — Radzików
dr inż. Monika Janaszek Wydział Inżynierii Produkcji; SGGW — Warszawa
2. Zaawansowana analiza funkcji regresji
wielokrotnej. Dobór zmiennych do modelu. Badanie funkcji regresji.
1 1015–1100
Przerwa kawowa: 1100–1130
3. Zaawansowane zastosowania analizy
wariancji. Doświadczenia w układach hierarchicznych (split-plot, split-blok).
Doświadczenia w układach kratowych.
2 1130–1300 jw.
Przerwa: 1300–1315
4. Zaawansowana hierarchiczna analiza
skupień. Analiza dla danych
molekularnych i cech ilościowych. 1 1315–1400 jw.
Podsumowanie seminarium połączone z dyskusją uczestników; rozdanie zaświadczeń.
1410–1430
Kierownik
merytoryczny
Sekcja Promocji
i Szkoleń
Obiad: 1440
Odjazd autokaru pod Dworzec Centralny PKP i do Radzikowa: 1510
* — Zajęcia będą odbywały się w budynku Wydziału Rolnictwa i Biologii (nr 37) SGGW w Warszawie, przy ulicy Nowoursynowskiej 159
w laboratoriach komputerowych Katedry Doświadczalnictwa i Bioinformatyki.
Materiały szkoleniowe: Skrypt do zajęć
Płyta CD zawierająca elektroniczną wersję skryptu oraz przykładowe zbiory danych
4 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Uwagi dotyczące zgodnego z licencją korzystania z oprogramowania firmy SAS Institute Inc.
Poniższy tekst stanowi wyciąg najważniejszych obowiązków wynikających z umowy licencyjnej
na użytkowanie oprogramowania firmy SAS Institute Inc.:
(…)
Oprogramowanie może być wykorzystywane przez Użytkowników jedynie do
niekomercyjnych i niedochodowych badań naukowych oraz do prowadzenia zajęć dydaktycznych. (…) Stanowczo zabrania się wykorzystywania Oprogramowania do celów komercyjnych lub wspomagania procesu administrowania.
(…)
Użytkownicy zobowiązują się zamieszczać nazwę SAS i nawiązać do Oprogramowania
we wszystkich publikowanych pracach naukowych i dyplomowych lub przedsięwzięciach wynikających z niniejszej Umowy i używania Oprogramowania. Użytkownik powiadomi
SAS o wszystkich projektach badawczych, do przeprowadzenia, których w szerokim zakresie wykorzystuje się Oprogramowanie w okresie objętym niniejszą Umową.
(…)
Informacje o dołączonej płycie CD
Do niniejszego skryptu dołączona została płyta CD zawierająca:
— Elektroniczną wersję skryptu (w formacie PDF);
— Elektroniczną wersję instrukcji do wybranych modułów Systemu SAS® (w formacie
PDF);
— Wszystkie pliki wykorzystywane podczas szkolenia (folder ‘Kurs08’); — Kody procedur w języku 4GL wykorzystywane w środowisku programistycznym
systemu SAS® (folder ‘Kody4GL’); — Darmowy program SAS System Viewer służący do przeglądania zawartości zbiorów
zapisanych w formatach wykorzystywanych przez System SAS®
Zawartość dołączonego dysku CD jest chroniona prawem autorskim (Dz. U. 00.80.904 z dnia 4 lutego 1994 roku z późniejszymi zmianami).
SYSTEM SAS®
W BADANIACH ROLNICZYCH 5
DARIUSZ R. MAŃKOWSKI
SPIS TREŚCI: CZĘŚĆ 1
SAS® ENTERPRISE GUIDE — ŚRODOWISKO GRAFICZNE SYSTEMU SAS®
1. ZAPOZNANIE Z SAS® ENTERPRISE GUIDE ............................................................................................ 9
1.1. ŚRODOWISKO PRACY .................................................................................................................................... 9 1.2. BUDOWA PROJEKTÓW (KOLEJNOŚĆ) ............................................................................................................. 9 1.3. WCZYTYWANIE DANYCH ............................................................................................................................ 11
2. PODSTAWOWE ANALIZY STATYSTYCZNE ......................................................................................... 12
2.1. BADANIE ROZKŁADÓW CECH ...................................................................................................................... 12 2.2. WYZNACZANIE PODSTAWOWYCH STATYSTYK ............................................................................................ 15 2.3. TESTY T ...................................................................................................................................................... 18
3. ANALIZA WARIANCJI I KOWARIANCJI ............................................................................................... 21
3.1. JEDNOCZYNNIKOWA ANALIZA WARIANCJI .................................................................................................. 21 3.2. WIELOCZYNNIKOWA ANALIZA WARIANCJI — MODELE LINIOWE ................................................................ 25 3.3. ANALIZA KOWARIANCJI .............................................................................................................................. 38
4. BADANIE ZALEŻNOŚCI POMIĘDZY CECHAMI .................................................................................. 41
4.1. ANALIZA WSPÓŁCZYNNIKA KORELACJI LINIOWEJ PEARSONA ..................................................................... 42 4.2. ANALIZA WSPÓŁCZYNNIKA KORELACJI RANGOWEJ SPEARMANA ............................................................... 43 4.3. ANALIZA FUNKCJI REGRESJI PROSTEJ (REGRESJI LINIOWEJ) ........................................................................ 45 4.4. ANALIZA FUNKCJI REGRESJI WIELOKROTNEJ (WIELORAKIEJ) ...................................................................... 48
5. TESTY NIEPARAMETRYCZNE ................................................................................................................. 52
5.1. TESTY CHI-KWADRAT ................................................................................................................................. 52
6. ANALIZY WIELOWYMIAROWE .............................................................................................................. 58
6.1. ANALIZA CZYNNIKOWA (FACTOR ANALYSIS) ............................................................................................ 58 6.2. ANALIZA SKŁADOWYCH GŁÓWNYCH (PCA) ............................................................................................... 62 6.3. ANALIZA SKUPIEŃ (CLUSTER ANALYSIS) ................................................................................................... 69
CZĘŚĆ 2
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS®
1. ŚRODOWISKO PRACY ................................................................................................................................ 75
1.1. BIBLIOTEKI I WCZYTYWANIE DANYCH ........................................................................................................ 77 1.2. PODSTAWY JĘZYKA SAS
® 4GL .................................................................................................................. 81
1.3. PRZYKŁADOWE PROCEDURY ....................................................................................................................... 82
2. ZAAWANSOWANA ANALIZA FUNKCJI REGRESJI WIELOKROTNEJ .......................................... 87
2.1. DOBÓR ZMIENNYCH DO MODELU ................................................................................................................ 88 2.2. BADANIE FUNKCJI REGRESJI ....................................................................................................................... 92
3. ZAAWANSOWANE ZASTOSOWANIA ANALIZY WARIANCJI .......................................................... 97
3.1. DOŚWIADCZENIA W UKŁADACH HIERARCHICZNYCH................................................................................... 97 3.2. DOŚWIADCZENIA W UKŁADACH KRATOWYCH .......................................................................................... 106
4. ZAAWANSOWANA HIERARCHICZNA ANALIZA SKUPIEŃ ........................................................... 108
4.1. ANALIZA DLA DANYCH MOLEKULARNYCH ............................................................................................... 109 4.2. ANALIZA DLA CECH ILOŚCIOWYCH ........................................................................................................... 111
LITERATURA ...................................................................................................................................... 113
6 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Część 1
SAS® ENTERPRISE GUIDE
Środowisko Graficzne
Systemu SAS®
8 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
SAS®
ENTERPRISE GUIDE 9
DARIUSZ R. MAŃKOWSKI
1. Zapoznanie z SAS® Enterprise Guide
SAS® Enterprise Guide (w skrócie EG) jest graficzną nakładką na System SAS®. Umożliwia wykonywanie większości analiz statystycznych, wykresów i obróbki danych bez znajomości języka 4GL. Wszystkie analizy można „wyklikać” a ich wyniki będą prezentowane w formie graficznej. Wyniki mogą być zapisywane w formacie HTML, PDF, RTF lub w formie tekstowej. Wszystkie analizy można zapisywać w formie projektów. Każdy projekt budowany jest modułowo z „klocków” obrazujących kolejne procesy i analizy. W każdej chwili można zmodyfikować lub poprawić wybrany „klocek”.
1.1. Środowisko pracy
Środowisko pracy w EG składa się z modułowo zbudowanego okna. Poszczególne moduły można ukrywać bądź zamykać zależnie od potrzeb użytkownika.
Okno projektu jest głównym obszarem roboczym programu. To w nim budowane są kolejne analizy projektu. W momencie wyświetlenia danych bądź wyników analiz nowe okno otwiera się właśnie w oknie projektu. Wówczas do poruszania się pomiędzy poszczególnymi okienkami
służą zakładki w górnej części okna.
Do najważniejszych opcji analiz użytkownik ma dostęp z okna listy zadań lub z menu programu. W menu „Dane” znajdują się polecenia wykorzystywane do obróbki danych (np.
sortowanie, transpozycja, standaryzacja, itp.). W menu „Opisz” znajdują się polecenia służące do opisu danych (np. listowanie danych, statystyki agregujące, badanie rozkładów, tabele kontyngencji, itp.). W menu „Wykres” znajdują się polecenia służące do sporządzania wykresów obrazujących dane. W części analiz wykresy dostępne są z poziomu okna analiz, jednak może się zdarzyć, że użytkownik będzie chciał sporządzić własne wykresy, dostosowane o jego potrzeb. W menu „Analizuj” znajdują się pozostałe dostępne w EG analizy statystyczne.
1.2. Budowa projektów (kolejność)
Projekt jest odpowiednikiem skoroszytu spinającego różne analizy, które mogą być przeprowadzane na różnych danych. Projekt ma postać schematu blokowego, w którym każdy „klocek” odpowiada za dane, analizy lub wyniki. W podglądzie projektu punktem początkowym każdego elementu projektu jest źródło w postaci zbioru danych. Na podstawie danych przeprowadza się analizy, wykonuje przetwarzanie danych bądź sporządza się wykresy. Wynik
jest zapisywany w formie pliku w postaci graficznej (tabele i wykresy) — tak zwane raporty.
Pasek menu i pasek narzędzi
Lista zadań
Status zadania
Okno projektu Eksplorator projektów
10 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Przykład 1
Na podstawie danych o postępie odmianowym w Ziemniaku w latach 1986–2003
(Ziemniak-Postęp Odmianowy.xls) sporządzić wykres liniowy obrazujący zmiany PO w latach. Na osi poziomej (X) zaznaczyć lata, a na osi pionowej (Y) PO wyrażony w dt/ha.
Schemat projektu i wykres
Przykład 2
Opierając się na danych z doświadczenia z Irysami przeprowadzonego przez R. A. FISHERA w roku 1936, (Fisher-Irys-średnie.xls) sporządzić wykres słupkowy zmiennej ‘PetalLenght_Mean’ dla odmian. Wykorzystać opcję „Interactive
graphics”.
Schemat projektu i wykres
SAS®
ENTERPRISE GUIDE 11
DARIUSZ R. MAŃKOWSKI
1.3. Wczytywanie danych
W celu wczytania danych do projektu wybieramy z menu „Plik” polecenie „Otwórz” a następnie wskazujemy polecenie „Dane…” (PlikèOtwórzèDane…). Następnie wskazujemy źródło, z którego będą otwierane dane. Do wyboru mamy „Komputer lokalny” i „Serwery SAS’a”. Aby wczytać dane z dysku wybieramy „Komputer lokalny”. Druga opcja jest wykorzystywana
wtedy, gdy w sieci lokalnej znajduje się serwer SAS przechowujący zbiory danych (baza danych).
Po wskazaniu źródła, z którego dane będą wczytywane otworzy się okno wczytywania danych. EG potrafi wczytywać dane zapisane w postaci tabel w różnych formatach plików:
— w formacie zbiorów SAS®; (*.sas7bdat *.sd2)
— w formacie Ms Excel (*.xls)
— w formacie Ms Access (*.mdb)
— w formacie dBASE (*.dbf)
— itp.
1.3.1. Zbiory SAS®
Jeżeli chcemy wczytać dane zapisane w formacie SAS’a wystarczy, że wskażemy folder, w którym znajduje się zbiór, a następnie wskażemy sam zbiór danych i wciśniemy przycisk „Otwórz”. Cały zbiór danych zostanie od razu wczytany do EG. Zachowane zostaną wszystkie formaty, nazwy i etykiety zmiennych.
1.3.2. Zbiory Ms Excel
Jeżeli wczytujemy dane zapisane w zbiorach arkusza kalkulacyjnego Ms Excel, to po wskazaniu pliku na dysku komputera i wciśnięciu przycisku „Otwórz” zbiór zostanie wczytany do programu EG. Jeżeli w skoroszycie Excela znajduje się więcej niż jeden arkusz danych zostaniemy poproszeni o wskazanie arkusza do wczytania. Następnie program zapyta o formę,
w jakiej dane mają zostać wczytane do EG. Do wyboru mamy opcję wczytania danych „takimi
jakie są” lub przekształcenia na zbiór SAS’a.
Ze względu na szybkość pracy zalecane jest wybranie pierwszej opcji. Zbiór zostanie wówczas wczytany tak, jak był przygotowany. W pierwszym wierszu zbioru muszą znajdować się nazwy zmiennych. W nazwach zmiennych nie powinno być spacji i polskich znaków, ponieważ podczas wczytywania zostaną one zastąpione znakami systemowymi („_” lub „#”). Jeżeli w jednej kolumnie w arkuszu Excela znajdują się zarówno dane liczbowe, jak i tekstowe
EG może nie wczytać tych pierwszych. Zaleca się zatem albo zamianę zmiennych numerycznych w tego typu kolumnach na tekstowe (na przykład poprzez dodanie znaku „_” lub „ ’ ” przed liczbą, wówczas cała kolumna będzie traktowana jako tekst) lub zakodowanie danych
tekstowych pod postacią liczb (wtedy kolumna będzie traktowana jako numeryczna). Jeżeli w kolumnie znajduje się spora liczba braków danych (pustych komórek) to najlepiej jest przed wczytaniem zbioru do EG posortować go tak, aby dane liczbowe znajdowały się w górnych wierszach zbioru, a braki danych w dolnych. Podczas wczytywania danych format daty zostanie
zamieniony na format tekstowy lub numeryczny zależnie od tego jak ta data została wcześniej zapisana w zbiorze Excela.
Jeżeli zostanie wybrana opcja przekształcenia zbioru z formatu Excela na format SAS’a, to
użytkownik zostanie poproszony o podanie atrybutów wszystkich kolumn zbioru (między innymi: formatu, liczby znaków, etykiety, informatu, itp.). Niestety ustalanie parametrów przekształcanego zbioru jest bardzo pracochłonne i nie zawsze daje spodziewany efekt, dlatego do szybkiej pracy ten sposób wczytywania danych nie jest zalecany.
12 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
2. Podstawowe analizy statystyczne
2.1. Badanie rozkładów cech
Podstawowym zagadnieniem, niestety często świadomie bądź nieświadomie pomijanym przez badaczy, jest kwestia badania rozkładów analizowanych cech losowych. Część analiz statystycznych (jak na przykład analiza wariancji, testy t czy też analiza funkcji regresji liniowej)
posiada pewne założenia co do rozkładów analizowanych cech. Tak więc przed rozpoczęciem
właściwych analiz, ważnym krokiem jest dokładne przyjrzenie się samym danym, zbadanie rozkładów cech (najczęściej chodzi o sprawdzenie czy możemy uznać, że analizowana cecha ma rozkład zbliżony do rozkładu normalnego) czy też poznanie podstawowych parametrów tych rozkładów.
Do wykonania powyższych czynności w EG służy „Analiza
rozkładu…” (OpiszèAnaliza rozkładu…). Po uruchomieniu analizy
otworzy się okno dialogowe. W części „Role zadania” przypisujemy odpowiednie cechy do analizy.
W części „Rozkłady — Podsumowanie” Wybieramy rozkład, dla którego ma być przeprowadzone testowanie o zgodności rozkładu empirycznego z rozkładem teoretycznym (np. „Normalny”).
W części z opcjami dla wybranych rozkładów cech (np. „Rozkłady — Normalny”) ustala się opcje rozkładu teoretycznego (jeżeli nie znamy parametrów rozkładu normalnego, możemy pozostawić puste okienka, wówczas użyte zostaną wartości oszacowane). W części „Wykresy —
Wygląd” można wybrać, jakie wykresy mają obrazować charakter rozkładu badanych cech. Poza
tym wyznaczone w trakcie analizy wartości można zapisać do dodatkowego zbioru (część „Tabele”) w celu wykorzystania do dalszych analiz.
SAS®
ENTERPRISE GUIDE 13
DARIUSZ R. MAŃKOWSKI
Przykład 1
Opierając się na danych z doświadczenia z Irysami, przeprowadzonego przez
R. A. FISHERA w roku 1936 (Fisher-Irys.xls), sprawdzić czy cecha ‘SepalWidth’ ma rozkład normalny.
Wyniki:
W pierwszej tabeli wyników zaprezentowane zostały wartości podstawowych miar lokacji i zmienności rozkładu dla analizowanej cechy (średnia, mediana, moda, odchylenie standardowe, wariancja, rozstęp oraz rozstęp międzykwartylowy):
Basic Statistical Measures
Location Variability
Mean 30.57333 Std Deviation 4.35866
Median 30.00000 Variance 18.99794
Mode 30.00000 Range 24.00000
Interquartile Range 5.00000
Następnie prezentowane są wartości i przedziały ufności dla podstawowych parametrów rozkładu cechy losowej:
Basic Confidence Limits Assuming Normality
Parameter Estimate 95% Confidence Limits
Mean 30.57333 29.87010 31.27656
Std Deviation 4.35866 3.91497 4.91668
Variance 18.99794 15.32698 24.17372
W następnej kolejności prezentowane są testy lokacji, weryfikujące hipotezę zerową mówiącą o zerowej wartości średniej ( 0 : 0H : 0: 0 ). Wyznaczane są wartości statystyk dla testu t,
testu znaków oraz dla rangowego testu znaków. Wszystkie testy wskazują na odrzucenie weryfikowanej H0.
Tests for Location: Mu0=0
Test Statistic p Value
Student's t t 85.9083 Pr > |t| <.0001
Sign M 75 Pr >= |M| <.0001
Signed Rank S 5662.5 Pr >= |S| <.0001
Kolejnym elementem analizy (jeśli został wcześniej wybrany) jest histogram obrazujący rozkład cechy empirycznej. Na histogramie linią zaznaczono funkcję gęstości rozkładu teoretycznego:
Następnie prezentowane są oszacowane główne parametry rozkładu teoretycznego,
z którym będzie porównywany rozkład empiryczny badanej cechy (tu rozkład normalny) oraz statystyki dopasowania rozkładów. Weryfikowana hipoteza zerowa jest w postaci: H0: Cecha X
ma rozkład normalny. Wykonywane są trzy testy zgodności rozkładów: test Kołmogorova-
19.5 22.5 25.5 28.5 31.5 34.5 37.5 40.5 43.5
0
5
10
15
20
25
30
35
P
e
r
c
e
n
t
SepalWidth
14 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Smirnova, test Cramera-von Mises’a oraz test Andersona-Darlinga. W wyniku
przeprowadzonych analiz przy poziomie istotności α=0,05 weryfikowaną hipotezę zerową odrzucamy (potwierdziły to wszystkie trzy testy).
Parameters for Normal Distribution
Parameter Symbol Estimate
Mean Mu 30.57333
Std Dev Sigma 4.358663
Goodness-of-Fit Tests for Normal Distribution
Test Statistic p Value
Kolmogorov-Smirnov D 0.10565879 Pr > D <0.010
Cramer-von Mises W-Sq 0.18065144 Pr > W-Sq 0.009
Anderson-Darling A-Sq 0.90795505 Pr > A-Sq 0.021
W ostatniej tabeli przedstawiono wybrane centyle rozkładu normalnego:
Quantiles for Normal Distribution
Percent
Quantile
Observed Estimated
1.0 22.0000 20.4336
5.0 23.0000 23.4040
10.0 25.0000 24.9875
25.0 28.0000 27.6335
50.0 30.0000 30.5733
75.0 33.0000 33.5132
90.0 36.5000 36.1592
95.0 38.0000 37.7427
99.0 42.0000 40.7131
Jeśli wcześniej wybrano odpowiednie opcje wykresów, to na końcu analiz zostaną zaprezentowane pozostałe wykresy (np. wykres probabilistyczny lub wykres pudełkowy). Wykres probabilistyczny prezentuje dopasowanie centyli rozkładu empirycznego do centyli rozkładu teoretycznego, można więc powiedzieć, że jest alternatywą dla histogramu.
Wykres pudełkowy jest graficzną prezentacją parametrów rozkładu cechy losowej. Kwadracik wewnątrz „pudełka” oznacza wartość średnią, linia wewnątrz „pudełka” oznacza medianę (50 centyl), dolna i górna krawędź „pudełka” definiowane są odpowiednio przez dolny
i górny kwartyl (25 i 75 centyl), zaznaczone na wykresie „wąsy” oznaczają odległość do
0.1 1 5 10 25 50 75 90 95 99 99.9
20
25
30
35
40
45
S
e
p
a
l
W
i
d
t
h
Normal Percentiles
SAS®
ENTERPRISE GUIDE 15
DARIUSZ R. MAŃKOWSKI
1,5 odległości pomiędzy dolnym i górnym kwartylem. Na wykresie dodatkowo oznacza się wszystkie obserwacje wykraczające poza wyznaczone „wąsy” wykresu (obserwacje odstające).
Przykład 2
Wykonać analizę rozkładu dla cechy ‘Skrobia’ ze zbioru ‘Ziemniak_1.xls’, w którym zebrano wyniki z doświadczenia z wybraną odmianą ziemniaka.
2.2. Wyznaczanie podstawowych statystyk
Statystyczną analizę danych najczęściej rozpoczynamy od wyznaczenia podstawowych parametrów statystycznych badanych cech. Wyliczamy średnią, odchylenie standardowe, współczynniki zmienności, itp. Na tym etapie można dokonywać już pewnego podsumowania danych. W EG do wyznaczania statystyk opisowych
służy opcja „Statystyki agregujące…” (OpiszèStatystyki
agregujące…).
Po uruchomieniu Statystyk agregujących zostanie wyświetlone okno dialogowe tej analizy. W części „Role zadania” możemy wybrać zmienne do analiz, wskazać zmienne grupujące, itp. W części „Statystyki” wybieramy parametry, które mają zostać wyznaczone. I tak w części „Statystyki — Podstawowe” możemy wskazać do wyznaczenia: wartość średnią, odchylenie standardowe, standardowy błąd oceny wartości średniej, wariancję, minimum, maksimum, rozstęp (zakres), sumę, ewentualnie sumę wag, liczbę obserwacji oraz liczbę braków danych.
W części „Statystyki — Centyle” możemy wskazać, które centyle i kwartyle mają zostać wyznaczone. Możemy wskazać: 1-wszy, 5-ty, 10-ty, 90-ty, 95-ty oraz 99-ty centyl, kwartyl górny i dolny oraz medianę. W części „Statystyki — Dodatkowe” możemy wskazać do wyznaczenia dodatkowe parametry dla analizowanych cech, takie jak: przedział ufności dla wartości średniej, wartości statystyki rozkładu t-Studenta, współczynnik zmienności, skorygowaną oraz
nieskorygowaną sumę kwadratów.
20
25
30
35
40
45
16 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
W części „Wykresy” możemy wybrać wykresy, jakie będą tworzone dla analizowanych cech. Do wyboru mamy jedynie histogram (bez funkcji gęstości rozkładu teoretycznego) oraz wykres pudełkowy.
Wyznaczone statystki możemy wyświetlić, a także zapisać do zbioru (w części „Rezultaty”) w celu wykorzystania ich do dalszych analiz.
Przykład 1
Wyznaczyć podstawowe statystyki oraz przedział ufności i współczynnik zmienności, wykonać histogram i wykres pudełkowy dla zmiennych numerycznych
z doświadczenia Fishera z Irysami (Fisher-Irys.xls).
Wyniki:
Wartości wyznaczonych parametrów zostały zebrane w formie tabeli (tabel). Nazwy zmiennych podane są podwójnie. Pierwsza z nich (Variable) to nazwa zmiennej ze zbioru
danych, a druga (Label) to ewentualna etykieta danych. Jeżeli etykieta nie została nadana, to
zarówno nazwa jak i etykieta są jednakowe (więcej o nazwach i etykietach cech w drugiej części niniejszego skryptu).
Variable Label Mean Std Dev Std Error Variance Minimum
SepalLength
SepalWidth PetalLength
PetalWidth
SepalLength
SepalWidth PetalLength
PetalWidth
58.4333333
30.5733333 37.5800000
11.9933333
8.2806613
4.3586628 17.6529823
7.6223767
0.6761132
0.3558833 1.4413600
0.6223645
68.5693512
18.9979418 311.6277852
58.1006264
43.0000000
20.0000000 10.0000000
1.0000000
Variable Label Maximum Range Sum N N Miss Lower 95%
CL for Mean Upper 95%
CL for Mean
SepalLength SepalWidth
PetalLength PetalWidth
SepalLength SepalWidth
PetalLength PetalWidth
79.0000000 44.0000000
69.0000000 25.0000000
36.0000000 24.0000000
59.0000000 24.0000000
8765.00 4586.00
5637.00 1799.00
150 150
150 150
0 0
0 0
57.0973248 29.8701032
34.7318537 10.7635330
59.7693419 31.2765635
40.4281463 13.2231337
SAS®
ENTERPRISE GUIDE 17
DARIUSZ R. MAŃKOWSKI
Variable Label Coeff of Variation
SepalLength SepalWidth
PetalLength PetalWidth
SepalLength SepalWidth
PetalLength PetalWidth
14.1711260 14.2564201
46.9744075 63.5551141
Następnie prezentowane są wcześniej wskazane wykresy. W pierwszej kolejności są to histogramy:
a następnie wykresy pudełkowe:
Przykład 2
Wyznaczyć podstawowe statystyki oraz przedział ufności i współczynnik zmienności, wykonać histogram i wykres pudełkowy dla zmiennych numerycznych
z doświadczenia z ziemniakiem (Ziemniak_1.xls).
42.5 47.5 52.5 57.5 62.5 67.5 72.5 77.5
0
5
10
15
20
25
SepalLength
19.5 22.5 25.5 28.5 31.5 34.5 37.5 40.5 43.5
0
5
10
15
20
25
30
35
SepalWidth
12 20 28 36 44 52 60 68
0
5
10
15
20
25
PetalLength
1.5 4.5 7.5 10.5 13.5 16.5 19.5 22.5 25.5
0
5
10
15
20
25
PetalWidth
18 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
2.3. Testy t
Testy oparte na rozkładzie t-Studenta mają głównie zastosowanie przy weryfikacji hipotez
statystycznych, dotyczących wartości średniej analizowanych cech ilościowych.
Wyróżniamy trzy rodzaje testów t: test porównania wartości średniej z normą
( 0 0 0 0: : 0H H0 0 00 0 0: :0 0 00 0 0 0: : 00 0 0 00 0 0: :: :0 0 00 0 0 ), porównanie
dwóch wartości średnich cech niezależnych
( 0 1 2 0 1 2: : 0H H0 1 20 1 2: :0 1 20 1 2 0 1 2: : 00 1 2 0 1 20 1 2: :: :0 1 2 0 1 20 1 2 ) oraz test
porównania dwóch wartości średnich cech zależnych (skorelowanych, sparowanych) ( 0 : 0
zH : 0
z: 0: 0: 0).
Wszystkie te testy dostępne są w EG w jednym miejscu: AnalizujèANOVAèTest t…. Po
uruchomieniu analizy pojawia się okno dialogowe, w którym w pierwszej kolejności wybieramy rodzaj testu, który chcemy przeprowadzić (część „Typ testu t”). W części „Role zadania” wskazujemy zmienne do analizy.
W części „Analiza” definiujemy podstawowe parametry wykonywanego testu. Natomiast
w części „Wykresy” decydujemy o tym, jakie wykresy mają być sporządzone podczas analizy. Do wyboru mamy wykres pudełkowy i wykres wartości średnich.
Przykład 1
Na podstawie danych z doświadczenia polowego z wybraną odmianą ziemniaka (ziemniak_1.xls) sprawdzić czy średnia zawartość skrobi u tej odmiany wynosi 12% (0,12). [test t jednopróbkowy]
SAS®
ENTERPRISE GUIDE 19
DARIUSZ R. MAŃKOWSKI
Wyniki:
W wynikach przeprowadzonej analizy, w pierwszej tabeli prezentowane są podstawowe statystyki dla analizowanej cechy.
Statistics
Variable N Lower CL
Mean Mean Upper CL
Mean Lower CL
Std Dev Std Dev Upper CL
Std Dev Std Err Minimum Maximum
Skrobia 28 0.1407 0.15 0.1593 0.019 0.024 0.0327 0.0045 0.113 0.198
W drugiej tabeli prezentowane są wyniki testu t porównania wartości średniej z normą.
T-Tests
Variable DF t Value Pr > |t|
Skrobia 27 6.61 <.0001
Weryfikowana hipoteza statystyczna miała postać: 0 : 0,12H : 0: 0,12 , co można wyrazić jako:
średnia zawartość skrobi u badanej odmiany wynosiła 12%. Na podstawie przeprowadzonej
analizy, powyższą hipotezę zerową odrzucamy (w niniejszym opracowaniu przyjęto graniczny poziom istotności jako kryterium do weryfikacji testowanych hipotez statystycznych).
Przykład 2
Na podstawie danych z doświadczenia polowego z wybraną odmianą ziemniaka (ziemniak_1.xls) sprawdzić czy średnie plony uzyskane w roku 2000 i 2001 były jednakowe. [test t dwupróbkowy]
Wyniki:
Podobnie jak w przypadku testu jednopróbkowego, w pierwszej kolejności prezentowane są wyniki statystyk opisowych dla plonów w obu porównywanych latach oraz dla różnicy plonów w obydwu latach.
Statistics
Variable Rok N Lower CL
Mean Mean Upper CL
Mean Lower CL
Std Dev Std Dev Upper CL
Std Dev Std Err Minimum Maximum
Plon 2000 14 164.47 192.61 220.76 35.343 48.752 78.542 13.03 100 250
Plon 2001 14 140.3 167.3 194.3 33.902 46.764 75.338 12.498 100 266.7
Plon Diff (1-2)
-11.8 25.314 62.426 37.618 47.768 65.463 18.055
Następnie prezentowane są wartości testu t porównania dwóch wartości średnich cech niezależnych. Test t został wykonany w dwóch wariantach: zakładającym równe wariancje plonów w obydwóch porównywanych latach (wariant Equal) oraz zakładającym różne
wariancje (wariant Unequal).
T-Tests
Variable Method Variances DF t Value Pr > |t|
Plon Pooled Equal 26 1.40 0.1727
Plon Satterthwaite Unequal 26 1.40 0.1727
Poniżej prezentowane są wyniki testu F porównania wariancji. Wyniki tego testu pozwalają na skorzystanie z wyników prawidłowego testu t.
Equality of Variances
Variable Method Num DF Den DF F Value Pr > F
Plon Folded F 13 13 1.09 0.8829
Hipoteza zerowa weryfikowana testem F porównania wariancji zakłada równość wariancji
plonów w obydwóch latach doświadczenia ( 2 20 1 2:H
2 20 1 2
2 20 1 2 ). Wyniki testowania tej hipotezy
wskazują, iż nie ma podstaw do jej odrzucenia. Tak więc stwierdzamy, że wariancje plonów były
20 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
sobie równe. Do weryfikacji hipotezy zakładającej równość średnich plonów w obydwóch latach
doświadczenia ( 0 1 2 0 1 2: : 0H H0 1 20 1 2: :0 1 20 1 2 0 1 2: : 00 1 2 0 1 20 1 2: :: :0 1 2 0 1 2 ) stosujemy zatem test t, zakładający równość
wariancji (wariant Equal). Na podstawie przeprowadzonego testowania nie mamy podstaw do
odrzucenia postawionej hipotezy zerowej. stwierdzamy więc, że średnie plony badanej odmiany ziemniaka w obydwóch latach doświadczenia były jednakowe. Na koniec w wynikach prezentowane
są wybrane wykresy (pudełkowy i średnich):
Przykład 3
W doświadczeniu laboratoryjnym badano wpływ czasu przechowywania ziarna
jęczmienia na stopień jego porażenia chorobami przechowalniczymi. Przygotowano 30 próbek zawierających po 100 ziarniaków. Oznaczono liczbę ziarniaków zdrowych na początku doświadczenia (Termin1) i po 3 miesiącach przechowywania (Termin2).
Sprawdzić, czy przez czas doświadczenia zaszły istotne różnice w liczbie zdrowych ziarniaków. Zbiór: Jęczmień-przechowalnia.xls. [test t parzysty]
Wyniki:
Jako pierwsza prezentowana jest tabela z podstawowymi statystykami dla różnicy pomiędzy licznościami ziarniaków oznaczonymi w dwóch terminach:
Statystyki
Różnica N Dolna gr. prz. ufn.
Średnia Średnia Górna gr. przedz. ufn.
Średnia Dolna gr. prz. ufn.
Odch. std. Odch. std.
Termin1 - Termin2 30 1.8507 3.6333 5.416 3.8021 4.7741
Statystyki
Różnica Górna gr. prz. ufn.
Odch. std. Błąd std. Minimum Maksimum
Termin1 - Termin2 6.4179 0.8716 0 18
Następnie prezentowana jest tabela z wartościami statystyki testowej:
Testy T
Różnica St. sw. Wartość t Pr > |t|
Termin1 - Termin2 29 4.17 0.0003
W prezentowanym przykładzie hipoteza zerowa miała postać: różnica pomiędzy średnimi
liczbami ziarniaków zdrowych w dwóch terminach wynosi 0. Na podstawie wyznaczonej
statystyki testowej odrzucamy postawioną hipotezę zerową. Stwierdzamy więc, że w trakcie przechowywania nastąpiło istotne zmniejszenie się średniej liczby zdrowych ziarniaków.
Przykład 4
Sprawdzić, czy średnia zawartość witaminy C w korzeniach marchwi badanych w pewnym doświadczeniu (Marchew-skład.xls) wynosi 2.5%.
Przykład 5
Sprawdzić, czy średnie zawartości β-karotenu w dwóch latach badań są jednakowe (Marchew-skład.xls). Sporządzić wykres średnich.
SAS®
ENTERPRISE GUIDE 21
DARIUSZ R. MAŃKOWSKI
3. Analiza wariancji i kowariancji
Analiza wariancji (ANOVA) jest najczęściej wykonywaną analizą statystyczną w wypadku badań rolniczych. Założenia testu F analizy wariancji opracowane przez R. A. Fishera dały podwaliny pod zasady doświadczalnictwa polowego.
W analizie wariancji badamy czy określone czynniki wpływają w jakiś sposób na obserwowane w doświadczeniu cechy. Hipoteza zerowa może być więc zapisana w dwóch postaciach: pierwsza ( 0 1 2:
kH0 1 20 1 2 k
K ) mówi o równości wartości średnich obserwowanej
cechy dla wszystkich poziomów badanego czynnika, druga z kolei ( 0 1 2: 0k
H a a a0 1 2: 00 1 2 k: 0: 0: 0: 00 1 20 1 2: 0K )
mówi o braku wpływu (wpływ zerowy) badanego czynnika na wartości obserwowanej cechy. W przypadku analizy wieloczynnikowej dochodzi jeszcze efekt interakcji między czynnikami, czyli różnej reakcji obserwowanej cechy na zmiany poziomów jednego czynnika pod wpływem zmian poziomów drugiego czynnika.
Dodatkowo po odrzuceniu hipotezy o braku wpływu badanego czynnika na obserwowaną cechę najczęściej przeprowadza się porównania szczegółowe średnich w celu stwierdzenia istotnych różnic pomiędzy poziomami badanego czynnika.
Analiza kowariancji (ANCOVA) pozwala na weryfikację identycznych hipotez statystycznych jak w przypadku analizy wariancji, z tym, że zakłada się, że na obserwowaną cechę, prócz badanych czynników może dodatkowo wpływać jedna bądź kilka innych cech (tzw. cechy towarzyszące). Analiza to pozwala na eliminację wpływu tych dodatkowych cech i nieobciążoną weryfikację postawionych hipotez.
3.1. Jednoczynnikowa analiza wariancji
Jednoczynnikowa analiza wariancji ma na celu sprawdzenie, czy badany czynnik nie ma
wpływu na obserwowaną cechę. W tej analizie badany jest wpływ tylko jednego czynnika. Tego typu analizy najczęściej przeprowadza się w przypadku analiz wyników doświadczeń pochodzących z w pełni kontrolowanych warunków (np. doświadczenia laboratoryjne, doświadczenia fitotronowe). Analiza ta nie
uwzględnia zmienności systematycznej wywołanej przez warunki otoczenia.
W EG jednoczynnikowa analiza wariancji jest
dostępna jako odrębna analiza w menu: AnalizujèANOVAèANOVA jednoczynnikowa….
Po uruchomieniu analizy zostaje otwarte okno opcji. W części „Role zadania” wskazujemy zmienną zależną (cecha obserwowana, wynik doświadczenia) oraz zmienną niezależną (badany w doświadczeniu czynnik), ewentualnie jeżeli analiza ma być wykonana dla kilku grup danych i dodatkowo w zbiorze danych znajduje się kolumna rozróżniająca te grupy, to tę kolumnę możemy wskazać jako zmienną grupującą („Grupuj analizowane wg”).
22 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
W części „Testy” możemy zdecydować czy ma być przeprowadzona wariancyjno-ważona analiza wariancji Welcha oraz możemy wybrać czy i jaki ma być przeprowadzony test homogeniczności wariancji (heteroscedastyczności). Do wyboru mamy testy: Bartletta, Browna-
Forsythe’a i Levene’a. W części „Średnie — Porównanie” możemy wybrać rodzaj procedury porównań wielokrotnych, która ma być wykorzystana do grupowania wartości średnich. Do wyboru mamy: Test t Bonferroniego, Studentyzowany test rozstępu Tukeya (procedura Tukeya / procedura Tukeya-Kramera), Wielokrotny test rozstępu Duncana, Test t Dunnetta, Test
najmniejszej znaczącej różnicy Fishera (procedura Studenta), Procedurę wielu porównań Gabriela, Wielokrotny test rozstępu Studenta-Newmana-Keulsa (procedura Newmana-Keulsa),
Test t współczynnika k Wallera-Duncana, Procedurę porównań wielokrotnych Schéffego oraz Wielokrotny test rozstępu Ryana-Einota-Gabriela-Welscha. W części „Średnie — Rozkład” możemy wybrać, jakie statystyki podstawowe mają być wyznaczone dla wartości obserwowanej cechy (zmiennej zależnej) w ramach każdego z poziomów badanego czynnika (zmiennej niezależnej).
W części „Wykresy” możemy zdecydować czy do analizy mają być dołączone wykresy słupkowe i pudełkowe.
Wyniki przeprowadzonej analizy możemy, prócz podglądu w formie tekstowej, zapisać do zbioru (część „Rezultaty”) w celu wykorzystania w dalszych analizach.
Doświadczenia jednoczynnikowe w układzie całkowicie losowym
Jednoczynnikowa analiza wariancji jest wykorzystywana do analizy danych pochodzących z doświadczeń jednoczynnikowych zakładanych w układzie całkowicie losowym. W tego typu doświadczeniach bada się wpływ jednego czynnika na obserwowaną cechę. Aby zachować podstawowe zasady zjawisk losowych doświadczenie takie przeprowadza się w kilku (minimum 3) powtórzeniach. Wszystkie poziomy czynnika rozlosowuje się w ramach całej powierzchni doświadczalnej.
SAS®
ENTERPRISE GUIDE 23
DARIUSZ R. MAŃKOWSKI
Dla przykładu, jeśli chcemy przeprowadzić doświadczenie sprawdzające czy czynnik A (4 poziomy) wpływa na obserwowaną cechę i doświadczenie wykonujemy w 3 powtórzeniach, to przykładowy schemat takiego doświadczenia może wyglądać w sposób następujący:
A2 A1 A3
A4 A2 A2
A1 A4 A3
A3 A1 A4
Model takiej analizy ma następującą postać:
gdzie: — prawdziwa średnia;
— błąd losowy dla j-tej obserwacji i-tego poziomu czynnika A.
W trakcie analizy weryfikowana jest hipoteza zerowa mówiąca o braku wpływu badanego czynnika na obserwowaną cechę (wszystkie średnie dla poziomów badanego czynnika są sobie równe).
Przykład 1
Wykonać analizę wariancji dla danych pochodzących z doświadczenia z pewną odmianą ziemniaka (Ziemniak_1.xls) uprawianą przez dwa lata. Sprawdzić czy lata badań istotnie wpływały na osiągane plony. Wykonać test homogeniczności wariancji Bartletta, wyznaczyć grupy jednorodne procedurą Tukeya i Schéffego oraz wykonać wykres średnich.
Wyniki:
W pierwszej kolejności w wynikach analizy prezentowane jest podsumowanie informacji o analizowanych zmiennych i o liczbie obserwacji w zbiorze oraz o liczbie użytych obserwacji do analizy.
Class Level Information
Class Levels Values
Rok 2 2000 2001
Number of Observations Read 28
Number of Observations Used 28
Kolejnym prezentowanym elementem jest tabela analizy wariancji wraz z wartościami opisującymi analizowany model analizy wariancji:
Source DF Sum of Squares Mean Square F Value Pr > F
Model 1 4485.69143 4485.69143 1.97 0.1727
Error 26 59327.27714 2281.81835
Corrected Total 27 63812.96857
R-Square Coeff Var Root MSE Plon Mean
0.070294 26.54431 47.76838 179.9571
Source DF Anova SS Mean Square F Value Pr > F
Rok 1 4485.691429 4485.691429 1.97 0.1727
Na podstawie przeprowadzonej analizy wariancji możemy stwierdzić, że nie ma podstaw do odrzucenia hipotezy mówiącej o braku różnic w plonach badanej odmiany ziemniaka pomiędzy latami badań.
Kolejne tabele prezentują wartości testu homogeniczności wariancji Bartletta oraz ogólne statystyki dla plonów w badanych latach.
24 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Bartlett's Test for Homogeneity of Plon Variance
Source DF Chi-Square Pr > ChiSq
Rok 1 0.0217 0.8829
Level of Rok N
Plon
Mean Std Dev
2000 14 192.614286 48.7523389
2001 14 167.300000 46.7637269
Przeprowadzony test Bartletta nie pozwala na odrzucenie hipotezy mówiącej o równości wariancji plonów w obydwu latach badań. Następnie prezentowane są wyniki procedur porównań wielokrotnych. W pierwszej kolejności procedury Tukeya:
Alpha 0.05
Error Degrees of Freedom 26
Error Mean Square 2281.818
Critical Value of Studentized Range 2.90697
Minimum Significant Difference 37.112
Means with the same letter are not significantly different.
Tukey Grouping Mean N Rok
A 192.61 14 2000
A
A 167.30 14 2001
W drugiej kolejności testu Schéffego:
Alpha 0.05
Error Degrees of Freedom 26
Error Mean Square 2281.818
Critical Value of F 4.22520
Minimum Significant Difference 37.112
Means with the same letter are not significantly different.
Scheffe Grouping Mean N Rok
A 192.61 14 2000
A
A 167.30 14 2001
Obydwa testy potwierdzają wnioski wyciągnięte z tabeli analizy wariancji. Nie pozwalają na rozdzielenie lat badań do odrębnych grup jednorodnych.
Na koniec prezentowany jest wykres wartości średnich plonów w latach badań.
SAS®
ENTERPRISE GUIDE 25
DARIUSZ R. MAŃKOWSKI
Przykład 2
Sprawdzić czy odmiany marchwi jadalnej (Marchew-skład.xls) różnią się między sobą zawartością pektyn, cukrów redukujących i karotenoidów w korzeniach. Wykonać grupowanie średnich procedurą Tukeya. Wykonać wykresy wartości średnich.
3.2. Wieloczynnikowa analiza wariancji — modele liniowe
Wieloczynnikowa analiza wariancji pozwala
na zbadanie wpływu więcej niż jednego czynnika na obserwowaną cechę. Dodatkowo pozwala na stwierdzenie występowania interakcji pomiędzy badanymi czynnikami (różnej reakcji obserwowanej cechy na poziomy jednego
czynnika przy zmianie poziomów drugiego czynnika). Zastosowanie modelu
wieloczynnikowej analizy wariancji pozwala również na analizę danych pochodzących z doświadczeń, w których zastosowano układy blokowe.
Aby przeprowadzić wieloczynnikową analizę wariancji w EG, należy posłużyć się analizą modeli liniowych (AnalizujèANOVAèModele liniowe…). Analiza ta pozwala na zbudowanie
modelu zgodnego z układem przeprowadzonego doświadczenia.
Po uruchomieniu analizy zostaje otwarte okno opcji. W części „Role zadania” wskazujemy zmienną zależną (badaną cechę) oraz zmienne klasyfikujące (czynniki). Ewentualnie możemy wskazać zmienną grupującą, jeżeli zbiór danych zawiera dane z kilku doświadczeń (wówczas w pole „Grupuj analizowane wg” przenosimy zmienną oznaczającą doświadczenia). W części „Model” budujemy analizowany model zgodnie z założonym planem doświadczenia. Efekty główne (pojedyncze czynniki) zaznaczamy w oknie po lewej stronie i klikamy przycisk „Główne”. W przypadku interakcji zaznaczamy czynniki budujące interakcję w okienku po lewej
stronie i klikamy przycisk „Krzyżowe”.
W części „Opcje modelu” możemy wybrać według którego typu sumy kwadratów odchyleń mają być wykonane obliczenia (opis typów sum kwadratów odchyleń znajduje się dalszej części tego rozdziału). Oprócz oszacowanych wartości parametrów można również wyznaczyć dla nich
przedziały ufności. W części „Opcje zaawansowane” możemy wskazać by EG wyświetlił funkcje estymowalne dla modelu oraz wybrać sposób ich wyznaczenia. Dodatkowo możemy wskazać by w wynikach wyświetlona została macierz .
26 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Część „Testy post hoc” zawiera opcje przydatne przy szacowaniu i porównywaniu wartości średnich badanej cechy dla poziomów analizowanych czynników. Część „Testy post hoc —
Najmniejsze kwadraty” pozwala na oszacowanie wartości średnich nieobciążonych licznością próby. Do oszacowanie tych wartości średnich wykorzystywana jest metoda najmniejszych kwadratów, stąd też średnie oszacowane w ten sposób są często określane jako „LSMeans”. Średnie nieobciążone mają duże znaczenie w przypadku danych nieortogonalnych (niekompletnych). Część „Testy post hoc — Średnia arytmetyczna” pozwala na wykonanie porównań wielokrotnych dla wartości średnich badanej cechy dla poziomów analizowanych czynników.
Część „Wykresy” pozwala na zdefiniowanie różnych wykresów, jakie mają być dołączone do wyników analiz. Można sporządzić wykresy dotyczące wartości średnich („Wykresy —
Średnie”), dotyczące wartości przewidywanych („Wykresy — Przewidywane”), dotyczące reszt, czyli błędu losowego („Wykresy — Reszty”) oraz dotyczące obserwacji wpływających („Wykresy — Wpływ”). O ile wykresy wartości średnich mają spore znaczenie przy analizie wariancji, o tyle trzy pozostałe grupy wykresów znajdują zastosowanie głównie w analizie regresji, którą również można przeprowadzić z zastosowaniem modeli liniowych.
SAS®
ENTERPRISE GUIDE 27
DARIUSZ R. MAŃKOWSKI
Część „Prognozy” pozwala na oszacowanie spodziewanych wartości badanej cechy przy znanych wartościach analizowanych czynników.
W analizie wariancji wyróżnia się cztery sposoby wyznaczania sum kwadratów odchyleń dla efektów głównych i interakcji pomiędzy czynnikami. Sposoby te zwane typami sum
kwadratów stosuje się zależnie od układu doświadczalnego i występowania braków danych (doświadczenia nieortogonalne). Poniżej zaprezentowano schemat wyznaczania wartości sum kwadratów:
Źródło zmienności TYP I
[SS1]
TYP II
[SS2]
TYP III
[SS3]
TYP IV
[SS4]
— obrazuje zmniejszenie sumy kwadratów dla błędu losowego, gdy do modelu zostaje dodane dane źródło zmienności.
TYP I — ma zastosowanie w przypadku doświadczeń jednoczynnikowych, oraz doświadczeń wieloczynnikowych dla danych kompletnych.
28 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
TYP II — ma zastosowanie w przypadku niekompletnych doświadczeń wieloczynnikowych gdy interakcja pomiędzy efektami głównymi nie jest istotna (np. doświadczenie jednoczynnikowe, niekompletne w układzie losowanych bloków).
TYP III — ma zastosowanie w przypadku gdy doświadczenie jest niekompletne
i wieloczynnikowe, a interakcja czynników jest przedmiotem analizy. Braki danych nie powinny być znaczne.
TYP IV — ma zastosowanie w przypadku doświadczeń wieloczynnikowych, gdy braki danych są dość znaczne i brakuje całych podklas (kombinacji czynników w ramach powtórzeń / bloków).
Doświadczenia jednoczynnikowe w układzie losowanych bloków
Doświadczenie jednoczynnikowe w układzie losowanych bloków stosuje się wówczas, gdy
chcemy zbadać wpływ jednego czynnika na obserwowaną cechę, jednak samo doświadczenie przebiega w niejednolitym środowisku (np. doświadczenie polowe). W tym układzie
doświadczalnym, w analizie wariancji uwzględnia się dodatkowo zmienność środowiska. Aby uwzględnić tę zmienność w doświadczeniu, zamiast stosowanych w doświadczeniach całkowicie losowych powtórzeń, wykorzystuje się bloki. W przypadku doświadczeń polowych bloki są prostokątnymi pasami pola ustawionymi dłuższym bokiem prostopadle do kierunku zmienności środowiskowej (tzw. zmienności systematycznej) występującej na polu doświadczalnym.
W ramach bloków rozlosowuje się poziomy analizowanego czynnika. Dla przykładu jeżeli chcemy przeprowadzić doświadczenie, w którym w warunkach polowych chcemy przebadać wpływ czynnika A (4 poziomy) na cechę ilościową i doświadczenie chcemy przeprowadzić w 4 blokach, to schemat układu doświadczalnego może wyglądać w sposób następujący:
BLOK I BLOK II BLOK III BLOK IV
A3 A2 A3 A4
A1 A3 A4 A2
A4 A4 A1 A3
A2 A1 A2 A1
Model analizy wariancji wygląda jak model analizy dwuczynnikowej bez interakcji (dlatego w przypadku układu niekompletnego zastosowanie ma II Typ sumy kwadratów odchyleń):
gdzie: — cecha obserwowana dla j-tego poziomu czynnika A w i-tym bloku; — prawdziwa średnia;
— błąd losowy dla j-tego poziomu czynnika A
w i-tym bloku.
W trakcie analizy weryfikowana jest hipoteza zerowa mówiąca o braku wpływu badanego czynnika na obserwowaną cechę (wszystkie średnie dla poziomów badanego czynnika są sobie równe). Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).
Przykład 1
Sprawdzić czy występują różnice w zdolności kiełkowania (ZK) nasion sześciu odmian życicy pochodzących z doświadczenia polowego założonego w układzie losowanych bloków (zbiór Życica-kiełkowanie.xls). Przeprowadzić analizę wariancji i porównania średnich procedurą Studenta-Newmana-Keulsa. Sporządzić wykres wartości średnich.
Wyniki:
W pierwszej kolejności w wynikach analizy prezentowane jest podsumowanie informacji o analizowanych zmiennych i o liczbie obserwacji w zbiorze oraz o liczbie użytych obserwacji do analizy.
Kierunek zmienności systematycznej
SAS®
ENTERPRISE GUIDE 29
DARIUSZ R. MAŃKOWSKI
Informacje o poziomie klasyfikacji
Klasa Poziomy Wartości
BLOK 3 1 2 3
ODMIANA 6 Zycica-01 Zycyca-02 Zycyca-03 Zycyca-04 Zycyca-05 Zycyca-06
Liczba obserwacji wczytanych 72
Liczba obserwacji użytych 72
Kolejnym prezentowanym elementem jest tabela analizy wariancji wraz z wartościami opisującymi analizowany model:
Źródło St. sw. Suma kwadratów Średnia kwadratów Wartość F Pr > F
Model 7 683.055556 97.579365 5.87 <.0001
Błąd 64 1063.555556 16.618056
Razem skorygowane 71 1746.611111
R-kwadrat Wsp. war. Pierwiastek MSE Średnia ZK
0.391075 4.343146 4.076525 93.86111
Źródło St. sw. Type I Suma kw. Średnia kwadratów Wartość F Pr > F
BLOK 2 398.7777778 199.3888889 12.00 <.0001
ODMIANA 5 284.2777778 56.8555556 3.42 0.0084
Na podstawie przeprowadzonej analizy wariancji możemy stwierdzić, że odrzucamy hipotezę mówiącą o braku różnic w zdolności kiełkowania nasion badanych odmiany życicy.
Dodatkowo możemy stwierdzić, że występowały istotne różnice pomiędzy blokami w doświadczeniu polowym (zmienność systematyczna).
Następnie prezentowane są wyniki procedury porównań wielokrotnych Studenta-Newmana-
Keulsa:
Alpha 0.05
Niepoprawne stopnie swobody 64
Kwadrat błędu średniej 16.61806
Liczba średnich 2 3 4 5 6
Zakres krytyczny 3.3248 3.9932156 4.389982 4.671618 4.889212
Średnie z tą samą literą nie różnią się znacząco.
Grupowanie SNK Średnia N ODMIANA
A 96.500 12 Zycica-01
A
A 95.500 12 Zycyca-06
A
B A 94.833 12 Zycyca-03
B A
B A 93.000 12 Zycyca-04
B A
B A 92.833 12 Zycyca-05
B
B 90.500 12 Zycyca-02
Zastosowana procedura pozwoliła na pogrupowanie badanych odmian na dwie grupy jednorodne. Ponieważ grupy te „nachodzą na siebie” możemy powiedzieć, że najwyższą zdolnością kiełkowania cechowały się nasiona odmian 01 i 06, a najniższą nasiona odmiany 02.
30 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Nasiona pozostałych odmian (03, 04 i 05) cechowały się zdolnością kiełkowania na średnim (pośrednim) poziomie.
Na koniec prezentowany jest wykres wartości średnich zdolności kiełkowania średnio w blokach i dla poszczególnych odmian:
Przykład 2
Sprawdzić czy występują różnice w energii kiełkowania (EK) nasion sześciu odmian życicy pochodzących z doświadczenia polowego założonego w układzie losowanych bloków (zbiór Życica-kiełkowanie.xls). Przeprowadzić analizę wariancji i porównania średnich procedurą Tukeya. Sporządzić wykres wartości średnich.
Doświadczenia dwuczynnikowe w układzie całkowicie losowym
Za pomocą doświadczeń czynnikowych możemy badać wpływ więcej niż jednego czynnika na obserwowaną cechę. W przypadku badania dwóch czynników mamy doświadczenia dwuczynnikowe, trzech – trójczynnikowe, itd.
Jeżeli doświadczenie dwuczynnikowe jest przeprowadzane w warunkach w pełni kontrolowanych i nie występuje zmienność systematyczna (np. doświadczenia laboratoryjne) do jego założenia można wykorzystać układ całkowicie losowy. Jego konstrukcja jest identyczna jak doświadczenia jednoczynnikowego w układzie całkowicie losowym. W kilku (minimum 3) powtórzeniach rozlosowuje się wszystkie możliwe kombinacje badanych czynników.
Dla przykładu jeśli doświadczenie ma na celu zbadanie wpływu czynników A (3 poziomy)
oraz B (4 poziomy) na obserwowaną cechę ilościową i doświadczenie będzie przeprowadzone w 3 powtórzeniach, to przykładowy schemat takiego doświadczenia może wyglądać w sposób następujący:
A1 B1 A1 B4 A1 B4
A2 B1 A2 B3 A2 B4
A3 B1 A1 B1 A1 B2
A3 B4 A2 B4 A2 B2
A1 B2 A3 B4 A3 B1
A3 B3 A3 B3 A3 B2
A1 B3 A3 B2 A3 B3
A2 B2 A3 B2 A2 B2
A2 B1 A1 B2 A1 B3
A3 B4 A2 B1 A2 B3
A1 B1 A1 B3 A3 B1
A2 B3 A2 B4 A1 B4
Model analizy wariancji uwzględnia wpływ obydwu badanych czynników i ich interakcji (dlatego w przypadku układu niekompletnego zastosowanie ma III lub IV Typ sumy kwadratów odchyleń):
gdzie: — cecha obserwowana dla k-tej obserwacji i-tego poziomu czynnika A i j-tego poziomu czynnika B; —
prawdziwa średnia; — efekt i-tego poziomu czynnika A; — efekt j-tego poziomu czynnika B; — efekt
interakcji i-tego poziomu czynnika A i j-tego poziomu czynnika B; — błąd losowy dla k-tej obserwacji i-tego
poziomu czynnika A i j-tego poziomu czynnika B.
Interakcję dwóch czynników możemy tłumaczyć jako różną reakcję obserwowanej cechy na poziomy jednego czynnika pod wpływem zmian poziomów drugiego czynnika.
SAS®
ENTERPRISE GUIDE 31
DARIUSZ R. MAŃKOWSKI
W trakcie analizy weryfikowane są trzy hipotezy zerowe:
— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);
— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);
— mówiąca o braku interakcji pomiędzy czynnikiem A i B.
Przykład 1
Badano wpływ oddziaływania zakładu przemysłowego na okoliczną roślinność
(Przemysł.xls). Oznaczano zawartość metali ciężkich w roślinach zielnych i trawach. Pobrano po trzy losowe próbki z terenów leśnych (lasy iglaste i lasy liściaste) i z łąk. Przeprowadzić analizę wariancji w układzie dwuczynnikowym całkowicie losowym dla zawartości ołowiu (Pb) w roślinach. Grupowanie średnich przeprowadzić procedurą Duncana. Sporządzić wykres dla interakcji.
Wyniki:
Na początku prezentowane są informacje o zbiorze danych i analizowanych zmiennych.
Informacje o poziomie klasyfikacji
Klasa Poziomy Wartości
Rośliny 2 r_zielne trawy
Siedlisko 3 las iglasty las liściasty łąka
Liczba obserwacji wczytanych 18
Liczba obserwacji użytych 18
Następnie prezentowane są wyniki analizy wariancji.
Źródło St. sw. Suma kwadratów Średnia kwadratów Wartość F Pr > F
Model 5 1403.249444 280.649889 1232.12 <.0001
Błąd 12 2.733333 0.227778
Razem skorygowane 17 1405.982778
R-kwadrat Wsp. war. Pierwiastek MSE Średnia Pb
0.998056 2.687111 0.477261 17.76111
Źródło St. sw. Type I Suma kw. Średnia kwadratów Wartość F Pr > F
Rośliny 1 1078.027222 1078.027222 4732.80 <.0001
Siedlisko 2 276.991111 138.495556 608.03 <.0001
Rośliny*Siedlisko 2 48.231111 24.115556 105.87 <.0001
Na podstawie przeprowadzonej analizy odrzucono hipotezy zerowe mówiące o: braku zróżnicowania pomiędzy zawartością ołowiu w grupach analizowanych roślin, braku zróżnicowania w zawartości ołowiu w roślinach w badanych siedliskach, braku występowania interakcji pomiędzy grupą roślin a siedliskiem. Na tej podstawie można więc stwierdzić, że grupy badanych roślin cechowały się istotnie różną zawartością ołowiu; w poszczególnych siedliskach zawartość ołowiu była różna; występowała interakcja w zawartości ołowiu pomiędzy grupami roślin i siedliskiem, z którego te rośliny pochodziły.
Następnie prezentowane są wyniki wyodrębniania grup jednorodnych procedurą Duncana.
Alpha 0.05
Niepoprawne stopnie swobody 12
Kwadrat błędu średniej 0.227778
32 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Liczba średnich 2
Zakres krytyczny .4902
Średnie z tą samą literą nie różnią się znacząco.
Grupowanie Duncan Średnia N Rośliny
A 25.5000 9 r_zielne
B 10.0222 9 trawy
Alpha 0.05
Niepoprawne stopnie swobody 12
Kwadrat błędu średniej 0.227778
Liczba średnich 2 3
Zakres krytyczny .6004 .6284
Średnie z tą samą literą nie różnią się znacząco.
Grupowanie Duncan Średnia N Siedlisko
A 21.9500 6 las iglasty
B 18.8167 6 las liściasty
C 12.5167 6 łąka
Uzyskane grupowanie pozwala na stwierdzenie, iż rośliny zielne cechowały się istotnie wyższą zawartością ołowiu niż trawy. Najwyższe stężenie ołowiu odnotowano w lasach iglastych, nieco mniejsze w lasach liściastych, a najniższe na łąkach.
Na końcu raportu wynikowego znajduje się wykres interakcji.
Na wykresie widać, że rośliny zielne cechowały się znacznie niższą zawartością ołowiu na łąkach niż w terenach zalesionych. W przypadku traw nie obserwowano aż tak dużych różnic.
Przykład 2
Badano wpływ oddziaływania zakładu przemysłowego na okoliczną roślinność (Przemysł.xls). Oznaczano zawartość metali ciężkich w roślinach zielnych i trawach. Pobrano po trzy losowe próbki z terenów leśnych (lasy iglaste i lasy liściaste) i z łąk. Przeprowadzić analizę wariancji w układzie dwuczynnikowym całkowicie losowym dla zawartości kadmu (Cd) w roślinach. Grupowanie średnich przeprowadzić procedurą Tukeya. Sporządzić wykres dla interakcji.
Doświadczenia dwuczynnikowe w układzie losowanych bloków
Podobnie jak w przypadku doświadczeń jednoczynnikowych, tak i w przypadku doświadczeń dwuczynnikowych stosuje się układ losowanych bloków. Ma on na celu
SAS®
ENTERPRISE GUIDE 33
DARIUSZ R. MAŃKOWSKI
wyodrębnienie zmienności systematycznej występującej w obszarze doświadczalnym (np. na
polu doświadczalnym).
Zasada zakładania takiego doświadczenia jest identyczna jak w przypadku doświadczeń jednoczynnikowych. Bloki ustawia się dłuższym bokiem prostopadle do kierunku zmienności systematycznej, a w ramach każdego z bloków rozlosowuje się wszystkie możliwe kombinacje badanych czynników.
Dla przykładu jeżeli w doświadczeniu polowym chcemy zbadać wpływ czynników
A (3 poziomy) oraz B (2 poziomy) na obserwowaną cechę ilościową, a doświadczenie zakładamy w 4 blokach, to przykładowy schemat doświadczenia może mieć następującą postać:
BLOK I BLOK II BLOK III BLOK IV
A1 B1 A2 B1 A1 B2 A3 B2
A3 B2 A1 B2 A2 B1 A1 B2
A1 B2 A3 B1 A3 B1 A1 B1
A2 B1 A2 B2 A1 B1 A2 B2
A2 B2 A3 B2 A2 B2 A3 B1
A3 B1 A1 B1 A3 B2 A2 B1
Model analizy wariancji uwzględnia wpływ obydwu badanych czynników i ich interakcji oraz zróżnicowanie pomiędzy blokami (zmienność systematyczna):
gdzie: — cecha obserwowana dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym bloku;
— prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego poziomu czynnika A; — efekt k-tego poziomu
czynnika B; — efekt interakcji j-tego poziomu czynnika A i k-tego poziomu czynnika B; — błąd losowy dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym bloku.
W trakcie analizy weryfikowane są trzy hipotezy zerowe:
— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla
poziomów czynnika A są sobie równe);
— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);
— mówiąca o braku interakcji pomiędzy czynnikiem A i B.
Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).
Przykład 1
W doświadczeniu polowym postanowiono zbadać zróżnicowanie 5 odmian jęczmienia jarego (Jęczmień jary 1.xls) oraz wpływ trzech zapraw nasiennych (kombinacja) na suchą masę siewek ocenianą w ustalonym okresie. Doświadczenie przeprowadzono w układzie losowanych bloków w 3 blokach. Przeprowadzić analizę wariancji, grupowania średnich wykonać procedurą Tukeya. Sporządzić wykres interakcji.
Wyniki:
W pierwszej kolejności prezentowane są zestawienia dotyczące analizowanych czynników i zbioru danych.
Informacje o poziomie klasyfikacji
Klasa Poziomy Wartości
Blok 3 1 2 3
Odmiana 5 j_1 j_2 j_3 j_4 j_5
Kombinacja 3 k_1 k_2 k_3
Kierunek zmienności systematycznej
34 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Liczba obserwacji wczytanych 45
Liczba obserwacji użytych 45
Następnie prezentowane są wyniki analizy wariancji.
Źródło St. sw. Suma kwadratów Średnia kwadratów Wartość F Pr > F
Model 16 0.42211716 0.02638232 16.53 <.0001
Błąd 28 0.04468116 0.00159576
Razem skorygowane 44 0.46679831
R-kwadrat Wsp. war. Pierwiastek MSE Średnia sm
0.904282 17.11847 0.039947 0.233356
Źródło St. sw. Type I Suma kw. Średnia kwadratów Wartość F Pr > F
Blok 2 0.00415551 0.00207776 1.30 0.2879
Odmiana 4 0.02527298 0.00631824 3.96 0.0114
Kombinacja 2 0.33278418 0.16639209 104.27 <.0001
Odmiana*Kombinacja 8 0.05990449 0.00748806 4.69 0.0010
Na podstawie przeprowadzonej analizy odrzucono hipotezy zerowe mówiące o: braku zróżnicowania pomiędzy odmianami; jednakowym wpływie zastosowanych kombinacji (zapraw nasiennych); o braku interakcji pomiędzy analizowanymi czynnikami. Na tej podstawie stwierdzono, że odmiany różniły się tempem wzrostu (suchą masą siewek po ustalonym czasie); że zastosowane zaprawy nasienne (kombinacje) w różny sposób wpływały na wzrost roślin (siewek); że występowała interakcja pomiędzy zastosowaną zaprawą nasienną a odmianą jęczmienia jarego. Dodatkowo nie stwierdzono zróżnicowania pomiędzy blokami (zmienności systematycznej).
Następnie prezentowane są wyniki wyodrębniania grup jednorodnych procedurą Tukeya.
Alpha 0.05
Niepoprawne stopnie swobody 28
Kwadrat błędu średniej 0.001596
Wartość krytyczna zakresu studentyzowanego 4.12030
Różnica minimalnie znacząca 0.0549
Średnie z tą samą literą nie różnią się znacząco.
Grupowanie Tukey Średnia N Odmiana
A 0.26500 9 j_5
A
A 0.25244 9 j_1
A
B A 0.22956 9 j_2
B A
B A 0.22267 9 j_4
B
B 0.19711 9 j_3
SAS®
ENTERPRISE GUIDE 35
DARIUSZ R. MAŃKOWSKI
Alpha 0.05
Niepoprawne stopnie swobody 28
Kwadrat błędu średniej 0.001596
Wartość krytyczna zakresu studentyzowanego 3.49918
Różnica minimalnie znacząca 0.0361
Średnie z tą samą literą nie różnią się znacząco.
Grupowanie Tukey Średnia N Kombinacja
A 0.33167 15 k_3
B 0.24620 15 k_2
C 0.12220 15 k_1
Na podstawie wyznaczonych grup jednorodnych stwierdzono, że najwyższą suchą masą siewek cechowały się odmiany 5 i 1, średnią suchą masą (część wspólna dwóch grup jednorodnych) odmiany 2 i 4, a najniższą sucha masą siewek odmiana 3. Zastosowanie zaprawy nasiennej oznaczonej jako k_3 pozwoliło na uzyskanie najwyższej suchej masy siewek roślin jęczmienia jarego. Sucha masa siewek dla zaprawy k_2 była na syrenim poziomie, a najniższa była dla zaprawy k_1.
Ostatnią częścią wyników jest wykres interakcji.
Z przedstawionego wykresu można odczytać, iż odmiana j_2 najgorzej reagowała w relacji do innych odmian na zaprawę k_1, odmiana j_3 z kolei najgorzej reagowała w relacji do innych odmian na zaprawę k_3.
Przykład 2
Przeprowadzić analizę wariancji dla plonów fasoli z poletka z doświadczenia w układzie dwuczynnikowym losowanych bloków. Doświadczenie polowe przeprowadzono dla 21 odmian fasoli i prowadzono przez 3 lata (Fasola
3 lata.xls). Ponieważ dane są niekompletne (nieortogonalne) analizę oprzeć na III Typie sum kwadratów odchyleń. Wyznaczyć średnie poprawione i przeprowadzić porównania parami dla tych średnich (wyznaczyć p-value dla różnic) opierając się na teście Tukeya-Kramera.
Doświadczenia wieloczynnikowe
W doświadczeniach wieloczynnikowych bada się wpływ więcej niż dwóch czynników na obserwowaną cechę. W modelach analizy wariancji uwzględnia się zarówno efekty główne czynników jak i interakcje między nimi. Doświadczenia wieloczynnikowe mogą być zakładane w układach całkowicie losowych (bez uwzględnienia zmienności systematycznej) lub w układzie losowanych bloków (uwzględniającym zmienność systematyczną).
36 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Przykład 1
Przeprowadzono doświadczenie trójczynnikowe w układzie losowanych bloków. W doświadczeniu badano wpływ nawożenia azotem (3 dawki), ochroną chemiczną fungicydami (3 preparaty) oraz użyciem insektycydu (2 poziomy) na plonowanie jęczmienia jarego (Jęczmień jary 2.xls). Przeprowadzić analizę wariancji. Porównania średnich dla efektów głównych wykonać procedurą Gabriela. Sporządzić wykresy interakcji II-ego stopnia.
Wyniki:
W pierwszej kolejności prezentowane są informację o zbiorze danych i o analizowanych czynnikach.
Informacje o poziomie klasyfikacji
Klasa Poziomy Wartości
BLOK 3 Blok_1 Blok_2 Blok_3
DAWKA_N 3 N0 N60 N90
FUNGICYD 3 Z0 Z1 Z2
INSEKTYCYD 2 n t
Liczba obserwacji wczytanych 54
Liczba obserwacji użytych 54
Następnie prezentowane są wyniki analizy wariancji.
Źródło St. sw. Suma kwadratów Średnia kwadratów Wartość F Pr > F
Model 19 189.1740741 9.9565302 3.68 0.0005
Błąd 34 91.9940741 2.7057081
Razem skorygowane 53 281.1681481
R-kwadrat Wsp. war. Pierwiastek MSE Średnia PLON_dt
0.672815 3.728688 1.644904 44.11481
Źródło St. sw. Type I Suma kw. Średnia kwadratów Wartość F Pr > F
BLOK 2 26.67259259 13.33629630 4.93 0.0132
DAWKA_N 2 69.53925926 34.76962963 12.85 <.0001
FUNGICYD 2 34.05481481 17.02740741 6.29 0.0047
INSEKTYCYD 1 7.26000000 7.26000000 2.68 0.1106
DAWKA_N*FUNGICYD 4 34.28740741 8.57185185 3.17 0.0257
DAWKA_N*INSEKTYCYD 2 0.59111111 0.29555556 0.11 0.8968
FUNGICYD*INSEKTYCYD 2 11.87111111 5.93555556 2.19 0.1270
DAWKA_*FUNGIC*INSEKT 4 4.89777778 1.22444444 0.45 0.7698
Na podstawie przeprowadzonej analizy odrzucono hipotezy mówiące o: braku wpływu nawożenia azotem na uzyskiwane plony jęczmienia jarego; braku różnic pomiędzy zastosowanymi fungicydami; o nie występowaniu interakcji pomiędzy nawożeniem azotem i zastosowanymi fungicydami. Nie odrzucono natomiast hipotez mówiących o: braku wpływu zastosowania insektycydu na uzyskane plony; niewystępowaniu interakcji pomiędzy nawożeniem azotem i zastosowaniem insektycydu; niewystępowaniu interakcji pomiędzy zastosowanym fungicydem i zastosowaniem insektycydu; niewystępowaniu interakcji III-ego
stopnia pomiędzy dawką nawożenia azotowego, zastosowany fungicydem i użyciem insektycydu. Dodatkowo stwierdzono występowanie istotnych różnic pomiędzy blokami (zmienność systematyczna).
SAS®
ENTERPRISE GUIDE 37
DARIUSZ R. MAŃKOWSKI
Następnie w wynikach prezentowane są podziały na grupy jednorodne procedurą Gabriela.
Alpha 0.05
Niepoprawne stopnie swobody 34
Kwadrat błędu średniej 2.705708
Wartość krytyczna studentyzowanego maksimum modułu 2.50591
Różnica minimalnie znacząca 1.374
Średnie z tą samą literą nie różnią się znacząco.
Grupowanie SMM Średnia N DAWKA_N
A 45.5333 18 N90
B 44.0556 18 N60
B
B 42.7556 18 N0
Alpha 0.05
Niepoprawne stopnie swobody 34
Kwadrat błędu średniej 2.705708
Wartość krytyczna studentyzowanego maksimum modułu 2.50591
Różnica minimalnie znacząca 1.374
Średnie z tą samą literą nie różnią się znacząco.
Grupowanie SMM Średnia N FUNGICYD
A 45.2111 18 Z0
B 43.7778 18 Z2
B
B 43.3556 18 Z1
Alpha 0.05
Niepoprawne stopnie swobody 34
Kwadrat błędu średniej 2.705708
Wartość krytyczna studentyzowanego maksimum modułu 2.03228
Różnica minimalnie znacząca 0.9098
Średnie z tą samą literą nie różnią się znacząco.
Grupowanie SMM Średnia N INSEKTYCYD
A 44.4815 27 n
A
A 43.7481 27 t
Na podstawie prezentowanych wyników można stwierdzić, że:
— najwyższe plony uzyskano przy dawce azotu 90 kg/ha, istotnie niższe przy dawkach 60 i 0 kg/ha;
38 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
— najwyższe plony osiągnięto przy zabiegach wykonanych fungicydem Z0, istotnie niższe w przypadku użycia fungicydów Z1 i Z2;
— nie stwierdzono różnic w plonach w przypadku użycia bądź nie insektycydu.
Na konie wyników zaprezentowane zostały wykresy interakcji II-ego stopnia.
Analiza wariancji pozwoliła na stwierdzenie występowania jedynie interakcji II-ego stopnia
pomiędzy dawką nawożenia azotowego i zastosowanym fungicydem. Na wykresie przedstawiającym tę interakcję widać, iż fungicyd Z1 powodował spadki w uzyskiwanych
plonach jedynie przy dawkach nawożenia azotowego 0 i 60 kg/ha, przy dawce 90 kg/ha nie obserwowano obniżenia plonów. Fungicyd Z2 powodował wzrost plonów jęczmienia jarego jedynie przy dawce azotu 0 kg/ha, przy dwóch pozostałych dawkach obserwowano spadki
plonowania.
Nie stwierdzono występowania istotnej interakcji III-ego stopnia (patrz tabela analizy
wariancji).
Przykład 2
W doświadczeniu trójczynnikowym (układ całkowicie losowy) badano wpływ dwóch dawek nawożenia azotem na zwartość białka w pięciu odmianach jęczmienia jarego uprawianego w trzech miejscowościach (Jęczmień jary 3.xls).
Przeprowadzić analizę wariancji, średnie grupować procedurą Bonferroniego, wykonać wykresy dla interakcji II-ego stopnia.
3.3. Analiza kowariancji
Analiza wariancji pozwala porównać obiekty pod względem pewnej cechy, gdy podlega ona dla każdego obiektu tylko zmienności przypadkowej (losowej) i nie jest równocześnie uzależniona od innych cech. Zdarza się jednak, że obserwowana cecha ilościowa znajduje się pod wpływem innych cech ilościowych. Takie zmienne nazywamy zmiennymi towarzyszącymi. Zakłócają one prawidłową ocenę obserwowanej cechy. Analiza kowariancji pozwala wyeliminować wpływ zmiennych towarzyszących na końcową ocenę obiektów (wpływu czynników) według badanej cechy. Wykorzystuje ona między innymi analizę regresji obserwowanej cechy względem zmiennej towarzyszącej.
SAS®
ENTERPRISE GUIDE 39
DARIUSZ R. MAŃKOWSKI
Przykład 1
W doświadczeniu porównawczym badano różnice pomiędzy 12 odmianami fasoli (Fasola pogoda.xls). Doświadczenie założono w układzie losowanych bloków. Oceniano między innymi plon z poletka. Dodatkowo odnotowano sumy temperatur i opadów w okresie wegetacji. Przeprowadzić analizę kowariancji z uwzględnieniem danych o temperaturze i opadach (zmienne towarzyszące), wyznaczyć wartości średnie poprawione dla odmian.
Wyniki:
Na początku prezentowane są informacje o analizowanych czynnikach i ich poziomach oraz informacje o liczbie wykorzystanych obserwacji.
Informacje o poziomie klasyfikacji
Klasa Poziomy Wartości
Blok 3 1 2 3
Odmiana 12 ATUT AUGUST AURA BOR JUBILAT MELA NAREW NIDA POLANK PROSNA WARTA WENTA
Liczba obserwacji wczytanych 36
Liczba obserwacji użytych 36
Następnie prezentowane są wyniki analizy wariancji z uwzględnieniem zmiennych towarzyszących (element regresyjny).
Źródło St. sw. Suma kwadratów Średnia kwadratów Wartość F Pr > F
Model 15 5.28635411 0.35242361 9.03 <.0001
Błąd 20 0.78088361 0.03904418
Razem skorygowane 35 6.06723772
R-kwadrat Wsp. war. Pierwiastek MSE Średnia Plon_z_poletka
0.871295 18.01149 0.197596 1.097055
Źródło St. sw. Type I Suma kw. Średnia kwadratów Wartość F Pr > F
Blok 2 0.36018648 0.18009324 4.61 0.0225
Odmiana 11 4.92577267 0.44779752 11.47 <.0001
Suma_temperatur 1 0.00014902 0.00014902 0.00 0.9514
Suma_opadów 1 0.00024594 0.00024594 0.01 0.9375
Na podstawie przeprowadzonej analizy możemy stwierdzić, że pomiędzy odmianami występowały istotne różnice. Istotnie różniły się również bloki. Zmienne towarzysząc nie odznaczały się istotnym wpływem na obserwowane plony fasoli.
Na koniec prezentowane są wartości średnich poprawionych (LSMenas) plonów dla badanych w doświadczeniu odmian.
Odmiana Plon_z_poletka LSMEAN
ATUT 0.95277161
AUGUST 0.57797882
AURA 1.25797118
BOR 0.81429834
JUBILAT 0.60956151
MELA 0.77042158
NAREW 1.25442180
40 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
NIDA 1.29004122
POLANK 1.74891336
PROSNA 1.48401653
WARTA 1.58811112
WENTA 0.81615342
Przykład 2
W doświadczeniu porównawczym badano różnice pomiędzy 12 odmianami fasoli (Fasola pogoda.xls). Doświadczenie założono w układzie losowanych bloków. Oceniano między innymi zawartość białka w nasionach. Dodatkowo odnotowano sumy temperatur i opadów w okresie wegetacji. Przeprowadzić analizę kowariancji z uwzględnieniem danych o temperaturze i opadach (zmienne towarzyszące),
wyznaczyć wartości średnie poprawione dla odmian.
SAS®
ENTERPRISE GUIDE 41
DARIUSZ R. MAŃKOWSKI
4. Badanie zależności pomiędzy cechami
W badaniach przyrodniczych bardzo często mamy styczność z różnego rodzaju zależnościami pomiędzy obserwowanymi cechami. Wyróżniamy przy tym cztery typy
zależności: brak zależności, współliniowość, interakcje i korelacje. Poniższe rysunki stanowią graficzną interpretację tych zależności:
brak zależności
współliniowość
interakcja
korelacja
Z punktu widzenia statystki najciekawsze i godne uwagi oraz analizy są interakcje i korelacje. Na identyfikację i analizę interakcji pozwala analiza wariancji. Korelacje natomiast identyfikuje się z wykorzystaniem analizy współczynników korelacji, a opisuje się je za pomocą analizy funkcji regresji.
Najczęściej bada się występowanie korelacji o charakterze liniowym (tak jak na powyższym rysunku).
Współczynnik korelacji jest definiowany jako miara siły oddziaływań pomiędzy cechami. Przyjmuje on wartości z zakresu od –1 do 1, przy czym 0 oznacza brak korelacji. Wartości z zakresu oraz świadczą o bardzo silnej zależności (korelacji), wartości z zakresu oraz świadczą o średniej zależności (korelacji), natomiast wartości z zakresu oraz — o słabej zależności (korelacji). Wartości –1 i 1 świadczą o idealnie liniowej zależności pomiędzy cechami. Ujemne wartości współczynnika korelacji mówią o zależności odwrotnie proporcjonalnej (czyli jeżeli wartość jednej cechy rośnie, to wartość drugiej cechy maleje), a wartości dodatnie o zależności wprost proporcjonalnej (czyli jeżeli wartość jednej cechy rośnie, to wartość drugiej cechy również rośnie).
Silna zależność Słaba zależność Brak zależności Słaba zależność Silna zależność
–1 –0,5 0 +0,5 +1
Zależność odwrotnie proporcjonalna Zależność wprost proporcjonalna
0
1
2
3
4
5
6
7
8
9
10
1 2 3
A
B
0
2
4
6
8
10
12
1 2 3
A
B
0
2
4
6
8
10
12
14
1 2 3
A
B
0
1
2
3
4
5
6
7
8
9
10
1 2 3
B
A
42 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Aby przeprowadzić analizę współczynnika korelacji liniowej w EG, należy wejść do menu „Analizuj:, następnie wybrać opcję „Wielowymiarowe” i opcję „Korelacje…” (AnalizujèWielowymiaroweèKorelacje…).
Po uruchomieniu analizy zostaje otwarte okno opcji.
W części „Role zadania” wskazujemy które zmienne chcemy analizować. Jeżeli chcemy uzyskać tak zwaną „macierz korelacji” czyli współczynniki korelacji pomiędzy wszystkimi analizowanymi cechami, to te cechy przeciągamy do pola „Zmienne analizowane” w okienku po prawej stronie. Jeżeli natomiast chcemy wyznaczyć współczynniki korelacji pomiędzy dwoma cechami lub dwoma grupami cech, to pierwszą z nich przypisujemy do opcji „Zmienne analizowane”, a drugą do opcji „Koreluj z”. W części „Opcje” możemy wybrać, który współczynnik korelacji ma być analizowany. Możemy wybrać również dodatkowe obliczenia, których wyniki będą prezentowane w raporcie.
W części rezultaty możemy wskazać, jakie elementy mają być wyświetlane w wynikach oraz czy mają być prezentowane wykresy rozrzutu obserwacji.
W części „Dane wynikowe” możemy zapisać wyniki analizy do zewnętrznego zbioru w celu ich dalszego wykorzystania.
4.1. Analiza współczynnika korelacji liniowej Pearsona
Jeżeli obie badane cechy, pomiędzy którymi szukamy zależności, są cechami ilościowymi ciągłymi, to do opisu zależności korelacyjnej wykorzystujemy współczynnik korelacji liniowej Pearsona.
Stawiamy hipotezę zerową mówiącą o tym, że nie ma zależności pomiędzy badanymi cechami. Tak postawioną hipotezę zerową weryfikujemy testując współczynnik korelacji liniowej Pearsona statystyką t-Studenta.
Przykład 1
Sprawdzić czy występuje zależność (korelacja) pomiędzy plonem pszenżyta ozimego (zbiór Pszenżyto ozime 1.xls) a liczbą ziarniaków w kłosie. Sporządzić wykres rozrzutu.
SAS®
ENTERPRISE GUIDE 43
DARIUSZ R. MAŃKOWSKI
Wyniki:
W pierwszej kolejności w wynikach prezentowane są informacje dotyczące analizowanych
zmiennych oraz podstawowe statystyki dla tych zmiennych (liczba obserwacji, wartości średnie, odchylenia standardowe, suma, minima i maksima).
1 Z Zmienne: Liczba_ziarniakow_w_klosie
1 Zmienne: Plon
Statystyki proste
Zmienna N Średnia Odch. std. Suma Minimum Maksimum
Liczba_ziarniakow_w_klosie 72 30.91528 2.83582 2226 24.60000 38.50000
Plon 72 7.07806 0.58324 509.62000 5.97000 8.46000
Następnie prezentowana jest tabela z współczynnikami korelacji. Na przecięciu się kolumny i wiersza z analizowanymi cechami znajdują się dwie wartości liczbowe. Górna oznacza
współczynnik korelacji liniowej Pearsona, a dolna — p-value dla tego współczynnika korelacji.
Współczynniki korelacji Pearsona, N = 72 Prob > |r| przy H0: Ro=0
Plon
Liczba_ziarniakow_w_klosie Liczba_ziarniakow_w_klosie
0.35007 0.0026
W wyniku przeprowadzonej analizy współczynnika korelacji liniowej Pearsona pomiędzy plonem pszenżyta ozimego a liczbą ziarniaków w kłosie odrzucamy hipotezę zerową mówiącą o braku zależności (korelacji) pomiędzy tymi cechami. Stwierdzamy zatem występowanie zależności. Jest to zależność wprost proporcjonalna (dodatni współczynnik korelacji) i słaba (współczynnik korelacji < 0,5).
Na koniec prezentowany jest wykres rozrzutu obrazujący zależność pomiędzy analizowanymi cechami.
Przykład 2
Sprawdzić czy występuje zależność (korelacja) pomiędzy plonem pszenżyta ozimego (zbiór Pszenżyto ozime 1.xls) a liczbą kłosów na metrze kwadratowym i MTZ. Sporządzić wykresy rozrzutu.
4.2. Analiza współczynnika korelacji rangowej Spearmana
Jeżeli przynajmniej jedna spośród cech, pomiędzy którymi szukamy zależności, jest cechą skokową porządkową, to do opisu zależności korelacyjnej wykorzystujemy współczynnik korelacji rangowej Spearmana.
Stawiamy hipotezę zerową mówiącą o tym, że nie ma zależności pomiędzy badanymi cechami. Tak postawioną hipotezę zerową weryfikujemy testując współczynnik korelacji rangowej Spearmana statystyką t-Studenta.
44 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Przykład 1
W badaniach ankietowych gospodarstw indywidualnych zbierano szereg
informacji o uprawianych roślinach rolniczych, w tym pszenicy ozimej (Pszenica ozima-odsiewy.xls). Zbierano między innymi informacje o plonie i rodzaju użytego materiału siewnego (Odsiew: 1 — superelita lub elita, 2 — oryginał, 3 — I odsiew,
4 — dalsze odsiewy, 5 — materiał niekwalifikowany własny bądź z zakupu lub wymiany). Sprawdzić czy istnieje korelacja pomiędzy plonem pszenicy ozimej (zmienna ciągła) i odsiewem (zmienna skokowa, porządkowa). Sporządzić wykres rozrzutu.
Wyniki:
W pierwszej kolejności w wynikach prezentowane są informacje dotyczące analizowanych zmiennych oraz podstawowe statystyki dla tych zmiennych (liczba obserwacji, wartości średnie, odchylenia standardowe, suma, minima i maksima).
1 Z Zmienne: Odsiew
1 Zmienne: Plon
Statystyki proste
Zmienna N Średnia Odch. std. Mediana Minimum Maksimum Etykieta
Odsiew 591 4.08291 1.12817 5.00000 1.00000 5.00000 Odsiew
Plon 595 41.94672 11.58782 40.00000 7.50000 80.00000 Plon
Następnie prezentowana jest tabela z współczynnikami korelacji. Na przecięciu się kolumny i wiersza z analizowanymi cechami znajdują się dwie wartości liczbowe. Górna oznacza
współczynnik korelacji rangowej Spearmana, a dolna — p-value dla tego współczynnika korelacji.
Współczynniki korelacji Spearmana Prob > |r| przy H0: Ro=0
Liczba obserwacji
Plon
Odsiew Odsiew
-0.44320 <.0001
591
Na podstawie przeprowadzonej analizy współczynnika korelacji rangowej Spearmana odrzucono hipotezę zerowa mówiącą o braku zależności pomiędzy analizowanymi cechami. Stwierdzono występowanie zależności (korelacji) pomiędzy plonem a rodzajem użytego materiału siewnego. Zależność ta jest słaba i odwrotnie proporcjonalna. Im lepszy materiał siewny (wyższy numer klasy odsiewu wg przyjętej skali), tym wyższe plony pszenicy ozimej.
Na koniec prezentowany jest wykres rozrzutu obrazujący zależność pomiędzy analizowanymi cechami.
SAS®
ENTERPRISE GUIDE 45
DARIUSZ R. MAŃKOWSKI
Przykład 2
W badaniach ankietowych gospodarstw indywidualnych zbierano szereg
informacji o uprawianych roślinach rolniczych, w tym rzepaku (Rzepak-
odsiewy.xls). Zbierano między innymi informacje o plonie i rodzaju użytego materiału siewnego (Odsiew: 1 — superelita lub elita, 2 — oryginał, 3 — I odsiew,
4 — dalsze odsiewy, 5 — materiał niekwalifikowany własny bądź z zakupu lub wymiany). Sprawdzić czy istnieje korelacja pomiędzy plonem rzepaku (zmienna ciągła) i odsiewem (zmienna skokowa, porządkowa). Sporządzić wykres rozrzutu.
4.3. Analiza funkcji regresji prostej (regresji liniowej)
Zależność liniową dwóch zmiennych losowych można zapisać matematycznie za pomocą funkcji liniowej zwanej funkcją regresji prostej lub funkcją regresji liniowej. Funkcja ta jest zapisywana w postaci:
gdzie: — zmienna zależna (determinowana), — zmienna opisująca (determinująca), — stała regresji;
— współczynnik regresji; — błąd losowy (tak zwana reszta), .
Do oceny wartości parametrów funkcji regresji liniowej (stałej regresji i współczynnika regresji) wykorzystuje się MNK (Metodę Najmniejszych Kwadratów). W trakcie analizy funkcji regresji liniowej przeprowadza się dwa testowania. Pierwszy test statystyczny (tak zwane testowanie łączne) weryfikuje hipotezę zerową mówiącą o tym, że zarówno stała jak i współczynnik regresji są równe 0. Hipotezę tę można zinterpretować jako mówiącą o tym, że wyznaczony model regresji nie opisuje zależności pomiędzy cechami. Do weryfikacji tej hipotezy wykorzystuje się test F analizy wariancji. Drugi test statystyczny (tak zwane testowanie
szczegółowe) weryfikuje dwie hipotezy statystyczne. Pierwsza hipoteza mówi o tym, że stała regresji jest równa 0 (czyli, że punkt przecięcia funkcji z osią Y jest w punkcie 0). Druga hipoteza mówi o tym, że współczynnik regresji jest równy 0 (czyli, że funkcja jest stała i nie zmienia się wraz ze zmianą wartości X). Do weryfikacji obu tych hipotez wykorzystuje się test t-Studenta.
Dodatkowym, bardzo istotnym parametrem wyznaczanym podczas analizy funkcji regresji
liniowej jest współczynnik determinacji (oznaczany jako ). Jest on wyrażany w procentach lub w postaci ułamka dziesiętnego. Mówi o stopniu dopasowania funkcji regresji do rzeczywistych obserwacji. Czasami tłumaczy się go jako stopień wytłumaczenia obserwowanej zmienności wartości cech przez wyznaczoną funkcję regresji liniowej.
Aby przeprowadzić analizę funkcji regresji liniowej w SAS EG należy wybrać z menu „Analizuj” opcję „Regresja”, a następnie „Regresja liniowa…” (AnalizujèRegresjaèRegresja liniowa…).
Otworzy się okno opcji analizy. W części „Role zadania” wskazujemy zmienną zależną oraz zmienną objaśniającą. Część „Model” ma zastosowanie przy regresji wielokrotnej. Podczas omawiania tego typu
regresji zostanie ona szerzej opisana. Część „Statistics” zawiera opcje służące do wyświetlania w wynikach wybranych parametrów i statystyk dla wyznaczonego modelu funkcji regresji (między innymi: standaryzowane współczynniki regresji, macierze korelacji i kowariancji ocen,
Y
X
46 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
przedziały ufności dla ocen parametrów, statystyki służące do badania funkcji regresji1),
korelacje cząstkowe i korelacje półcząstkowe). W części „Wykresy — Przewidywane” możemy zdecydować, jakie wykresy dla obserwacji przewidywanych będą wykonane („Obserwowane do przewidywanych” i „Obserwowane do niezależnych”). Dodatkowo na wykresie „Obserwowane do niezależnych” można zaznaczyć obszar ufności lub obszar predykcji dla wyznaczonej funkcji regresji liniowej.
W części „Wykresy — Reszta” można wybrać, jakie wykresy dla reszt będą sporządzone („Zwyczajne do przewidywanych Y”, „Standaryzowane do przewidywanych Y”, „Studentyzowane do przewidywanych Y”, („Zwyczajne do niezależnych”, „Standaryzowane do niezależnych” oraz „Studentyzowane do niezależnych”). W części „Wykresy — Wpływ” możemy wskazać, jakie wykresy związane z analizą obserwacji wpływających (influential observation) mają być sporządzane (element badania funkcji regresji).
1)
— Szczegółowy opis badania funkcji regresji liniowej i wielokrotnej będzie zamieszczony przy okazji omawiania zaawansowanych możliwości analizy regresji w środowisku programistycznym SAS®.
SAS®
ENTERPRISE GUIDE 47
DARIUSZ R. MAŃKOWSKI
Część „Prognozy” służy do prognozowania, na podstawie wyznaczonego modelu regresji,
wartości zmiennej opisywanej na podstawie zmiennej opisującej.
Przykład 1
W pewnym gospodarstwie badano w ciągu dziesięciu kolejnych lat przeciętne dzienne spożycie ziemniaków w kilogramach (X) i wielkość spożycia artykułów zbożowych w kilogramach (Y), przypadającą na jednego członka rodziny (Spożycie.xls). Zbadać, jaka jest zależność między cechami X oraz Y. Sporządzić wykres funkcji z wyznaczonym obszarem ufności dla tej funkcji.
Wyniki:
W pierwszej kolejności, w wynikach, prezentowana jest informacja o liczbie danych
w zbiorze i liczbie danych wykorzystanych w obliczeniach.
Liczba obserwacji wczytanych 10
Liczba obserwacji użytych 10
Następnie prezentowana jest tabela analizy wariancji z wynikami z testowania hipotezy łącznej mówiącej o zerowej wartości stałej i współczynnika regresji.
Analiza wariancji
Źródło St. sw. Suma
kwadratów Średnia
kwadratów Wartość F Pr > F
Model 1 0.27273 0.27273 119.43 <.0001
Błąd 8 0.01827 0.00228
Razem skorygowane 9 0.29100
Na podstawie przeprowadzonej analizy wariancji odrzucamy hipotezę zerową mówiącą o zerowych wartościach stałej i współczynnika regresji. Można więc stwierdzić, że wyznaczony model opisuje występującą zależność pomiędzy wielkością spożycia ziemniaków i wielkością spożycia artykułów zbożowych.
Następnie prezentowane są statystyki dopasowania modelu.
Śr. bł. kw. 0.04779 R-Square 0.9372
Średnia zależna 0.52000 Adj R-Sq 0.9294
Wsp. war. 9.18971
Wyznaczony model w 93,72% (R2) opisuje występującą zależność pomiędzy cechami.
Kolejnym elementem wyników jest tabela zawierająca oszacowane wartości stałej regresji (intercept) i współczynnika regresji. W tej samej tabeli znajdują się wyniki testowania szczegółowego dla hipotez, mówiących o zerowej wartości stałej regresji i o zerowej wartości
współczynnika regresji.
48 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Oceny parametrów
Zmienna Etykieta St. sw. Ocena
parametru Błąd
standardowy Wartość t Pr > |t|
Intercept Intercept 1 1.31320 0.07414 17.71 <.0001
Ziemniaki Ziemniaki 1 -1.08658 0.09943 -10.93 <.0001
Na podstawie prezentowanych wyników odrzucamy obydwie postawione hipotezy zerowe.
Stwierdzamy więc, że stała regresji (intercept) wynosi 1,31 (czyli, że przy zerowym spożyciu ziemniaków, w badanym gospodarstwie spożywano około 1,31 kg artykułów zbożowych dziennie na głowę. Współczynnik regresji wynosi –1,09 (oznacza to, że jeżeli dzienne spożycie ziemniaków na głowę wzrastało o 1 kg to równocześnie spożycie artykułów zbożowych malało o 1,09 kg (zależność odwrotnie proporcjonalna). Tak więc wyznaczona funkcja regresji liniowej ma postać:
Na koniec prezentowany jest wykres funkcji regresji liniowej („Obserwowane do niezależnych”) wraz z wyznaczonym dla niej obszarem ufności.
Przykład 2
Opisać zależność między plonem pszenżyta ozimego (zbiór Pszenżyto ozime 1.xls) a liczbą ziarniaków w kłosie za pomocą funkcji regresji liniowej. Sporządzić wykres tej funkcji.
4.4. Analiza funkcji regresji wielokrotnej (wielorakiej)
Funkcja regresji liniowej opisuje zależność pomiędzy zmienną zależną (Y) a jedną zmienną opisującą (X). tymczasem często zdarza się, że na obserwowaną cechę ciągłą wpływa więcej niż jedna cecha ilościowa. Do opisu takiej zależności stosuje się analizę regresji wielokrotnej zwanej
również analizą regresji wielorakiej. Funkcję tą zapisuje się w postaci:
gdzie: — zmienna zależna (determinowana), — zmienne opisujące (determinujące), — stała regresji; — cząstkowe współczynniki regresji; — błąd losowy (tak zwana reszta), .
W notacji macierzowej model regresji wielokrotnej można zapisać jako:
gdzie: — wektor obserwacji zmiennej zależnej ; — macierz wektorów obserwacji zmiennych
niezależnych ; — wektor estymowanych parametrów; — wektor błędów losowych (reszt); — liczba
zmiennych niezależnych ; .
SAS®
ENTERPRISE GUIDE 49
DARIUSZ R. MAŃKOWSKI
Obrazem graficznym funkcji regresji liniowej dwóch zmiennych była linia prosta w układzie dwóch współrzędnych (na płaszczyźnie). Obrazem graficznym funkcji regresji liniowej
wielokrotnej jest płaszczyzna w p’ wymiarowej przestrzeni.
Dla przykładu jeżeli zmienna zależna Y zależy od dwóch zmiennych niezależnych X1 i X2, to
obrazem graficznym funkcji regresji wielokrotnej, opisującej tę zależność będzie płaszczyzna w przestrzeni trójwymiarowej ( ).
Analizę funkcji regresji wielokrotnej w programie EG wykonuje się identycznie jak w przypadku analizy regresji liniowej dwóch zmiennych (AnalizujèRegresjaèRegresja
liniowa…). Jedynie w części „Role zadania” wskazuje się więcej niż jedną zmienną niezależną. Dodatkowo w części „Model” możemy wybrać sposób, w jaki mają być dobierane zmienne do modelu regresji wielokrotnej („Dopasowanie całego modelu” — domyślne; „Wybór następnych” — selekcja w przód, „Eliminacja poprzednich” — selekcja w tył, „Wybór krokowy” — selekcja
dwukierunkowa („stepwise”) oraz selekcja na podstawie R2 i poprawionego R2).
O ile w regresji liniowej dwóch zmiennych podstawowym parametrem opisującym dopasowanie funkcji był współczynnik determinacji R2, o tyle w przypadku funkcji regresji
liniowej wielokrotnej zaleca się stosowanie poprawionego współczynnika determinacji R2 ze
względu na stopnie swobody. Normalny współczynnik determinacji w przypadku regresji wielu zmiennych charakteryzuje się wzrostem swojej wartości niezależnie czy do modelu regresyjnego dodamy zmienne rzeczywiście (istotnie) wpływające na zmienną zależną, czy też nie. Może to prowadzić do tego, że najwyższy współczynnik determinacji będzie miał model regresji wielokrotnej zawierający zmienne nie wpływające na zmienną zależną. Dlatego też opracowano poprawiony współczynnik determinacji, którego wartość rośnie tylko wtedy gdy do
modelu dodawane są zmienne istotnie wpływające na zmienną zależną. Jeżeli do modelu zostanie dodana zmienna, która nie wpływa na zmienną zależną, to wartość poprawionego współczynnika determinacji zmaleje.
W ocenie współczynników regresji wielokrotnej uzyskanych metodą MNK testowane są: hipoteza łączna mówiącej o zerowej wartości stałej i wszystkich cząstkowych współczynników regresji (analiza wariancji); oraz p’ hipotez szczegółowych mówiących o zerowych wartościach stałej i każdego z cząstkowych współczynników regresji (test t-Studenta).
Przykład 1
W doświadczeniu z jęczmieniem jarym (Jęczmień jary 4.xls) oznaczano plon
ziarna z rośliny oraz cechy mogące decydować o wysokości plonów (składowe plonu). Za pomocą regresji wielokrotnej opisać zależność pomiędzy plonem i jego składowymi. Zbudować pełen model regresji (bez selekcji zmiennych). Wyznaczyć standaryzowane współczynniki regresji.
50 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Wyniki:
W pierwszej kolejności prezentowane są informacje o liczbie obserwacji w zbiorze danych
oraz o liczbie obserwacji wykorzystanych do obliczeń.
Liczba obserwacji wczytanych 320
Liczba obserwacji użytych 320
Następnie prezentowane są wyniki analizy wariancji, za pomocą której testuje się hipotezę łączną mówiącą o tym, że stała regresji jak i wszystkie cząstkowe współczynniki regresji są równe zero.
Analiza wariancji
Źródło St. sw. Suma
kwadratów Średnia
kwadratów Wartość F Pr > F
Model 6 2621.48215 436.91369 6875.49 <.0001
Błąd 313 19.89008 0.06355
Razem skorygowane 319 2641.37224
Na podstawie wyników analizy wariancji, hipotezę łączną odrzucamy. Tym samym stwierdzamy, że wyznaczony model regresji wielokrotnej opisuje występującą zależność pomiędzy plonem ziarna z rośliny jęczmienia jarego i jego składowymi.
Następną częścią wyników są statystyki dopasowania modelu.
Śr. bł. kw. 0.25208 R-Square 0.9925
Średnia zależna 5.04493 Adj R-Sq 0.9923
Wsp. war. 4.99679
Wyznaczony model regresji wielokrotnej w 99,23% (poprawiony R2) opisuje występującą zależność pomiędzy plonem i jego składowymi.
Następnie prezentowane są oszacowane wartości stałej regresji (intercept) i cząstkowych współczynników regresji oraz wyniki testowania szczegółowego przyrównującego poszczególne wyznaczone wartości parametrów do zera.
Oceny parametrów
Zmienna Etykieta St. sw. Ocena
parametru Błąd
standardowy Wartość t Pr > |t|
Intercept Intercept 1 0.46711 0.22413 2.08 0.0380
Liczba_ziaren_w_klosie Liczba_ziaren_w_klosie 1 -0.36591 0.02104 -17.39 <.0001
Liczba_ziaren_w_roslinie Liczba_ziaren_w_roslinie 1 0.04667 0.00094028 49.64 <.0001
Liczba_klosow_z_rosliny Liczba_klosow_z_rosliny 1 -0.10167 0.01283 -7.92 <.0001
Masa_ ziaren _z_klosa Masa_ziaren_z_klosa 1 7.77858 0.52670 14.77 <.0001
Masa_1_ziarniaka Masa_1_ziarniaka 1 0.01007 0.00594 1.70 0.0909
Liczba_pedow Liczba_pedow 1 -0.00193 0.00295 -0.65 0.5135
Na podstawie przedstawionych wyników hipotezy o zerowych wartościach parametrów nie odrzucono jedynie dla cząstkowych współczynników regresji dla masy jednego ziarniaka i liczby pędów z rośliny. Pozostałe parametry maja wartości niezerowe.
Na podstawie przedstawionych wyników nie możemy jednak jednoznacznie określić znaczenia poszczególnych składowych w budowie plonu. Ocenę taką można przeprowadzić dopiero na podstawie standaryzowanych współczynników regresji.
SAS®
ENTERPRISE GUIDE 51
DARIUSZ R. MAŃKOWSKI
Oceny parametrów
Zmienna Etykieta St. sw. Ocena
standaryzowana
Intercept Intercept 1 0
Liczba_ziaren_w_klosie Liczba_ziaren_w_klosie 1 -0.46832
Liczba_ziaren_w_roslinie Liczba_ziaren_w_roslinie 1 1.13902
Liczba_klosow_z_rosliny Liczba_klosow_z_rosliny 1 -0.15876
Masa_ziarn_z_klosa Masa_ziarn_z_klosa 1 0.47026
Masa_1_ziarniaka Masa_1_ziarniaka 1 0.01811
Liczba_pedow Liczba_pedow 1 -0.00516
Im wyższa wartość standaryzowanego współczynnika regresji tym większe znaczenie w budowaniu plonu ziaren z rośliny jęczmienia jarego.
Przykład 2
W doświadczeniu z jęczmieniem jarym (Jęczmień jary 4.xls) oznaczano plon
ziarna z rośliny oraz cechy mogące decydować o wysokości plonów (składowe plonu). Za pomocą regresji wielokrotnej opisać zależność pomiędzy plonem i jego składowymi. Zbudować pełen model stosując selekcję dwukierunkową „stepwise” („Wybór krokowy”).
Przykład 3
W doświadczeniach z uprawą traw na nasiona zbierano informację o strukturze
plonu (Trawy nasienne-struktura.xls). Zbadać zależności pomiędzy plonem i jego składowymi za pomocą analizy regresji wielokrotnej. Ocenić wagę składowych wyznaczając standaryzowane współczynniki regresji.
52 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
5. Testy nieparametryczne
Podczas prowadzenia badań obserwujemy zwykle szereg cech. Często stawiamy sobie pytanie, czy badane cechy są ze sobą w jakiś sposób powiązane (zależne). Jeżeli badane cechy są mierzalne (ciągłe bądź skokowe) to do sprawdzenia czy występują zależności pomiędzy tymi
cechami wykorzystujemy analizę współczynników korelacji i analizę funkcji regresji. Jeżeli jednak przynajmniej jedna z dwóch badanych cech nie jest mierzalna (jest wyrażana jako kategoria, tzw. zmienna skategoryzowana), to do zbadania zależności jesteśmy zmuszeni wykorzystać tak zwane analizy nieparametryczne.
5.1. Testy chi-kwadrat
Podstawowym narzędziem statystycznym służącym do weryfikacji hipotezy zerowej w postaci: cechy A i B są niezależne, gdy przynajmniej jedna z tych cech jest cechą skategoryzowaną, jest test chi-kwadrat ( ) niezależności.
Test ten opiera się na danych zebranych w postaci tabel kontyngencji zwanych tabelami krzyżowymi. W tabeli takiej zestawia się w wierszach i w kolumnach liczebności wystąpienia danych kategorii badanych cech.
Cecha B
Ce
cha
A
Liczebności brzegowe: ,
Do weryfikacji wyżej postawionej hipotezy zerowej można wykorzystać trzy testy nieparametryczne:
— Test Pearsona
Obejmuje różnicę pomiędzy obserwowaną częstością wystąpień, a częstością oczekiwaną,
którą wyznacza się dla zachodzącej hipotezy o braku zależności pomiędzy cechami.
gdzie: — liczność oczekiwana, .
— Test ilorazu wiarygodności (likehood ratio)
Obejmuje iloraz częstości obserwowanej i częstości oczekiwanej.
— Test Mantela-Haenszela
Test chi-kwadrat Pearsona i test chi-kwadrat ilorazu wiarygodności nie uwzględniają pewnych informacji użytecznych w ocenie niezależności cech porządkowych. Jeżeli obie cechy (w rzędach i kolumnach tablicy kontyngencji) mają charakter porządkowy (reprezentują wartości zwiększające się bądź zmniejszające) możemy zweryfikować hipotezę zerową o braku zależności liniowej pomiędzy tymi cechami. Do weryfikacji takiej hipotezy zerowej stosujemy test chi-kwadrat Mantela-Haenszela.
gdzie: — współczynnik korelacji liniowej Pearsona pomiędzy badanymi cechami.
SAS®
ENTERPRISE GUIDE 53
DARIUSZ R. MAŃKOWSKI
Powyższe testy służą do weryfikacji postawionej hipotezy zerowej. W przypadku jej odrzucenia stwierdzamy, że występuje zależność pomiędzy badanymi cechami. Nie posiadamy jednak informacji o sile tej zależności. O ile w przypadku zmiennych ilościowych miarą siły oddziaływań między cechami jest współczynnik korelacji, o tyle w przypadku zmiennych skategoryzowanych należy wykorzystać jedną z prezentowanych poniżej miar:
— Współczynnik (FI)
Jest miarą zależności pomiędzy cechami. Wywodzi się on z testu chi-kwadrat Pearsona.
Przyjmuje wartości z zakresu dla tablic kontyngencji o wymiarach , oraz
dla tablic o wymiarach , gdzie .
— Współczynnik wielodzielczy
Jest miarą zależności pomiędzy cechami skokowymi. Podobnie jak współczynnik wywodzi
się on z testu chi-kwadrat Pearsona. Przyjmuje wartości z zakresu , gdzie
.
— Współczynnik V Cramera
Podobnie jak współczynnik i współczynnik wielodzielczy, wywodzi się z testu chi-kwadrat
Pearsona i jest miarą zależności pomiędzy cechami skokowymi. Współczynnik ten przyjmuje wartości z zakresu dla tablic kontyngencji o wymiarach , oraz dla
tablic o wymiarach , gdzie .
Wymienione testy nieparametryczne i miary siły zależności są uważane za klasyczne i podstawowe metody analizy zależności pomiędzy zmiennymi skategoryzowanymi. Istnieje szereg różnych innych testów, które mogą znaleźć zastosowanie w analizie zależności tych cech.
Testy te jednak mają z reguły konkretne zastosowania w konkretnych przypadkach. My jednak skupimy się na wyżej opisanych testach chi-kwadrat niezależności cech skokowych.
Aby w EG wykonać analizę niezależności cech skokowych z menu „Opisz” wybieramy „Analiza kontyngencji…” (OpiszèAnaliza
kontyngencji…).
Po uruchomieniu analizy wyświetlane są okna dialogowe służące do ustawienia parametrów analizy.
W części „Role zadania” wskazujemy dwie cechy, które mają być analizowane. W części „Tabele” za pomocą myszki przenosimy na
obraz prezentujący schemat tabeli wybrane cechy ustawiając jedną jako kolumny, z drugą jako wiersze. W części „Statystyki komórek” zaznaczamy informacje, które mają być wyświetlane w tabeli kontyngencji (zaleca się zaznaczenie opcji: „Procenty wierszy”, „Procenty kolumn”, „Liczebność komórek” oraz „Procenty komórek”). W części „Statystyki tabel — Asocjacja” możemy wskazać testy zależności (asocjacji),
czyli testy chi-kwadrat niezależności (EG wykona wszystkie trzy opisane wyżej testy). W tej
54 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
części można również zaznaczyć opcję służącą do wyliczenia wszystkich statystyk Cochrana-
Mantela-Haenszela. Są to: statystyka korelacji CMH, punktacje średniej wiersza (ANOVA) oraz skorygowane względne ryzyko i iloraz szans. Można również wybrać testy i miary zgodności dla tabel . Opcje dotyczące miar zgodności dla tabel pozwalają na wyliczenie kilku miar zgodności oraz ich asymptotycznych standardowe błędów (ASE). Są to następujące miary: gamma, tau-b Kendalla, tau-c Stuarta, D Somersa (C|R), D Somersa (R|C), współczynniki korelacji Pearsona i Spearmana, lambda (symetryczny i asymetryczny), a także współczynnik niepewności (symetryczny i asymetryczny). Dla tabel miara ta pozwala na wyznaczenie
stosunku szans, względnego ryzyka kolumny 1, względnego ryzyka kolumny 2 oraz odpowiadających im granic przedziałów ufności.
W części „Statystyki tabel — Zgodność” można wybrać opcje pozwalające na wyliczenie testów i miar klasyfikacji zgodności dla tabel kwadratowych ( ). Opcja umożliwia obliczenie testu McNemara dla tabel oraz testu symetrii Bowkera dla tabel o więcej niż dwóch kategoriach odpowiedzi. Opcja wylicza także prosty współczynnik kappa, ważony współczynnik kappa, asymptotyczne standardowe błędy dla prostego i ważonego współczynnika kappa oraz odpowiadające im granice przedziałów ufności. W przypadku wielu warstw oraz dwóch kategorii odpowiedzi, opcja wylicza również test Q Cochrana. Część „Statystyki tabel — Różnice uporządkowane” służy do wyliczania testu Jonckheerego-Terpstry, będącego nieparametrycznym testem uporządkowanych różnic pomiędzy klasami. W teście sprawdzana jest hipoteza zerowa o tym, że rozkład zmiennych objaśnianych nie różni się w poszczególnych klasach. Część „Statystyki tabel — Test trendu” pozwala na wyliczenie testu Cochrana-
Armitage'a dla trendu, sprawdzającego trendy w ułamkach dwumianowych dla wielu poziomów pojedynczego czynnika (zmiennej towarzyszącej). Test można wykorzystać dla tabeli kontyngencji, gdzie jedna zmienna ma dwa poziomy, a druga jest zmienną porządkową. Dwupoziomowa zmienna reprezentuje odpowiedź, natomiast druga zmienna reprezentuje
zmienną objaśniającą z uporządkowanymi poziomami. Część „Statystyki tabel — Opcje
obliczeniowe” służy do wyboru typu punktacji dla testu asocjacji, zgodności lub trendu. Typ
punktacji określa sposób punktowania wierszy i kolumn w statystykach chi-kwadrat Mantela-
Haenszela, Cochrana-Mantela-Haenszela, korelacji Pearsona, teście trendów Cochrana-
SAS®
ENTERPRISE GUIDE 55
DARIUSZ R. MAŃKOWSKI
Armitage'a oraz ważonego współczynnika kappa. Domyślnie do obliczeń brane są liczności z tabeli kontyngencji. W tej części znajduje się również opcja pozwalająca na uwzględnienie braków danych w obliczeniach procentów i innych statystyk. Można podać poziom ufności do obliczeń.
Część „Rezultaty — Rezultaty statystyki komórek” oraz „Rezultaty — Rezultaty statystyk
tabel” pozwalają na zapisanie uzyskanych wyników do zbiorów wynikowych, które mogą być wykorzystywane przy dalszych obliczeniach.
Przykład 1
Przeprowadzono badania ankietowe wśród 623 rolników uprawiających w roku 2002 pszenicę ozimą (Pszenica ozima-ankieta.xls). Między innymi zbierano informacje o wieku rolnika (zakodowaną według skali: 1 — do 30 lat, 2 — lat,
3 — lat, 4 — powyżej 50 lat) oraz o jakości stosowanego materiału siewnego (Odsiew zakodowany według skali: 1 — superelita lub elita, 2 — oryginał, 3 — I odsiew, 4 — dalsze odsiewy, 5 — materiał niekwalifikowany własny bądź z zakupu lub wymiany). Zbadać czy istnieje zależność pomiędzy tymi cechami.
Wyniki:
Pierwszym elementem wyników jest tabela kontyngencji z wyznaczonymi licznościami i udziałami procentowymi odpowiedzi.
56 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Tabela Wiek na Odsiew
Wiek(Wiek) Odsiew(Odsiew)
Razem
Liczebn. Procent Proc. wierszy Proc. kolumn 1 2 3 4 5
1 3 0.48
5.77 60.00
0 0.00
0.00 0.00
15 2.41
28.85 11.54
8 1.28
15.38 10.67
26 4.17
50.00 6.84
52 8.35
2 0 0.00
0.00
0.00
9 1.44
5.73
27.27
37 5.94
23.57
28.46
23 3.69
14.65
30.67
88 14.13
56.05
23.16
157 25.20
3 2
0.32 0.74
40.00
17
2.73 6.27
51.52
50
8.03 18.45
38.46
29
4.65 10.70
38.67
173
27.77 63.84
45.53
271
43.50
4 0
0.00 0.00
0.00
7
1.12 4.90
21.21
28
4.49 19.58
21.54
15
2.41 10.49
20.00
93
14.93 65.03
24.47
143
22.95
Razem 5
0.80
33
5.30
130
20.87
75
12.04
380
61.00
623
100.00
Następnie prezentowane są wyniki nieparametrycznych testów niezależności.
Statystyka St. sw. Wartość Prawdop.
Chi-kwadrat 12 29.2152 0.0037
Chi-kw. ilorazu wiarygodn. 12 24.8809 0.0154
Chi-kwadrat Mantela-Haenszela 1 4.2286 0.0397
Współczynnik FI 0.2166
Współczynnik wielodzielczości 0.2116
V Cramera 0.1250
OSTRZEŻENIE: 25% komórek ma teoretyczne liczebności mniejsze niż 5. Chi-kwadrat może nie być właściwym testem.
Na podstawie uzyskanych wyników odrzucamy hipotezę zerową mówiącą o braku zależności między wiekiem rolnika a rodzajem stosowanego materiału siewnego (test chi-kwadrat
i chi-kwadrat ilorazu wiarygodności). Ponieważ obydwie analizowane cechy mają charakter porządkowy można w tym przypadku wykorzystać test Mantela-Haenszela do sprawdzenia czy
występuje liniowa zależność pomiędzy cechami. Wyniki analizy pozwalają na odrzucenie hipotezy zerowej mówiącej, iż pomiędzy badanymi cechami nie występuje zależność liniowa. Tak więc stwierdzamy, że cechy te są zależne (rodzaj stosowanego materiału siewnego zależy od wieku rolnika), co więcej zależność ta ma charakter liniowy. W celu odnalezienia stwierdzonej
zależności należy cofnąć się do tabeli kontyngencji i przeanalizować zawarte tam informacje o strukturze procentowej odpowiedzi. Z tabeli można odczytać, że wraz z wiekiem rośnie odsetek rolników stosujących niekwalifikowany materiał siewny. Patrząc na wartości współczynników mówiących o sile zależności możemy stwierdzić, że występująca zależność pomiędzy badanymi cechami jest raczej słaba.
Pod tabelą zawierającą wyniki testów chi-kwadrat znajduje się komentarz mówiący, iż pewna część komórek ma liczności teoretyczne (spodziewane) mniejsze niż 5 i w związku z tym testy chi-kwadrat mogą nie być właściwe do analizy tych danych. Testy chi-kwadrat są wrażliwe na zbyt małą liczbę danych, jednak w naszym przypadku analizujemy ponad 600 obserwacji,
w związku z czym testy chi-kwadrat dają miarodajne i godne zaufania wyniki.
SAS®
ENTERPRISE GUIDE 57
DARIUSZ R. MAŃKOWSKI
Przykład 2
Przeprowadzono badania ankietowe wśród 623 rolników uprawiających w roku 2002 pszenicę ozimą (Pszenica ozima-ankieta.xls). Między innymi zbierano informacje o wykształceniu rolnika (zakodowane według skali: 0 — niepełne podstawowe, 1 — podstawowe, 2 — zawodowe nierolnicze, 3 — zawodowe rolnicze,
4 — techniczne nierolnicze, 5 — techniczne rolnicze, 6 — średnie ogólnokształcące, 7 — wyższe nierolnicze, 8 — wyższe rolnicze) oraz o jakości stosowanego materiału siewnego (Odsiew zakodowany według skali: 1 — superelita lub elita, 2 — oryginał, 3 — I odsiew, 4 — dalsze odsiewy, 5 — materiał niekwalifikowany własny bądź z zakupu lub wymiany). Zbadać czy istnieje zależność pomiędzy tymi cechami.
58 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
6. Analizy wielowymiarowe
Najczęściej w badaniach rolniczych analizuje się pojedyncze obserwowane cechy. Jednak czasami zdarza się, że w toku prac badawczych zbieramy szereg informacji, cech opisujących badane obiekty. Zdarza się wówczas, że szereg analiz przeprowadzonych na pojedynczych cechach nie pozwala nam na całościowe podejście do badanego zagadnienia. Wówczas z pomocą przychodzą analizy wielowymiarowe.
Analizy wielowymiarowe wykorzystują wiele cech opisujących badane obiekty jednocześnie. Pozwalają na grupowanie obiektów (np. analiza składowych głównych, analiza skupień), opisanie zmienności obiektów (np. PCA, analiza czynnikowa) czy też pozwalają na redukcję wymiarów (np. analiza czynnikowa, PCA).
6.1. Analiza czynnikowa (Factor Analysis)
Analiza czynnikowa bazuje na założeniu, że w grupie cech opisujących badane obiekty znajduje się jeden bądź kilka czynników opisujących zmienność pomiędzy tymi obiektami. Celem analizy jest wskazanie tych czynników i opisanie ich budowy oraz działania. Najczęściej stosuje się analizę czynnikową do „redukcji wymiarów”, czyli do wskazania tych grup cech, które faktycznie odpowiadają za obserwowaną zmienność pomiędzy obiektami. Pozostałe cechy mogą być pominięte w dalszych analizach.
Jest bardzo wiele rodzajów analizy czynnikowej. Najczęściej stosuje się jednak analizę czynnikową opartą na metodzie składowych głównych Hotellinga (polega ona na przypisaniu
czynnika wektorowi własnemu dla j-tej wartości własnej macierzy kowariancji) z kryterium Kaisera (do zespołu czynników brane są tylko te, dla których wartość własna przekracza 1) i rotacją Varimax (daje maksymalne zróżnicowanie ładunków w ramach czynnika).
W celu przeprowadzenia w programie EG analizy
czynnikowej z menu „Analizuj” wybieramy opcję „Wielowymiarowe”, a następnie opcję „Analiza czynnikowa…” (AnalizujèWielowymiaroweèAnaliza
czynnikowa…).
Po uruchomieniu analizy wyświetli się okno dialogowe. W części „Role zadania” wskazujemy analizowane zmienne (tylko numeryczne). W części „Factoring Method” wybieramy sposób wyznaczania
czynników głównych (zaleca się wybranie „Analiza głównych składowych”. Dodatkowo możemy wskazać aby do obliczeń brana była macierz kowariancji w miejsce macierzy korelacji (macierz korelacji lepiej jest stosować, gdy analizowane zmienne są prezentowane w różnych skalach, gdy wszystkie są wyznaczone w jednej skali zaleca się obliczenia na podstawie macierzy
kowariancji).
W części „Communality” możemy wskazać jaką wartość a priori mają przyjąć wszystkie ładunki. W części „Rotation and Plots” możemy wybrać rodzaj rotacji (zalecane „Ortogonalny
SAS®
ENTERPRISE GUIDE 59
DARIUSZ R. MAŃKOWSKI
Varimax”), metody normalizacji (zalecane „Normalizacja Kaisera”) oraz rodzaje wykreślanych wykresów.
W części „Results” możemy wskazać jakie dodatkowo wyniki mają być wyświetlane. W tej części możemy również wskazać by wyniki były zapisywane do pliku wynikowego w celu wykorzystania w dalszych analizach.
Przykład
Ocenę odmian traw gazonowych prowadzi się w skali (9°), przy czym ocenia się wiele parametrów w kilku momentach okresu wegetacji (Trawy gazonowe.xls).
Częstym problemem jest ocena różnic pomiędzy badanymi odmianami. Zbyt wiele
obserwowanych cech znacznie utrudnia tę ocenę. Przeprowadzić analizę czynnikową metodą składowych głównych z rotacją Varimax i normalizacją Kaisera.
Wyniki:
W pierwszej kolejności prezentowana jest tabela zawierająca wyznaczone czynniki główne, ich wartości własne, ilorazy i ilorazy skumulowane.
Wartości własne macierzy kowariancji: Total = 16.1842333 Average = 1.01151458
Wartość własna Różnica Iloraz Skumulowany
1 5.98964122 2.93760366 0.3701 0.3701
2 3.05203756 1.45551650 0.1886 0.5587
3 1.59652106 0.43800982 0.0986 0.6573
4 1.15851124 0.36775558 0.0716 0.7289
5 0.79075566 0.22168519 0.0489 0.7778
6 0.56907047 0.06667859 0.0352 0.8129
7 0.50239188 0.03517575 0.0310 0.8440
8 0.46721613 0.07487739 0.0289 0.8728
9 0.39233874 0.02054186 0.0242 0.8971
10 0.37179688 0.06275529 0.0230 0.9200
11 0.30904159 0.03452640 0.0191 0.9391
12 0.27451519 0.04822022 0.0170 0.9561
13 0.22629497 0.01206447 0.0140 0.9701
14 0.21423050 0.07079351 0.0132 0.9833
15 0.14343699 0.01700376 0.0089 0.9922
16 0.12643323 0.0078 1.0000
4 factors will be retained by the MINEIGEN criterion.
Pod tabelą znajduje się komentarz mówiący, iż tylko 4 czynniki spełniają kryterium MINEIGEN (wynikające z kryterium Kaisera). I faktycznie tylko pierwsze 4 czynniki mają
60 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
wartości własne większe niż 1. Pierwszy czynnik tłumaczy 37,01% zmienności badanych odmian, drugi — 18,86%, trzeci — 9,86% a czwarty — 7,16%. Wszystkie cztery pierwsze
czynniki główne tłumaczą łącznie 72,89% obserwowanej zmienności pomiędzy badanymi odmianami.
Następnie prezentowana jest macierz czynników przed rotacją.
Factor Pattern
Factor1 Factor2 Factor3 Factor4
PR_przezimowanie PR_przezimowanie 0.81368 0.16655 0.11881 -0.06133
OAW_ogólny_aspekt_wiosną OAW_ogólny_aspekt_wiosną 0.55113 0.48046 -0.25244 0.11166
ZAW_zadarnienie_wiosną ZAW_zadarnienie_wiosną 0.23445 0.62302 -0.21853 0.37476
ODW_odrost_wiosną ODW_odrost_wiosną 0.15627 0.53501 -0.07595 0.01422
DLW_smukłość_wiosną DLW_smukłość_wiosną -0.13281 0.78802 0.02766 -0.26985
BW_barwa_wiosną BW_barwa_wiosną -0.16339 0.67210 -0.18037 0.52315
OAL_ogólny_aspekt_latem OAL_ogólny_aspekt_latem -0.08928 0.44469 0.24215 0.38803
ZAL_zadarnienie_latem ZAL_zadarnienie_latem -0.00402 0.77363 0.17200 -0.00486
ODL_odrost_latem ODL_odrost_latem 0.17624 0.62555 -0.00423 -0.28328
DLL_smukłość_latem DLL_smukłość_latem -0.03872 0.69954 0.02395 -0.41239
BL_barwa_latem BL_barwa_latem 0.39850 -0.14475 0.78075 0.34759
OAJ_ogólny_aspekt_jesienią OAJ_ogólny_aspekt_jesienią 0.81747 0.16268 0.15487 0.15955
ZAJ_zadarnienie_jesienią ZAJ_zadarnienie_jesienią 0.57291 0.48863 0.23706 -0.10898
ZZ_zimozieloność ZZ_zimozieloność 0.91739 -0.09863 0.09400 -0.23546
PS_pleśń_śniegowa PS_pleśń_śniegowa 0.82360 -0.16266 -0.42248 0.14663
R_rdza R_rdza -0.02779 0.32676 0.19140 -0.27228
Następnie prezentowane są oszacowane wartości (wagi) poszczególnych ładunków przed rotacją.
Final Communality Estimates and Variable Weights
Total Communality: Weighted = 11.796711 Unweighted = 10.298473
Zmienna Wspólna wariancja czynnikowa Waga
PR_przezimowanie 0.70768578 1.38828314
OAW_ogólny_aspekt_wiosną 0.61077818 0.74653859
ZAW_zadarnienie_wiosną 0.63132325 0.64685012
ODW_odrost_wiosną 0.31662397 0.48831776
DLW_smukłość_wiosną 0.71218994 0.72784701
BW_barwa_wiosną 0.78462845 1.07165109
OAL_ogólny_aspekt_latem 0.41492558 0.51185531
ZAL_zadarnienie_latem 0.62812576 0.69955002
ODL_odrost_latem 0.50264111 0.52431637
DLL_smukłość_latem 0.66149149 0.86907234
BL_barwa_latem 0.91014580 1.42289720
OAJ_ogólny_aspekt_jesienią 0.74417309 0.91969540
ZAJ_zadarnienie_jesienią 0.63506016 0.61959155
ZZ_zimozieloność 0.91561375 2.40359986
PS_pleśń_śniegowa 0.90475230 2.45578055
R_rdza 0.21831436 0.68838699
SAS®
ENTERPRISE GUIDE 61
DARIUSZ R. MAŃKOWSKI
Kolejnym elementem wyników jest macierz rotacji Varimax.
Orthogonal Transformation Matrix
1 2 3 4
1 0.99254 -0.04785 -0.03848 0.10536
2 0.06572 0.75820 0.64758 -0.03828
3 -0.09673 0.24016 -0.21571 0.94151
4 -0.03458 -0.60430 0.72982 0.31780
Następnie prezentowana jest macierz czynników po rotacji.
Rotated Factor Pattern
Factor1 Factor2 Factor3 Factor4
PR_przezimowanie PR_przezimowanie 0.80918 0.15293 0.00616 0.17172
OAW_ogólny_aspekt_wiosną OAW_ogólny_aspekt_wiosną 0.59915 0.20981 0.42587 -0.16251
ZAW_zadarnienie_wiosną ZAW_zadarnienie_wiosną 0.28183 0.18221 0.71508 -0.08579
ODW_odrost_wiosną ODW_odrost_wiosną 0.19712 0.37133 0.36721 -0.07100
DLW_smukłość_wiosną DLW_smukłość_wiosną -0.07337 0.77354 0.31250 -0.10387
BW_barwa_wiosną BW_barwa_wiosną -0.11864 0.15795 0.86223 -0.04651
OAL_ogólny_aspekt_latem OAL_ogólny_aspekt_latem -0.09623 0.16511 0.52237 0.32487
ZAL_zadarnienie_latem ZAL_zadarnienie_latem 0.03038 0.63100 0.46049 0.13035
ODL_odrost_latem ODL_odrost_latem 0.22624 0.63603 0.19248 -0.09939
DLL_smukłość_latem DLL_smukłość_latem 0.01949 0.78720 0.14836 -0.13937
BL_barwa_latem BL_barwa_latem 0.29848 -0.15137 -0.02380 0.89307
OAJ_ogólny_aspekt_jesienią OAJ_ogólny_aspekt_jesienią 0.80157 0.02500 0.15693 0.27642
ZAJ_zadarnienie_jesienią ZAJ_zadarnienie_jesienią 0.58159 0.46584 0.16371 0.23022
ZZ_zimozieloność ZZ_zimozieloność 0.90311 0.04618 -0.29129 0.11411
PS_pleśń_śniegowa PS_pleśń_śniegowa 0.84255 -0.35281 0.06113 -0.25816
R_rdza R_rdza -0.01521 0.45958 -0.02733 0.07824
Kółkami zaznaczono te wartości współczynników korelacji, które świadczą o silnym powiązaniu analizowanych cech z wyznaczonymi czynnikami głównymi. Mówi się, że czynniki główne są budowane przez te cechy. I tak na pierwszy czynnik główny (37,01% zmienności pomiędzy badanymi odmianami) składają się: przezimowanie, ogólny aspekt jesienią, zimozieloność i pleśń śniegowa, czyli cechy ewidentnie powiązane z przezimowaniem roślin. Drugi czynnik główny (18,86% zmienności) budują: smukłość roślin wiosną, zadarnienie latem, odrost latem, i smukłość roślin latem, czyli cechy związane z wyglądem roślin w okresie letnim. Trzeci czynnik główny (9,86% zmienności) budują: zadarnienie wiosną i barwa wiosną, czyli cechy mówiące o roślinach na początku sezonu wegetacji. Czwarty czynnik główny (7,16% zmienności) buduje w głównej mierze barwa latem.
Na koniec prezentowane są oszacowane wartości (wagi) poszczególnych ładunków po rotacji.
Final Communality Estimates and Variable Weights
Total Communality: Weighted = 11.796711 Unweighted = 10.298473
Zmienna Wspólna wariancja czynnikowa Waga
PR_przezimowanie 0.70768578 1.38828314
OAW_ogólny_aspekt_wiosną 0.61077818 0.74653859
ZAW_zadarnienie_wiosną 0.63132325 0.64685012
62 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
ODW_odrost_wiosną 0.31662397 0.48831776
DLW_smukłość_wiosną 0.71218994 0.72784701
BW_barwa_wiosną 0.78462845 1.07165109
OAL_ogólny_aspekt_latem 0.41492558 0.51185531
ZAL_zadarnienie_latem 0.62812576 0.69955002
ODL_odrost_latem 0.50264111 0.52431637
DLL_smukłość_latem 0.66149149 0.86907234
BL_barwa_latem 0.91014580 1.42289720
OAJ_ogólny_aspekt_jesienią 0.74417309 0.91969540
ZAJ_zadarnienie_jesienią 0.63506016 0.61959155
ZZ_zimozieloność 0.91561375 2.40359986
PS_pleśń_śniegowa 0.90475230 2.45578055
R_rdza 0.21831436 0.68838699
6.2. Analiza składowych głównych (PCA)
Analiza składowych głównych (PCA — Principal Component Analysis) jest wielowymiarową techniką badania relacji pomiędzy wieloma zmiennymi numerycznymi. Wykorzystywana jest do grupowania obiektów na podstawie zmienności ich cech, jak również do redukcji wymiarów.
Wyniki analizy PCA są bardzo zbliżone do wyników analizy czynnikowej, nie ma tu jednak rotacji i dostępny jest tylko jeden sposób wyznaczania składowych głównych.
W celu przeprowadzenia w programie EG analizy
składowych głównych z menu „Analizuj” wybieramy opcję „Wielowymiarowe”, a następnie opcję „Główne składowe…” (AnalizujèWielowymiaroweèGłówne
składowe…).
Po uruchomieniu analizy wyświetli się okno dialogowe. W części „Role zadania” wskazujemy analizowane zmienne (tylko numeryczne). W części „Analiza” możemy ustawić parametry prowadzonej analizy (wskazać czy obliczenia mają być wykonane na podstawie macierzy korelacji czy
kowariancji, itp.). W części „Wykresy” możemy zdecydować jakie wykresy będą dodane do wyników (wykres osypiska — piargowy, czy też wykres głównych składowych ze wskazaniem wymiarów i identyfikatora obserwacji). W części „Rezultaty” możemy zdecydować czy wyniki analiz mają być zapisywane w zbiorach wynikowych, które można wykorzystać do dalszych analiz.
SAS®
ENTERPRISE GUIDE 63
DARIUSZ R. MAŃKOWSKI
Przykład
Za pomocą analizy składowych głównych sprawdzić, czy informacje o składzie chemicznym korzeni marchwi jadalnej są wystarczającą przesłanką do identyfikacji odmianowej (Marchew-skład2.xls). Sporządzić wykres osypiska i wykres dwóch pierwszych składowych głównych z identyfikatorem jako etykietą (na podstawie tego wykresu ocenić, czy informacje o składzie chemicznym korzeni marchwi z dwóch lat wystarczą do identyfikacji odmianowej).
Wyniki:
Po uruchomieniu analizy prócz okna z wynikami zostanie otworzone okno logu, czyli okno z
zapisem uwag i komentarzy programu do wykonywanych procesów. Oznacza to, że w trakcie wykonywania analizy nastąpił jakiś błąd. W celu identyfikacji błędu należy przejrzeć okno logu i odszukać wpisy mówiące o błędzie.
W tym przypadku wpis wygląda w sposób następujący:
Okazuje się, że błąd powstał przy generowaniu wykresu składowych głównych. W zbiorze danych (program EG stworzył sobie na czas obliczeń zbiory tymczasowe, których nazwy zaczynają się od: WORK.TEMP…) nie występuje zmienna „Identyfikator” która ma być etykietą
danych na wykresie.
Powyższy błąd jest jeszcze niepoprawionym błędem w programie. Można jednak w miarę prosto samodzielnie go naprawić. W tym celu należy samodzielnie poprawić kod wykonywanych
analiz. W tym celu:
1) W eksploratorze projektów klikamy dwukrotnie na „Ostatnio przekazany kod” w nieudanej analizie PCA. W okienku roboczym zostanie otwarta treść kodu w języku SAS® 4GL (w tle
wszystkich analiz jest generowany kod 4GL, który faktycznie te analizy wykonuje).
2) Odszukujemy miejsce błędu:
64 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
3) Widzimy, że wykres generowany jest przez procedurę GPLOT, a jako źródłowy zbiór danych do tej procedury (DATA=) wskazany jest zbiór tymczasowy WORK.TMP1TempTableWork
(A).
4) Zbiór ten jest tworzony w (OUT=) powyższej procedurze (B). Procedura PRINCOMP ma za
zadanie przygotować dane do wykresu składowych głównych. Sama procedura bazuje na danych (DATA=) pochodzących ze zbioru tymczasowego WORK.TMP0TempTableWork. We
wcześniejszej części kodu należy więc odszukać gdzie ten zbiór jest tworzony:
5) Widać, że w skład zbioru wchodzą wszystkie wskazane przez nas zmienne (KEEP=) do
analizy, ale nie ma tam zmiennej „Identyfikator” potrzebnej do wykonania wykresu. W tym miejscu musimy poprawić ręcznie kod.
6) Klikamy myszką tuż za znakiem „=” w poleceniu KEEP=, wciskamy <SPACJĘ>. W tym momencie wyświetlony zostanie komunikat:
7) Wciskamy „Tak”. W tym momencie zostanie otwarte nowe okno z tym samym kodem 4GL (w Eksploratorze projektów będzie ono widoczne jako nowa gałąź w drzewie projektów). Ponownie odnajdujemy fragment do poprawki i po znaku „=” polecenia KEEP= wpisujemy
„Identyfikator” i wciskamy <SPACJĘ>.
8) Aby uruchomić tak poprawiony kod wciskamy na górze okna przycisk zielonej strzałki:
B
A
SAS®
ENTERPRISE GUIDE 65
DARIUSZ R. MAŃKOWSKI
9) Wykonane zostaną obliczenia i właściwe wykresy.
W pierwszej kolejności w wynikach zostaną przedstawione informacje o zmiennych oraz o średnich i odchyleniach standardowych analizowanych cech.
Obserwacje 12
Zmienne 17
Statystyki proste
KAR_OG BETA_KAR PEK_WAP ZW_FEN_OG SKROBIA WIT_C
Mean 17.14408333 9.570583333 0.4866666667 0.4828333333 0.6191666667 3.770833333
StD 7.33810953 4.508392305 0.2189368250 0.3324506343 0.1592287282 1.545106400
Statystyki proste
BL_OG LIG CEL POPIOL CUK_OG CUK_RED
Mean 1.486666667 0.1725000000 1.315000000 0.8741666667 6.606666667 2.849166667
StD 0.239557673 0.0992815098 0.223098022 0.1538865186 0.800912359 0.598823974
Statystyki proste
UDZ_RDZ SM EKSTRAKT PH KWAS_OG
Mean 26.66000000 11.55708333 10.47500000 5.913333333 0.4816666667
StD 2.65648435 3.72656584 0.75211822 0.364924235 0.3746958362
Następnie prezentowana jest macierz korelacji liniowych Pearsona dla analizowanych cech. Macierz korelacji
KAR_OG BETA_KAR PEK_WAP ZW_FEN_OG SKROBIA
KAR_OG KAR_OG 1.0000 0.9686 -.5291 -.7120 0.2105
BETA_KAR BETA_KAR 0.9686 1.0000 -.5725 -.6790 0.1050
PEK_WAP PEK_WAP -.5291 -.5725 1.0000 0.7127 -.3706
ZW_FEN_OG ZW_FEN_OG -.7120 -.6790 0.7127 1.0000 -.2376
SKROBIA SKROBIA 0.2105 0.1050 -.3706 -.2376 1.0000
WIT_C WIT_C -.5467 -.4867 0.4514 0.6489 -.1398
BL_OG BL_OG -.0539 -.0140 0.0611 0.1145 0.0624
LIG LIG -.6227 -.5463 0.6784 0.6879 -.2408
CEL CEL 0.2135 0.2238 -.2239 -.1722 0.1680
POPIOL POPIOL 0.1444 0.0823 0.2344 0.3309 0.3266
CUK_OG CUK_OG 0.8065 0.7401 -.7332 -.8633 0.4593
CUK_RED CUK_RED 0.4258 0.3485 0.1386 -.1551 0.2359
UDZ_RDZ UDZ_RDZ -.3435 -.2701 0.0107 0.1927 0.0363
SM SM 0.3613 0.2886 -.3233 -.2824 0.2075
EKSTRAKT EKSTRAKT 0.2272 0.1760 0.1750 0.2998 0.3057
PH PH 0.5118 0.5659 -.5650 -.5363 -.0533
KWAS_OG KWAS_OG -.7831 -.7603 0.7018 0.9260 -.2823
66 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Macierz korelacji
WIT_C BL_OG LIG CEL POPIOL CUK_OG CUK_RED UDZ_RDZ
KAR_OG -.5467 -.0539 -.6227 0.2135 0.1444 0.8065 0.4258 -.3435
BETA_KAR -.4867 -.0140 -.5463 0.2238 0.0823 0.7401 0.3485 -.2701
PEK_WAP 0.4514 0.0611 0.6784 -.2239 0.2344 -.7332 0.1386 0.0107
ZW_FEN_OG 0.6489 0.1145 0.6879 -.1722 0.3309 -.8633 -.1551 0.1927
SKROBIA -.1398 0.0624 -.2408 0.1680 0.3266 0.4593 0.2359 0.0363
WIT_C 1.0000 -.2297 0.3563 -.3967 -.0861 -.6224 -.3190 0.3423
BL_OG -.2297 1.0000 0.3520 0.9134 0.2251 -.2274 0.4352 0.2020
LIG 0.3563 0.3520 1.0000 -.0589 0.1236 -.7269 -.0454 0.0076
CEL -.3967 0.9134 -.0589 1.0000 0.1892 0.0688 0.4946 0.2163
POPIOL -.0861 0.2251 0.1236 0.1892 1.0000 0.0458 0.2396 -.2834
CUK_OG -.6224 -.2274 -.7269 0.0688 0.0458 1.0000 0.1746 -.3564
CUK_RED -.3190 0.4352 -.0454 0.4946 0.2396 0.1746 1.0000 -.1364
UDZ_RDZ 0.3423 0.2020 0.0076 0.2163 -.2834 -.3564 -.1364 1.0000
SM -.0052 -.3830 -.7439 -.0791 0.0920 0.5054 0.1652 0.0673
EKSTRAKT -.0662 0.2891 0.0983 0.2712 0.8870 0.1144 0.4666 -.2959
PH -.1084 0.2171 -.3744 0.3855 -.2794 0.4260 -.0216 -.1468
KWAS_OG 0.7489 0.0978 0.5641 -.1349 0.0639 -.9176 -.1211 0.3883
Macierz korelacji
SM EKSTRAKT PH KWAS_OG
KAR_OG 0.3613 0.2272 0.5118 -.7831
BETA_KAR 0.2886 0.1760 0.5659 -.7603
PEK_WAP -.3233 0.1750 -.5650 0.7018
ZW_FEN_OG -.2824 0.2998 -.5363 0.9260
SKROBIA 0.2075 0.3057 -.0533 -.2823
WIT_C -.0052 -.0662 -.1084 0.7489
BL_OG -.3830 0.2891 0.2171 0.0978
LIG -.7439 0.0983 -.3744 0.5641
CEL -.0791 0.2712 0.3855 -.1349
POPIOL 0.0920 0.8870 -.2794 0.0639
CUK_OG 0.5054 0.1144 0.4260 -.9176
CUK_RED 0.1652 0.4666 -.0216 -.1211
UDZ_RDZ 0.0673 -.2959 -.1468 0.3883
SM 1.0000 0.2902 0.0960 -.1799
EKSTRAKT 0.2902 1.0000 -.1487 0.0750
PH 0.0960 -.1487 1.0000 -.4679
KWAS_OG -.1799 0.0750 -.4679 1.0000
Kolejnym elementem wyników są wartości własne macierzy korelacji.
SAS®
ENTERPRISE GUIDE 67
DARIUSZ R. MAŃKOWSKI
Wartości własne macierzy korelacji
Wartość własna Różnica Iloraz Skumulowany
1 6.61989436 3.53563994 0.3894 0.3894
2 3.08425441 0.87982764 0.1814 0.5708
3 2.20442677 0.65369529 0.1297 0.7005
4 1.55073148 0.44035062 0.0912 0.7917
5 1.11038087 0.20573221 0.0653 0.8570
6 0.90464866 0.29177164 0.0532 0.9103
7 0.61287703 0.13877217 0.0361 0.9463
8 0.47410486 0.26913128 0.0279 0.9742
9 0.20497358 0.01612093 0.0121 0.9863
10 0.18885265 0.14399732 0.0111 0.9974
11 0.04485533 0.04485533 0.0026 1.0000
12 0.00000000 0.00000000 0.0000 1.0000
13 0.00000000 0.00000000 0.0000 1.0000
14 0.00000000 0.00000000 0.0000 1.0000
15 0.00000000 0.00000000 0.0000 1.0000
16 0.00000000 0.00000000 0.0000 1.0000
17 0.00000000 0.0000 1.0000
Na podstawie wartości własnych można wskazać 5 składowych głównych o wartościach własnych powyżej 1. Tłumaczą one łącznie 85,7% obserwowanej zmienności w składzie chemicznym korzeni marchwi.
Następnie prezentowane są wektory własne.
Wektory własne
PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 PRIN6
KAR_OG KAR_OG 0.347817 0.088790 0.067425 -.096701 0.242005 -.053713
BETA_KAR BETA_KAR 0.332389 0.063964 -.001080 -.105821 0.303222 0.024091
PEK_WAP PEK_WAP -.303023 0.144221 0.121690 -.192676 0.182049 -.311157
ZW_FEN_OG ZW_FEN_OG -.349947 0.143657 0.130525 0.047258 0.119064 0.157987
SKROBIA SKROBIA 0.133139 0.161630 0.164633 0.320139 -.579668 0.192971
WIT_C WIT_C -.262253 -.133751 0.121366 0.254345 0.329768 0.308118
BL_OG BL_OG -.023382 0.413419 -.449444 0.073983 -.024793 0.076251
LIG LIG -.296868 0.164077 -.128660 -.313316 -.101197 0.105584
CEL CEL 0.102855 0.372566 -.420177 0.218719 0.023633 0.023269
POPIOL POPIOL -.006525 0.427034 0.343195 -.033252 -.065981 0.285335
CUK_OG CUK_OG 0.369278 -.035181 0.140915 -.005131 -.140937 0.038467
CUK_RED CUK_RED 0.107248 0.386662 -.014869 0.032826 0.159202 -.572698
UDZ_RDZ UDZ_RDZ -.117680 -.079942 -.242004 0.601840 -.051788 -.160425
SM SM 0.170417 -.053912 0.353861 0.459218 0.272321 -.158681
EKSTRAKT EKSTRAKT 0.025016 0.465851 0.330224 0.046714 0.126574 0.187992
PH PH 0.221728 -.061772 -.307613 0.007841 0.407771 0.477285
KWAS_OG KWAS_OG -.357639 0.051945 0.036793 0.209496 0.193118 -.011833
68 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Wektory własne
PRIN7 PRIN8 PRIN9 PRIN10 PRIN11 PRIN12 PRIN13
KAR_OG 0.161121 0.334999 0.017759 -.206799 0.347274 -.109811 -.131155
BETA_KAR 0.143089 0.490864 -.200229 -.017415 -.145916 0.007716 -.060917
PEK_WAP 0.123776 -.000782 0.696747 0.033815 0.308810 -.023518 -.031269
ZW_FEN_OG -.077376 0.090409 -.363356 -.168068 0.377060 0.187576 -.021490
SKROBIA 0.520034 -.081633 0.043766 -.169022 0.206768 -.208290 -.039155
WIT_C 0.472306 0.009035 0.131347 0.028443 -.464060 0.206132 -.092101
BL_OG -.079126 -.076406 0.036698 0.116493 -.038480 0.054896 -.763626
LIG 0.260162 0.117374 -.160753 0.608987 0.024102 -.083558 0.196371
CEL -.196483 -.127144 0.095927 -.139963 -.101725 0.111257 0.498065
POPIOL -.243902 0.240727 0.329709 -.192207 -.307520 0.072970 0.065264
CUK_OG 0.031749 -.065619 0.111698 0.318524 0.204000 0.812592 0.000000
CUK_RED 0.419697 -.195513 -.187305 -.069287 -.186006 0.092927 0.128183
UDZ_RDZ -.028964 0.573635 0.135095 0.235211 0.137284 -.003383 0.127548
SM -.218968 -.290693 -.003195 0.334677 -.002167 -.228625 -.136521
EKSTRAKT -.104664 -.023040 -.176529 0.316150 0.130063 -.165200 0.110737
PH 0.172473 -.268310 0.186847 0.023506 0.289190 -.137817 0.173058
KWAS_OG 0.008377 -.097812 -.214357 -.288271 0.244695 0.266580 -.008262
Wektory własne
PRIN14 PRIN15 PRIN16 PRIN17
KAR_OG 0.012532 0.681549 0.000000 0.000000
BETA_KAR 0.155076 -.512788 0.134350 0.387007
PEK_WAP -.042253 -.195837 -.026295 0.256594
ZW_FEN_OG -.594866 -.098936 0.283095 0.049403
SKROBIA 0.046237 -.121369 0.096588 0.178473
WIT_C -.157861 0.226489 -.157432 0.147261
BL_OG 0.000000 0.000000 0.000000 0.000000
LIG 0.201469 0.220769 0.365507 0.040278
CEL -.067375 0.195835 0.042783 0.475448
POPIOL 0.115618 0.006250 0.329336 -.351896
CUK_OG 0.000000 0.000000 0.000000 0.000000
CUK_RED -.120357 -.083273 0.066257 -.380308
UDZ_RDZ -.035510 -.067010 -.080227 -.282454
SM 0.041165 0.074521 0.427609 0.164732
EKSTRAKT 0.007845 -.064754 -.645323 0.000000
PH 0.007825 -.223767 0.114000 -.354050
KWAS_OG 0.719044 0.000000 0.000000 0.000000
Pierwszą składową główną (tłumaczącą 38,94% obserwowanej zmienności w składzie chemicznym badanych korzeni marchwi) budują: karotenoidy ogółem, beta-karoten, pektyny,
związki fenolowe, cukry ogółem i kwasowość ogólna. Drugą składową główną (18,14%) budują: białko ogółem, celulozy, popiół, cukry redukujące oraz ekstrakt. Trzecią składową główną (12,97% zmienności) budują: białko ogółem, celulozy, popiół, sucha masa, ekstrakt i pH.
SAS®
ENTERPRISE GUIDE 69
DARIUSZ R. MAŃKOWSKI
Czwartą składową główną (9,12% zmienności) budują: skrobia, ligniny, udział rdzenia (walca
osiowego) oraz sucha masa. Piątą składową główną (6,53% zmienności) budują: beta-karoten,
skrobia, witamina C i pH.
Następnie prezentowany jest wykres osypiska
oraz wykres prezentujący analizowane obiekty w układzie dwóch pierwszych składowych głównych.
Na wykresie składowych głównych widać wyraźnie, że badane odmiany z dwóch lat ułożyły się w sposób losowy. Nie widać żadnych wyraźnych prawidłowości w rozmieszczeniu poszczególnych obiektów. Może to świadczyć o tym, że informacje o składzie chemicznym korzeni marchwi jadalnej z dwóch lat badań nie wystarczają do przeprowadzenia identyfikacji odmianowej.
6.3. Analiza skupień (Cluster Analysis)
Analiza skupień jest wykorzystywana do klasyfikacji obiektów na podstawie obserwowanych cech tych obiektów. Wskazuje, które obiekty są do siebie bardziej, a które mniej podobne.
Aby przeprowadzić analizę skupień w programie EG z menu „Analizuj” wybieramy opcję „Wielowymiarowe”, a następnie opcję „Analiza skupień…” (Analizujè
WielowymiaroweèAnaliza skupień…).
Po uruchomieniu analizy wyświetli się okno dialogowe. W części „Role zadania” wskazujemy analizowane zmienne (tylko numeryczne) oraz zmienną zawierającą etykiety obserwacji. W części „Cluster”
możemy wybrać metodę klasteryzacji („Łączenie średnich”, „Metoda centroidów”, „Algorytm k-średnich” lub „Metoda minimalnej wariancji Warda”). W części „Plots” możemy wybrać wykresy, które będą prezentowane w wynikach analizy. W części „Results” możemy zdecydować, jakie informacje będą zapisane do pliku wynikowego. Plik ten może być wykorzystywany do dalszych analiz.
Analiza skupień w programie EG bazuje tylko na odległości euklidesowej. Tak więc nie można analizować danych molekularnych, nie można również wybrać innych miar dystansów pomiędzy obiektami.
70 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Przykład
Przeprowadzić analizę skupień, metodą Warda, pozwalającą na pogrupowanie 8 odmian kostrzewy czerwonej ocenianych pod względem przydatności trawnikowej (Trawy gazonowe2.xls). Sporządzić dendrogram.
Wyniki:
W wynikach w pierwszej kolejności prezentowane są wartości własne macierzy kowariancji oraz inne statystyki zbioru danych.
Wartości własne macierzy kowariancji
Wartość własna Różnica Iloraz Skumulowany
1 8.20824358 5.92105511 0.5427 0.5427
2 2.28718847 0.30796454 0.1512 0.6939
3 1.97922393 0.66360795 0.1309 0.8248
4 1.31561598 0.64311505 0.0870 0.9118
5 0.67250093 0.16261611 0.0445 0.9562
6 0.50988482 0.35754254 0.0337 0.9899
7 0.15234228 0.15234228 0.0101 1.0000
8 0.00000000 0.00000000 0.0000 1.0000
9 0.00000000 0.00000000 0.0000 1.0000
10 0.00000000 0.00000000 0.0000 1.0000
11 0.00000000 0.00000000 0.0000 1.0000
12 0.00000000 0.00000000 0.0000 1.0000
13 -.00000000 0.00000000 -0.0000 1.0000
14 -.00000000 0.00000000 -0.0000 1.0000
15 -.00000000 0.00000000 -0.0000 1.0000
16 -.00000000 0.00000000 -0.0000 1.0000
17 -.00000000 -0.0000 1.0000
Root-Mean-Square Total-Sample Standard Deviation = 0.943242 Root-Mean-Square Distance Between Observations = 5.5
Następnie prezentowane są wyniki klasteryzacji.
SAS®
ENTERPRISE GUIDE 71
DARIUSZ R. MAŃKOWSKI
Historia skupienia
NCL Skupienia połączone FREQ SPRSQ RSQ ERSQ CCC PSF PST2
T i e
7 F.rubra_1 F.rubra_2 2 0.0331 .967 . . 4.9 .
6 F.rubra_4 F.rubra_5 2 0.0425 .924 . . 4.9 .
5 F.rubra_3 F.rubra_7 2 0.0708 .854 . . 4.4 .
4 CL5 CL6 4 0.0945 .759 . . 4.2 1.7
3 F.rubra_6 F.rubra_8 2 0.1511 .608 . . 3.9 .
2 CL7 CL4 6 0.1606 .447 . . 4.9 2.7
1 CL2 CL3 8 0.4475 .000 .000 0.00 . 4.9
Na końcu wyników umieszczony jest dendrogram obrazujący podobieństwa i różnice pomiędzy badanymi odmianami kostrzewy czerwonej.
Półcząstkowe R kwadrat
0.0
0.1
0.2
0.3
0.4
0.5
ODM
F.rubra_1
F.rubra_2
F.rubra_3
F.rubra_7
F.rubra_4
F.rubra_5
F.rubra_6
F.rubra_8
72 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Część 2
Środowisko Programistyczne
Systemu SAS®
74 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 75
DARIUSZ R. MAŃKOWSKI
1. Środowisko pracy
Właściwym środowiskiem pracy w Systemie SAS® jest tak zwane „środowisko programistyczne”.
Pozwala ono na przeprowadzenie nawet najbardziej skomplikowanych analiz
i przetwarzanie danych. Wszelkie analizy i procesy wykonuje się tu wpisując odpowiednią składnię (zwaną DATA-step’ami lub PROC-step’ami) w języku SAS® 4GL. Środowisko programistyczne zapewnia pełną kontrolę i pełną możliwość modyfikacji przeprowadzanych analiz. Umożliwia tworzenie tak zwanych „makroprogramów” pozwalających na zautomatyzowanie pracy w Systemie SAS®.
Obszar roboczy środowiska programistycznego składa się z kilku okienek. Są to:
— Pasek narzędzi — zawiera przyciski uruchamiające opcje przydatne podczas pracy. Dynamicznie dostosowuje się do aktywnego okna.
Opcje zawarte na pasku:
1. Okno poleceń natychmiastowych — wpisujemy tu polecenia które mają być natychmiastowo wykonane w aktywnym oknie (np. wpisując polecenie „CLEAR” wyczyścimy zawartość aktywnego okna — okna logu, wyników lub edytora; ten sam efekt daje użycie klawiszy <Ctrl>+<E> w aktywnym oknie).
2. Przejście o pozycję (folder/bibliotekę) wyżej — opcja aktywna w oknie
eksploratora.
3. Nowe okno, otwarcie zapisanego pliku, zapis pliku — przydatne np. do
zapisywania i wczytywania zapisanych kodów programów w 4GL.
4. Wydruk i podgląd wydruku — dla okna wyników, okna logu i okna edytora.
5. Opcje schowka.
6. Sposób wyświetlania zawartości — dla okna Rezultatów i Eksploratora.
7. Zakładanie nowej biblioteki z użyciem kreatora (opis w dalszej części skryptu).
1 2 3 4 5 6 7 8 9 10
76 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
8. Uruchomienie kodu w 4GL znajdującego się w oknie edytora (ten sam efekt daje klawisz <F8>.
9. Zatrzymanie wykonywanych czynności przez System SAS®
10. Pomoc do programu.
— Eksplorator — pozwala na poruszanie się w strukturze bibliotek i zbiorów danych.
— Rezultaty — drugie okno wyświetlane po lewej stronie obszaru roboczego (przełączanie pomiędzy Eksploratorem i Rezultatami jest możliwe dzięki zakładkom umieszonym w dolnej części okna). Pozwala na poruszanie się w strukturze wyników przeprowadzonych analiz.
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 77
DARIUSZ R. MAŃKOWSKI
— Okno LOGu — wyświetlane w nim są wszystkie uwagi komentarze, realizowany kod programu oraz komunikaty o błędach.
— Okno Edytora (Enhanced Editor) — w tym oknie wpisuje się składnie poleceń w języku 4GL.
— Okno Wyników — tu wyświetlane są wyniki przeprowadzonych analiz. Przy niektórych poleceniach mogą być otwierane dodatkowe okna z wynikami (np. przy poleceniach graficznych).
1.1. Biblioteki i wczytywanie danych
Biblioteki
Dane w Systemie SAS® gromadzone są w bibliotekach. Biblioteka może być fizycznym katalogiem (folderem) na dysku twardym (wówczas zbiory danych to pliki w tym folderze); może być skoroszytem Ms Excel (wówczas zbiory danych to poszczególne arkusze tego skoroszytu); może być bazą danych (wówczas zbiorami danych są poszczególne tabele bazy danych); itp. Najczęściej jednak biblioteka to folder na dysku. Każda biblioteka ma swoją nazwę. Nazwa ta może składać się maksymalnie z 8 znaków międzynarodowych (bez znaków polskich i specjalnych). W trakcie pracy z programem możemy spotkać biblioteki trwałe i tymczasowe.
78 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Biblioteki tymczasowe, w przeciwieństwie do bibliotek trwałych znikają po zamknięciu Systemu SAS®. Dodatkowo w programie zdefiniowana jest jedna biblioteka specjalna o nazwie „WORK”. To do tej biblioteki odwoła się program jeśli pisząc składnię 4GL pominiemy nazwę biblioteki (jest to tak zwana „biblioteka domyślna”). Dodatkowo wszystkie zbiory danych umieszczone w tej bibliotece znikną po zamknięciu programu. Samej biblioteki „WORK” nie da się jednak usunąć.
Biblioteki tymczasowe możemy utworzyć za pomocą składni języka 4GL. Jednak prostszym rozwiązaniem jest wykorzystanie do tego celu kreatora bibliotek. Jest on dostępny po wciśnięciu przycisku na pasku narzędzi.
Otworzy się wówczas okno dialogowe zakładania nowej biblioteki:
1. W tym polu wpisujemy nazwę nowej biblioteki;
2. Tu wybieramy rodzaj biblioteki;
3. Jeżeli zaznaczymy to pole, to tworzona biblioteka będzie trwała i nie zniknie po
zamknięciu Systemu SAS®;
4. W tym polu wskazujemy położenie folderu macierzystego dla tworzonej biblioteki (tam będą zapisywane zbiory z danymi).
Wygląd okna dialogowego kreatora tworzenia biblioteki zależy od mechanizmu biblioteki jaki wskażemy. Powyższe okno jest oknem dla mechanizmu domyślnego (V9).
W oknie Eksploratora biblioteki prezentowane są w następujący sposób:
Zbiory danych
Dane w bibliotekach są przechowywane w formie tabel. W oknie Eksploratora tabele prezentowane są w następujący sposób:
1 2 3
4
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 79
DARIUSZ R. MAŃKOWSKI
Tabele zbudowane są z kolumn (zmiennych / cech) oraz wierszy (przypadków / obserwacji). Dodatkowo zawierają nagłówki z nazwali i etykietami kolumn. Gdy otworzymy tabelę do podglądu, to domyślnie ujrzymy etykiety kolumn. Jednak w składni języka 4GL będziemy
odwoływać się tylko do nazw zbiorów. Aby wyświetlić nazwy kolumn zamiast etykiet należy w menu „Widok” zaznaczyć opcję „Nazwy kolumn”.
Rozmiar tabeli z danymi na pojedynczej stacji roboczej (komputerze) może wynosić 32k (32 000) kolumn oraz 2G (2 000 000 000) wierszy.
Jeżeli obliczenia wykonujemy jedynie na części danych pochodzących z jednej bardzo dużej tabeli, to wygodnie jest utworzyć dynamiczny skrót do tych danych w postaci pliku zwanego widokiem lub perspektywą (view). Plik taki to jedynie fragment kodu 4GL lub SQL odnoszący się do danych, nie zajmuje więc zbyt wiele miejsca na dysku twardym. W oknie Eksploratora perspektywy wyglądają w następujący sposób:
W składni języka 4GL odwołujemy się do poszczególnych tabel w następujący sposób:
nazwa_biblioteki.nazwa_tabeli
Jeżeli pominiemy nazwę biblioteki, to program będzie szukał tabeli z danymi w bibliotece „WORK”.
Przykład
Założyć stałą bibliotekę o nazwie ‘KURS’ opartą na folderze ‘D:\KURS08\’.
1) Uruchamiamy kreatora zakładania bibliotek.
2) Podajemy nazwę nowej biblioteki, mechanizm biblioteki pozostawiamy jako ‘Domyślny’.
80 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
3) Wskazujemy lokalizację folderu docelowego
4) Zaznaczmy kratkę włączania biblioteki przy uruchomieniu
5) Klikamy na przycisk ‘OK’.
Wczytywanie danych
System SAS® może importować dane z bardzo różnych formatów. Jednak najczęściej wczytujemy dane zapisane uprzednio za pomocą arkusza kalkulacyjnego Ms Excel. W tym rozdziale zostanie przedstawiony sposób importu danych zapisanych w postaci pliku Excel’a.
Aby wczytać (zaimportować) nowy zbiór danych do Systemu SAS®, należy z menu „Plik” wybrać opcję „Importuj dane…” (PlikèImportuj dane…).
Otworzy się okno dialogowe kreatora importu danych. W oknie „Wybierz typ importu” możemy wskazać rodzaj pliku z danymi, który będzie importowany. Wybieramy „Skoroszyt Microsoft Excela 97, 2000 lub 2002” (jest to opcja domyślna). System SAS® w wersji 9.1.3 nie obsługuje jeszcze formatu Excela 2007. Ten typ pliku ma być uwzględniony w wersji 9.2.
Po wybraniu typu pliku do importu klikamy na przycisku
„Dalej”. Otworzy się okienko w którym wskazujemy lokalizację pliku do importu.
Po wskazaniu lokalizacji pliku źródłowego, wyświetlone zostanie okno, w którym musimy wskazać, który arkusz ma być importowany. Gdy wskażemy odpowiedni arkusz klikamy przycisk „Dalej”. Przechodzimy do okna, w którym w górnym polu musimy wskazać bibliotekę, w której nowo otwarty zbiór ma zostać zapisany (np. „WORK”). W polu dolnym podajemy nazwę pod jaką we wskazanej bibliotece ma zostać zapisana tabela z danymi (pierwszy znak musi być literą, lepiej unikać polskich znaków).
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 81
DARIUSZ R. MAŃKOWSKI
Po podaniu nazwy tabeli mamy do wyboru: wcisnąć przycisk „Koniec”, wówczas dane zostaną zaimportowane, a my powrócimy do środowiska roboczego lub wcisnąć przycisk „Dalej”, a przejdziemy do okna umożliwiającego zapisanie kodu 4GL importującego dane.
Po zakończeniu importu danych, w docelowej bibliotece powinna powstać tabela o podanej przez nas nazwie, zawierająca importowane dane. Dodatkowo w oknie LOGu powinien pojawić się komentarz potwierdzający utworzenie nowego zbioru.
Dane do importu powinny być przygotowane w analogiczny sposób jak dane do SAS®
Enterprise Guide (patrz Część I, rozdział 1.3).
1.2. Podstawy języka SAS® 4GL
Wszystkie operacje i polecenia wykonywane w Systemie SAS® muszą być zapisane w postaci kodu programu. Do zapisu tego kodu wykorzystuje się specjalny język programowania zwany
4GL (4th Generation Language). Jest to stosunkowo prosty i intuicyjny język poleceń.
Programy w języku 4GL możemy podzielić na dwie grupy:
— DATA-STEP — program służący do przetwarzania danych (głównie tworzenia i zmiany istniejących zbiorów danych);
— PROC-STEP — program wykonujący pewne zdefiniowane w Systemie SAS®
procedury (służy zarówno do przetwarzania danych, jak i do ich analizy).
Większość procedur (procedury zaczynają się od słowa PROC) posiada pewne stałe elementy:
— DATA=nazwa_biblioteki.nazwa_zbioru — polecenie to mówi o źródle danych, które mają być wykorzystywane w toku działania procedury;
— VAR lista_zmiennych — określa, które zmienne ze zbioru danych mają być wykorzystane do analiz;
82 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
— BY zmienne_grupujące — jeżeli w jednym zbiorze danych, w tej samej kolumnie,
zapisane są dane z kilku grup, a analizy mają być wykonane w tych grupach oddzielnie oraz jeśli w zbiorze danych występuje jedna bądź kilka kolumn
(zmiennych) określających te grupy, to dodanie do procedury tego polecenia pozwoli
na wykonanie jej w grupach (tzw. przetwarzanie w grupach);
— WHERE warunek_logiczny — jeżeli chcemy wykonać obliczenia tylko na części danych ze zbioru, to możemy wykorzystać to polecenie by wskazać te dane, które mają być wykorzystane. Np. zapis: WHERE odmiana=”Pszenica” — spowoduje, że procedura zostanie wykonana tylko dla tych obserwacji, które w kolumnie „odmiana” mają wpis „Pszenica”. Należy przy tym pamiętać, iż wskazywane w treści procedury wartości zmiennych znakowych muszą być ujęte w cudzysłów (np. „Pszenica”) i zapisane dokładnie w taki sam sposób, jak w zbiorze danych (zapis „Pszenica” i „pszenica” nie są równoznaczne i traktowane są przez procedurę jako dwie różne wartości zmiennej znakowej). W trakcie pracy z programami napisanymi w języku 4GL należy również pamiętać o tym, że znakiem dziesiętnym jest kropka („.”), a nie przecinek. Zapis: WHERE plon>2.5 sprawi, że do obliczeń będą wykorzystane te wiersze, które w kolumnie „plon” wartości liczbowe będą powyżej 2,5. Cudzysłów w poleceniu oznacza tekst, ważna jest też wielkość liter; WHERE plon>2.5 — w tym przypadku do
obliczeń będą wykorzystane te wiersze, gdzie w kolumnie „plon” wartości liczbowe będą powyżej 2,5, kropka („.”) jest domyślnym znakiem dziesiętnym w SASie;
— RUN; — kończy procedurę powodując, że po uruchomieniu kodu będzie ona wykonywana;
— QUIT; — umieszcza się go na końcu kilku procedur, istnienie tego polecenia jest wynikiem zgodności nowszych wersji języka 4GL ze starszymi.
Każdy wiersz procedury w języku 4GL kończy się średnikiem (‘;’).
Składnie wykorzystanych w niniejszym skrypcie procedur zostaną opisane szczegółowo. Jeżeli zaistnieje potrzeba szerszego poznania możliwości opisywanych procedur lub potrzeba wykorzystania innych procedur to szczegółowe ich opisy (w języku angielskim) znajdują się w pomocy dołączonej do programu.
1.3. Przykładowe procedury
Poniżej przedstawione zostaną składnie kilku przydatnych, „uniwersalnych” procedur,
służących do prezentacji i obróbki danych. Na koniec przedstawione zostaną przykłady procedur graficznych dostępnych w Systemie SAS®.
PROC PRINT
Procedura PRINT służy do wyświetlania zawartości zbiorów danych w oknie wyników. Składnia tej procedury jest następująca:
PROC PRINT DATA=zbiór_danych <opcje>;
BY zmienne_grupujące;
VAR lista_zmiennych;
RUN;
Polecenie PROC PRINT rozpoczyna procedurę; polecenia DATA=zbiór_danych wskazuje, do
jakiego zbioru danych procedura ma się odwoływać; opcje:
— NOOBS — powoduje, że na wydruku danych nie będą wyświetlane numery wierszy;
— ROUND — powoduje, że wartości numeryczne będą zaokrąglane do dwóch miejsc po przecinku;
— LABEL — powoduje, że na wydruku danych będą wyświetlane etykiety, a nie nazwy
kolumn.
Polecenie BY zmienne_grupujące pozwala na pogrupowanie wydruków według zmiennych grupujących. Jeżeli polecenie to nie zostanie umieszczone, wyświetlona zostanie cała zawartość
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 83
DARIUSZ R. MAŃKOWSKI
zbioru. Polecenie VAR lista_zmiennych pozwala na wskazanie, które zmienne mają być umieszczone na wydruku. Jeżeli polecenie to nie zostanie użyte, wyświetlona zostanie zawartość wszystkich kolumn (zmiennych) zbioru danych. Polecenie RUN kończy procedurę.
Przykład
Wyświetlić zawartość zbioru ‘history’ znajdującego się w bibliotece ‘Kurs’.
PROC PRINT DATA=kurs.history;
RUN;
PROC SORT
Procedura SORT służy do sortowania zawartości zbioru danych według jednej lub kilku
kolumn (zmiennych). Składnia tej procedury jest następująca:
PROC SORT DATA=zbiór_danych <opcje>;
BY <DESCENDING> zmienne_grupujące;
RUN;
Polecenie PROC SORT rozpoczyna procedurę; polecenia DATA=zbiór_danych wskazuje, do
jakiego zbioru danych procedura ma się odwoływać; opcje:
— OUT=nazwa_zbioru — posortowane dane nie zastąpią danych źródłowych, lecz zostaną zapisane do nowego zbioru o podanej nazwie;
— NODUPKEY — w wynikach procedury żadna spośród zmiennych wymienionych w poleceniu BY nie będzie posiadała duplikatów (powtórzeń);
— NODUPRECS — w wynikach procedury nie będą powtarzać się obserwacje, z takimi
samymi wartościami wszystkich zmiennych (duplikujące się całe rekordy).
Polecenie BY służy do wskazywania ‘klucza’ sortowania, czyli zmiennych, według których zbiór ma zostać posortowany. Domyślnie sortowanie przebiega w porządku rosnącym, jeśli jednak
chcemy zmienić porządek sortowania to nazwę zmiennej, według której sortujemy
poprzedzamy w poleceniu BY słowem DESCENDING. Polecenie RUN kończy procedurę.
Przykład
Posortować zawartość zbioru ‘history’ z biblioteki ‘Kurs’ po zmiennej ‘DEST’. Wyniki zapisać do nowego zbioru ‘hist_sort’ w bibliotece ‘WORK’. Z wyników pozbyć się duplikatów zmiennej ‘DEST’. Następnie wyświetlić zawartość nowego zbioru (za pomocą procedury PRINT).
PROC SORT DATA=kurs.history OUT=work.hist_sort NODUPKEY;
BY dest;
RUN;
PROC PRINT DATA=hist_sort;
RUN;
PROC TRANSPOSE
Może zdarzyć się, że zbiór danych przed wykonaniem analiz mysi zostać transponowany (obrócony tak, by wiersze stały się kolumnami, a kolumny wierszami). Do transponowania zbiorów danych w Systemie SAS® służy procedura TRANSPOSE. Jej składnia jest następująca:
84 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
PROC TRANSPOSE DATA=zbiór_danych OUT=nazwa_zbioru <PREFIX=prefix> <opcje>;
BY zmienne_grupujące;
VAR zmienne_transponowane;
ID zmienna_identyfikująca;
RUN;
Polecenie PROC TRANSPOSE rozpoczyna procedurę. Polecenie DATA=zbiór_danych wskazuje
zbiór źródłowy, z którego będą pobierane dane. Polecenie OUT=nazwa_zbioru wskazuje, pod jaką nazwą ma być zapisany nowy zbiór z danymi po transpozycji, jeśli polecenie to zostanie pominięte, to nowy zbiór zastąpi stary. Polecenie PREFIX=prefix definiuje prefix dodawany na
początku nazw nowo tworzonych zmiennych (jeśli nie ma zmiennej identyfikującej). W przypadku polecenia PROC TRANSPOSE przydatne są dwie dodatkowe opcje:
NAME=nazwa — pozwala zmienić domyślną nazwę kolumny, zawierającej dawne nazwy kolumn (w wyniku działania procedury domyślnie dostaje ona nazwę ‘_NAME_’ oraz etykietę ‘NAME OF FORMER VARIABLE’);
OUT=nazwa_zbioru (DROP=_LABEL_) — ta opcja pozwala na usunięcie z nowo tworzonego zbioru kolumny, zawierającej etykiety dawnych kolumn (w wyniku działania procedury domyślnie dostaje ona nazwę ‘_LABEL_’ oraz etykietę ‘LABEL OF FORMER VARIABLE’).
Polecenie BY zmienne_grupujące pozwala na przeprowadzenie transpozycji w grupach, jeżeli polecenie to zostanie pominięte, to transponowany będzie cały zbiór. Polecenie VAR zmienne_transponowane wskazuje, które zmienne mają być poddane transpozycji (pozostałe zostaną pominięte), jeżeli polecenie to zostanie pominięte, transponowane będą wszystkie zmienne. Polecenie ID zmienna_identyfikująca wskazuje zmienną identyfikującą, czyli zawierającą nazwy przyszłych kolumn. Polecenie RUN kończy działanie procedury.
Przykład
Przeprowadzenie analiz dla danych ze zbioru ‘Pszenica_aflp’ w bibliotece ‘Kurs’ wymaga jego wcześniejszej transpozycji. Zbiór zawiera uprzednio przygotowaną kolumnę z identyfikatorami wierszy (przyszłych kolumn). Należy go przetransponować wykorzystując zmienną z identyfikatorem, a efekt transpozycji zapisać w bibliotece WORK pod nazwą ‘pszen’. Nowy zbiór nie powinien zawierać kolumny z informacją o etykietach poprzednich kolumn,
a zmienna zawierająca nazwy poprzednich kolumn powinna nazywać się ‘linia’, czyli tak jak zmienna z identyfikatorem.
PROC TRANSPOSE DATA=kurs.pszenica_aflp NAME=linia OUT=pszen(drop=_LABEL_);
ID linia;
RUN;
ODS Domyślnie wyniki działania procedur w Systemie SAS® są prezentowane w formie tekstowej
w oknie wyników, a elementy graficzne w specjalnym oknie modułu graficznego. Istnieje jednak możliwość przygotowania wyników dodatkowo w formie pliku HTML (strona internetowa), pliku RTF (dokument otwierany np. przez program Ms Word) lub pliku PDF. Do
przygotowywania wyników w tej formie służy ODS (output delivery system). Aby wyniki działania procedur w języku 4GL były zapisane przez ODS w wybranej formie, należy przed i po procedurze dodać odpowiednie wpisy.
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 85
DARIUSZ R. MAŃKOWSKI
Dla dokumentu HTML:
ODS HTML;
…
…
…
ODS HTML CLOSE;
Dla dokumentu RTF:
ODS RTF;
…
…
…
ODS RTF CLOSE;
Dla dokumentu PDF:
ODS PDF;
…
…
…
ODS PDF CLOSE;
Dodatkowo możemy zdecydować o tym, w jaki sposób sformatować prezentowane wyniki. Do nadania formatu wynikom służą wbudowane style. Aby wywołać odpowiedni styl, do polecenia otwierającego ODS dodajemy wpis: STYLE=nazwa_stylu.
Na przykład, jeśli chcemy sformatować dokument RTF tak, aby wyniki nadawały się od razu do przeniesienia do pisanej publikacji (odpowiedni format tabel oraz układ z białym tłem i czarnym tekstem), możemy użyć zapisu:
ODS RTF STYLE=journal;
…
…
…
ODS RTF CLOSE;
Pełna lista stylów dostępnych w Systemie SAS® znajduje się w dokumentacji programu.
Niektóre procedury posiadają dodatki w postaci elementów graficznych (w wersji 9.1.3
elementy te są w fazie eksperymentalnej) w ODS (np. PROC GLM, PROC REG). Aby wywołać te elementy graficzne, należy poszerzyć zapis wywołujący ODS o odpowiednie polecenia. Na przykład dla dokumentu RTF zapis poszerzony wyglądałby następująco:
ODS RTF;
ODS GRAPHICS ON;
…
…
…
ODS GRAPHICS OFF;
ODS RTF CLOSE;
System ODS pozwala dodatkowo na wybieranie tylko określonych tabel z całego zestawu
wyników i zapisywanie ich w postaci nowych zbiorów danych. Szczegółowy opis tych i innych
możliwości ODS znajduje się w dokumentacji oprogramowania.
86 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Przykłady innych procedur System SAS® może mieć zastosowanie nie tylko w analizach statystycznych, lecz również
w przygotowywaniu zestawień graficznych i różnych wykresów. Poniżej przedstawiono kilka przykładowych procedur graficznych.
Przykład 1
DATA hat;
DO x= –7 TO 5 BY .25;
DO y= –5 TO 5 BY .25;
z= SIN ( SQRT (x * x + y * y ) );
OUTPUT;
END;
END;
RUN;
PROC G3D DATA=hat;
PLOT y * x = z / CTOP= red CBOTTOM= blue;
RUN;
QUIT;
Przykład 2
PROC GPLOT DATA= kurs.trawy_nas;
SYMBOL V = x W = 2 I = rl C = Green;
PLOT plon * Liczba_kwiatostanow_na_1m;
RUN;
QUIT;
GOPTIONS RESET = all;
Komentarz: Litera ‘I’ w drugiej linii procedury oznacza ‘I’ (wielką literę i). Litera ‘l’ po znaku
równości (za ‘r’) oznacza ‘l’ (małą literę L).
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 87
DARIUSZ R. MAŃKOWSKI
2. Zaawansowana analiza funkcji regresji wielokrotnej
Podczas prowadzenia badań opartych na analizie funkcji regresji często badacz kończy na wyznaczeniu „istotnego statystycznie” modelu regresji i podaniu podstawowych statystyk tego modelu (współczynnik determinacji, itp.). Najczęściej nie zastanawia się on nad tym czy wyznaczony model liniowy jest rzeczywiście najlepszym modelem dla analizowanych danych oraz czy parametry modelu są prawidłowo wyznaczone i nieobciążone błędem, wynikającym z występowania obserwacji odstających lub „wpływających”, czy też błędem wynikającym z występowania współliniowości zmiennych opisujących w regresji wielokrotnej. Aby dokonać takiej oceny potrzebne jest przeprowadzenie badania wyznaczonej funkcji regresji.
Podobnie gdy badacz posiada informacje o wielu zmiennych mogących wpływać na zmienną zależną, a opracowany model regresji ma spełniać określone założenia (na przykład ma służyć do predykcji wartości zmiennej zależnej), nie wystarczy samo opracowanie „pełnego” modelu. Należy zastanowić się nad właściwym doborem zmiennych do budowy modelu regresji wielokrotnej.
Możliwości przeprowadzenia powyższych analiz w programie EG są niestety znacznie ograniczone. Istnieje jednak możliwość przeprowadzenia szczegółowych analiz tego typu w środowisku programistycznym Systemu SAS®.
Do analizy funkcji regresji liniowej i regresji wielokrotnej w Systemie SAS® służy procedura REG. Jej składnia jest następująca:
PROC REG DATA=nazwa_zbioru;
BY zmienne_grupujące;
MODEL zmienna_zależna = zmienne_opisujące </opcje>;
PLOT zmienna_y * zmienna_x </opcje>;
OUTPUT OUT=nazwa_zbioru <opcje>;
RUN; QUIT;
Polecenie PROC REG rozpoczyna procedurę. Polecenie DATA=nazwa_zbioru wskazuje źródło danych do analizy. Polecenie BY zmienne_grupujące pozwala na przeprowadzenie analiz
w ramach oddzielnych grup danych, oznaczonych za pomocą zmiennej grupującej. W przypadku
pominięcia tego polecenia analiza zostanie przeprowadzona dla całego zbioru danych. Polecenie MODEL zmienna_zależna = zmienne_opisujące definiuje analizowany model regresji, przy czym
polecenie to można rozszerzyć o następujące opcje:
— SELECTION=metoda — pozwala na zastosowanie wybranej metody doboru zmiennych
do modelu:
FOREWARD — selekcja krokowa „w przód”;
BACKWARD — selekcja krokowa „w tył”;
STEPWISE — selekcja krokowa „dwukierunkowa”;
RSQUARE — selekcja oparta na współczynniku determinacji;
ADJRSQ — selekcje oparta na poprawionym współczynniku determinacji;
CP — selekcje oparta na statystyce Cp Mallows’a;
dodatkowo istnieje możliwość rozszerzenia selekcji zmiennych o metody:
o AIC — Akaike Information Criterion;
o SBC — Schwarz-Bayesian Information Criterion;
o BIC — Sawa-Bayesian Infotmation Criterion;
o PC — Amemiya's Prediction Criterion.
— SLE=alpha — definiuje poziom istotności dla wejścia zmiennych do modelu (significance level for entry);
88 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
— SLS=alpha — definiuje poziom istotności dla pozostania zmiennych w modelu (significance level for stay);
— BEST=n — powoduje wyświetlenie n najlepszych modeli pod względem kryterium doboru;
— R — powoduje wyznaczenie statystyk obserwacji odstających;
— INFLUENCE — powoduje wyznaczenie statystyka obserwacji „wpływających”;
— VIF — wyznacza variance inflation factor;
— COLLIN — wyznacza statystyki współliniowości dla całego modelu regresji wielokrotnej;
— COLLINOINT — wyznacza statystyki współliniowości dla modelu regresji wielokrotnej bez stałej regresji;
Polecenie opcjonalne PLOT zmienna_y * zmienna_x pozwala na wykonanie wykresów dla wybranych parametrów modelu (odpowiednie opcje graficzne). Opcjonalne polecenie OUTPUT
pozwala na zapisanie wybranych parametrów modelu (definiowanych w opcjach polecenia) do zbioru wynikowego, zdefiniowanego w poleceniu OUT=nazwa_zbioru. Polecenia RUN i QUIT
kończą procedurę.
Przykład
Zaawansowane analizy funkcji regresji wielokrotnej zostaną przedstawione na przykładzie danych pochodzących z badań ankietowych gospodarstw uprawiających ziemniaki (zbiór ‘Ziemniak_reg’ w bibliotece ‘Kurs’). Poniżej przedstawiono analizę funkcji regresji liniowej dla pełnego modelu ze wszystkimi zmiennymi opisującymi.
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior;
RUN; QUIT;
ODS HTML CLOSE;
2.1. Dobór zmiennych do modelu
Opracowano wiele metod umożliwiających dobór odpowiednich zmiennych do budowy modelu regresji wielokrotnej. Metody te pozwalają na eliminację tych zmiennych, które nie wnoszą do modelu żadnych korzystnych informacji (tzw. metody krokowe) lub na wybór takiego „zestawu” zmiennych, dla którego model regresji wielokrotnej spełniałby założone kryteria (tzw. metody bazujące na kryteriach).
Metody krokowe polegają na dodawaniu bądź odejmowaniu stopniowo (w krokach) pojedynczych zmiennych. Wyróżniamy trzy metody zaliczane do tej grupy:
— Metoda krokowa „w przód” (foreward selection) — zaczynamy od „pustego” modelu, czyli modelu zawierającego tylko stałą regresji, następnie w każdym kolejnym kroku dodajemy po jednej zmiennej opisującej, najsilniej powiązanej ze zmienną zależną i spełniającej założone kryterium istotności (SLE — significance
level for entry). Zmienne dodawane są do momentu, gdy przy założonym poziomie SLE nie można dodać już żadnej zmiennej lub w modelu znajdują się już wszystkie zmienne.
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 89
DARIUSZ R. MAŃKOWSKI
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / SELECTION=FOREWARD SLE=0.01;
RUN; QUIT;
ODS HTML CLOSE;
— Metoda krokowa „w tył” (backward selection) — zaczynamy od modelu
zawierającego wszystkie zmienne i w kolejnych krokach odejmujemy po jednej zmiennej opisującej, która jest najsłabiej powiązana ze zmienną zależną i nie spełnia założonego kryterium istotności (SLS — significance level for stay). Zmienne
usuwane są z modelu do momentu, gdy wszystkie zmienne w modelu spełniają warunek SLS lub gdy w modelu pozostanie już tylko stała regresji.
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / SELECTION=BACKWARD SLS=0.05;
RUN; QUIT;
ODS HTML CLOSE;
— Metoda krokowa „obukierunkowa” (stepwise selection) — metoda ta jest
połączeniem dwóch poprzednich. Zaczynamy od „pustego” modelu zawierającego jedynie stałą regresji, następnie w kolejnych krokach dodajemy po jednej zmiennej opisującej, która jest najsilniej powiązana ze zmienną zależną i spełniaj założone kryterium istotności (SLE) oraz odejmujemy po jednej zmiennej opisującej, która jest najsłabiej powiązana ze zmienną zależną i nie spełnia założonego kryterium istotności (SLS). Dobór zmiennych do modelu jest zakończony, gdy nie możemy
dodać ani usunąć z niego żadnej zmiennej opisującej.
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / SELECTION=STEPWISE SLE=0.1 SLS=0.01;
RUN; QUIT;
ODS HTML CLOSE;
Metody bazujące na kryteriach polegają na wyznaczeniu pewnych parametrów dla wszystkich możliwych kombinacji zmiennych opisujących w modelu regresji wielokrotnej (od modeli z jedną zmienną opisującą do modeli ze wszystkimi zmiennymi opisującymi). Do głównych kryteriów doboru właściwego modelu regresji wielokrotnej można zaliczyć:
— R2 (R-squared) — wybór modeli o najwyższych wartościach współczynnika determinacji (R2), który wyznaczany jest według wzoru:
gdzie: — współczynnik determinacji; — suma kwadratów odchyleń dla modelu regresji; — i-ta wartość zmiennej zależnej; — średnia wartość zmiennej zależnej.
90 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
W przypadku regresji wielokrotnej współczynnik determinacji ma jedną wadę —
jego wartość rośnie wraz z liczbą zmiennych opisujących w modelu nawet wtedy, gdy zmienne te nie są istotnie związane ze zmienną zależną.
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / SELECTION=RSQUARE BEST=5;
RUN; QUIT;
ODS HTML CLOSE;
— Poprawiony R2 (adjusted R-square) — wybór modeli o najwyższych wartościach poprawionego współczynnika determinacji, który jest wyznaczany według wzoru:
gdzie: — poprawiony współczynnik determinacji; — współczynnik determinacji; — liczba obserwacji;
— liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna + zmienne opisujące).
Poprawiony współczynnik determinacji pozbawiony jest wady, którą posiada zwykły współczynnik determinacji. Jeżeli do modelu regresji dodamy zmienną opisującą, która nie wpływa na zmienną zależną to wartość poprawionego R2 ulegnie
zmniejszeniu.
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / SELECTION=ADJRSQ BEST=10;
RUN; QUIT;
ODS HTML CLOSE;
— Cp Mallowsa (Cp) — wybór najlepszego modelu według wartości statystyki Cp
wyznaczanej według wzoru:
gdzie: — wartość statystyki Cp Mallowsa; — suma kwadratów odchyleń błędu losowego (reszt) dla modelu z zmiennymi; — średni kwadrat odchyleń dla błędu losowego (reszt) w modelu ze wszystkimi zmiennymi; — liczba obserwacji; — liczba wszystkich zmiennych (zmienna zależna + zmienne opisujące);
— liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna + zmienne opisujące).
Stosuje się dwa kryteria doboru modelu:
1) Kryterium Mallowsa — dla modeli służących do predykcji wartości zmiennej zależnej — ;
2) Kryterium Hockinga — dla modeli służących do estymacji parametrów (stałej i współczynników regresji) — .
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 91
DARIUSZ R. MAŃKOWSKI
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / SELECTION=CP BEST=10;
PLOT cp. * np. / CMALLOWS = red CHOCKING = blue;
RUN; QUIT;
ODS HTML CLOSE;
— Kryterium Akaike (AIC — Akaike Information Criterion) — wybór modeli o najmniejszej wartości AIC, wyznaczanej według wzoru:
gdzie: — wartość statystyki Akaike; — suma kwadratów odchyleń błędu losowego (reszt) dla modelu z zmiennymi; — liczba obserwacji; — liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna + zmienne opisujące).
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / SELECTION=ADJRSQ AIC BEST=10;
RUN; QUIT;
ODS HTML CLOSE;
— Kryterium Schwarz’a-Bayesa (SBC — Schwarz-Bayesian Information Criterion) —
wybór modeli o najmniejszej wartości SBC, wyznaczanej według wzoru:
gdzie: — wartość statystyki Schwarz’a-Bayesa; — suma kwadratów odchyleń błędu losowego (reszt) dla modelu z zmiennymi; — liczba obserwacji; — liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna + zmienne opisujące).
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / SELECTION=ADJRSQ SBC BEST=10;
RUN; QUIT;
ODS HTML CLOSE;
— Kryterium Informacyjne Sawy-Bayesa (BIC — Sawa-Bayesian Infotmation
Criterion) — wybór modeli o najmniejszej wartości BIC, wyznaczanej według wzoru:
gdzie: — wartość statystyki Sawy-Bayesa; — suma kwadratów odchyleń błędu losowego (reszt) dla modelu z zmiennymi; — liczba obserwacji; — liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna
+ zmienne opisujące); ; — średni kwadrat odchyleń dla błędu losowego (reszt) w modelu ze
wszystkimi zmiennymi.
92 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / SELECTION=ADJRSQ BIC BEST=10;
RUN; QUIT;
ODS HTML CLOSE;
— Kryterium prognozy (PC — Amemiya's Prediction Criterion) — wybór modeli o najmniejszej wartości PC, wyznaczanej według wzoru:
gdzie: — wartość statystyki PC; — liczba obserwacji; — liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna + zmienne opisujące); — współczynnik determinacji dla modelu z zmiennymi.
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / SELECTION=ADJRSQ PC BEST=10;
RUN; QUIT;
ODS HTML CLOSE;
2.2. Badanie funkcji regresji
Badanie wyznaczonej funkcji regresji jest często pomijane w trakcie prowadzenia analiz statystycznych. Tymczasem jest to podstawowe narzędzie, pozwalające na stwierdzenie czy model liniowy jest odpowiedni dla analizowanych danych oraz czy w trakcie analizy nie zaszły jakieś nieprawidłowości, które mogą wpłynąć na jakość uzyskanych wyników.
Proces badania funkcji regresji składa się z trzech etapów (w przypadku analizy funkcji regresji liniowej wykonuje się tylko dwa pierwsze etapy, a w przypadku analizy funkcji regresji
wielokrotnej — wszystkie trzy etapy):
1) Badanie reszt;
2) Badanie wpływu obserwacji (influence observation);
3) Badanie współliniowości zmiennych opisujących (colinearity).
Badanie reszt polega na sprawdzeniu poprawności założeń postawionych na początku analizy. W przypadku analizy regresji liniowej i wielokrotnej zakłada się, że reszty powinny mieć rozkład losowy normalny (NID), a wartość średnia reszt powinna wynosić 0.
— Losowość reszt można ocenić na dwa sposoby — za pomocą testu serii (podejście obiektywne) lub za pomocą wykresu reszt względem wartości przewidywanych (podejście subiektywne). System SAS® pozwala na zastosowanie tej drugiej metody.
W celu sporządzenia wykresu reszt należy dodać do składni kodu analizy regresji polecenie PLOT.
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 93
DARIUSZ R. MAŃKOWSKI
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior;
PLOT r. * p.;
RUN; QUIT;
ODS HTML CLOSE;
— Badanie normalności rozkładu reszt w Systemie SAS® nie jest elementem składni procedury REG. Dlatego zabieg ten należy podzielić na dwa etapy — najpierw za
pomocą procedury REG wyznaczyć wartości reszt, a następnie przeprowadzić badanie rozkładu tych reszt. Odpowiednikiem analizy rozkładu z programu EG jest procedura UNIVARIATE w środowisku programistycznym. Dodatkowo umożliwia ona weryfikację hipotezy o zerowej wartości średniej reszt.
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior;
OUTPUT OUT=residuals p=pred r=reszty;
RUN; QUIT;
PROC UNIVARIATE DATA=residuals NORMAL;
VAR reszty;
HISTOGRAM reszty / NORMAL (MU=est SIGMA=est W=2 COLOR=blue);
RUN;
ODS HTML CLOSE;
Badanie wpływu obserwacji polega na analizie sposobu, w jaki pojedyncze obserwacje
wpływają na oszacowane wartości modelu regresji. Skrajny przypadek obserwacji wpływającej na szacowanie modelu przedstawia rysunek:
W analizowanym zbiorze danych mogą występować pojedyncze obserwacje, które odstają od pozostałych i dodatkowo silnie oddziałują na szacowanie parametrów modelu regresyjnego. Tego typu obserwacje, jeżeli są na przykład efektem pomyłki, mogą znacznie pogorszyć jakość dopasowanego modelu i zafałszowywać wyniki. Ważne jest więc by tego typu dane
X
Y
94 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
zidentyfikować. Nie jest zalecane usuwanie tych obserwacji bez zastanowienia, szczególnie gdy nie możemy jednoznacznie stwierdzić, że są one efektem pomyłki człowieka.
Do identyfikacji obserwacji „odstających” i „wpływających” można wykorzystać następujące statystyki: STUDENT, RSTUDENT, D–Cook’a, DFFITS, DFBETAS, COVRATIO.
— STUDENT — reszty studentyzowane – reszty podzielone przez ich odchylenie
standardowe. Jeżeli dla i-tej obserwacji to uznaje się i-tą obserwację za odstającą. Wartość statystyki STUDENT wyznacza się dla każdej obserwacji według wzoru:
gdzie: — studentyzowana reszta dla i-tej obserwacji; — reszta dla i-tej obserwacji; — średni kwadrat odchyleń dla błędu losowego (reszty); ; — i-ty wiersz macierzy .
— RSTUDENT — reszty po usunięciu i-tej obserwacji, podzielone przez ich odchylenie
standardowe. Jeżeli dla i-tej obserwacji to uznaje się i-tą obserwację za odstającą. Wartość statystyki RSTUDENT wyznacza się dla każdej obserwacji według wzoru:
gdzie: — RSTUDENT; — reszta dla i-tej obserwacji; — średni kwadrat odchyleń dla błędu losowego (reszty) modelu regresji bez i-tej obserwacji; ; — i-ty wiersz macierzy .
— Statystyka D-Cook’a — jest miarą symulowanych zmian w estymowanych parametrach modelu w przypadku usunięcia i-tej obserwacji. Jeżeli dla i-tej
obserwacji (lub w uogólnieniu ) to uznaje się i-tą
obserwację za odstającą. Wartość statystyki D-Cook’a wyznacza się dla każdej obserwacji według wzoru:
gdzie: — statystyka D-Cook’a; — studentyzowana reszta dla i-tej obserwacji; — liczba zmiennych w modelu
(zmienna zależna + zmienne opisujące); ; — i-ty wiersz macierzy .
— DFFITS — jest miarą oddziaływania i-tej obserwacji na szacowanie parametrów
modelu regresji. Jeżeli dla i-tej obserwacji to przyjmuje się, że i-ta
obserwacja znacząco wpływa na szacowanie parametrów modelu regresji. Wartość statystyki DFFITS wyznacza się według wzoru:
gdzie: — oszacowana wartość zmiennej zależnej dla i-tej obserwacji według modelu regresji wyznaczonego na podstawie wszystkich obserwacji; — oszacowana wartość zmiennej zależnej dla i-tej obserwacji według modelu regresji wyznaczonego na podstawie wszystkich obserwacji, ale bez i-tej obserwacji; — średni kwadrat odchyleń dla błędu losowego (reszty) modelu regresji bez i-tej obserwacji; ; — i-ty wiersz
macierzy .
— DFBETAS — jest miarą zmian w estymacji parametrów w przypadku usunięcia i-tej
obserwacji. Jeżeli dla i-tej obserwacji to przyjmuje się, że i-ta
obserwacja znacząco wpływa na szacowanie parametrów modelu regresji. Wartość statystyki DFBETAS wyznacza się według wzoru:
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 95
DARIUSZ R. MAŃKOWSKI
gdzie: — oszacowana wartość j-tego parametru modelu regresji wyznaczonego na podstawie wszystkich
obserwacji; — oszacowana wartość j-tego parametru modelu regresji wyznaczonego na podstawie wszystkich
obserwacji, ale bez i-tej obserwacji; — średni kwadrat odchyleń dla błędu losowego (reszty) modelu regresji
bez i-tej obserwacji; — (j+1)-ty diagonalny element macierzy .
— COVRATIO — jest miarą zmiany precyzji estymacji parametrów modelu gdy i-ta
obserwacja jest usunięta z modelu. Jeżeli dla i-tej obserwacji
to przyjmuje się, że i-ta obserwacja znacząco
wpływa na szacowanie parametrów modelu regresji. Wartość statystyki COVRATIO wyznacza się według wzoru:
gdzie: — średni kwadrat odchyleń dla błędu losowego (reszty) modelu regresji bez i-tej obserwacji;
— średni kwadrat odchyleń dla błędu losowego (reszty) modelu regresji wyznaczonego na podstawie
wszystkich obserwacji.
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / R INFLUENCE;
RUN; QUIT;
ODS HTML CLOSE;
Badanie współliniowości zmiennych opisujących pozwala na identyfikację wewnętrznych zależności pomiędzy zmiennymi opisującymi modelu regresji wielokrotnej. Wystąpienie istotnych zależności w obrębie zmiennych opisujących może doprowadzić do niewłaściwego doboru modelu, mniejszej dokładności szacowania parametrów regresji, obniżenia jakości modelu bądź do zatarcia pewnych istotnych informacji. Należy jednak pamiętać, że współliniowość nie jest błędem ani naruszeniem założeń analizy regresji wielokrotnej.
Analizę współliniowości zmiennych w modelu regresji wielokrotnej można oprzeć na trzech
miarach współliniowości: VIF (variance inflation factor), indeksie warunku (condition index) oraz ilorazie wariancji (variance decomposition proportion).
— VIF jest miarą wzrostu wariancji obserwacji spowodowanego współliniowością zmiennych. Jeżeli to uznaje się, że współliniowość zmiennych w analizowanym modelu regresji wielokrotnej jest znacząca. W tym przypadku obserwowany współczynnik determinacji pomiędzy j-tą zmienną niezależną a pozostałymi zmiennymi niezależnymi z modelu regresji wielokrotnej kształtuje się na poziomie . VIF wyznacza się dla każdej zmiennej niezależnej w modelu według wzoru:
gdzie: — współczynnik determinacji dla funkcji regresji wielokrotnej pomiędzy j-tą zmienną niezależną a pozostałymi zmiennymi niezależnymi z analizowanego modelu.
— Indeks warunku jest miarą siły współliniowości zmiennych w modelu. Jeżeli przyjmuje on wartości z zakresu 0–30 stwierdza się słabą współliniowość zmiennych, dla wartości 30–100 — średnią współliniowość zmiennych, a dla wartości >100 — silną współliniowość zmiennych w modelu regresji wielokrotnej. Indeks warunku wyznacza się dla każdej ze składowych głównych, opisujących zmienność analizowanych zmiennych niezależnych według wzoru:
96 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
gdzie: — indeks warunku k-tej składowej głównej; — maksymalna wartość własna składowych głównych; — wartość własna k-tej składowej głównej.
— Iloraz wariancji wyznacza się w ramach każdej składowej głównej, oddzielnie dla każdej analizowanej zmiennej niezależnej według wzoru:
gdzie: — j-ty element k-tego wektora własnego macierzy efektów ; — wartość własna k-tej składowej głównej; — j-ty element i-tego wektora własnego macierzy efektów ; — wartość własna i-tej składowej głównej.
Przy wartości powyżej 0,5 iloraz wariancji wskazuje na współliniowość zmiennych niezależnych.
Przykład
ODS HTML;
PROC REG DATA=kurs.ziemniak_reg;
MODEL plon = obornik -- zbior / VIF COLLIN COLLINOINT;
RUN; QUIT;
ODS HTML CLOSE;
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 97
DARIUSZ R. MAŃKOWSKI
3. Zaawansowane zastosowania analizy wariancji
Program EG pozwala na przeprowadzenie analizy wariancji dla podstawowych i niezbyt
skomplikowanych układów doświadczalnych. W przypadku układów bardziej skomplikowanych (np. układy hierarchiczne lub układ kratowy), do analizy danych pochodzących z tych doświadczeń, musimy wykorzystać możliwości języka 4GL Systemu SAS®.
3.1. Doświadczenia w układach hierarchicznych
Do przeprowadzenia analizy wariancji dla danych w układach hierarchicznych (jak również w klasycznych układach doświadczalnych) możemy wykorzystać procedurę GLM. Składnia tej procedury jest następująca:
PROC GLM DATA=nazwa_zbioru;
BY zmienne_grupujące;
CLASS zmienne_klasyfikujące;
MODEL zmienna_zależna = efekty_czynników /opcje;
TEST H=efekt E=efekt;
MEANS zmienne_klasyfikujące /opcje;
LSMEANS zmienne_klasyfikujące;
RUN; QUIT;
Polecenie PROC GLM rozpoczyna procedurę; polecenie DATA=nazwa_zbioru wskazuje zbiór danych, do którego odwołuje się procedura. Polecenie BY zmienne_grupujące wskazuje zmienne
definiujące grupy, dla których analizy mają być przeprowadzone oddzielnie. Jeżeli w składni pominie się to polecenie, to analiza zostanie przeprowadzona dla całego zbioru danych. Polecenie CLASS zmienne_klasyfikujące wskazuje zmienne klasyfikujące, czyli badane czynniki w naszym doświadczeniu. Polecenie MODEL zmienna_zależna = efekty_czynników definiuje model,
który ma zostać uwzględniony w analizie wariancji; zmienna zależna to nasza obserwowana cecha ilościowa; efekty czynników to czynniki i interakcje między nimi (czynniki muszą być wymienione w poleceniu CLASS):
Zapis Znaczenie
A B C czynnik A, czynnik B, czynnik C
A*B C interakcja A × B, czynnik C
A B C A*B B*C czynnik A, czynnik B, czynnik C, interakcja A × B, interakcja B × C
A*B*C interakcja A × B × C
A|B C czynnik A, czynnik B, interakcja A × B, czynnik C
A|B|C czynnik A, czynnik B, czynnik C, interakcja A × B, interakcja A × C, interakcja B × C, interakcja A × B × C
A(B*C) efekt czynnika A + efekt interakcji B × C
Opcje dostępne w poleceniu MODEL:
— SS1 — wykonuje obliczenia według I Typu sumy kwadratów odchyleń; — SS2 — wykonuje obliczenia według II Typu sumy kwadratów odchyleń; — SS3 — wykonuje obliczenia według III Typu sumy kwadratów odchyleń; — SS4 — wykonuje obliczenia według IV Typu sumy kwadratów odchyleń.
Polecenie TEST H=efekt E=efekt pozwala na przeprowadzenie innego niż domyślne testowania. Domyślnie wszystkie efekty czynników i interakcji są testowane do błędu losowego, jednak w układach hierarchicznych część efektów testowana jest do innych błędów. Polecenie TEST pozwala na przeprowadzenie takiego testowania. Po formule „H=” wymieniamy efekty
czynników, które mają być testowane, a po formule „E=” podajemy błąd, do którego ma być przeprowadzone testowanie.
98 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Polecenie MEANS zmienne_klasyfikujące bez podania dodatkowych opcji pozwala na
wyznaczenie wartości średnich dla obserwowanej cechy (zmiennej zależnej) w ramach poziomów badanych czynników (zmiennych klasyfikujących). Opcje:
— BON — przeprowadza test t Bonfferoniego porównania wartości średnich; — DUNCAN — przeprowadza procedurę porównań wielokrotnych opartą na
wielokrotnym teście Duncana; — DUNETT (‘kontrola’) — przeprowadza obustronny (wartości różne) test Dunnetta
porównania wartości średnich z wzorcem. Kontrola to nazwa czynnika reprezentującego wzorzec (wielkość liter ma znaczenie, w przypadku zmiennych tekstowych stosować znaki ‘ ‘);
— DUNNETTL (‘kontrola’) — przeprowadza lewostronny (wartości mniejsze) test Dunnetta porównania wartości średnich z wzorcem. Kontrola to nazwa czynnika reprezentującego wzorzec (wielkość liter ma znaczenie, w przypadku zmiennych tekstowych stosować znaki ‘ ‘)
— DUNETTU (‘kontrola’) — przeprowadza prawostronny (wartości większe) test Dunnetta porównania wartości średnich z wzorcem. Kontrola to nazwa czynnika reprezentującego wzorzec (wielkość liter ma znaczenie, w przypadku zmiennych tekstowych stosować znaki ‘ ‘)
— GABRIEL — przeprowadza procedurę porównań wielokrotnych Gabriela; — LSD — przeprowadza procedurę porównań wielokrotnych opartą na teście
t-Studenta;
— REGWQ — przeprowadza procedurę porównań wielokrotnych Ryana-Eliota-
Gabriela-Welcha;
— SCHEFFE — przeprowadza procedurę porównań wielokrotnych Scheffégo; — SIDAK — przeprowadza procedurę porównań wielokrotnych Sidaka;
— SNK — przeprowadza procedurę porównań wielokrotnych Studenta-Newmana-
Keulsa;
— TUKEY — przeprowadza procedurę porównań wielokrotnych Tukeya (dla danych nieortogonalnych procedurę Tukeya-Kramera);
— ALPHA=n — definiuje poziom istotności dla którego mają być przeprowadzone porównania wielokrotne (domyślnie jest to 0.05, znak dziesiętny to „.”);
— E=efekt — wskazuje, dla jakiej wartości błędu mają być przeprowadzone porównania wielokrotne (powinien być zgodny z poleceniem TEST);
— HOVTEST — wykonuje test homogeniczności wariancji (heteroscedastyczności) z wykorzystaniem testu Levenea;
— HOVTEST=BARTLETT — wykonuje test homogeniczności wariancji (heteroscedastyczności) z wykorzystaniem testu Bartletta;
— HOVTEST=BF — wykonuje test homogeniczności wariancji (heteroscedastyczności) z wykorzystaniem testu Browna-Forsytha.
Polecenie LSMEANS zmienne_klasyfikujące pozwala, w przypadku analizy danych
nieortogonalnych, na wyznaczenie poprawionych wartości średnich cechy obserwowanej dla poziomów badanego czynnika, nieobciążonych efektem liczności próby. Do ‘poprawiania’ średnich wykorzystuje się metodę najmniejszych kwadratów (Least Square Means).
Polecenia RUN; QUIT; kończą procedurę.
Układ Split-plot
Układ Split-plot jest modyfikacją układu losowanych bloków. Wykorzystywany jest on w tych przypadkach, gdy zastosowanie badanego czynnika wymaga dużych powierzchni, co
z kolei może prowadzić do nakładania się poletek. Najczęściej do takich czynników zalicza się zabiegi mechaniczne lub zabiegi ochrony chemicznej.
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 99
DARIUSZ R. MAŃKOWSKI
Doświadczenia dwuczynnikowe
Przykładowy schemat doświadczenia dwuczynnikowego w układzie Split-plot:
BLOK I BLOK II BLOK II BLOK IV
A2 A2 A1 A3
A2B1 A2B3 A2B2 A2B1 A2B2 A2B3 A1B3 A1B2 A1B1 A3B2 A3B1 A3B3
A3 A1 A2 A1
A3B2 A3B1 A3B3 A1B2 A1B1 A1B3 A2B1 A2B3 A2B2 A1B1 A1B3 A1B2
A1 A3 A3 A2
A1B1 A1B3 A1B2 A3B1 A3B3 A3B2 A3B2 A3B1 A3B3 A2B3 A2B2 A2B1
Czynnik ‘wymagający’ umieszczany jest losowo jako podblok (czynnik A), a w ramach podbloków rozlosowuje się poziomy drugiego czynnika (czynnik B).
Model liniowy analizy wariancji dla tego modelu ma postać:
gdzie: — cecha obserwowana dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym bloku;
— prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego poziomu czynnika A; — pierwszy błąd dla
j-tego poziomu czynnika A w i-tym bloku.; — efekt k-tego poziomu czynnika B; — efekt interakcji j-tego
poziomu czynnika A i k-tego poziomu czynnika B; — drugi błąd losowy dla j-tego poziomu czynnika A i k-tego
poziomu czynnika B w i-tym bloku.
W trakcie analizy weryfikowane są trzy hipotezy zerowe:
— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);
— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);
— mówiąca o braku interakcji pomiędzy czynnikiem A i B.
Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).
Testowanie efektów głównych i interakcji przebiega w sposób następujący: Efekty główne i interakcje Błąd (do niego testujemy efekty czynników)
Bloki Błąd I: interakcja bloki × czynnik A
Czynnik A Błąd I: interakcja bloki × czynnik A
Czynnik B Błąd II: błąd losowy
Interakcja A × B Błąd II: błąd losowy
Przykład 1
Przeprowadzono porównanie reakcji 5 odmian łubinu żółtego na cztery rodzaje zaprawy nasiennej (zbiór ‘Lubin_zaprawa’ w bibliotece ‘Kurs’).
Doświadczenie założono w układzie Split-plot. Oceniano wschody polowe.
Przeprowadzić analizę wariancji, grupy jednorodne wyznaczyć procedurą
Tukeya.
Kierunek zmienności systematycznej
100 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
ODS HTML;
PROC GLM DATA=kurs.lubin_zaprawa;
CLASS bloki linia zaprawa;
MODEL wschody_polowe = bloki linia zaprawa bloki*linia linia*zaprawa /SS1;
TEST H=bloki linia E=bloki*linia;
MEANS linia / TUKEY E=bloki*linia;
MEANS zaprawa / TUKEY;
RUN; QUIT;
ODS HTML CLOSE;
Przykład 2
Przeprowadzono doświadczenie z 15 odmianami pszenicy ozimej, które uprawiano przy trzech dawkach nawożenia (zbiór ‘Pszenica_oz_sp’ biblioteka ‘Kurs’). Obserwowano plony. Doświadczenie założono w układzie Split-plot.
Przeprowadzić analizę wariancji, grupowanie średnich wykonać procedurą Studenta-Newmana-Keulsa.
ODS HTML;
PROC GLM DATA=kurs.pszenica_oz_sp;
CLASS bloki odmiany nawozenie;
MODEL plon = bloki odmiany nawozenie bloki*odmiany odmiany*nawozenie /SS1;
TEST H=bloki odmiany E=bloki*odmiany;
MEANS odmiany / SNK E=bloki*odmiany;
MEANS nawozenie / SNK;
RUN; QUIT;
ODS HTML CLOSE;
Doświadczenia trójczynnikowe
W układzie doświadczalnym Split-plot, w przypadku doświadczeń trójczynnikowych, wyróżnia się trzy podstawowe warianty doświadczenia: A–B–C, A–BC oraz AB–C.
Wariant A–B–C
Przykładowy schemat doświadczenia trójczynnikowego:
BLOK I BLOK II BLOK III
A2 A1 A4
A2B1 A2B2 A1B2 A1B1 A4B1 A4B2
A2B1C1 A2B1C2 A2B2C2 A2B2C1 A1B2C2 A1B2C1 A1B1C2 A1B1C1 A4B1C1 A4B1C2 A4B2C1 A4B2C2
A4 A2 A3
A4B1 A4B2 A2B1 A2B2 A3B2 A3B1
A4B1C2 A4B1C1 A4B2C2 A4B2C1 A2B1C2 A2B1C1 A2B2C1 A2B2C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1
A1 A3 A1
A1B2 A1B1 A3B2 A3B1 A1B2 A1B1
A1B2C1 A1B2C2 A1B1C1 A1B1C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1 A1B2C1 A1B2C2 A1B1C2 A1B1C1
A3 A4 A2
A3B2 A3B1 A4B1 A4B2 A2B1 A2B2
A3B2C2 A3B2C1 A3B1C1 A3B1C2 A4B1C1 A4B1C2 A4B2C2 A4B2C1 A2B1C1 A2B1C2 A2B2C1 A2B2C2
Kierunek zmienności systematycznej
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 101
DARIUSZ R. MAŃKOWSKI
Czynnik ‘wymagający’ umieszczany jest losowo jako podblok (czynnik A). W ramach
podbloków rozlosowuje się poziomy drugiego w kolejności czynnika (czynnik B), a w ramach tych pod-podbloków rozlosowuje się poziomy trzeciego czynnika (czynnik C).
Model liniowy analizy wariancji dla tego modelu ma postać:
gdzie: — cecha obserwowana dla j-tego poziomu czynnika A, k-tego poziomu czynnika Bi l-tego poziomu
czynnika C w i-tym bloku; — prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego poziomu czynnika A;
— pierwszy błąd dla j-tego poziomu czynnika A w i-tym bloku.; — efekt k-tego poziomu czynnika B;
— efekt interakcji j-tego poziomu czynnika A i k-tego poziomu czynnika B; — drugi błąd dla j-tego poziomu
czynnika A i k-tego poziomu czynnika B w i-tym bloku; — efekt l-tego poziomu czynnika C; — efekt interakcji
j-tego poziomu czynnika A i l-tego poziomu czynnika C; — efekt interakcji k-tego poziomu czynnika B i l-tego
poziomu czynnika C; — efekt interakcji j-tego poziomu czynnika A, k-tego poziomu czynnika B i l-tego poziomu
czynnika C; — trzeci błąd losowy dla j-tego poziomu czynnika A, k-tego poziomu czynnika B i l-tego poziomu
czynnika C w i-tym bloku.
W trakcie analizy weryfikowanych jest siedem hipotez zerowych:
— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);
— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);
— mówiąca o braku wpływu czynnika C na obserwowaną cechę (wszystkie średnie dla poziomów czynnika C są sobie równe);
— mówiąca o braku interakcji pomiędzy czynnikiem A i B;
— mówiąca o braku interakcji pomiędzy czynnikiem A i C;
— mówiąca o braku interakcji pomiędzy czynnikiem B i C;
— mówiąca o braku interakcji pomiędzy czynnikiem A, B i C.
Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).
Testowanie efektów głównych i interakcji przebiega w sposób następujący: Efekty główne i interakcje Błąd (do niego testujemy efekty czynników)
Bloki Błąd I: interakcja bloki × czynnik A
Czynnik A Błąd I: interakcja bloki × czynnik A
Czynnik B Błąd II: interakcja bloki × czynnik A × czynnik B
Interakcja A × B Błąd II: interakcja bloki × czynnik A × czynnik B
Czynnik C Błąd III: błąd losowy
Interakcja A × C Błąd III: błąd losowy
Interakcja B × C Błąd III: błąd losowy
Interakcja A × B × C Błąd III: błąd losowy
Przykład
Trójczynnikowe doświadczenie z pszenżytem założono w układzie Split-plot w wariancie A–B–C (zbiór ‘Pszenzyto_a_b_c’ w bibliotece ‘Kurs’). W doświadczeniu badano wpływ 3 terminów siewu, 3 dawek nawożenia azotowego i wpływ regulatora wzrostu na plonowanie pewnej linii pszenżyta ozimego. Przeprowadzić analizę danych, do grupowania średnich wykorzystać procedurę Tukeya.
102 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
ODS HTML;
PROC GLM DATA=kurs.pszenzyto_a_b_c;
CLASS blok termin_siewu dawka_n regulator_wzrostu;
MODEL plon = blok termin_siewu blok*termin_siewu dawka_n
termin_siewu*dawka_n blok*termin_siewu*dawka_n regulator_wzrostu
termin_siewu*regulator_wzrostu dawka_n*regulator_wzrostu
termin_siewu*dawka_n*regulator_wzrostu /SS1;
TEST H=blok termin_siewu E=blok*termin_siewu;
TEST H=dawka_n termin_siewu*dawka_n E=blok*termin_siewu*dawka_n;
MEANS termin_siewu /TUKEY E=blok*termin_siewu;
MEANS dawka_n /TUKEY E=blok*termin_siewu*dawka_n;
MEANS regulator_wzrostu /TUKEY;
RUN; QUIT;
ODS HTML CLOSE;
Wariant A–BC
Przykładowy schemat doświadczenia trójczynnikowego:
BLOK I BLOK II BLOK III
A2 A1 A4
A2B1C1 A2B1C2 A2B2C2 A2B2C1 A1B2C2 A1B2C1 A1B1C2 A1B1C1 A4B1C1 A4B1C2 A4B2C1 A4B2C2
A4 A2 A3
A4B1C2 A4B1C1 A4B2C2 A4B2C1 A2B1C2 A2B1C1 A2B2C1 A2B2C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1
A1 A3 A1
A1B2C1 A1B2C2 A1B1C1 A1B1C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1 A1B2C1 A1B2C2 A1B1C2 A1B1C1
A3 A4 A2
A3B2C2 A3B2C1 A3B1C1 A3B1C2 A4B1C1 A4B1C2 A4B2C2 A4B2C1 A2B1C1 A2B1C2 A2B2C1 A2B2C2
Czynnik ‘wymagający’ umieszczany jest losowo jako podblok (czynnik A), a w ramach podbloków rozlosowuje się poziomy drugiego i trzeciego czynnika (czynnik B i czynnik C).
Model liniowy analizy wariancji dla tego modelu ma postać:
gdzie: — cecha obserwowana dla j-tego poziomu czynnika A, k-tego poziomu czynnika B
i l-tego poziomu czynnika C w i-tym bloku; — prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego
poziomu czynnika A; — pierwszy błąd dla j-tego poziomu czynnika A w i-tym bloku.; — efekt k-tego poziomu
czynnika B; — efekt l-tego poziomu czynnika C; — efekt interakcji j-tego poziomu czynnika A i k-tego poziomu
czynnika B; — efekt interakcji j-tego poziomu czynnika A i l-tego poziomu czynnika C; — efekt interakcji
k-tego poziomu czynnika B i l-tego poziomu czynnika C; — efekt interakcji j-tego poziomu czynnika A, k-tego
poziomu czynnika B i l-tego poziomu czynnika C; — drugi błąd losowy dla j-tego poziomu czynnika A, k-tego
poziomu czynnika B i l-tego poziomu czynnika C w i-tym bloku.
W trakcie analizy weryfikowanych jest siedem hipotez zerowych:
— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);
— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);
Kierunek zmienności systematycznej
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 103
DARIUSZ R. MAŃKOWSKI
— mówiąca o braku wpływu czynnika C na obserwowaną cechę (wszystkie średnie dla poziomów czynnika C są sobie równe);
— mówiąca o braku interakcji pomiędzy czynnikiem A i B;
— mówiąca o braku interakcji pomiędzy czynnikiem A i C;
— mówiąca o braku interakcji pomiędzy czynnikiem B i C;
— mówiąca o braku interakcji pomiędzy czynnikiem A, B i C.
Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).
Testowanie efektów głównych i interakcji przebiega w sposób następujący: Efekty główne i interakcje Błąd (do niego testujemy efekty czynników)
Bloki Błąd I: interakcja bloki × czynnik A
Czynnik A Błąd I: interakcja bloki × czynnik A
Czynnik B Błąd II: błąd losowy
Interakcja A × B Błąd II: błąd losowy
Czynnik C Błąd II: błąd losowy
Interakcja A × C Błąd II: błąd losowy
Interakcja B × C Błąd II: błąd losowy
Interakcja A × B × C Błąd II: błąd losowy
Przykład
Trójczynnikowe doświadczenie z jęczmieniem ozimym założono w układzie Split-plot w wariancie A–BC (zbiór ‘Jeczmien_a_bc’ w bibliotece ‘Kurs’). W doświadczeniu badano 3 linie jęczmienia, wpływ zaprawy nasiennej i 3 fungicydów na liczbę kłosów na 1 m2. Przeprowadzić analizę danych, do grupowania średnich wykorzystać procedurę Tukeya.
ODS HTML;
PROC GLM DATA=kurs.jeczmien_a_bc;
CLASS blok linia zaprawa fungicyd;
MODEL l_klosow_na_mkw = blok linia blok*linia zaprawa fungicyd
linia*zaprawa linia*fungicyd zaprawa*fungicyd linia*zaprawa*fungicyd /SS1;
TEST H=blok linia E=blok*linia;
MEANS linia /TUKEY E=blok*linia;
MEANS zaprawa fungicyd /TUKEY;
RUN; QUIT;
ODS HTML CLOSE;
104 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Wariant AB–C
Przykładowy schemat doświadczenia trójczynnikowego:
BLOK I BLOK II BLOK III
A2B1 A2B2 A1B2 A1B1 A4B1 A4B2
A2B1C1 A2B1C2 A2B2C2 A2B2C1 A1B2C2 A1B2C1 A1B1C2 A1B1C1 A4B1C1 A4B1C2 A4B2C1 A4B2C2
A4B1 A4B2 A2B1 A2B2 A3B2 A3B1
A4B1C2 A4B1C1 A4B2C2 A4B2C1 A2B1C2 A2B1C1 A2B2C1 A2B2C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1
A1B2 A1B1 A3B2 A3B1 A1B2 A1B1
A1B2C1 A1B2C2 A1B1C1 A1B1C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1 A1B2C1 A1B2C2 A1B1C2 A1B1C1
A3B2 A3B1 A4B1 A4B2 A2B1 A2B2
A3B2C2 A3B2C1 A3B1C1 A3B1C2 A4B1C1 A4B1C2 A4B2C2 A4B2C1 A2B1C1 A2B1C2 A2B2C1 A2B2C2
Kombinacja czynników ‘wymagających’ umieszczany jest losowo jako podblok (czynnik A i czynnik B), a w ramach podbloków rozlosowuje się poziomy trzeciego czynnika (czynnik C).
Model liniowy analizy wariancji dla tego modelu ma postać:
gdzie: — cecha obserwowana dla j-tego poziomu czynnika A, k-tego poziomu czynnika B
i l-tego poziomu czynnika C w i-tym bloku; — prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego
poziomu czynnika A; — efekt k-tego poziomu czynnika B; — efekt interakcji j-tego poziomu czynnika A
i k-tego poziomu czynnika B; — pierwszy błąd dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym
bloku; — efekt l-tego poziomu czynnika C; — efekt interakcji j-tego poziomu czynnika A i l-tego poziomu
czynnika C; — efekt interakcji k-tego poziomu czynnika B i l-tego poziomu czynnika C; — efekt interakcji
j-tego poziomu czynnika A, k-tego poziomu czynnika B i l-tego poziomu czynnika C; — drugi błąd losowy dla
j-tego poziomu czynnika A, k-tego poziomu czynnika B i l-tego poziomu czynnika C w i-tym bloku.
W trakcie analizy weryfikowanych jest siedem hipotez zerowych:
— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);
— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);
— mówiąca o braku wpływu czynnika C na obserwowaną cechę (wszystkie średnie dla poziomów czynnika C są sobie równe);
— mówiąca o braku interakcji pomiędzy czynnikiem A i B;
— mówiąca o braku interakcji pomiędzy czynnikiem A i C;
— mówiąca o braku interakcji pomiędzy czynnikiem B i C;
— mówiąca o braku interakcji pomiędzy czynnikiem A, B i C.
Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).
Testowanie efektów głównych i interakcji przebiega w sposób następujący: Efekty główne i interakcje Błąd (do niego testujemy efekty czynników)
Bloki Błąd I: interakcja bloki × czynnik A × czynnik B
Czynnik A Błąd I: interakcja bloki × czynnik A × czynnik B
Czynnik B Błąd I: interakcja bloki × czynnik A × czynnik B
Interakcja A × B Błąd I: interakcja bloki × czynnik A × czynnik B
Czynnik C Błąd II: błąd losowy
Interakcja A × C Błąd II: błąd losowy
Interakcja B × C Błąd II: błąd losowy
Interakcja A × B × C Błąd II: błąd losowy
Kierunek zmienności systematycznej
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 105
DARIUSZ R. MAŃKOWSKI
Przykład
Trójczynnikowe doświadczenie z pszenicą założono w układzie Split-plot w wariancie AB–C (zbiór ‘Pszenica_ab_c’ w bibliotece ‘Kurs’). W doświadczeniu badano reakcję 3 odmian pszenicy ozimej, wpływ zaprawy nasiennej i 3 dawek nawożenia azotowego na masę tysiąca ziaren (MTZ). Przeprowadzić analizę danych, do grupowania średnich wykorzystać procedurę Tukeya.
ODS HTML;
PROC GLM DATA=kurs.pszenica_ab_c;
CLASS blok odmiana zaprawa dawka_n;
MODEL mtz = blok odmiana zaprawa odmiana*zaprawa
blok*odmiana*zaprawa dawka_n odmiana*dawka_n zaprawa*dawka_n
odmiana*zaprawa*dawka_n /SS1;
TEST H=blok odmiana zaprawa odmiana*dawka_n E=blok*odmiana*zaprawa;
MEANS odmiana zaprawa /TUKEY E=blok*odmiana*zaprawa;
MEANS dawka_n /TUKEY;
RUN; QUIT;
ODS HTML CLOSE;
Układ Split-blok
Układ split-blok jest modyfikacją układu split-plot. Czynnik bardziej wymagający nie jest rozlosowywany w ramach bloków, lecz ustawiany w pasy prostopadle do bloków. Czynnik podrzędny jest natomiast rozlosowywany w ramach bloków i poziomów czynnika nadrzędnego.
Przykładowy schemat takiego doświadczenia: BLOK I BLOK II BLOK III BLOK IV
A1B1 A1B3 A1B2 A1B3 A1B2 A1B1 A1B2 A1B1 A1B3 A1B1 A1B2 A1B3 A1
A2B2 A2B1 A2B3 A2B1 A2B3 A2B2 A2B3 A2B2 A2B1 A2B3 A2B1 A2B2 A2
A3B2 A3B3 A3B1 A3B3 A3B1 A3B2 A3B1 A3B2 A3B3 A3B2 A3B3 A3B1 A3
Kierunek zmienności systematycznej
106 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
Model Liniowy analizy wariancji dla tego układu doświadczalnego ma postać:
gdzie: — cecha obserwowana dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym bloku; —
prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego poziomu czynnika A; — pierwszy błąd dla j-tego
poziomu czynnika A w i-tym bloku; — efekt k-tego poziomu czynnika B; — drugi błąd dla k-tego poziomu
czynnika B w i-tym bloku; — efekt interakcji j-tego poziomu czynnika A i k-tego poziomu czynnika B; —
trzeci błąd losowy dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym bloku.
W trakcie analizy weryfikowane są trzy hipotezy zerowe:
— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);
— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);
— mówiąca o braku interakcji pomiędzy czynnikiem A i B.
Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).
Testowanie efektów głównych i interakcji przebiega w sposób następujący: Efekty główne i interakcje Błąd (do niego testujemy efekty czynników)
Bloki Błąd I: interakcja bloki × czynnik A
Czynnik A Błąd I: interakcja bloki × czynnik A
Czynnik B Błąd II: interakcja bloki × czynnik B
Interakcja A × B Błąd III: błąd losowy
Przykład
Doświadczenie badające wpływ 4 zabiegów ochrony chemicznej (fungicydy) na masę tysiąca nasion (MTN) 10 linii grochu założono w układzie Split-blok (zbiór ‘Groch_spb’ w bibliotece ‘Kurs’). Przeprowadzić analizę danych, do grupowania średnich wykorzystać procedurę Duncana.
ODS HTML;
PROC GLM DATA=kurs.groch_spb;
CLASS bloki ochrona odmiana;
MODEL mtn = bloki ochrona bloki*ochrona odmiana bloki*odmiana
ochrona*odmiana /SS1;
TEST H=bloki ochrona E=bloki*ochrona;
TEST H=odmiana E=bloki*odmiana;
MEANS ochrona / DUNCAN E=bloki*ochrona;
MEANS odmiana / DUNCAN E=bloki*odmiana;
RUN; QUIT;
ODS HTML CLOSE;
3.2. Doświadczenia w układach kratowych
Układy kratowe zalicza się do układów bloków niekompletnych częściowo zrównoważonych. Zakłada się, że część obiektów badanych spotka się jednocześnie w tym samym bloku niekompletnym, ale będą takie, które nie spotkają się ani razu w żadnym bloku.
Przykład takiego doświadczenia przedstawia schemat:
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 107
DARIUSZ R. MAŃKOWSKI
Krata 1 Krata 2
Blok I Blok II Blok III Blok IV Blok I Blok II Blok III Blok IV
A1 A5 A9 A13 A1 A2 A3 A4
A2 A6 A10 A14 A5 A6 A7 A8
A3 A7 A11 A15 A9 A10 A11 A12
A4 A8 A12 A16 A13 A14 A15 A16
Do analizy danych pochodzących z układów kratowych służy procedura LATTICE. Na
potrzeby tej procedury, zbiór danych musi być skonstruowany w odpowiedni sposób. Oprócz obserwowanych cech ilościowych (np. plon, MTZ, itp.) musi on zawierać cztery specjalne
kolumny:
— Group — oznacza numer kraty;
— Block — oznacza numer bloku (w każdej kracie numerację zaczynamy od 1); — Treatmnt — oznacza poziomy badanego czynnika (w zapisie nie ma błędu!);
— Rep — oznacza liczbę powtórzeń układu (zmienna nieobowiązkowa). Składnia procedury LATTICE jest następująca:
PROC LATTICE DATA=zbiór_danych;
VAR lista_zmiennych;
RUN;
Polecenie PROC LATTICE rozpoczyna procedurę; polecenie DATA=zbiór_danych definiuje zbiór,
z którego procedura będzie korzystać. Po poleceniu VAR podajemy nazwę (bądź nazwy) zmiennej analizowanej (obserwowanej cechy ilościowej). Polecenie RUN kończy procedurę.
Wyniki działania tej procedury zawierają tabelę analizy wariancji z poszczególnymi źródłami zmienności, stopniami swobody, sumą kwadratów odchyleń i średnimi kwadratami odchyleń. Nie ma wyznaczonych wartości statystyki F i p-value. Tę czynność pozostawiono użytkownikom do samodzielnego wykonania. Następnym elementem są dodatkowe statystyki, takie jak:
wariancja średnich wewnątrz bloku, wariancja średnich pomiędzy blokami, średnia wariancja, NIR’y (bazujące na średniej wariancji) dla poziomu istotności 0.01 i 0.05 do porównań średnich oraz efektywność doświadczenia w stosunku do kompletnych doświadczeń losowanych bloków (RCBD — random complete block design).
Przykład
W doświadczeniu kratowym badano plonowanie 25 odmian soi (zbiór ‘Soja_krata’ w bibliotece ‘Kurs’). Przeprowadzić analizę danych pochodzących z tego doświadczenia.
ODS HTML;
PROC LATTICE DATA=kurs.soja_krata;
VAR plon;
RUN;
ODS HTML CLOSE;
Kierunek zmienności systematycznej
108 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
4. Zaawansowana hierarchiczna analiza skupień
Na hierarchiczną analizę skupień w języku 4GL składa się szereg procedur. Najważniejsze z nich to procedury: DISTANCE, CLUSTER i TREE.
PROC DISTACE
Procedura DISTANCE służy do wyznaczania dystansów pomiędzy analizowanymi obiektami. W wyniku jej działania uzyskujemy macierz dystansów pomiędzy obiektami. Składnia tej procedury jest następująca:
PROC DISTANCE DATA=zbiór_danych METHOD=metoda OUT=nazwa_zbioru;
ID zmienna_identyfikująca;
VAR typ_zmiennych (lista_zmiennych);
RUN;
Polecenie PROC DISTANCE rozpoczyna procedurę. Polecenia DATA=zbiór_danych wskazuje
zbiór danych, do którego odwołuje się procedura. Polecenie METHOD=metoda służy do wskazania metody wyznaczania dystansu:
— METHOD=GOWER — miara podobieństwa Gower’a; — METHOD=DGOWER — miara zróżnicowania Gower’a; — METHOD=EUCLID — miara odległości Euklidesa; — METHOD=SQEUCLID — kwadrat miary odległości Euklidesa; — METHOD=COV — kowariancja;
— METHOD=CORR — korelacjia Pearsona;
— METHOD=SQCORR — kwadrat korelacji Pearsona;
— METHOD=CITYBLOCK — miara odległości miejska; — METHOD=CHEBYCHEW — miara odległości Chebychewa; — METHOD=CHISQ — chi-kwadrat ( );
— METHOD=HAMMING — miara odległości Hamminga; — METHOD=HAMANN — miara odległości Hamanna; — METHOD=RR — miara Russella i Rao;
— METHOD=JACCARD — współczynnik podobieństwa genetycznego Jaccarda; — METHOD=DJACCARD — współczynnik dystansu genetycznego Jaccarda.
Polecenie OUT=nazwa_zbioru pozwala na zapisanie uzyskanej macierzy dystansów do nowego zbioru w celu wykorzystania jej w dalszych etapach analizy skupień. Za pomocą polecenia ID zmienna_identyfikująca wskazujemy kolumnę (zmienną) zawierającą identyfikatory badanych
obiektów. Polecenie VAR pozwala na wskazanie zmiennych, które mają być uwzględnione w analizie. W poleceniu tym należy zdefiniować typ zmiennych (ANOMINAL, NOMINAL, ORDINAL,
INTERVAL, RATIO), a następnie w nawiasie wskazać ich zakres. Polecenie RUN kończy procedurę.
Procedura CLUSTER Przeprowadza proces hierarchicznej klasteryzacji obiektów na podstawie macierzy dystansów pomiędzy nimi. Składnia tej procedury jest następująca:
PROC CLUSTER DATA=zbiór_danych METHOD=metoda;
ID zmienna_identyfikująca;
RUN;
Polecenie PROC DISTANCE rozpoczyna procedurę. Polecenie DATA=zbiór_danych wskazuje
zbiór, do którego odwołuje się procedura, przy czym powinien on mieć formę macierzy
dystansów pomiędzy obiektami. Polecenie METHOD=metoda służy do wskazania metody klasteryzacji:
— METHOD=AVERAGE — metoda średniego wiązania (UPGMA)
— METHOD=CENTROID — metoda centroidu;
— METHOD=COMPLETE — metoda kompletnego wiązania (najdalszego sąsiedztwa);
— METHOD=MCQUITTY — metoda McQuittiego (WPGMA);
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 109
DARIUSZ R. MAŃKOWSKI
— METHOD=MEDIAN — metoda mediany;
— METHOD=SINGLE — metoda pojedynczego wiązania (najbliższego sąsiedztwa); — METHOD=WARD — metoda Warda.
Za pomocą polecenia ID zmienna_identyfikująca wskazujemy kolumnę (zmienną) zawierającą
identyfikatory badanych obiektów. Polecenie RUN kończy procedurę.
Procedura TREE jest procedurą graficzną i służy do sporządzania dendrogramów. Jej składnia jest następująca:
PROC TREE <HORIZONTAL> SPACES=n;
ID zmienna_identyfikująca;
RUN;
Polecenie PROC TREE rozpoczyna procedurę, przy czym nie wskazuje się tu zbioru danych, gdyż procedura ta odwołuje się bezpośrednio do wyników poprzedzającej ją w analizie skupień procedury CLUSTER. Domyślnie wykres ustawiony jest pionowo, jeśli chcemy zmienić jego orientację używamy opcji HORIZONTAL. Poleceniem SPACES=n definiujemy odstępy pomiędzy obiektami na wykresie (zaleca się SPACES=2). Za pomocą polecenia ID zmienna_identyfikująca
wskazujemy kolumnę (zmienną), która zawiera identyfikatory badanych obiektów. Polecenie RUN kończy procedurę.
4.1. Analiza dla danych molekularnych
Dane molekularne (czyli pochodzące z analiz molekularnych), zapisywane w postaci 0-1
(binarnych) macierzy, pochodzących z obrazów elektroforetycznych, często są wykorzystywane do oceny podobieństwa bądź zróżnicowania obiektów z wykorzystaniem hierarchicznej analizy skupień. Ta grupa danych jest dość charakterystyczna, gdyż 0 i 1 nie mają tu swoich wartości nominalnych, lecz stanową o dwóch różnych stanach (dane skategoryzowane). Nie można więc w ich przypadku stosować klasycznych miar odległości. Specjalnie dla danych molekularnych opracowano szereg współczynników podobieństwa i dystansu genetycznego (np. Jaccarda,
Nei’a). W Systemie SAS® procedura DISTANCE pozwala na wyznaczenie macierzy
współczynników podobieństwa bądź zróżnicowania genetycznego Jaccarda.
Dodatkowo należy pamiętać o specyficznym ustawieniu danych do tego typu analizy. W pierwszej kolumnie zbioru powinny znajdować się identyfikatory obiektów, natomiast poszczególne pasma powinny być ustawione jako kolejne kolumny. Najczęściej dane z analiz molekularnych zapisuje się w arkuszu kalkulacyjnym (np. Ms Excel) mają one porządek odwrotny co oznacza, że poszczególne obiekty to kolumny, a pasma zapisane są w wierszach. Tak zapisane dane wymagają transpozycji przed rozpoczęciem właściwej analizy. W tym celu
najlepiej dodać przed danymi jeszcze jedną kolumnę. W wierszu z identyfikatorami obiektów, wpisać w tej kolumnie nazwę identyfikatora (np. ‘linia’, ‘odmiana’, itp.). W pozostałych wierszach wpisać nazwy pasm. Tak przygotowany zbiór danych można transponować za
pomocą procedury TRANSPOSE.
Przykład 1
Na podstawie danych pochodzących z analizy PCR 13 odmian marchwi
z wykorzystaniem starterów semi-specyficznych (zbiór ‘Marchew_pcr’ w bibliotece ‘Kurs’) przeprowadzić hierarchiczną analizę skupień z wykorzystaniem miary podobieństwa genetycznego Jaccarda i klasteryzacji UPGMA.
110 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
ODS HTML;
PROC DISTANCE DATA=kurs.marchew_pcr METHOD=JACCARD OUT=marchew_macierz;
ID odm;
VAR ANOMINAL (pcr_1 -- pcr_673);
RUN;
PROC PRINT DATA=marchew_macierz NOOBS;
RUN;
PROC CLUSTER DATA=marchew_macierz METHOD=AVERAGE;
ID odm;
RUN;
PROC TREE HORIZONTAL SPACES=2;
ID odm;
RUN;
ODS HTML CLOSE;
Przykład 2
Wykonano analizę AFLP 10 linii pszenicy (zbiór ‘Pszenica_aflp’ w bibliotece
‘Kurs’). Przeprowadzić analizę skupień z wykorzystaniem współczynnika podobieństwa genetycznego Jaccarda i klasteryzacji UPGMA. Przed analizą dokonać transpozycji danych.
ODS HTML;
PROC TRANSPOSE DATA=kurs.pszenica_aflp NAME=Linia OUT=pszen1(drop=_LABEL_);
ID linia;
RUN;
PROC DISTANCE DATA=pszen1 METHOD=JACCARD OUT=pszen2;
ID linia;
VAR ANOMINAL (pasmo_1 -- pasmo_763);
RUN;
PROC PRINT DATA=pszen2 NOOBS;
RUN;
PROC CLUSTER DATA=pszen2 METHOD=AVERAGE;
ID linia;
RUN;
PROC TREE HORIZONTAL SPACES=2;
ID linia;
RUN;
ODS HTML CLOSE;
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 111
DARIUSZ R. MAŃKOWSKI
4.2. Analiza dla cech ilościowych
W przypadku analizy skupień, przeprowadzanej dla cech ilościowych, należy jedynie pamiętać o prawidłowym przygotowaniu danych. W zbiorze danych pierwsza kolumna powinna zawierać identyfikatory obiektów, a następne kolumny powinny zawierać kolejne cechy ilościowe opisujące te obiekty.
Przykład
Na podstawie wyników obserwacji cech trawnikowych 8 odmian kostrzewy czerwonej (zbiór ‘Trawy_gaz’ w bibliotece ‘Kurs’) przeprowadzić hierarchiczną analizę skupień w oparciu o kwadrat odległości Euklidesa
i klasteryzację metodą najbliższego sąsiedztwa.
ODS HTML;
PROC DISTANCE DATA=kurs.trawy_gaz METHOD=SQEUCLID OUT=trawy;
ID odm;
VAR ORDINAL (pr -- r);
RUN;
PROC PRINT DATA=trawy NOOBS;
RUN;
PROC CLUSTER DATA=trawy METHOD=SINGLE;
ID odm;
RUN;
PROC TREE HORIZONTAL SPACES=2;
ID odm;
RUN;
ODS HTML CLOSE;
112 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 113
DARIUSZ R. MAŃKOWSKI
LITERATURA
Agresti A. 2002. Categorical Data Analysis. 2nd Edition. New Jersey, USA: John Wiley & Sons Inc.
Box G. E. P., Hunter J. S., Hunter W. G. 2005. Statistics for Experimenters — Design, Innovation, and Discovery. Second
Edition. New Jersey, USA: Wiley and Sons Inc.
Carpenter A. 1999. Annotate: Simply the Basics. Cary, NC, USA: SAS Publishing, SAS Institute Inc.
Cody R. P., Smith J. K. 2005. Applied Statistics and the SAS Programming Language. Fifth Edition. Upper Saddle River,
NJ, USA: Pearson Education Inc.
Der G., Everitt B. S. 2002. A Handbook of Statistical Analyses using SAS. Second Edition. London, UK: Chapman
& Hall/CRC.
Freund R. J., Littell R. C. 2000. SAS System for Regression. Third Edition. New York, USA: SAS Publishing, SAS Institute
Inc., John Wiley & Sons Inc.
Friendly M. 1991. SAS System for Statistical Graphics. First Edition. Cary, NC, USA: SAS Publishing, SAS Institute Inc.
Kala R. 1996. Elementy wnioskowania parametrycznego dla przyrodników. Poznań: Akademia Rolnicza w Poznaniu.
Khattre R., Naik D. N. 2000. Multivariate Data Reduction and Discrimination with SAS Software. New York, USA: SAS
Publishing, SAS Institute Inc., John Wiley & Sons Inc.
Khattree R., Naik D. N. 1999. Applied Multivariate Statistics with SAS Software. Second Edition. New York, USA: SAS
Publishing, SAS Institute Inc., John Wiley & Sons Inc.
Littel R. C., Stroup W. W., Freund R. J. 2002. SAS for linear models. Fourth edition. Cary, NC, USA: SAS Institute Inc.,
John Wiley & Sons Inc.
Mądry W. 2003. Doświadczalnictwo — doświadczenia czynnikowe. Warszawa: Fundacja Rozwój SGGW.
Muller K. E., Fetterman B. A. 2003. Regression and ANOVA, an Integrated Approach Using SAS Software. New York,
USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc.
O'Rourke N., Hatcher L., Stepanski E. J. 2005. A step-by-step approach to using SAS for univariate & multivariate
statistics. Second edition. Cary, NC, USA.: SAS Institute Inc., John Wiley & Sons Inc.
Rawlings J. O., Pantula S. G., Dickey D. A. 2001. Applied Regression Analysis - a Research Tool. Second Edition. New
York, USA: Springer-Verlag Inc.
SAS Institute Inc. 2004. BASE SAS 9.1.3 Procedures guide. Cary, NC, USA: SAS Publishing, SAS Institute Inc.
SAS Institute Inc. 2004. SAS 9.1 Companion for Windows. Cary, NC, USA: SAS Publishing, SAS Institute Inc.
SAS Institute Inc. 2004. SAS/GRAPH 9.1 Reference. Cary, NC, USA: SAS Publishing, SAS Institute Inc.
SAS Institute Inc. 2004. SAS/STAT 9.1 user's guide. Cary, NC, USA: SAS Publishing, SAS Institute Inc.
Schlotzhauer S. D., Littell R. C. 1997. SAS System for Elementary Statistical Analysis. Second Edition. Cary, NC, USA: SAS
Publishing, SAS Institute Inc.
Stokes M. E., Davis C. S. 2000. Categorical Data Analysis Using the SAS System. 2nd Edition. New York, USA: SAS
Publishing, SAS Institute Inc., John Wiley & Sons Inc.
Timm N. H., Mieczkowski T. A. 1997. Univariate & Multivariate General Linear Models: Theory and Applications Using
SAS Software. Cary, NC, USA: SAS Publishing, SAS Institute Inc.
Trętowski J., Wójcik A. R. 1988. Metodyka doświadczeń rolniczych. Siedlce: WSRP.
Westfall P. H., Tobias R. D., Rom D., Wolfinger R. D., Hochberg Y. 1999. Multiple Comparisons and Multiple Tests Using
SAS. Cary, NC, USA: SAS Publishing, SAS Institute Inc.
Wójcik A. R. 1993. Statystyka z elementami rachunku prawdopodobieństwa i statystyki opisowej. Warszawa: SGGW.
Wójcik A. R., Laudański Z. 1989. Planowanie i wnioskowanie statystyczne w doświadczalnictwie. Warszawa: PWN.
Zieliński W. 1999. Wybrane testy statystyczne. Warszawa: Fundacja Rozwój SGGW.
Zieliński W. 2000. Tablice statystyczne. Warszawa: Fundacja Rozwój SGGW.
LITERATURA
114 SYSTEM SAS®
W BADANIACH ROLNICZYCH
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN
NOTATKI