stochastyczne metody analizy...
TRANSCRIPT
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
PROJEKT: Analiza kluczowych parametrów turbin wiatrowych
Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się
w grupach 2-3 osobowych. Aby zaliczyć projekt, należy dostarczyć wydrukowane sprawozdanie
z wynikami przeprowadzonej analizy nie później niż do dnia 15 grudnia 2014 r. Niedostarczenie
sprawozdania w terminie skutkuje uzyskaniem 0 punktów za projekt i taka też liczba jest brana pod
uwagę przy wyliczaniu oceny końcowej. Sprawozdanie powinno być podpisane imionami i nazwiskami,
numerami indeksów autorów oraz numerem grupy ćwiczeniowej.
Dane do analizy znajdują się w pliku turbiny.xlsx i pochodzą ze strony: http://www.thewindpower.net.
Zawierają informacje na temat kluczowych parametrów różnych modeli turbin wiatrowych
wykorzystywanych w farmach wiatrowych. Dane zawierają 963 przypadki (różne modele) opisane
przez 5 zmiennych (parametry):
Manufacturer – producent turbiny;
Model – model turbiny;
Power (kW) – moc nominalna turbiny;
Diameter (m) – średnica turbiny;
Availability – dostępność na rynku:
Celem jest:
1. Analiza koncentracji, rozrzutu i struktury danych dla zmiennych Power i Diameter.
2. Analiza i porównanie koncentracji i rozproszenia tych samych zmiennych, ale w kategoriach
określonych przez zmienną Availability. Analiza struktury danych w kategoriach poprzez
wykonanie skategoryzowanych wykresów pudełkowych (na podstawie mediany i kwartyli)
i skategoryzowanych histogramów.
a. Kategoria I: turbiny wycofane z produkcji (Old),
b. Kategoria II: turbiny aktualnie produkowane (Under production),
c. Kategoria III: turbiny znajdujące się dopiero w budowie (Under dev.).
3. Wskazanie nazw 3 producentów, których turbiny są najliczniej reprezentowane w załączonych
danych na podstawie histogramu przedstawiającego liczbę turbin wykonanych przez każdego
producenta (nazwy producentów = kategorie określone w zmiennej Manufacturer)
4. Zilustrowanie zależności pomiędzy mocą turbiny a jej średnicą przy pomocy wykresu rozrzutu.
Określenie równania dla prostej regresji.
Wyniki otrzymane w każdym z punktów należy skomentować.
Analizę koncentracji danych wykonuje się poprzez wyliczenie:
• Wartości średnich;
• Przedziałów ufności dla wartości oczekiwanej;
• Minimalnych i maksymalnych wartości zmiennych;
• Mediany i kwartyli (Q1 i Q3);
Analizy rozrzutu/rozproszenia danych przez wyliczenie:
a. Miar zmienności, czyli np. rozstępu, wariancji, odchylenia standardowego;
Analizy struktury zbioru danych poprzez wykonanie:
b. Histogramów (rozkłady empiryczne);
c. Wykresów pudełkowych – ilustrujących rozmieszczenie danych wokół mediany lub
wokół średniej.
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
Zależności pomiędzy zmiennymi dobrze ilustrują wykresy rozproszenia. STAISTICA wylicza dla każdego
wykresu rozproszenia równanie prostej regresji opisujące zależność liniową występującą pomiędzy
zmiennymi.
Aby wykonać powyższe zadania, należy się zapoznać z instrukcją opisaną w kolejnych punktach.
1.1.1.1. Importowanie danych z arkuszy xlsImportowanie danych z arkuszy xlsImportowanie danych z arkuszy xlsImportowanie danych z arkuszy xlsxxxx do pakietu STATISTICA.do pakietu STATISTICA.do pakietu STATISTICA.do pakietu STATISTICA.
W menu głównym STATISTIKI należy wejść w Plik/Otwórz:
Wybrać odpowiedni plik i następnie zaznaczyć Import wybranego arkusza:
Zaznaczyć arkusz, który zawiera dane (w przypadku pliku turbiny.xlsx arkusz ten nazywa się „dane”)
i potwierdzić wybór wciskając OK. Pojawia się okno, w którym należy zaznaczyć, żeby program wziął
nazwy zmiennych z 1 wiersza i potwierdzić wybór przyciskiem OK:
Może się pojawić okno, w którym należy wskazać, aby program wczytywał tekst jako etykiety
tekstowe:
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
Prawidłowo wczytane dane powinny wyglądać następująco:
Statystyki opisoweStatystyki opisoweStatystyki opisoweStatystyki opisowe
Do analizy koncentracji i rozrzutu wykorzystujemy parametry statystyki opisowej. Aby je wyliczyć dla
wybranej zmiennej należy wybrać z menu głównego STATISTIKI Statystyka/Statystyki podstawowe i
tabele:
W wyniku tego działania pojawia się okno, w którym należy wybrać Statystyki opisowe, a wybór
potwierdzić wciskając OK:
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
Wyświetla się nowe okno, w którym należy wskazać zmienną, dla której chcemy wyznaczyć parametry
statystyki opisowej. Wyboru zmiennej dokonuje się poprzez wciśnięcie przycisku Zmienne,
znajdującego się w lewym górnym rogu tego okna:
Interesujące nas zmienne należy wybrać z listy zmiennych (można na raz wybrać kilka), a wybór
potwierdzić wciskając OK:
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
W zakładce Więcej dokonujemy wyboru interesujących nas parametrów statystyki opisowej i aby
uzyskać wynik wciskamy przycisk Statystyki:
W wyniku tej operacji powinno się wyświetlić okno z wyznaczonymi wartościami wskazanych przez
nas parametrów:
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
Aby wrócić do okna ze Statystykami opisowymi należy powiększyć zminimalizowane okno znajdujące
się w lewym dolnym rogu ekranu:
W oknie tym w zakładce Podstawowe znajdują się przyciski służące do generowania Histogramu
i wykresu pudełkowego (nazwany jako Wykres ramka-wąsy):
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
Po wciśnięciu przycisku Histogram wyświetlą się histogramy dla wybranych zmiennych. Natomiast
w związku z tym, że występuje kilka rodzajów wykresów pudełkowych, przed ich wyświetleniem należy
wskazać typ wykresu pudełkowego, jaki ma zostać wygenerowany. Dokonuje się tego w zakładce
Opcje:
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
Po wyborze opcji należy wrócić do zakładki Podstawowe i wcisnąć przycisk Wykres ramka-wąsy.
Najlepiej zrobić to wybierając każdą zmienną osobno.
Histogramy i wykresy pudełkowe skategoryzowane
Aby móc porównać strukturę danych w różnych kategoriach pomocne są wykresy skategoryzowane.
Wykonuje się je z poziomu okna Statystyki opisowe, wchodząc do zakładki W. skategoryzowane:
W celu wykonania skategoryzowanych histogramów należy wcisnąć przycisk Histogramy
skategoryzowane, a następnie wskazać przynajmniej jedną zmienną grupującą, czyli tą która zawiera
informację o kategoriach (np. zmienną Availability):
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
Po wciśnięciu OK, pokazuje się okienko, w którym należy dokonać wyboru kodów zmiennej grupującej:
Jeśli interesują nas wszystkie kategorie, wciskamy przycisk Wszystko, a następnie zatwierdzamy
wybór OK:
W wyniku tego działania pojawią się histogramy dla każdej kategorii określonej przez zmienną
grupującą, w tym przypadku przez zmienną Availability. W taki sam sposób wykonujemy wykresy
pudełkowe, pamiętając o odpowiednim ustaleniu opcji wykresu w zakładce Opcje.
Wyznaczanie parametrów tylko dla wybranej kategorii
Aby wyliczyć parametry statystyki opisowej dla wybranej kategorii (na przykład tylko dla kategorii
‘Under production’, określonej w zmiennej Availability), przy wyznaczaniu parametrów statystyki
opisowej należy skorzystać z przycisku Select cases:
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
Po wciśnięciu tego przycisku należy zaznaczyć opcje Włącz warunki selekcji, oraz zdefiniować
przypadki, które mają być poddane analizie poprzez wpisanie odpowiedniego warunku. Na rysunku
przedstawionym poniżej warunek jest opisany jako: v5 = ‘Under production’, co oznacza, że interesują
nas tylko te przypadki, dla których zmienna numer 5 (variable 5) przyjmuje wartość ‘Under production’:
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
Po wciśnięciu przycisku OK, następuje powrót do okna Statystyki podstawowe, w którym przycisk
Select cases zostaje podświetlony na niebiesko, co oznacza, że zostały określone warunki selekcji
przypadków. Po wyznaczeniu wszystkich interesujących nas parametrów statystyki opisowej dla
kategorii ‘Under production’, wciskając ponownie przycisk Select cases możemy zmienić kategorię na
inną, odpowiednio definiując interesujące nas przypadki.
Ustalenie najliczniejszej kategorii
Najbardziej liczną kategorię można wskazać na różne sposoby, jednym z nich jest wykonanie
histogramu dla zmiennej, która zawiera informacje o kategoriach, czyli np. aby wskazać, który
producent produkuje najwięcej turbin, należy wykonać histogram dla zmiennej Manufacturer. Aby to
zrobić wybieramy z menu głównego Wykresy/Histogramy:
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
Pojawia się okno Histogramy 2W, w którym musimy dokonać wyboru zmiennej, a także określić kody,
dla których powstanie histogram (kodami będą nazwy producentów). Należy również odznaczyć
dopasowanie rozkładu normalnego, ponieważ histogram będzie wykonywany dla kategorii cechy
jakościowej.
Po wciśnięciu OK pojawia się histogram przedstawiający liczebność turbin wykonywanych przez
kolejnych producentów. Najechanie kursorem na wybrany słupek umożliwi nam odczytanie
producenta, na którego dana liczebność przypada.
Wykres rozrzutu
W celu zilustrowania zależności pomiędzy zmiennymi, np. pomiędzy średnicą a mocą, wykonuje się
wykres rozrzutu. Wykres ten wykonuje się wybierając w menu głównym Wykresy/Wykresy rozrzutu:
Pojawia się okno Wykres rozrzutu 2W, w którym poprzez naciśnięcie przycisku Zmienne należy określić
zmienne X i Y, czyli np. Diameter i Power:
1
2
3 4
5
Stochastyczne Metody Analizy Danych
Elektrotechnika, semestr zimowy 2014/2015
Po zatwierdzeniu wyboru zmiennych poprzez OK, wciskamy jeszcze raz OK w oknie Wykresy rozrzutu
2W, uzyskując w ten sposób wykres rozrzutu ukazujący zależność pomiędzy wybranymi zmiennymi:
Nad tym wykresem znajduje się równanie opisujące czerwoną prostą, dopasowaną do zmienności
danych, nazywaną prostą regresji.
1
2
3
4
5