statistik: 19.10.04 quantitative merkmale. 19.10.04pi statistik, ws 20042 metrische merkmale...
TRANSCRIPT
Statistik: 19.10.04
Quantitative Merkmale
19.10.04 PI Statistik, WS 2004 2
Metrische Merkmale
227 1848 462 1318 579 912 482 696
1631 536 979 718 799 740 371 576
655 660 800 750 949 478 566 718
538 658 788 878 979 1047 537 1226
781 654 593 896 719 1234 561 665
368 1973 267 618 756 711 836 602
943 348
Beispiel: 50 Rechnungsbeträge in der Elektroabteilung eines Einkaufszentrums (in Euro)
19.10.04 PI Statistik, WS 2004 3
Metrisches Merkmal
Das Merkmal wird als (reelles) Vielfaches einer Maßeinheit gemessen
Stetig, z.B. Rechnungsbeträge Diskret, z.B. beim Test erzielte
Punkte
19.10.04 PI Statistik, WS 2004 4
KlasseHäufigkeit
0-200 0
200-400 5
400-600 11
600-800 19
800-1000 8
1000-1200 1
1200-1400 3
1400-1600 0
1600-1800 1
1800-2000 2
größer 0
Metrisches Merkmal: Tabelle
Beispiel: Rechnungsbeträge in der Elektroabteilung einesEinkaufszentrums (in Euro)
19.10.04 PI Statistik, WS 2004 5
Metr. Merkmal: Histogramm
Beispiel: Rechnungsbeträge
Verteilung der Rechnungsbeträge
0
5
10
15
20
100 300 500 700 900 1100 1300 1500 1700 1900 2100
Rechnungsbeträge
19.10.04 PI Statistik, WS 2004 6
Histogramm
Klassenhäufigkeiten: Häufigkeiten, mit der die Klassen der Merkmalsausprägungen besetzt sindDarstellung der Klassenhäufigkeiten als FlächenGröße der Fläche ist proportional zur Häufigkeit Am einfachsten sind Klassen gleicher Breite (dann ist Höhe proportional zu Häufigkeit) Histogramm (für stetige Merkmale) <-> Balkendiagramm (für diskrete Merkmale)
19.10.04 PI Statistik, WS 2004 7
„Histogramm“ in EXCEL
Beispiel: Rechnungsbeträge
Verteilung der Rechnungsbeträge
0
5
10
15
20
Rechnungsbeträge
19.10.04 PI Statistik, WS 2004 8
Histogramm in EXCEL
Teil der Analyse-FunktionenProbleme und deren Lösung:
Balken (vergl. Balkendiagramm) statt Flächen Anklicken eines Stabes -> „Datenreihen formatieren“ ->
„Optionen“ -> Abstandsbreite auf „0“ setzen
Klassengrenzen werden als Klassenmitten angezeigt Bereich mit Klassenmitten erzeugen Diagramm anklicken -> „Datenquelle“ -> als „Beschriftung
der Rubrikenachse (X)“: Bereich mit Klassenmitten angeben X-Achse anklicken -> Muster -> Hauptstriche auf „innen“
setzen -> Hilfsstriche auf „außen“ setzen ->
19.10.04 PI Statistik, WS 2004 9
Verbessertes Histogramm
Beispiel: 50 Rechnungsbeträge
Verteilung der Rechnungsbeträge
0
5
10
15
20
100 300 500 700 900 1100 1300 1500 1700 1900 2100
Rechnungsbeträge
19.10.04 PI Statistik, WS 2004 10
Histogramm-Konstruktion1.Ordne die n Beobachtungen nach steigender
Größe, bestimme die Spannweite der Häufigkeitsverteilung.
2.Zur Festlegung der Klassen unterteile die Spannweite in Intervalle gleicher Länge; die Zahl k der Klassen soll zwischen fünf und 20 liegen. Die Klassenmitten sollen „einfache“ Zahlen sein.
3.Bestimme die Zahl der Beobachtungen jeder Klasse, d.s. die (absoluten) Klassenhäufigkeiten.
4.Zeichne das Histogramm. Bei gleichen Klassenbreiten sind die Höhen der Flächen proportional den Häufigkeiten; bei ungleichen Klassenbreiten sind die Höhen proportional den Quotienten aus Häufigkeit und Klassenbreite (gesamte Fläche: n oder 100%)
19.10.04 PI Statistik, WS 2004 11
Zahl k der Klassenn n √n
20 5 4
30 5 5
40 6 6
50 6 7
75 7 9
100 7 10
150 8 12
200 8 14
2k
• kleinstes k mit
• k ≤ √n
2k n
k soll • nicht kleiner als 5• nicht größer als 20sein (siehe Demo)
19.10.04 PI Statistik, WS 2004 12
Altersverteilung aus „College“
Häuf igkeit
0
2
4
6
8
10
12
14
16
18
20 25 30 35 40 45 50 55 60 65 70 75
Alter
19.10.04 PI Statistik, WS 2004 13
Nochmals „College“ Häufigkeit
0
5
10
15
20
25
30
35
15 25 35 45 55 65 75
Alter
19.10.04 PI Statistik, WS 2004 14
„College“ 3
Häufigkeit
0
1
2
3
4
5
6
7
8
9
10
Alter
Häufigkeit
0
10
20
30
40
50
60
0 20 40 60
Alter
Häufigkeit
19.10.04 PI Statistik, WS 2004 15
„College“ 4
Männliche Mitarbeiter
0 2 4 6 8 10
20
25
30
35
40
45
50
55
60
65
70
75
Alter
Weibliche Mitarbeiter
0 2 4 6 8 10 12
20
25
30
35
40
45
50
55
60
65
70
75
Alter
19.10.04 PI Statistik, WS 2004 16
Beispiele von Verteilungen
RechnungsbeträgeCO-Emission von PKWsLebensalterSchäden durch Wirbelstürme (in Mio USD)
19.10.04 PI Statistik, WS 2004 17
Schäden durch Wirbelstürme
0
5
10
15
20
2550 250
450
650
850
1050
1250
1450
1650
Schadenshöhe (in Mio USD)
An
zah
l d
er S
chäd
en
19.10.04 PI Statistik, WS 2004 18
Schäden durch Wirbelstürme
Klasse Kl.-Breite Häufigk't rel.Häufigk't Dichte
0 – 50 50 19 0,50 0,010000
50 – 100 50 4 0,11 0,002105
100 – 500 400 10 0,26 0,000658
500 - 2000 1500 5 0,13 0,000088
38 1,00
Dichte: Relative Häufigkeit/KlassenbreiteDichtehistogramm: Fläche beträgt 1
19.10.04 PI Statistik, WS 2004 19
Schuh- und Körpergröße
Nach R. Hatzinger, 2003
19.10.04 PI Statistik, WS 2004 20
Charakteristika von Verteilungen
Beschreiben durch Kennzahlen wesentliche Eigenschaften der Verteilung
Dazu gehören:Quantile, Minimum, MaximumLagemaßeStreuungsmaßeSchiefe: charakterisiert SymmetrieWölbung (Kurtosis): Vergleich von symmetrischer Verteilung mit Gauss‘scher Glockenform
19.10.04 PI Statistik, WS 2004 21
Populationskenngrößen
Analyse-Funktion inEXCEL
Rechnungsbeträge
Mittelwert 772,46
Standardfehler 50,10
Median 714,62
Modus 718,46
Standardabweichung 354,29
Stichprobenvarianz 125518,49
Kurtosis 3,29
Schiefe 1,60
Wertebereich 1746,15
Minimum 226,92
Maximum 1973,08
Summe 38623,15
Anzahl 50
19.10.04 PI Statistik, WS 2004 22
Lage- und Streuungsmaße
Lagemaße Mittelwert Median , getrimmter Mittelwert Modus
Streuungsmaße Standardabweichung s Varianz s 2
Interquartilsabstand I Spannweite R
x
x
19.10.04 PI Statistik, WS 2004 23
Lagemaße
11
n
in ix x
( )ix(1) (2) ( ), ,..., nx x x
Mittelwert:
Median: nach der Größe geordnete Beobachtungen:
den Index i nennen wir den Rang von
Median: wenn n=2m+1 ungerade (m ist Rang der mittleren Beobachtung):
wenn n=2m gerade:( )mx x
( ) ( 1)( ) / 2m mx x x
19.10.04 PI Statistik, WS 2004 24
Robuste Lagemaße
Median: extreme Werte („Ausreißer“) haben keinen EffektGetrimmter Mittelwert: Mittelwert von 80% der Beobachtungen, je 10% größte und kleinste Beobachtungen bleiben unberücksichtigt
19.10.04 PI Statistik, WS 2004 25
Quantil (Perzentil)Quantil der Ordnung p aus n Beobachtungen
x1, …, xn ist die Beobachtung x(r) mit Rang
r = (n+1)p
wenn (n+1)p keine ganze Zahl ist: Mittel der benachbarten Beobachtungen Runden des Ranges (n+1)p
Beispiel: Rechnungsbeträge (50 Beobachtungen) Quantil der Ordnung 0.8 (oder 0.8-Quantil): Mittel aus Beobachtungen mit Rängen 40 und 41 1. Quartil oder 0.25-Quantil: Mittel aus Beobachtungen mit Rängen 12 und 13
19.10.04 PI Statistik, WS 2004 26
Einige Quantile
Quartile: 0.25-Quantil oder 1. Quartil (Q1, Qu) 0.75-Quantil oder 3. Quartil (Q3, Qo) 0.5-Quantil ist der Median
Dezile Unteres Dezil oder 0.1-Quantil Oberes Dezil oder 0.9-Quantil
19.10.04 PI Statistik, WS 2004 27
Standardabweichung
2s s
2 2 2 21 111
( )n
in ni is x x x x
Ist die Wurzel aus der Varianz s 2:
Varianz oder Stichprobenvarianz:
Eigenschaften der Standardabweichung:• s kann nicht negativ sein• s = 0: alle Beobachtungen haben gleichen Wert• s wird in den gleichen Einheiten gemessen wie X
19.10.04 PI Statistik, WS 2004 28
Überdeckung
,x s x s
IntervallAnteil der Beobachtungen
2/3
95%
~ 100%
2 , 2x s x s 3 , 3x s x s
• Gilt für die Normalverteilung exakt• Gilt weitgehend für alle symmetrischen, unimodalen Verteilungen
19.10.04 PI Statistik, WS 2004 29
Andere Streuungsmaße
Interquartilsabstand I = Qo – Qu = Q3 – Q1
überdeckt die zentralen 50% der Beobachtungen
Spannweite (range) R = x(n) – x(1)
Variationskoeffizient (s in Prozent des Mittelwertes):für nicht-neg. Merkmale; unabhängig von Maßeinheit
MAD (mean absolute deviation)
sCV
x
11| |
n
in iMAD x x
19.10.04 PI Statistik, WS 2004 30
Schiefe und Wölbung
Schiefe: Maß für Asymmetrie (unimodale Verteilung)rechtsschief: Modus < <Momentkoeffizient (Fisher): mit
Wölbung:g2 = 0: Gauss‘sche Glockenkurve
g2 < 0: abgeplattet, platykurtisch, heavy tail
g2 > 0: spitz, leptokurtisch, light tail
x x3
1 3
mg
s
313 ( )in im x x
42 4
3m
gs
19.10.04 PI Statistik, WS 2004 31
Box Plot
0
10
20
30
40
50
60
70
80
HM
U
Darstellung einer Häufigkeitsverteilung; gibt die wesentlichen Charakteristika wieder.(siehe Hackl & Katzenbeisser, S. 29-30)
Ausreißer
Whisker
Qo
Median
Qu
Whisker
50% derDaten
19.10.04 PI Statistik, WS 2004 32
Beispiel: Heilmittelkosten
AM IN OP
0
100
200
300
400
HM
U
Heilmittelkosten je Patient (in Euro) bei • 1682 Praktischen Ärzten (AM)• 176 Internisten (IN)• 242 Orthopäden (OP)
WGKG, 2002
19.10.04 PI Statistik, WS 2004 33
Box Plot: Elemente
Box: mittlere 50% der Beobachtungen; Begrenzungen sind Quartile; Median als Mittellinie Innere Grenzen (inner fences): Qu - 1.5I, Qu + 1.5I
Äußere Grenzen (outer fences): Qu - 3I, Qu + 3I Beobachtungen innerhalb der Inneren Grenzen werden verbunden (whiskers)Beobachtungen außerhalb der Inneren Grenzen und innerhalb der Äußeren Grenzen: einzeln mit einem + einzeichnen (outlier)Beobachtungen außerhalb der Äußeren Grenzen: einzeln mit einem * einzeichnen (far outlier)
19.10.04 PI Statistik, WS 2004 34
Fragestellungen
In welchem Bereich kann man einen Mittelwert in der Grundgesamtheit erwarten ?Ist ein Mittelwert anders (kleiner, größer, oder ungleich) als eine bestimmte Vorgabe ?