maße der zentralen tendenz modalwert / modus häufigster wert bei klassifizierten werten: die...
TRANSCRIPT
Maße der zentralen Tendenz
• Modalwert / Modus
• häufigster Wert
• bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse
• Notation: X Mo
• ab Nominalskala
• Modus ist nicht die Häufigkeit, sondern die Variablenausprägung
• bimodale Verteilungen: 2 häufige Werte
Modus klassifizierter Daten
Einkommensklassevon ... bis unter ...
l
Klassen-mitte
xl
absolute und relative Häufigkeiten
kumulierte absolute und relative Häufigkeiten
fl pl cfl cpl
0 - 2000 1000 1 0,083 1 0,083
2000 - 4000 3000 6 0,500 7 0,583
4000 - 6000 5000 3 0,250 10 0,833
6000 - 8000 7000 1 0,083 11 0,916
8000 und mehr (9000) 1 0,083 12 0,999
12 0,999
Verwende Klassenmitte der häufigsten Klasse: Modus = 3000
Median
~Notation: X (X Tilde)teilt Werte in 2 gleich große Hälftenab Ordinalskalabei ungeradem N: Wert der mittleren Personbei geradem N: Mittelwert der beiden mittleren
Personen (dies nur bei Intervallskala)bei mehrfach auftretenden Werten:3 6 7 8 8 8 9 9 10 12Uminterpretieren des Medians (mindestens die Hälfte
der Personen liegt unter/über 8)oder lineare Interpolation (Median=8.17 siehe
Benninghaus)
Median der 12 Einkommensangaben (1)
Als Beispiel dienen die Einkommensangaben aus Diekmann (1995). Die
Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste). Der
Median entspricht bei ungerader Anzahl von Fällen dem Merkmalswert,
der in der sortierten (primären) Liste aller Merkmalswerte auf dem r-ten
Rangplatz steht (mit r=(n+1)/2). Dieser Wert teilt die Liste aller
Merkmalswerte exakt in zwei Hälften. Bei gerader Anzahl von Fällen
gibt es keinen Wert, der die Liste exakt in zwei Hälften unterteilt. Man
verwendet alternativ den Durchschnitt aus dem r-ten und (r+1)-ten Wert,
wobei r jetzt n/2 entspricht. Der Datensatz von Diekmann enthält zwölf
gültige Einkommensangaben, so dass wir in diesem Beispiel von einer
geraden Anzahl von Fällen ausgehen müssen.
Median der 12 Einkommensangaben (2)
Rang(i)
Ein-kommen
x(i)
1 1600
2 2300
3 2300
4 2400
5 2900
6 3200 Der Median liegt zwischen dem 6. und 7. Wert. Vereinbart ist der Durchschnitt beider Werte: Median = (3200+3500)/2 = 3350.
7 3500
8 4500
9 4600
10 5200
11 6500
12 12000
Median klassifizierter Daten (1)
Einkommensklassevon ... bis unter ...
l
Klassen-mitte
xl
absolute und relative Häufigkeiten
kumulierte absolute und relative Häufigkeiten
fl pl cfl cpl
0 - 2000 1000 1 0,083 1 0,083
2000 - 4000 3000 6 0,500 7 0,583
4000 - 6000 5000 3 0,250 10 0,833
6000 - 8000 7000 1 0,083 11 0,916
8000 und mehr (9000) 1 0,083 12 0,999
12 0,999
Daten: Diekmann (1995).
Verwende lineare Interpolation im Medianintervall
2000-4000 = Medianintervall
2000 = cmu (exakte untere Grenze des Medianintervalls)
12 = n (Stichprobenumfang)
1 = cfu (kumulierte Häufigkeit unterhalb des Medianintervalls)
6 = fm (Häufigkeit im Medianintervall)
2000 = cmo - cmu (Breite des Medianintervalls)
Median = cmu + [(n/2 - cfu) . (cmo - cmu) / fm]
3666,67 DM = 2000 + [(12/2 - 1) . 2000 / 6]
Median klassifizierter Daten (2)
Arithmetisches Mittel
Notation: x quer
ab Intervallskalenniveau
nicht robust gegenüber Ausreißern, alle Werte gehen ein
Arithmetisches Mittel der 12 Einkommensangaben
Als Beispiel dienen die Einkommensangaben aus Diekmann (1995) . Die folgende Tabelle enthält nur die Fälle mit gültigen Einkommensangaben. Das arithmetische Mittel entspricht der Summe aller Merkmalswerte geteilt durch die Anzahl der Fälle
Fall-Nr.i
Einkommenxi
1 3500 2 2400 3 5200 4 3200 5 2300 6 4500 7 12000 8 6500
11 2300 13 4600 14 1600 15 2900
Summe 51000 Arithmetisches Mittel = xi/n = 51000/12 = 4250
Arbeitstabelle für MW bei gruppierten Daten
xi fi fi xi
1 5 5
2 7 14
3 2 6
Summe 14 Summe = 25
MW=25/14
Arithmetisches Mittel klassifizierter Daten (1)
Einkommensklassevon ... bis unter ...
l
Klassen-mitte
xl
absolute und relative Häufigkeiten
kumulierte absolute und relative Häufigkeiten
fl pl cfl cpl
0 - 2000 1000 1 0,083 1 0,083
2000 - 4000 3000 6 0,500 7 0,583
4000 - 6000 5000 3 0,250 10 0,833
6000 - 8000 7000 1 0,083 11 0,916
8000 und mehr (9000) 1 0,083 12 0,999
12 0,999
Daten: Diekmann (1995).
Verwende Klassenmitten
Arithm.Mittel = (1 . 1000 + 6 . 3000 + 3 . 5000 + 1 . 7000 + 1 . 9000) / 12
= 50000 / 12
= 4166,67 DM= 0,083 . 1000 + 0,500 . 3000 + 0,250 . 5000 +
0,083 . 7000 + 0,083 . 9000
Arithmetisches Mittel klassifizierter Daten (2)
Spannweite
Die Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste).
Die Spannweite der Verteilung entspricht der Differenz zwischen dem
kleinsten und dem größten Merkmalswert. Dazu ist metrisches
Skalenniveau erforderlich (Intervallskala). Bei ordinalen Skalen begnügt
man sich mit der Angabe des kleinsten und größten Werts (min, max).
Bei klassifizierten Daten: Differenz zwischen der Klassenmitte der
obersten Klasse und der untersten Klasse.
Der Wert ist sensibel für Ausreißer (erfasst nur ! Ausreißer), daher besser
Quartilsabstand (umfasst die mittleren 50%).
Quartilsabstand (1)
Ähnlich wie der Median die unteren 50% der Merkmalswerte von den
oberen 50% trennt, lassen sich beliebige Perzentile einer Verteilung
berechnen. Am bekanntesten sind das 25%- und 75%-Perzentil, die das
untere und das obere Viertel der Verteilung abschneiden. Man bezeichnet
sie daher auch als untere und obere Quartile bzw. als erstes und drittes
Quartil (der Median ist quasi das zweite Quartil). Notation: QA.
Der Quartilsabstand entspricht der Differenz zwischen dem oberen
(dritten) und unteren (ersten) Quartil. Er misst, in welchem Bereich sich
die mittleren 50% der Merkmalswerte bewegen. Intervallskala erforderlich.
Gebräuchlich ist auch der Semiquartilsabstand (die Hälfte des
Quartilsabstands) aufgrund der Vergleichsmöglichkeiten mit der
Standardabweichung.
(Daten: Diekmann, 1995)
Quartilsabstand (2)
Für die Berechnung der Quartile gibt es unterschiedliche Formeln, und
die berechneten Werte hängen sehr stark von der verwendeten Formel ab.
Rang (i) Einkommen x(i) Quartile
1 1600 2 2300 3 2300 Q1 = 2350 4 2400 5 2900 6 3200 Q2 (Median) = 3350 7 3500 8 4500 9 4600 Q3 = 4900
10 5200 11 6500 12 12000
Spannweite = 12000 - 1600 = 10400 Quartilsabstand = Q3 - Q1 = 4900 - 2350 = 2550
Varianz
quadrierte aufsummierte Abweichungen vom Mittelwert, geteilt durch n bzw. n-1 (unquadrierte Abweichungen würden immer 0 ergeben).
Intervallskalenniveau erforderlich
Varianz und Standardabweichung (1)
Die Varianz basiert auf der Summe der quadrierten Abweichungen jedes
Merkmalswertes vom arithmetischen Mittel: SAQx. Ihre Berechnung hängt
davon ab, ob man Daten einer Totalerhebung oder einer Stichprobe
betrachtet:
• Stichprobe: Varianz = SAQx / (n-1)
• Totalerhebung: Varianz = SAQx / n
Dabei entspricht n der Anzahl der Untersuchungseinheiten der Stichprobe
bzw. der Totalerhebung.
Die Standardabweichung ergibt sich aus der Quadratwurzel der Varianz.
Vorteil: Die ursprüngliche Maßeinheit bleibt erhalten, z.B. das Alter weicht
durchschnittlich 7 Jahre vom Mittelwert ab.
Fall-Nr.i
Einkommenxi
Arithmetisches Mittel Abweichung Quadrat
1 3500 4250 -750 562500 2 2400 4250 -1850 3422500 3 5200 4250 950 902500 4 3200 4250 -1050 1102500 5 2300 4250 -1950 3802500 6 4500 4250 250 62500 7 12000 4250 7750 60062500 8 6500 4250 2250 5062500
11 2300 4250 -1950 3802500 13 4600 4250 350 122500 14 1600 4250 -2650 7022500 15 2900 4250 -1350 1822500
Summe 51000 51000 0 87750000
Varianz und Standardabweichung (2): Arbeitstabelle
Stichprobe (Divisor n-1=11)
Varianz = 87750000 / 11 = 7977272,73
Standardabweichung = Varianz = 7977272,73 = 2824,41
Variationskoeffizient = Standardabweichung / arithm. Mittel = 2824,41 / 4250 = 0,66
Wenn es sich bei der Befragung von Diekmann nicht um eine Stichprobe, sondern um eine Totalerhebung gehandelt hätte, hätte man wie folgt rechnen müssen.
Grundgesamtheit (Divisor n=12)
Varianz = 87750000 / 12 = 7312500,00
Standardabweichung = Varianz = 7312500,00 = 2589,04
Variationskoeffizient = Standardabweichung / arithm. Mittel = 2589,04 / 4250 = 0,61
Varianz und Standardabweichung (3)
Standardabweichung klassifizierter Daten (1)
Ein-kommens-
klassevon ... bis unter ...
Klassenmitte
Häufigkeit
Arithm. Mittel
Abweichung von Klassenmitte
quadrierte Abweichung
0-2000 1000 1 4166,67 -3166,67 10027798,89
2000-4000 3000 6 4166,67 -1166,67 1361118,89
4000-6000 5000 3 4166,67 833,33 694438,89
6000-8000 7000 1 4166,67 2833,33 8027758,89
8000 und mehr
9000 1 4166,67 4833,33 23361078,89
Daten: Diekmann (1995).
Verwende gewichtete Summe der Abweichungsquadrate
GSAQx = 1 . 10027798,89 + 6 . 1361118,89 + 3 . 694438,89 + 1 .
8027758,89 + 1 . 23361078,89 = 43472194,45
Varianz = GSAQx/(n-1) = 43472194,45 / (12-1) = 3952017,68
Standardabweichung = Varianz = 3952017,68 = 1987,97
Standardabweichung klassifizierter Daten (2)
Zusammenfassung der Ergebnisse: Einkommen der Befragten
Es wurden 60 männliche Bedienstete der Verwaltung einer
westdeutschen Großstadt befragt. Insgesamt 58 Personen machten
Angaben über ihr monatliches Nettoeinkommen. Die Einkommen der
befragten Personen bewegen sich im Bereich von 1300 DM bis 4300
DM. Sieht man einmal von den extrem niedrigen und den extrem hohen
Einkommen ab, dann liegen die mittleren 50% der Einkommen zwischen
1700 DM und 2500 DM. Die Hälfte der befragten Personen verdient
weniger als 1950 DM. Im Durchschnitt verdienen die befragten Personen
2118,79 DM (Standardabweichung 619,60).
Mittelwerte und Streuungsmaße nach Messniveau (1)
Zentrale Tendenz (Mittelwerte)
Nominal Ordinal Intervall Verhältnis
Modus ja ja ja ja
Median nein Ja ja ja
Arithm. Mittel nein nein ja ja
Geom. Mittel nein nein nein ja
Mittelwerte und Streuungsmaße nach Messniveau (2)
Streuung (Streuungsmaße)
Nominal Ordinal Intervall Verhältnis
Spannweite nein (ja) ja ja
Quartilsabstand nein (ja) ja ja
Mittl. absolute Abweichung
nein nein ja ja
VarianzStandardabweichung
nein nein ja ja
Variationskoeffizient nein nein nein ja
Typische Verteilungsformen (1)
e) schmalgipflig f) breitgipflig
g) u-förmig h) -förmig
Typische Verteilungsformen (2)
a) unimodal c) bimodal
c) rechtssteil/linksschief d) linkssteil/rechtsschief
Weitere univariate Statistiken
• Schiefe: Maß für die Asymmetrie
• Exzess: Maß für die Steilheit
symmetrisch
linkssteil
x~x
h
x~xh
x~x h
rechtssteil
Die Lage der Mittelwerte in verschiedenen Verteilungen
Vergleich einer Verteilung mit der Standardnormalverteilung
• Wenn die relative Stellung einer Person bezogen auf eine Stichprobe in Einheiten der Standardabweichung ermittelt werden soll
• oder wenn die Werte zweier Tests einer Person, die mit verschiedenen Maßeinheiten gemessen wurden, verglichen werden sollen, werden die Werte z-transformiert:
• zi=xi-xquer / s• symmetrische Verteilungen (Normalverteilungen)
werden so in eine Standardnormalverteilung überführt, man kann aus Tabellen ablesen, wie viele Werte unter einem bestimmten Wert liegen.