tutorat deskriptive statistik und wahrscheinlichkeitstheorie 1 kai vogt [email protected] termin3
TRANSCRIPT
![Page 2: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/2.jpg)
WICHTIGES AUS TERMIN 2
Kategorien Regeln zur Kategoriebildung Scheinbare- vs. Wahre Kategoriegrenzen Offene Kategoriegrenzen
Häufigkeiten Relative Häufigkeit, absolute Häufigkeit und
kumulierte Häufigkeit Maße der zentralen Tendenz
Modalwert, Median und arithmetisches Mittel berechnen.
Voraussetzungen, Vorteile und Nachteile der Kennwerte kennen. 2
![Page 3: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/3.jpg)
VERTEILUNGSKURVEN
3X-Achse: Variablenwerte ( )
Y-Achse: Personenzahl (Häufigkeit)
ix
N steht für die Gesamtstichprobe
n steht für eine definierte Teilstichprobe (Gruppe)
![Page 4: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/4.jpg)
MODUS, MEDIAN, MITTELWERT UND VERTEILUNGSFORM
4
= Linksschiefe Verteilung = Rechtsschiefe Verteilung
Mo > AM Rechtssteile Verteilung
Mo < AM Linkssteile Verteilung
Mo = AM Symmetrische Verteilung
![Page 5: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/5.jpg)
Verteilungsform I: Schiefe
Linkssteile VerteilungRechtssteile Verteilung
31
3
3
)(
x
N
i i
sN
xxa
Berechnung der Schiefe (a3):
a3<0 rechtssteile Verteilung
a3=0 symmetrische Verteilung
a3>0 linkssteile Verteilung
a3<0 a3>0
5
![Page 6: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/6.jpg)
Verteilungsform II: Exzess (Kurtosis)
41
4
4
)(
x
N
i i
sN
xxa
Berechnung der Kurtosis (a4):
a4<3 breitgipflige Verteilung (platykurtisch)
a4=3 normale Verteilung
a4>3 schmalgipflige Verteilung (leptokurtisch)
a4<3 a4>3Breitgipflige Verteilung Schmalgipflige Verteilung
6
![Page 7: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/7.jpg)
MAßE DER DISPERSION
Range Interquartilabstand AD-Streuung Varianz Standardabweichung Variationskoeffizient
7
![Page 8: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/8.jpg)
RANGE
• Den Range bezeichnet man auch als Spannweite oder Variatonsbreite.
Für kontinuierliche Variablen:Range = maximaler Wert – minimaler Wert.
Für diskrete Variablen:Range = maximaler Wert – minimaler Wert + 1(bei nominalskalierten Variablen =
Kategorienanzahl)
• Voraussetzung: Nominalskalenniveau.
• Nachteile: Anfällig für Ausreißerwerte. Nur 2 Rohwerte fließen in Kennwert ein.
8
![Page 9: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/9.jpg)
Range
Minimum Maximum
Geschlecht 1 2
Wohnort 1 5
Optimismus 1 5
Alter 19 45
Neugierde 20 100
Größe 1.55 1.96
Wie groß ist der Range?
9
![Page 10: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/10.jpg)
BEISPIEL: RANGEBerechnet für diesen Datensatz den Range.
10
rat
4 11,8 11,8 11,8
7 20,6 20,6 32,4
2 5,9 5,9 38,2
8 23,5 23,5 61,8
1 2,9 2,9 64,7
9 26,5 26,5 91,2
3 8,8 8,8 100,0
34 100,0 100,0
1,0
2,0
2,5
3,0
3,5
4,0
5,0
Gesamt
GültigHäufigkeit Prozent
GültigeProzente
KumulierteProzente
Diskrete Variable: Range = max. Wert – min. Wert + 1→ Range 5 – 1 + 1 = 5
![Page 11: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/11.jpg)
QUARTILE & INTERQUARTILABSTAND
• Quartile sind die Punkte einer Verteilung bezeichnet, welche die geordnete Liste von Werten in vier Bereiche mit jeweils 25% der Stichprobe einteilen.
Es gibt also 3 Quartile.
• Wegen dessen Ausreißeranfälligkeit wird statt des Range oft der Abstand zwischen dem 1. und dem 3. Quartil - der Interquartilabstand (IQA)–verwendet.
• Im Interquartilbereich als Maß für den „Kernbereich“ einer Verteilung liegen 50% der Stichprobe.
11
![Page 12: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/12.jpg)
BESTIMMUNG DER QUARTILE
1. Es wird der Median bestimmt (Q2).
2. Der Median ist Ausgangspunkt („Nullpunkt“) für die Bestimmung von Q1 (25%) und Q2 (75%).
3. Vom Md ausgehend, berechnet ihr für die untere bzw. obere Teilhälfte noch zweimal einen Median. Dies sind Q1 bzw. Q3.
• Wichtig für gerade Stichprobengrößen: Der Median wird selbst als „virtueller“ Messwert berücksichtigt.
• Anders ausgedrückt: Habe ich eine gerade Stichprobe, verwende ich zur Bestimmung von Q1 und Q3 dann die Formel für ungerade Stichproben.
12
![Page 13: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/13.jpg)
INTERQUARTILABSTAND
o Berechnung des Interquartilabstands
Kontinuierliche Variablen: IQA = Q3 – Q1
Diskrete Variablen: IQA = Q3 – Q1 (+1)
o Vorraussetzung: Ordinalskalenniveau.
• Vorteil: nicht so stark anfällig gegen Extremwerte
• Nachteil: Nur 50% des Gesamtbereichs der Rohwerte gehen in den Kennwert ein. 13
![Page 14: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/14.jpg)
BEISPIEL:Geordnete Reihe der Messwerte:
1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2.5, 2.5, 3, 3, 3, 3, 3, 3, 3, 3, 3.5, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5 (N = 34)
1. Median berechnen: Md = Q2 = (3 + 3)/2 = 3
2. Quartile Q1 und Q3 berechnen: Q1 = 2 und Q3 = 4
3. IQA berechnen: IQA = Q3 – Q 1= 4 – 2 = 2
14
Virtueller Ausgangspunkt zur Bestimmung von Q1 und Q3.
2
122
NN xx
Md2
1 NxMd
![Page 15: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/15.jpg)
AD-Streuung
N
xxAD
N
i i
1||
Formel der AD-Streuung:
Voraussetzung: Intervallskalenniveau.
15
Vorteil: Alle Rohwerte fließen in den Kennwert mit ein.
Nachteil: Viele kleine Abweichungen haben denselben Einfluss wie ein großer abweichender Wert. Um Unterschiede besser darzustellen: Varianz bzw. Standardabweichung
![Page 16: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/16.jpg)
VarianzDie Varianz als wichtigstes Dispersionsmaß beschreibt die mittlere quadrierte Abweichung vom Gesamtmittelwert.
Vorteile: Die Berechnung berücksichtigt jeden Einzelwert; es gibt keinen Informationsverlust.
Größere Abweichungen sind von höherer Relevanz.
Nachteil: Die Varianz ist durch die Bildung der Quadrate schwer zu interpretieren; sie ist ein unstandardisiertes Maß Daher wird oft die Standardabweichung verwendet
N
xN
i ix
1
22
)(
σ² : Varianz in der Population μ: Mittelwert in der Population
Formel der Varianz:
Voraussetzung: Intervallskalenniveau.
16
![Page 17: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/17.jpg)
StandardabweichungDie SD berechnet man schlicht durch Ziehen der Quadratwurzel aus der Varianz.
Vorraussetzungen und Vorteile sind dieselben wie bei der Varianz.
N
xN
i i
xx
1
2
2)(
1
)(1
2
2
N
xxN
i i
xx Schätzung aus den Daten einer Stichprobe:
Berechnung aus den Daten der kompletten Population:
17
![Page 18: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/18.jpg)
Variationskoeffizient
18
100x
stkoeffizienVariations x
Gibt den Prozentsatz der Standardabweichung im Bezug auf den Mittelwert wieder.
Gut zum Vergleichen von mehreren Variabilitäten.
![Page 19: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/19.jpg)
LATEINISCHE VS. GRIECHISCHE BUCHSTABEN: POPULATION ODER STICHPROBE
• Lateinische Buchstaben Stichprobe
• Griechische Buchstaben Population
• Dabei ist der wahre Wert in der Population in der Praxis nicht bekannt – hierzu müsste nämlich die gesamte Population erhoben werden.
• In der empirisch-sozialwissenschaftlichen Praxis erheben wir immer Stichproben.
• Somit schätzen wir aus Stichprobendaten auf Populationsdaten. Dies machen wir durch die Verwendung eines Dachs (=„Schätzer“) über den griechischen Buchstaben deutlich.
19
![Page 20: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/20.jpg)
DREI NOTATIONEN AUF EINEN BLICK
20
x̂
xxs Lateinischer
Buchstabe: Beschreibt die Stichprobe
Griechischer Buchstabe: Beschreibt die Population
Griechischer Buchstabe mit Dach: Schätzt aus Stichprobendaten den Populationswert (konservatives Vorgehen mit Freiheitsgrad: N- 1)
![Page 21: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/21.jpg)
POPULATION ODER STICHPROBE?
1. Mich interessiert der Mittelwert der mathematischen Kenntnisse in diesem Tutorat. Ich erhebe mit einer 20-stufigen Skala die Daten jedes Teilnehmers.
Population
2. Forschungsfrage analog zu 1. Diesmal erhebe ich allerdings nur die Daten der Hälfte der Teilnehmer.
Stichprobe
3. Ich erhebe die mathematischen Kenntnisse aller Studenten eures Semesters. Mich interessiert nun der Mittelwert der deutschen Psychologiestudierenden in eurem Jahrgang.
Stichprobe 21
![Page 22: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/22.jpg)
VARIANZ IN DER POPULATION
• Die Stichprobenvarianz ist kein erwartungstreuer Schätzer (im Gegensatz zum Mittelwert); sie unterschätzt die Populationsvarianz. Diese Abweichung ist umso stärker, je kleiner die Stichprobe ist.
• Die Formel für die Stichprobenvarianz korrigiert diese Unterschätzung.
• Freiheitsgrade: Beim Term im Nenner des Bruchs (N-1) spricht man von Freiheitsgraden.
22
Populationsvarianz, die aus einer Stichprobe geschätzt wurde.1
)(ˆ 1
2
2
N
xxN
i i
x
![Page 23: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/23.jpg)
23
RECHENBEISPIELBerechnet für diesen Datensatz Varianz und Standardabweichung.
Anmerkung: Wir wollen eine Schlussfolgerung für euren gesamten Jahrgang ableiten.
rat
4 11,8
7 20,6
2 5,9
8 23,5
1 2,9
9 26,5
3 8,8
34 100,0
1,0
2,0
2,5
3,0
3,5
4,0
5,0
Gesamt
GültigHäufigkeit Prozent
2,99 x
36,1134
74,44ˆ 2
x
17,136,1ˆ x
1
)(ˆ 1
2
2
N
xxN
i i
x
![Page 24: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/24.jpg)
Kennwerte und Skalenniveaus
Maß Vorraussetzung
Häufigkeit / Prozente Nominal
Modalwert Nominal
Median Ordinal
Quartile Ordinal
arithmetisches Mittel Intervall
Varianz Intervall
Standardabweichung Intervall
Schiefe Intervall
Exzess Intervall
Bei einem jeweils höherem Skalenniveau darf ein Maß selbstverständlich auch eingesetzt werden!
24
![Page 25: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/25.jpg)
WICHTIGES AUS TERMIN 3
Verteilungsformen Schiefe & Exzess
Maße der Dispersion Welche Kennwerte gibt es… (Range, IQA,
Varianz, Standardabweichung usw.) Einfache Berechnungen Voraussetzungen, Vor und Nachteile
Stichprobe und Population Notationsunterschiede (Stichprobe Lateinische
Buchstaben, Population Griechische Buchstaben)
Freiheitsgrade (Warum?) 25
![Page 26: Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt vogtkai@gmx.net Termin3](https://reader035.vdocuments.pub/reader035/viewer/2022062223/55204d6749795902118bcb9d/html5/thumbnails/26.jpg)
VIELEN DANK FÜR EURE AUFMERKSAMKEIT!
Bis nächste Woche… Schreibt euch Fragen auf wenn ihr welche
habt… Fragen an [email protected]
26