Download - Statistische Tests
Seminararbeit
zum Thema
Statistische Tests
Verfasst von:
Matthias BOCK, 01226255
Martina RIEBENBAUER, 01302468
David RUHRINGER, 00828405
Kevin SPIES, 01446708
Lehrveranstaltung: 250119 KO Mathematik macht Freu(n)de
Vorgelegt bei:
Univ.-Prof. Dr. Michael EICHMAIR
11. Marz 2018
Inhaltsverzeichnis
1 Einleitung 1
2 Tests 2
2.1 Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.1 (Abhangige) Variablen . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.2 Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.3 Verteilungsfreie Tests . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.4 Normalverteilte Tests . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Testqualitat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.1 Testkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.2 Teststarke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Der Hypothesentest 6
3.1 Die statistische Hypothese . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1.1 Nullhypothese und Alternativhypothese . . . . . . . . . . . . . . 6
3.2 Der p-Wert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2.1 Berechnung des p-Werts . . . . . . . . . . . . . . . . . . . . . . 8
3.3 Das Signifikanzniveau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.4 Fehler erster und zweiter Art . . . . . . . . . . . . . . . . . . . . . . . . 10
3.5 Einseitiger und zweiseitiger Hypothesentest . . . . . . . . . . . . . . . . 11
4 Konfidenzintervalle 12
4.1 Fehlergrenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2 Konfidenzniveau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3 Konfidenzintervall berechnen . . . . . . . . . . . . . . . . . . . . . . . . 13
5 Haufige Fehler 14
5.1 Keine Fehlergrenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.2 Zufallsstichprobe? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.4 Pravalenzfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
6 Umsetzung in die Praxis 16
6.1 Einstieg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6.2 Theorieinput . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.3 Arbeitsblatt zum Video . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.4 Losungen zum Arbeitsblatt . . . . . . . . . . . . . . . . . . . . . . . . 19
6.5 Aufgabenstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6.5.1 Losung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.6 Wiederholung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I
Abbildungsverzeichnis
1 Entscheidbaum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Fehler erster und zweiter Art . . . . . . . . . . . . . . . . . . . . . . . . 10
3 Zweiseitiger Hypothesentest . . . . . . . . . . . . . . . . . . . . . . . . 11
4 Z-Werte der Konfidenzniveaus . . . . . . . . . . . . . . . . . . . . . . . 13
II
1 Einleitung
Unbewusst setzen wir uns auf Schritt und Tritt mit ihnen auseinander, was nicht ver-
wunderlich ist, haben sie in unsere Alltagwelt doch Einzug gehalten. Die Rede ist von
Behauptungen, die es zu untermauern gilt; Behauptungen, die auf Statistiken beruhen.
Kurzum geht es um die taglichen Meldungen und Informationen, in denen von”signifi-
kanten Ergebnissen in reprasentativen Studien“ gesprochen wird. Sogleich sind wir alle
dazu geneigt, dem Gesagten Glauben zu schenken, scheint es doch statistisch bewiesen!
Oder? Mit statistischen Schlussen verhalt es sich leider nicht so einfach, wie wir dies
im Alltag bei der Lekture solcher Forschungsergebnisse gerne glauben mochten.1
Forschung, die sich mit Behauptungen, also mit formalisierten Aussagen und dessen
systematischer Uberprufung befasst, muss einwandfrei sein, da auf ihrer Basis wichti-
ge Entscheidungen getroffen werden, welche erhebliche Auswirkungen im wahren Le-
ben haben konnen. So beeinflussen zum Beispiel klinische, medizinische Studien unser
Gesundheitswesen und definieren, wie sicher wirksame verschreibungspflichte Medika-
mente sind, Kriminologen werten auf der Grundlage statistischer Werte verschiedene
Strategien zur Eindammung von Verbrechen aus und Vermarkter sowie Geschaftsleute
suchen nach den geeignetsten Moglichkeiten, um ihre Produkte zu verkaufen.2
Aus diesem Grund widmet sich diese Arbeit den statistischen Tests. Die Arbeit gliedert
sich in einen theoretischen und einen praktischen Teil.
Im ersten Kapitel des theoretischen Teils wird der Begriff”Test“ eingefuhrt, mogliche
Testverfahren geschildert und auf Aspekte, die die Testqualitat beeinflussen, einge-
gangen. Im zweiten Kapitel wird der Fokus auf Hypothesentests gelegt woraufhin ein
Kapitel uber Konfidenzintervalle folgt. Das letzte Kapitel beschaftigt sich mit Fehlern,
die haufig im Zuge der Durchfuhrung statistischer Tests auftreten und die es zu ver-
meiden gilt.
Der praktische Teil beschreibt eine mogliche Umsetzung des Theams”Hypothesentest“
im Rahmen des Unterrichts.
1Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-lage, Wiesbaden, 2010/2013), 137.
2Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage,mitp Verlag, 2016), 19.
1
2 Tests
Nach Moosbrugger/Kelava ist ein Test
”ein wissenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch
abgrenzbarer [...] Merkmale mit dem Ziel einer moglichst genauen quantitativen Aus-
sage uber den Grad der [...] Merkmalsauspragung.“ 3
Es handelt sich somit um ein Verfahren, mit dem auf Basis von Beobachtungen (z.B.:
Messungen) herausgefunden wird, ob bestimmte Aussagen richtig oder falsch sind. Die-
se Aussagen sind Vermutungen und werden Hypothesen genannt. Zum Widerlegen oder
Belegen dieser Aussagen werden Experimente (Erhebung von Daten) durchgefuhrt. Da
zumeist nicht die gesamte Menge von Daten erfasst werden kann, werden Daten einer
Teilmenge (Stichprobe) erhoben. Die Interpretation dieser Daten fuhrt zu einer Aus-
sage uber die Wahrheit der Hypothese, die aber nie zu 100% richtig oder falsch sein
kann, weil nur eine Teilmenge der Daten ermittelt wurde. Es kann jedoch auch sein,
dass aufgrund der vorliegenden Daten keine Aussage uber die Hypothesen getroffen
werden kann. 4
2.1 Testverfahren
Es gibt eine Vielzahl an Testmethoden, die je nach untersuchender Fragestellung und
vorhandenen Daten unterschiedlich gewahlt werden und dementsprechend verschiede-
ne Aussagen ermoglichen. 5 Die folgende Grafik (Abbildung 1) gibt einen Uberblick
uber die moglichen Testverfahren, wobei die Klassifizierungen davon in den folgenden
Unterkapiteln kurz erlautert werden.
2.1.1 (Abhangige) Variablen
Von unabhangigen Variablen ist die Rede, wenn der Wert willkurlich gewahlt wurde,
weil er unabhangig vom Untersuchungsgegenstand ist. Es wird untersucht, ob bzw.
inwieweit die abhangige Variable sich durch variieren der Werte der unabhangigen
Variable verandert. Beispielsweise sind bei der Fragestellung”Wie wirken sich Alter
und Augenfarbe auf die Schuhgroße aus?“”Alter“ und
”Augenfarbe“ sind die un-
abhangigen Variablen. Ein und das selbe Merkmal kann aber je nach Fragestellung
einmal unabhangig und einmal abhangig sein.
32008 S.84Vgl. https://lehrerfortbildung-bw.de/u_matnatech/mathematik/gym/bp2004/fb2/modul4/2_higru/2_hypo/01_
was_ist_ein_test/ 27.05.20175http://statistik-dresden.de/archives/6026 27.05.2017
2
Abbildung 1: Entscheidbaum 6
2.1.2 Skalenniveaus
Fur die Wahl des geeigneten Testverfahrens ist es wichtig zu wissen, wie die Merk-
malauspragungen auftreten bzw. gemessen werden. Wenn die Daten nominalskaliert
sind, dann entspricht das der”untersten Stufe“, weil die ermittelten Eigenschaften nur
auf auftretende Haufigkeit untersucht werden konnen (z.B: Haarfarbe, Postleitzahl.)
Wenn sie zusatzlich noch zueinander gereiht werden konnen (Schulnoten), dann ist
das eine Ordinalskala. Bei Intervallskalen sind neben Haufigkeit und Reihenfolge auch
Aussagen uber den Abstand von zwei Daten (Uhrzeit) moglich. Sofern ein naturlicher
Nullpunkt vorhanden ist (Alter), sind die Daten verhaltnisskaliert.
6http://www.methodenberatung.uzh.ch/static/entscheidbaum/entscheidbaum.jpg 27.05.2017
3
2.1.3 Verteilungsfreie Tests
Diese Tests werden auch nichtparametrische Tests genannt, weil keine spezielle Vertei-
lung der Daten vorausgesetzt wird (Skalenniveau: Nominalskala oder Ordinalskala). Sie
haben den Vorteil, dass sie bei kleinen Stichproben geeignet sind und relativ einfache
Formeln verwendet werden. Außerdem sind sie bei Unklarheit uber die Skalenniveaus
anwendbar, weil es kaum Voraussetzungen gibt.
Dem gegenuber steht, dass die Teststarke (siehe Kapitel 2.2.2), bei gleichen Voraus-
setzungen, immer geringer ist als bei vergleichbaren parametrischen Tests, es kaum
Verfahren gibt mit denen mehr als eine Variable auf einmal berechnet werden kann
und, dass bei großen Stichproben der Aufwand zur Berechnung exakter Wahrschein-
lichkeiten groß ist.7
2.1.4 Normalverteilte Tests
Bei normalverteilten (=parametrischen) Tests wird in Bezug auf die Populationsvertei-
lung angenommen, dass diese einer Verteilung (in der Regel: Normalverteilung) unter-
liegt. Zum Anwenden dieser Tests sind Daten vom Skalenniveau von mindestens einer
Intervallskala notwendig. 8
2.2 Testqualitat
Um Aussagen uber die Qualitat von Tests machen zu konnen gibt es verschiedene
Moglichkeiten. Einige davon werden in den nachfolgenden Kapiteln erlautert.
2.2.1 Testkriterien
Grundsatzlich sollte ein Test gewisse Anforderungen (sogenannte Testgutekriterien)
erfullen, wobei die ersten drei von großerer Bedeutung sind. Die zehn Kriterien lauten:
1. Objektivitat: Das Merkmal wird unabhangig vom Testleiter bzw. von der Test-
leiterin und der Ergebnisinterpretation gemessen.
2. Reliabilitat: Ein Merkmal wird zuverlassig, d.h. ohne Messfehler gemessen.
3. Validitat: Das zu messen angegebene Merkmal wird wirklich gemessen und nicht
ein anderes.
4. Skalierung: Die Testwerte bilden die Merkmalsrelationen adaquat ab.
5. Normierung(Eichung): Es existiert ein Bezugssystem, mit dem die Ergebnis-
se von zwei Testpersonen miteinander verglichen und eindeutig eingeordnet und
interpretiert werden konnen.
7Vgl. Schafer, Thomas (2009): Methodenlehre II - Verfahren fur nominalskalierte Daten. Chemnitz, S. 1 f.8Vgl. Schafer, Thomas (2009): Methodenlehre II - Verfahren fur nominalskalierte Daten. Chemnitz, S. 1
4
6. Testokonomie: Im Vergleich zu dem Erkenntnisgewinn werden relativ wenig Res-
sourcen (z.B.: Zeit, Geld) beansprucht.
7. Nutzlichkeit: Das gemessene Merkmal besitzt praktische Relevanz und bei Ent-
scheidungen auf Basis dieses Wissens ist zu erwarten, dass mehr Nutzen als Scha-
den geschieht.
8. Zumutbarkeit: Der Nutzen des Tests ist (in Relation gesehen) hoher, als die
zeitliche, psychische und korperliche Beanspruchung von Testpersonen.
9. Unverfalschbarkeit: Testpersonen konnen die Ergebnisse nicht (un)bewusst verfalschen.
10. Fairness: Die Testwerte fuhren zu keiner systematischen Benachteiligung von
Personen(gruppen) mit bestimmten ethnischen, soziokulturellen oder geschlechts-
spezifischen Auspragungen.9
2.2.2 Teststarke
Die Teststarke (oder”Power“) gibt die Wahrscheinlichkeit an, dass ein statistischer
Test einen Effekt bestimmter Große von reinem Zufall unterscheiden kann. Wenn also
die Resultate eines Tests bekannt sind, ist sie ein Maß dafur wie aussagekraftig ein Test
ist. Die Teststarke hangt von drei Faktoren ab:
1. Die Große der gesuchten Abweichung: je starker die Manipulation ist, umso
leichter ist sie zu entdecken.
2. Die Große der Stichprobe: wenn mehr Daten vorhanden sind, sind geringere
Manipulationen leichter zu erkennen.
3. Messfehler: Manche Merkmale sind schwieriger zu erfassen (z.B. Erschopfung)
als andere (z.B. Munzwurfe) - dementsprechend kann es zu großeren Abweichungen
kommen.
Von unzureichender Teststarke ist die Rede, wenn eine Studie zu klein ist, um den
gesuchten Effekt zu entdecken. 10
9vgl. Moosbrugger, Helfried/Kelava, Augustin (Hrsg, 2008): Testtheorie und Fragebogenkonstruktion. Heidelberg,S.7-24
10vgl. Reinhart Alex (2016): Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden. Rhein-breitbach S. 35-43
5
3 Der Hypothesentest
Ein wesentlicher Bestandteil von Forschungsstudien sind Hypothesentests. Ein Hypo-
thesentest ist eine statistische Vorgehensweise, in der man Daten verwendet, um eine
Behauptung uber eine Grundgesamtheit zu bestatigen oder zu widerlegen. Hierbei ist
vor allem wichtig, dass sich die Hypothesen nicht auf die Stichproben beschranken, son-
dern sich auf die Grundgesamtheit beziehen, deren Parameter meist unbekannt sind.
Hypothesentests werden in allen moglichen Bereichen eingesetzt, die sich auf das Leben
auswirken: medizinische Studien, Werbung, Wahlerbefragungen und praktisch uberall,
wo Vergleiche anhand von Mittelwerten oder Anteilen gezogen werden. 11
3.1 Die statistische Hypothese
Bei statistischen Hypothesen handelt es sich um Behauptungen, formalisierte Aussagen
und moglichst prazise Annahme, die wir mit statistischen Mitteln – und zwar einem
Kalkul auf der Basis von Verteilungsannahmen – systematisch uberprufen.
”Die Grundeinheit einer statistischen Hypothese ist die Variable. Eine mit den Mitteln
der Statistik zu prufende Hypothese ist immer als eine prazise Aussage zu formulieren,
in der ein Zusammenhang zwischen mindestens zwei Variablen behauptet wird. Da-
bei besitzt eine Variable immer mindestens zwei Auspragungen. Jede Hypothese muss
so formuliert sein, dass sie auch scheitern kann, d.h. sich empirisch im Rahmen der
durchgefuhrten Studie und auf der Basis der dafur erhobenen Daten als falsch erweisen
kann.“ 12 So konnte eine einfach Hypothese etwa lauten:”Frauen sind klimabewusster
als Manner.“ 13 Die Variablen waren hier zum einen Frau/Mann und zum anderen
klimabewusst/nicht klimabewusst.
3.1.1 Nullhypothese und Alternativhypothese
Der statistische Hypothesentest ist immer eine Entscheidung zwischen zwei Moglichkeiten
(Hypothesen), die einander gegenuber gestellt werden: die Nullhypothese und die Al-
ternativhypothese.14
Bevor auf die Begriffe Nullhypothese und Alternativhypothese naher eingegangen wird,
muss darauf hingewiesen werden, dass es sich beim Hypothesentest um kein mathema-
tisches Instrument handelt, mit dem man feststellen kann, ob die eine Hypothese richtig
oder falsch ist, denn so ein Instrument existiert nicht. Man kann lediglich uberprufen,
11Vgl. Deborah Rumsey, Statistik fur Dummies (3. Auflage, WILEY-VCH Verlag, Weinheim, 2015), 37f.12Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auflage,
Wiesbaden, 2010/2013), 144.13Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-
lage, Wiesbaden, 2010/2013), 144.14Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-
lage, Wiesbaden, 2010/2013), 145.
6
ob die Hypothese mit den Daten konsistent ist.15
Die als Alternativhypothese (H1) formulierte Aussage ist jene Hypothese, die im Mittel-
punkt des Interesses der Forschenden steht. Hiermit mochte man bestimmte Phanomene
erklaren und Zusammenhange offen legen. Da man dies nur im Falle eines bisher nicht
oder nur unzureichend erklarten Sachverhalts macht, ist der Begriff”alternativ“ tref-
fend; immerhin handelt es sich um eine neue Erklarung, alternativ und/oder erganzend
zum bisherigen Forschungsstand.
Die Nullhypothese (H0) ist nun eine formale Gegenhypothese zur formulierten Alterna-
tivhypothese. Sie ist eine Negativhypothese, mit der behauptet wird, dass die zur Al-
ternativhypothese komplementare Aussage richtig ist. Die Nullhypothese besagt, dass
der postulierte Zusammenhang null und nichtig ist16, dass nichts Neues geschehen wird
oder dass eine Gruppe einen bestimmten Durchschnittswert hat und ausschließlich der
Zufall am Werk ist.
Eine anschauliche Erklarung uber den intuitiven Ablauf des Hypothesentests liefert De-
borah Rumsey:”Hypothesentests entsprechen in gewisser Weise Anklagen vor Gericht.
In einer Anklage entspricht die Nullhypothese H0 dem Urteil”nicht schuldig“, und die
Alternativhypothese H1 dem Urteil”schuldig“. In einer Gerichtsverhandlung wird so
lange von der Unschuldsvermutung ausgegangen, bis die Schuld zweifelsfrei bewiesen
werden konnte. Nur wenn der Beweis uber alle Zweifel erhaben ist, wird H0 zugunsten
von H1 abgelehnt.“17
Wird nun in der Forschung H0 zugunsten von H1 abgelehnt, so kann der Wissenschaft-
ler behaupten, ein statistisch signifikantes Ergebnis gefunden zu haben. 18 Eigentlich
hat die Nullhypothese die besseren Chancen, dass die Entscheidung fur sie ausfallt,
denn solange man die empirischen Gegebenheiten mit hinreichender Wahrscheinlich-
keit aus dem Zufall erklaren kann, solange behalt man auch die H0 bei. 19
Was bedeutet nun”mit hinreichender Wahrscheinlichkeit aus dem Zufall erklaren kann“?
3.2 Der p-Wert
Wenn man ein Experiment durchfuhrt, die notigen Daten erhebt und zu einem Ergebnis
kommt, dann muss man sich eine kritische Frage stellen. Und zwar: Konnte es sein, dass
das Ergebnis einfach nur durch zufalliges Gluck oder unbedeutenden Schwankungen zu-
stande gekommen ist oder handelt es sich tatsachlich um ein statistisch signifikantes
Ergebnis, wo die Abweichungen großer sind als durch rein zufallige Fluktuationen zu15Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage,
mitp Verlag, 2016), 26.16Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-
lage, Wiesbaden, 2010/2013), 145.17Deborah Rumsey, Statistik fur Dummies (3. Auflage, WILEY-VCH Verlag, Weinheim, 2015), 236.18Ebda, 237.19Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-
lage, Wiesbaden, 2010/2013), 145.
7
erwarten waren? Um diese Frage zu beantworten, hilft der p-Wert. Denn der sagt:
”Wenn wirklich nur der Zufall am Werk ware, wie wahrscheinlich ware dann noch
das Ergebnis von unserem Experiment?“ Der p-Wert misst also, wie wahrscheinlich
es ist, die Stichprobenergebnisse zu erhalten, wenn die Nullhypothese zutrifft. Anders
formuliert: Ausgehend von der Annahme, dass ein echter Effekt oder ein wirklicher Un-
terschied nicht vorhanden ist – also H0 zutrifft -, gibt der p-Wert die Wahrscheinlichkeit
dafur an, dass die gesammelten Daten mindestens dem tatsachlich beobachteten Wert
entsprechen oder einen extremeren Wert annehmen.20
3.2.1 Berechnung des p-Werts
Wie berechnet man nun diesen p-Wert?
Angenommen man nimmt acht Glaser eines Energydrinks, wobei in vier Glasern der
acht Glaser die normale Variante des Energydrinks ist und in den anderen vier die
ungezuckerte Variante. Es gilt nun nur durch reines Kosten jene Energydrinks heraus-
zufinden, die ungezuckert sind. Angenommen, der Versuchskandidat bzw. die Versuchs-
kandidatin erkennt drei von vier richtig. So muss im nachsten Schritt herausgefunden
werden, ob dieses Ergebnis reines Gluck war, oder, ob er oder sie sehrwohl einen Un-
terschied schmecken kann.
Dazu stellen wir die Nullhypothese”Es war reiner Zufall, dass drei von vier ungezu-
ckerte Energydrinks richtig erkannt wurden“ auf.
Als erstes berechnen wir die Wahrscheinlichkeiten fur alle moglichen Ausgange dieses
Experiments. Also wie wahrscheinlich es ist keinen, einen, zwei, drei oder sogar alle
vier richtig zu erkennen. Da dies einem Ziehen ohne Zurucklegen, also einer hypergeo-
metrischen Verteilung, entspricht, berechnen wir dies mit der Formel:
P =
(M
k
)·
(N −Mn− k
)(N
n
) (1)
21
Dabei ist N die Anzahl der Grundgesamtheit, M die Anzahl, der fur uns gunstigen
Elemente, n die Anzahl die wir”entnehmen“ und k die Elemente aus M, die in n
enthalten sind.
Nach Berechnung mit dieser Formel erhalten wir, dass die Wahrscheinlichkeit, null
Richtige zu erwischen bei 1,4% liegt, jene fur ein richtiges Glas bei 22,9%, fur zwei bei
20Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage,mitp Verlag, 2016), 23-26.
21Vgl. http://www.math.uni-heidelberg.de/studinfo/oelschlaeger/Einf_WTheorie_Statistik_SS_09/Einf.
WTheorie.Statistik.1.pdf, 86 -88. (03.10.2017)
8
51,4%, die fur drei richtige bei 22,9% und die Wahrscheinlichkeit alle vier richtig zu
erraten liegt bei 1,4%.
Nun ist der p-Wert aber nicht jener Wert, der in unserem Beispiel bei drei Richtigen
herauskommt! Denn der p-Wert gibt an, wie wahrscheinlich es ist, ein Ergebnis zu
erzielen, welches mindestens so gut ist, wie unser Ausgangsergebnis. Mindestens so
gut wie drei Richtige sind also drei Richtige und mehr. Daraus folgt, dass wir die
Wahrscheinlichkeiten fur drei und fur vier Richtige addieren mussen und erhalten einen
p-Wert von 24,3%.
Wie kann man nun anhand des p-Wertes beurteilen, ob ein Unterschied tatsachlich
signifikant ist und welche Hypothese nun verworfen wird?
3.3 Das Signifikanzniveau
Dafur legt man das sogenannte Signifikanzniveau fest. Dieses beschreibt eine Schwelle
fur den p-Wert. In den meisten Fallen belauft sich das Signifikanzniveau auf 5%. In
manchen Fallen findet man aber auch Signifikanzniveaus von 1% oder sogar von 0,1%,
wenn man noch sicherer gehen will, dass das Ergebnis nicht bloßer Zufall war.
”Die Wahl des Signifikanzniveaus ist abhangig von der Stichprobengroße einerseits und
von den Konsequenzen eines Fehlers andererseits.“ 22 Daher sollte man bei sehr großen
Stichproben das Signifikanzniveau niedrig wahlen. Dasselbe gilt, wenn eine Entschei-
dung zugunsten der Alternativhypothese schwerwiegende Folgen haben konnte. Aus
diesen Grunden ist es immer wichtig, sich vor dem Test genau zu uberlegen, wie man
das Signifikanzniveau wahlt.
Liegt der p-Wert uber dem festgelegten Signifikanzniveau, so sagt man, dass das Er-
gebnis nicht signifikant ist. Ist der p-Wert kleiner als das festgelegte Signifikanzniveau,
so ist das Ergebnis statistisch signifikant. Wenn der p-Wert unter 1% liegt, so nennt
man das Ergebnis sehr oder hoch signifikant. Wenn nun die Wahrscheinlichkeit, dass
ein Ergebnis rein vom Zufall abhangt, kleiner als das festgelegte Signifikanzniveau ist,
so wird die H0-Hypothese zugunsten der H1-Hypothese verworfen. Der p-Wert ist al-
so kein Maßstab dafur, wie richtig (oder falsch) man mit der Hypothese liegt oder
wie bedeutsam ein Unterschied im Endeffekt ist. Es ist eher ein Indikator dafur, wie
unerwartet oder uberraschend ein Ergebnis ausfallt.23
Wenn wir uns an unser Beispiel zuruckerinnern, so liegt unser p-Wert von 24,3% deut-
lich uber dieser Schwelle. Daraus kann man folgern, dass das Ergebnis nicht signifikant
ist. In anderen Worten: Die Wahrscheinlichkeit, durch bloßes Raten die zuckerfreien
Energydrinks herauszufiltern, liegt bei 24,3% und ist damit viel zu hoch.
22Kuckartz, Radiker, Ebert, Schehl, Statistik - Eine verstandliche Einfuhrung, 2013, S.14923Deborah Rumsey, Statistik fur Dummies (3. Auflage, WILEY-VCH Verlag, Weinheim, 2015), 240-243.
9
3.4 Fehler erster und zweiter Art
Beim Entscheidungsprozess zwischen Nullhypothese und Alternativhypothese existie-
ren nun prinzipiell vier Varianten fur eine richtige beziehungsweise falsche Entschei-
dung:
Abbildung 2: Fehler erster und zweiter Art 24
Dabei sind die Felder H0/H0 sowie H1/H1 unproblematisch. Diese sagen aus, dass in der
Grundgesamtheit H0 (H1) gilt und man sich aufgrund der Ergebnisse der Stichprobe
auch fur H0 (H1) entscheidet. 25 Bei den Kombinationen H0/H1 oder H1/H0 hingegen
handelt es sich um Fehler, die in der Wissenschaft soweit wie moglich ausgeschlossen
werden sollten.
1. α-Fehler (Fehler 1. Art oder Falsche Positive): Die Nullhypothese wird
abgelehnt, obwohl sie richtig ist. Dies bedeutet, dass geschlussfolgert wird, dass es
einen Effekt gibt, der tatsachlich nicht vorhanden ist.
2. β-Fehler (Fehler 2. Art oder Falsche Negative): Die Nullhypothese wird
akzeptiert, obwohl sie falsch ist, was so viel bedeutet wie, dass ein tatsachlich
vorhandener Effekt ubersehen wird. 26
Alex Reinhart beschreibt das Problem der Fehler trefflich:
”In gewisser Hinsicht sind falsche Positive und falsche Negative zwei Seiten derselben
Medaille: Wenn wir allzu bereit sind, auf einen Effekt zu schließen, laufen wir Gefahr,
falsche Positive zu erhalten – sind wir hingegen zu zuruckhaltend, begehen wir den
Fehler, einen Effekt nicht zu erkennen und erhalten falsche Negative.“ 27
Um diese Fehler gering zu halten, bietet sich das Neyman-Pearson-Kriterium an. Ney-
man und Pearson argumentierten, dass es zwar unmoglich ist, falsche Positive und
falsche Negative vollig auszuschließen, aber, dass es sehr wohl moglich ist, ein forma-
les Entscheidungsverfahren zu entwickeln das gewahrleistet, dass falsche Positive nur24Statistik - Eine verstandliche Einfuhrung, S. 15125Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-
lage, Wiesbaden, 2010/2013), 151f.26Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage,
mitp Verlag, 2016), 29.27Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage, mitp
Verlag, 2016), 29.
10
gemaß einer vorgegebenen Rate α auftreten. Nun liegt es nur mehr daran, das beste
Testverfahren zu ermitteln, welches die niedrigste Anzahl falscher Positiver bei vorgege-
benen α liefert. Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden
und gangige Fehler vermeiden (1. Auflage, mitp Verlag, 2016), 29.
Das Signifikanzniveau wird auch des Ofteren als Irrtumswahrscheinlichkeit bezeichnet.
Legt man das Signifikanzniveau auf die ublichen 5% fest, so ist die Irrtumswahrschein-
lichkeit eben genauso groß. Die Irrtumswahrscheinlichkeit besagt namlich, mit welcher
Wahrscheinlichkeit man einen Fehler der ersten Art begeht. Das bedeutet also, wenn
wir ein Signifikanzniveau bzw. eine Irrtumswahrscheinlichkeit von 5% haben, so wei-
sen wir mit einer Wahrscheinlichkeit von 5% die Nullhypothese zuruck, obwohl diese
eigentlich richtig war.
3.5 Einseitiger und zweiseitiger Hypothesentest
Bei Hypothesentests kann man zwischen zwei verschiedenen Arten unterscheiden: dem
einseitgen und dem zweiseitigen Test. Bei einem einseitigen Hypothesentest ist die auf-
gestellte Hypothese gerichtet, das heißt, dass ein Zusammenhang mit der Richtung
der Hypothese besteht. Einfach gesagt bedeutet das, dass der p-Wert einfach eine be-
stimmte Schwelle uber - bzw. unterschreiten muss, damit die Nullhypothese verworfen
wird. Wenn die Hypothese ungerichtet ist, wird nichts uber die Richtung des Zusam-
menhangs ausgesagt, daher benotigt man einen zweiseitigen Test. Dieser hat nun zwei
Bereiche, in denen die Nullhypothese verworfen wird. Fur einen zweiseitigen Test gilt
naturlich, dass das Signifikanzniveaus an beiden Randern aufgeteilt werden muss, um
die Irrtumswahrscheinlichkeit zu erhalten. Dies wird in folgender Grafik (Abbildung 3)
dargestellt. 28
Abbildung 3: Zweisweitiger Hypothesentest 29
28Vgl. Statistik - Eine verstandliche Einfuhrung,147 - 151.29Kuckartz, Radiker, Ebert, Schehl, Statistik - Eine verstandliche Einfuhrung, 2013, S.151
11
4 Konfidenzintervalle
Bis jetzt haben wir den p-Wert untersucht, um die Beweiskraft eines Forschungsergeb-
nisses zu beurteilen. Es gibt jedoch eine Alternative, um dieselben Fragen zu beantwor-
ten und gleichzeitig genauere Informationen zu erhalten - die Konfidenzintervalle. Der
Vorteil dabei ist, dass die Ergebnisse einfacher zu interpretieren sind und gleichzeitig
mehr Aussagekraft haben. 30
Die Berechnung der Konfidenzintervalle ist abhangig davon, welches Merkmal einer
Stichprobe untersucht wird, beziehungsweise welche Daten vorhanden sind. Wir wer-
den Konfidenzinervalle fur den Anteil an der Grundgesamtheit naher betrach-
ten. Das bedeutet, dass wir in unserer Stichprobe einen Anteil p mit einer gewissen
Eigenschaft haben und dafur ein Konfidenzintervall konstruieren wollen, um so auf die
Grundgesamtheit schließen zu konnen. Konfidenzintervalle konnen aber beispielsweise
auch fur den Mittelwert oder den Erwartungswert einer Verteilung aufgestellt werden.
Jedoch wurde es den Rahmen dieser Arbeit sprengen, auf all die unterschiedlichen Be-
rechnungen einzugehen.
Wie der Name schon verrat, handelt es sich um ein Intervall. Es beschreibt den Bereich,
der durch eine statistische Große plus/minus der Fehlergrenze definiert ist.
4.1 Fehlergrenze
Die Fehlergrenze gibt nun jenen Wertebereich an, in dem der Wert der Grundgesamt-
heit wahrscheinlich liegt, den man mit Hilfe eines Stichprobenergebnisses zu schatzen
versucht. 31 Die Grundlage der Fehlergrenze bildet der Standardfehler, welcher fur einen
Stichprobenanteil folgendermaßen berechnet wird (hier ist die vereinfachte Formel an-
gegeben, welche jedoch nur verwendet werden kann, wenn folgende Faustregel zutrifft:
np(1− p) & 9):
σp =√
p·(1−p)n
Wobei p den Stichprobenanteil und n die Stichprobengroße darstellen.
Hierbei wird sofort ersichtlich, dass der Standardfehler kleiner wird, je großer die Stich-
probengroße gewahlt wird. Um nun die Fehlergrenze zu erhalten, wird der Standard-
fehler mit dem Z-Wert des gewunschten Konfidenzniveaus multipliziert.
30vgl. Reinhart Alex (2016): Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden. Rhein-breitbach S. 33
31vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 197
12
4.2 Konfidenzniveau
Der Begriff Konfidenz soll deutlich machen, dass man ein bestimmtes Maß an Vertrauen
(engl. confidence) in einen Vorgang hat. Das Konfidenzniveau beschreibt die Große des
Vertrauens.32 Ublicherweise wird ein Niveau von 95% gewahlt. In der folgenden Tabelle
sind die Z-Werte fur einige Konfidenzniveaus dargestellt.
Abbildung 4: Z-Werte der Konfidenzniveaus 33
Wahlt man nun ein bestimmtes Konfidenzniveau aus, so muss der Standardfehler mit
dem entsprechenden Z-Wert multipliziert werden, um die Fehlergrenze zu erhalten. Je
hoher das Niveau gewahlt wird, desto großer wird die Fehlergrenze.
4.3 Konfidenzintervall berechnen
Betrachten wir nun ein konkretes Beispiel. Angenommen, man mochte den Prozentsatz
der Motorrader an den motorisierten Fahrzeugen in Osterreich ermitteln. Dazu wird
zu unterschiedlichen Zeitpunkten an mehreren Autobahnen eine Zufallsstichprobe von
1000 Fahrzeugen genommen. Man zahlt dabei 50 Motorrader, also sind es bei dieser
Stichprobe 5%.
Selbstverstandlich kann nun nicht gesagt werden, dass 5% aller motorisierter Fahrzeuge
in Osterreich Motorrader sind, da es sich ja nur um eine Stichprobe handelt. Man hofft
allerdings, dass das dem tatsachlichen Ergebnis sehr nahe kommt. Um nun diesem Er-
gebnis mehr Aussagekraft zu verleihen, berechnen wir uns die Fehlergrenze und wahlen
ein Konfidenzniveau von 95%. Der dazugehorige Z-Wert betragt 1, 96:
1, 96 ·√
0,05·(1−0,05)1000 = 0, 0135
Unsere Fehlergrenze betragt folglich rund 1, 4%. Das Konfidenzintervall reicht nun von
5% +/− 1, 4%, also von 3, 6% bis 6, 4%. Was bedeutet das nun?
Wurde man weiterhin zufallige Stichproben nehmen, so waren die Stichprobenwerte zu
95% innerhalb dieses Konfidenzintervalls. Mochte man eine hohere Sicherheit, erhoht
sich das Konfidenzniveau und damit wird auch das Intervall großer.
32vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 211
13
5 Haufige Fehler
In der Statistik gibt es viele Fehlerquellen, die zu irrefuhrenden oder sogar falschen
Ergebnissen fuhren konnen. Im Folgenden werden einige Fehler aufgezeigt, die immer
wieder auftreten.
5.1 Keine Fehlergrenze
Um ein statistisches Ergebnis bewerten zu konnen, muss die Genauigkeit uberpruft
werden. Dies geschieht in den meisten Fallen mithilfe der Fehlergrenze.34 Ist bei einer
Studie oder Statistik keine solche angegeben, so kann das Ergebnis nicht genau be-
wertet werden, es sei denn, man hat die Rohdaten der Statistik und kann sich diese
selbst ausrechnen. In heimischen Medien findet man immer wieder Statistiken, wo die
Fehlergrenze nicht angegeben ist.
5.2 Zufallsstichprobe?
Damit eine Stichprobe wirklich reprasentativ ist, muss es sich um eine Zufallsstichprobe
handeln.
Eine Zufallsstichprobe ist eine Teilmenge der Grundgesamtheit, die so ausgewahlt wur-
de, dass jedes Mitglied der Grundgesamtheit die gleiche Chance hat, ausgewahlt zu
werden [...]. Bei der Zufallsstichprobe gibt es keine systematische Bevorzugung oder
Ablehnung.35
In vielen Fallen ist es fast unmoglich tatsachlich eine Zufallsauswahl zu treffen. Viele
medizinische Studien zum Beispiel werden an freiwilligen Testpersonen durchgefuhrt,
was nicht einer Zufallsstichprobe entspricht. Hierbei kann nur gepruft werden, wie gut
die Grundgesamtheit reprasentiert wird.
5.3 Korrelation
Die wohl meisten Fehlinterpretationen in der Statistik gibt es bei dem Begriff der
Korrelation.
In der Statistik wird als Korrelation die Starke und die Richtung einer linearen Bezie-
hung zwischen zwei quantitativen Variablen bezeichnet.36
Korrelation bedeutet allerdings nicht, dass auch ein Kausalzusammenhang besteht.
Nehmen wir beispielsweise an, dass eine Studie zum Ergebnis kommt, dass Menschen,
die einen bestimmten (niedrigen) Cholesterinspiegel haben, ein um 25% geringeres In-
farktrisiko haben. Das bedeutet nicht, dass eine Person welche ihren Cholesterinspiegel
34vgl. Kapitel Fehlergrenze35vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 33436vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 335
14
auf diesen bestimmten Wert - beispielsweise durch gesunde Ernahrung - senkt, nun au-
tomatisch ein geringes Infarktrisiko hat. Denn es wurde in der Studie nicht gepruft,
welchen Effekt das Senken des Cholesterinspiegels auf das Infarktrisiko hat.
5.4 Pravalenzfehler
Bei Wahrscheinlichkeiten muss man unterscheiden zwischen bedingten und unbeding-
ten Wahrscheinlichkeiten. Ein Ereignis A hat eine unbedingte Wahrscheinlichkeit, wenn
es von keinem anderen Ereignis beeinflusst wird. Beispielsweise kann jeder Mensch
krank werden, ohne es direkt an ein Ereignis zu knupfen. Man kann aber auch krank
werden, wenn man einem bereits erkrankten die Hand reicht und sich anschließend uber
den Mund fahrt und daraus resultierend erkrankt. Dies ware ein Ereignis B, welches
Ereignis A beeinflussen kann. Die bedingte Wahrscheinlichkeit ist nun jene, die angibt,
wie wahrscheinlich es ist, dass jemand krank wird (also Ereignis A eintritt), wenn man
zuvor einem kranken Menschen (also Ereignis B eintritt) die Hand schuttelt.
Hat man nun eine solche bedingte Wahrscheinlichkeit und will diese berechnen, so muss
man sowohl die unbedingte Wahrscheinlichkeit fur Ereignis A bedenken, als auch die
bedingte Wahrscheinlichkeit von Ereignis A in Abhangigkeit von Ereignis B. Hierbei
kann ein sogenannter Pravalenzfehler begangen werden. Ein solcher Fehler tritt genau
dann auf, wenn man bei der Berechnung der bedingten Wahrscheinlichkeit von Ereignis
A, die unbedingte A-priori-Wahrscheinlichkeit von A außer Acht lasst.37
Um solchen Pravalenzfehlern vorzubeugen, gibt es den Satz von Bayes. Dieser lasst die
Wahrscheinlichkeit von Ereignis A unter der Bedinung, dass Ereignis B eingetreten ist,
durch die Wahrscheinlichkeit von B unter der Bedingung von A berechnen.
P (A|B) =P (B|A) · P (A)
P (B)(2)
37Vgl. http://perlmeister.com/snapshots/201507/index.html(03.10.2017)
15
6 Umsetzung in die Praxis
Zur Umsetzung der nachfolgenden Stundenplanung sind ungefahr vier Unterrichtsein-
heiten notwendig. Diese Anzahl kann je nach Umfang (Mini-Studie, etc.) variieren. Fur
die Vor- und Nachbereitung sind ungefahr zwei Einheiten geplant.
6.1 Einstieg
Um in das Thema einzusteigen, wird mit den SchulerInnen ein kleines Experiment
durchgefuhrt. Es soll ein vereinfachter Hypothesentest gemacht werden, bei dem die
SchulerInnen bereits implizit den p-Wert berechnen. Zum Beispiel konnte man den
SchulerInnen zwei gleiche Limonaden von verschiedenen Herstellern geben und sie sol-
len selbst in Gruppen diese Limonaden testen. Dabei soll die Hypothese aufgestellt
werden, dass immer die Limonade von Firma A herausgeschmeckt werden kann, was
bedeutet: Ein richtiger Treffer ist es dann, wenn ein Schuler oder eine Schulerin die
Limonade von Firma A erkennt.
Dieses Experiment durfen die SchulerInnen in Gruppen durchfuhren, wobei jeder die
Chance haben soll zu testen. Sind alle Testungen durchgefuhrt wird den SchulerInnen
implizit vorgegeben, wie sie den p-Wert berechnen konnen, ohne den Term”p-Wert“
aber zu nennen. Dabei mussen den SchulerInnen entweder die einzelnen Wahrschein-
lichkeiten fur den Testausgang bekanntgegeben werden, oder sie berechnen diese Wahr-
scheinlichkeiten selbst mithilfe der hypergeometrischen Verteilung (siehe 2.3). Anschlie-
ßend wird der p-Wert fur alle Testungen, also mehrere p-Werte pro Gruppe, berech-
net. Die Lehrperson sammelt die Ergebnisse und fragt hier bereits nach einem ersten
Einschatzen der SchulerInnen, ob nun ein niedriger oder hoher Prozentwert gut fur die
Testung ist.
Danach erstellt die Lehrperson eine Kurve mit GeoGebra, die die Verteilung dieses
Experiments zeigt. Die p-Werte sollen nun in diese Verteilung eingezeichnet werden.
Hier sollten die SchulerInnen ein weiteres Mal gefragt werden, welche Prozentwerte
denn nun besser seien. Sind alle Experimente und Diskussionen zu diesem Einstieg
beendet, wird zum Theorieinput ubergegangen. Hier haben wir ein Beispiel fur ein
solches Experiment gegeben. Naturlich konnen auch Experimente gewahlt werden, die
in der Lebenswelt der jeweiligen Klasse besser verankert sind. Dabei sollte nur darauf
geachtet werden, dass es sich stets um eine Normalverteilung handelt. Weitere Beispiele
waren Munzwurfe oder auch das einfache Wurfeln ware eine Moglichkeit.
Aus didkatischer Sicht ist hier wichtig, dass die Gruppen nicht zu groß gewahlt wer-
den, damit jeder, der Lust hat, auch experimentieren und testen kann. Diese Lust sollte
dadurch hochgehalten werden, indem ein interessantes oder auch lustiges Experiment
gewahlt wird. Wird ein ahnliches Experiment, wie von uns beschrieben gewahlt, sollte
man sicher gehen, dass die SchulerInnen unvoreingenommen in das Experiment starten.
16
Jegliches Wissen, welches das Experiment beeinflussen konnte, sollte also vermieden
werden. Man sollte den Zeitaufwand zum Aufbau des Experiments daher nicht un-
terschatzen. Je nach Klassen bzw. Gruppengroßen sollte man mindestens eine ganze
Schulstunde fur dieses Experiment einplanen.
6.2 Theorieinput
Um den Theorieinput moglichst spannend bzw. kurzweilig zu halten wird hierfur ein
Video verwendet. Die SchulerInnen sollen sich dieses Video ansehen und anschließend
ein Arbeitsblatt dazu ausfullen. Dadurch sollen sie die Hintergrundinformationen zu
dem bereits durchgefuhrten Experiment bekommen und fur den weiteren Workshop
mit dem notigen Wissen versorgt werden
Hier geht es zu dem oben genannten Video: https://youtu.be/gSyGVDMcg-U
17
6.3 Arbeitsblatt zum Video
1. Welche ist die grundsatzliche Frage beim Hypothesentest?
2. Eine Testsatistik ist eine der Daten aus einem Experiment in einen Wert.
3. Die Nullhypothese sagt aus
4. Was beschreiben die Wahrscheinlichkeiten im Video, die durch die hypergeometrische Verteilung berechnet wer-
den?
5. Kreuzen Sie an:
Der p-Wert wird unter der Annahme, dass nur der Zufall am Werk ist berechnet.
Der p-Wert gibt an wie wahrscheinlich der Aussgang eines Experiments ist.
Ein hoher p-Wert bedeutet, dass das Ergebnis signifkant ist.
Der p-Wert ist die Summe der aquivalenten oder besseren Wahrscheinlichkeiten.
Das Signifikanzniveau gibt den Toleranzbereich fur den p-Wert an.
wahr falsch
� �
� �
� �
� �
� �
6. Ist der p-Wert unter so ist das Ergebnis signifikant. Ist der p-Wert unter ,
so ist das Ergebnis hoch signifkant.
7. Was bedeutet statistisch signifikant?
8. Warum ist ein Experiment mit nur acht Tassen nicht ideal?
9. Erklaren Sie in eigenen Worten, was ein Hypothesentest, der p-Wert und das Signifikanzniveau sind!
18
6.4 Losungen zum Arbeitsblatt
1. Welche ist die grundsatzliche Frage beim Hypothesentest?
Ist es moglich, dass da Ergebnis nur durch bloßes Gluck zustande gekommen ist?
2. Eine Testsatistik ist eine Zusammenfassung der Daten aus einem Experiment in einen einzelnen Wert.
3. Die Nullhypothese sagt aus, dass das Ergebnis durch reinen Zufall zustande gekommen ist.
4. Was beschreiben die Wahrscheinlichkeiten im Video, die durch die hypergeometrische Verteilung berechnet wer-
den?
Diese beschreiben die Wahrscheinlichkeiten, genau ein bestimmtes Ergebnis zu erzielen
5. Kreuzen Sie an:
Der p-Wert wird unter der Annahme, dass nur der Zufall am Werk ist berechnet.
Der p-Wert gibt an wie wahrscheinlich der Aussgang eines Experiments ist.
Ein hoher p-Wert bedeutet, dass das Ergebnis signifkant ist.
Der p-Wert ist die Summe der aquivalenten oder besseren Wahrscheinlichkeiten.
Das Signifikanzniveau gibt den Toleranzbereich fur den p-Wert an.
wahr falsch√
�
�√
�√
√�
√�
6. Ist der p-Wert unter 5% so ist das Ergebnis signifikant. Ist der p-Wert unter 1%, so ist das Ergebnis hoch
signifkant.
7. Was bedeutet statistisch signifikant?
Der p-Wert liegt unter dem Signifkanzniveau, was bedeutet, dass die Wahrscheinlichkeit, dass
das Ergebnis nur durch reines Gluck zustande gekommen ist, gering genug ist um anerkannt zu
werden.
8. Warum ist ein Experiment mit nur acht Tassen nicht ideal?
Die Testmenge ist viel zu klein. Mit nur acht Tassen ist die Wahrscheinlichkeit um einiges hoher,
dass man wirklich nur durch bloßes Raten ein gutes Ergebnis erzielt. Fuhrt man das Experiment
mit 1000 Tassen aus, so ist es viel schwieriger z.B.: 75% der Tassen richtig zu erkennen als bei 8
Tassen
9. Erklaren Sie in eigenen Worten, was ein Hypothesentest, der p-Wert und das Signifikanzniveau sind!
Der Hypothesentest ist dafur da, eine Hypothese zu uberprufen, wobei hier die Annahme getroffen
wird, dass bei einem Experiment nur der Zufall am Werk ist.
Der p-Wert wird dazu verwendet um anzugeben, wie wahrscheinlich es ist, ein mindestens genauso
gutes Ergebnis, wie im Ausgangsexperiment zu erzielen.
Das Signifikanzniveau beschreibt den Schwellenwert fur den p-Wert. Fallt der p-Wert unter das
Signifikanznievau bedeutet das, dass es extrem unwahrscheinlich ist, dass nur der Zufall am Werk
war. Das Ergebnis wird nun statistisch signifikant genannt. Ubliche Werte fur das Signifikanznievau
sind 5% oder 1% (hoch signifikant). Das Niveau muss man so wahlen, dass es zum jeweiligen
Experiment passt.
19
6.5 Aufgabenstellungen
1. Man geht davon aus, dass die Augenfarbe einer Person mit dessen Haarfarbe korre-liert. Wir wissen allerdings, dass beispielsweise nicht alle braunhaarigen Menschendie selbe Augenfarbe haben. Aber ist eine Augenfarbe wahrscheinlicher?Fuhrt nun eine ’Mini-Studie’ an eurer Schule durch. Dazu uberlegt ihr euch zu Be-ginn, welche beiden Merkmale ihr untersuchen wollt (zum Beispiel schwarzhaarigund braunaugig). Zu dieser Kombination soll nun:
a) ein Projektplan erstellt werden (wer erleigt was?).b) eine Umfrage/Ermittlung der Daten durchgefuhrt werden.c) eine Hypothese aufgestellt werden. (zum Beispiel: 90% aller schwarzhaarigen Men-
schen haben braune Augen)
Nun soll uberpruft werden, ob die aufgestellte Hypothese verworfen werden sollte,oder nicht. Kann man mit den Ergebnissen dieser Stichprobe auf einen allgemeinenZusammenhang schließen?
2. Vor einer Nationalratswahl wird in Osterreich eine unabhangige Wahlumfrage mit2000 Befragten durchgefuhrt und soll Aufschluss daruber geben, wie die Wahl amdarauffolgenden Sonntag wahrscheinlich ausgeht. In der unten stehenden Grafik sinddie Umfragewerte aufgelistet.(Hierbei handelt es sich nicht um eine tatsachliche Um-frage, die Werte wurden fur dieses Beispiel angepasst.)
a) Eine Zeitung, welche diese Umfrage veroffentlicht, schreibt, dass die Neos trotzdieser Umfragewerte gute Chancen fur den Einzug in den Nationalrat (mindestens4%) haben, da die Schwankungsbreite sehr hoch ist. Ist diese Annahme richtig?Fuhre einen Hypothesentest durch und uberprufe die Hypothese mit Hilfe einesKonfidenzintervalls. Wahle dazu ein Konfidenzniveau von 0, 95%.
b) Worauf muss bei der Durchfuhrung einer derartigen Umfrage geachtet werden?
c) Ist es sinnvoll eine großere Umfrage durchzufuhren, damit das Ergebnis nochgenauer wird? Uberprufe dazu, wie sich das Intervall andert, wenn das n großerwird. Nimm hierfur an, dass die Anteile der Partein bei großerem n gleich bleiben.
20
6.5.1 Losung
6.6 Wiederholung
Nach etwa einem Monat sollte der behandelte Stoff wiederholt werden, um eine Festigungzu vereinfachen. Dafur bietet sich zum Beispiel das Format
”Learning Snack“ an.
Kurz-URL:https://tinyurl.com/wh-statistikOriginal-URL:https://www.learningsnacks.de/share/4998/3a9cca71eed1008030cf6f9d2e96a061f1e0f227