cursus statistiek - 2ti - 0910

129

Upload: pekket

Post on 10-Apr-2016

53 views

Category:

Documents


9 download

DESCRIPTION

Toegepaste informatica UCLL

TRANSCRIPT

Page 1: Cursus Statistiek - 2TI - 0910
Page 2: Cursus Statistiek - 2TI - 0910

Academiejaar 2009-2010

1

Studiewijzer

Cursusfiche

Academiejaar 2009-2010

Opleiding Bachelor in de toegepaste informatica

Afstudeerrichting

Naam : Wiskunde – deel 2 Opleidingsonderdeel

ECTS-code : TI 3.6

Naam : Statistiek Deel van het

opleidingsonderdeel ECTS-code : TI 3.6.2

Activiteit

Beschrijving van het (deel van) het opleidingsonderdeel of van de activiteit

Studiepunten 2

Contacturen 17,5 (1 keer 1,5 uur en 1 keer 1 uur theorie en oefeningen per week

gedurende 7 lesweken)

Verplicht / keuze Verplicht

Semester 3

SBU per studiepunt 25

Lectoren Roby Roels, Wim Bertels

Beoogde

competenties

De student verwerft in het opleidingsonderdeel volgende kerncompetenties:

• De student is vertrouwd met de basisbegrippen van de

kansrekening en de beschrijvende en verklarende statistiek.

• De student kent de basisredeneringen uit de statistiek en kan

statistische technieken gebruiken voor het verzamelen, verwerken

en interpreteren van gegevens.

• De student begrijpt welke plaats statistiek inneemt in de wereld van

de informatica.

• De student heeft een goede basis waarop hij kan voortbouwen om,

naargelang de noden, zelf nieuwe en moeilijkere statistische

technieken te leren.

• De student kan nauwgezet en op een logische manier werken.

• De student gaat kritisch om met nieuw cijfermateriaal en kan hieruit eigen correcte conclusies trekken.

Leerinhoud

• Kansrekenen: basisbegrippen als theoretisch, wiskundige basis

voor statistiek

• Beschrijvende statistiek: stochastische veranderlijken,

belangrijkste kengetallen, frequentietabellen, grafieken, belangrijke

verdelingen (binomiaalverdeling, normaalverdeling), enkelvoudige

lineaire regressie

• Verklarende statistiek: populatie en steekproef, verdeling van het

steekproefgemiddelde, puntschattingen, intervalschattingen

Werkvormen

• Overdracht

o onderwijsleergesprek - in groep: de docent stelt gerichte

vragen waardoor de theorie met de actieve hulp van de

studenten op een systematische manier tot stand komt.

• Inoefenend

o oefensessies - individueel en in groep: de studenten maken

zelf oefeningen en opdrachten om de statistische concepten

in te oefenen. Nadien worden de oefeningen klassikaal

verbeterd.

Studiemateriaal • Cursus (verplicht):

ROELS, R., Wiskunde – deel 2 - Statistiek (Leuven,

KHLeuven departement G&T, 2009)

• Rekenmachine

Page 3: Cursus Statistiek - 2TI - 0910

Academiejaar 2009-2010

2

Evaluatie

In de studiegids, bijlage D, vind je de aanduidingen van examentijdstippen,

vorm van het examen, aandeel van de examenonderdelen (zoals

permanente evaluatie, opdrachten en contactexamen).

Dit deel van het opleidingsonderdeel ‘Wiskunde – deel 2’ worden

geëxamineerd samen met het deel ‘Wiskunde voor informatici’.

Het eindcijfer voor het opleidingsonderdeel ‘Wiskunde – deel 2’ is het

gewogen gemiddelde van de eindcijfers van de delen (‘Wiskunde voor

informatici’ en ‘Statistiek’) van het opleidingsonderdeel, met als

wegingsfactoren de studiepunten.

Page 4: Cursus Statistiek - 2TI - 0910

Academiejaar 2009-2010

3

Cursusbeschrijving

Situering

Een basiskennis Statistiek is een must voor de dagelijkse taken van een informaticus. Als

informaticus word je immers constant geconfronteerd met data.

In het deel Statistiek maak je kennis met enkele statistische technieken om verzamelde

gegevens en mogelijke verbanden uit te drukken in getallen en grafieken. Dat is het

domein van de beschrijvende statistiek. Je wordt ook ingeleid in de kansrekening

zodat je met behulp van verklarende statistiek op een wetenschappelijk correcte

manier conclusies kan afleiden uit de verkregen data.

Dit deel Statistiek is eerder inleidend en laat je vooral kennismaken met de statistische

basisconcepten. Tijdens het vierde semester worden deze kennis en vaardigheden

toegepast en vaak verdiept in de diverse keuzetrajecten. We geven graag een (niet

beperkende) lijst van de mogelijkheden:

Softwareontwikkeling: ongeveer elke moderne website voorziet een plekje

met uitgebreide statistieken over de bezoekers en het gebruik van de website.

Een basiskennis van statistische kengetallen, grafieken en technieken om

verbanden te zoeken is nuttig om dit deel van een website op een professionele

en wetenschappelijk verantwoorde manier te ontwerpen.

Systeem- en netwerkbeheer: het gedrag van een nieuw of bestaand

netwerk wordt vaak afgeleid uit een reeks simulaties. Om zinvolle conclusies te

trekken uit de verzamelde data ben je best op de hoogte van topics als

statistische kengetallen en betrouwbaarheidsintervallen. Als systeembeheerder

krijg je ook af te rekenen met het filteren van spam mails. Je kan daarbij gebruik

maken van Bayesiaanse spam filters die gebaseerd zijn op een belangrijke wet

uit de kansrekening.

Management informatiesystemen: veel ondernemingen beschikken over

een massa data van transacties en klanten. Met Data Mining kan je op een semi-

geautomatiseerde manier interessante relaties ontdekken in dit ondoorzichtig

kluwen van gegevens. Data Mining bevindt zich op het grensvlak tussen

statistiek, informatica en economie. Een basiskennis Statistiek is dus meer dan

welkom.

Statistiek kan dus een krachtig hulpmiddel zijn bij het uitvoeren van je functie als

informaticus.

Op het einde van dit opleidingsonderdeel heb je een goede basis verworven waarop je

kan voortbouwen om zelf nieuwe en moeilijkere statistische technieken te leren en toe te

passen.

Organisatie van de lessen

De lessen vinden plaats in het derde semester van je opleiding (1 keer 1,5 uur en 1

keer 1 uur theorie en oefeningen per week gedurende 7 lesweken).

Er wordt geen strikt onderscheid gemaakt tussen theorielessen en oefensessies.

Statistiek leer je vooral door ermee aan de slag te gaan. Uiteraard heb je een zekere

basiskennis nodig om de oefeningen tot een goed einde te brengen. Toch wordt de

theorie tijdens de lessen zoveel mogelijk beperkt. De lector stelt bovendien regelmatig

gerichte vragen zodat de theorie met de actieve hulp van de studenten tot stand komt.

Een groot deel van de lessen wordt besteed aan oefeningen die onder begeleiding van de

lector individueel gemaakt worden. Belangrijk is dat je actief meewerkt en probeert te

antwoorden op de deelproblemen en vragen die de lector aanbiedt. Nog tijdens de les

worden die oefeningen klassikaal verbeterd. Tijdens de oefeningen gebruik je een (al dan

niet) grafisch rekentoestel en een formularium dat bij de cursustekst zit.

Page 5: Cursus Statistiek - 2TI - 0910

Academiejaar 2009-2010

4

Structuur van de cursus

In de cursus wordt de theorie zoveel mogelijk beperkt. Er staan weinig of geen

bewijzen in en formules worden geïllustreerd met voorbeelden. De theorie wordt zoveel

mogelijk aangebracht vanuit concrete probleemsituaties. In de cursustekst ligt de

nadruk vooral op inzicht in de basisbegrippen en –technieken en de praktische toepassing

ervan in concrete situaties.

De cursustekst omvat 6 hoofdstukken (= Kansrekenen, Beschrijvende Statistiek,

Kansverdelingen, Samenhang tussen variabelen, Populatie, Steekproef en schatten,

Betrouwbaarheidsintervallen).

Na elk hoofdstuk zijn er voldoende oefeningen. Een aantal van die oefeningen worden

tijdens de lessen gemaakt (zie hoger, Organisatie van de lessen). De overige oefeningen

kan (moet) je thuis maken. Je kan je oplossingen steeds indienen en door de lector laten

nakijken. Ook als een oefening die je thuis probeert niet lukt, kan je steeds bij de lector

terecht voor extra uitleg.

Elk hoofdstuk wordt afgesloten met verwijzingen naar een (Nederlandstalige) website, nl.

http://www.kennisbasisstatistiek.net. Daar kan je de behandelde topics uit het hoofdstuk

nog eens nalezen. Het gebruik van de website is aanbevolen maar niet verplicht (zie

verder, Studiemateriaal).

Tenslotte bevat de cursustekst ook een formularium. Het formularium zal tijdens de

lessen veelvuldig gebruikt worden, dus breng het steeds mee. Ook tijdens het examen

krijg je een kopie van dit formularium. Het heeft dus weinig zin om deze formules van

buiten te leren, je moet ze correct kunnen toepassen.

Studiemateriaal

Verplicht:

ROELS, R., Statistiek (Leuven, KHLeuven departement G&T, 2009)

Aanbevolen:

Naast de cursus bevelen we volgende boeken aan die je kan raadplegen in de

mediatheek:

MOORE, D. en McCABE, G., Statistiek in de Praktijk (Schoonhoven, Academic

Service, 1994)

GONNICK, L. en SMITH, W., The Cartoon Guide to Statistics (s.l.,

HarperCollins, 1993) 223 p.

Voor meer achtergrond bij de behandelde topics suggereren we na elk hoofdstuk van de

cursustekst ook nog een aantal pagina’s van volgende (Nederlandstalige) website:

http://www.kennisbasisstatistiek.net

Evaluatie

In de studiegids, bijlage D, vind je de aanduidingen van examentijdstippen, vorm van het

examen, aandeel van de examenonderdelen (zoals permanente evaluatie, opdrachten en

contactexamen).

Bijkomende toelichting:

Het deel Statistiek wordt volledig geëvalueerd aan de hand van een contactexamen.

Tijdens het examen Statistiek krijg je twee vragen onder de vorm van

oefeningen. De eerste vraag heeft betrekking op de hoofdstukken 1 tot

en met 3, de tweede vraag op de hoofdstukken 4 tot en met 6 (zie

Inhoudstafel).

Page 6: Cursus Statistiek - 2TI - 0910

Academiejaar 2009-2010

5

Het contactexamen is schriftelijk en mondeling (S+M). Je komt de

oefeningen mondeling toelichten na een schriftelijke voorbereiding. Je

kan tijdens het mondeling vragen stellen. De lector geeft indien nodig

(een) hint(s) waarna je je antwoord nog verder kan afwerken. Tijdens

het mondeling zullen ook enkele kleine theorievraagjes gesteld

worden die aansluiten bij het onderwerp van de oefeningen.

Op het contactexamen krijg je een kopie van het formularium uit de

cursustekst. Je mag ook een rekenmachine gebruiken en een

rekenblad.

Het deel Statistiek wordt samen met het deel Wiskunde voor informatici

geëxamineerd. De duur van het examen Statistiek is daarom beperkt

tot 1 uur en 45 minuten.

Page 7: Cursus Statistiek - 2TI - 0910

FormulariumTabellen

1

Page 8: Cursus Statistiek - 2TI - 0910

1Kansrekenen

Zij A, B en C gebeurtenissen van het universum Ω.

Kansregel van Laplace

P (A) =#A#Ω

Algemene Somregel

P (A ∪B) = P (A) + P (B)− P (A ∩B)

Somregel voor elkaar uitsluitende gebeurtenissen.

P (A ∪B) = P (A) + P (B)

Kans van het complementP (Ac) = 1− P (A)

Voorwaardelijke kans

P (A|B) =P (A ∩B)P (B)

als P (B) 6= 0

Algemene productregel

P (A ∩B) = P (A) · P (B|A) = P (B) · P (A|B)

P (A ∩B ∩ C) = P (A) · P (B|A) · P (C|A ∩B)

Productregel voor onafhankelijke gebeurtenissen

P (A ∩B) = P (A) · P (B)

P (A ∩B ∩ C) = P (A) · P (B) · P (C)

Zij X en Y twee stochastische veranderlijken.

Marginale kansen

P (X = x′i) = P (X = x′i, Y = y′1) + P (X = x′i, Y = y′2) + . . .+ P (X = x′i, Y = y′m)

P (Y = y′j) = P (X = x′1, Y = y′j) + P (X = x′2, Y = y′j) + . . .+ P (X = x′n, Y = y′j)

Onafhankelijke stochastische veranderlijkenX en Y zijn onafhankelijk als en slechts als voor elke waarde van i en j:

P (X = x′i, Y = y′j) = P (X = x′i) · P (Y = y′j)

1

Page 9: Cursus Statistiek - 2TI - 0910

2Beschrijvende statistiek

Centrum en spreiding(Discrete gegevens)

Ruwe gegevens Gegroepeerde gegevens

GemiddeldeµX of µ

µ =∑ni=1 xin µ =

∑qi=1 x

′i·fi

n

=∑qi=1 x

′i · ri

Variantieσ2X of σ2

Definitieformule

σ2 =∑ni=1(xi−µ)2

n σ2 =∑qi=1(x

′i−µ)2·fin

=∑qi=1(x

′i − µ)2 · ri

Korte formule

σ2 =∑ni=1 xi

2

n −µ2 σ2 =∑qi=1 x

′i2·fi

n −µ2

=(∑q

i=1 x′i2 · ri

)− µ2

n = aantal gegevens x′i = i-de mogelijke gegevenq = aantal verschillende gegevens fi = absolute frequentie van x′ixi = i-de waarneming ri = relatieve frequentie van x′i

Sommatieteken∑

n∑i=1

xi = x1 + x2 + . . .+ xn

2

Page 10: Cursus Statistiek - 2TI - 0910

x

Centrum en spreiding(Continue gegevens)

Ruwe gegevens Geclassificeerde gegevens

GemiddeldeµX of µ

Zie discrete verdelingen Zie discrete verdelingen

Variantieσ2X of σ2

DefinitieformuleZie discrete verdelingen Zie discrete verdelingen

Korte formuleZie discrete verdelingen Zie discrete verdelingen

n = aantal gegevens x′i = klassemidden i-de klasseq = aantal klassen fi = absolute frequentie i-de klassexi = i-de waarneming ri = relatieve frequentie i-de klasse

3

Page 11: Cursus Statistiek - 2TI - 0910

3Kansverdelingen

Discrete verdelingen

Verwachtingswaarden

Gemiddelde: E[X] = µX =∑x′i

x′i · P (X = x′i)

Variantie: Var[X] = σ2X = (

∑x′i

x′i2 · P (X = x′i))− µ2

X

De binomiale verdeling

X ∼ B(n, p) P (X = k) =

(nk

)pkqn−k met 0 ≤ k ≤ n, 0 ≤ p ≤ 1

E[X] = µX = n · p

Var[X] = σ2X = n · p · q

Continue verdelingen

De normale verdeling

X ∼ N(µ, σ2) f(x) =1

σ ·√

2π· e−

12·(x−µσ )2

De standaard normale verdeling

Z ∼ N(0, 1) f(z) =1√2πe−1

2· z2

Als X ∼ N(µ, σ2), dan is Z =X−µσ ∼ N(0, 1).

4

Page 12: Cursus Statistiek - 2TI - 0910

4Samenhang tussen variabelen

Associatiematen

Gegeven een gezamenlijke verdeling van de vorm:

a b

c dN

Chikwdaraat =N · (ad− bc)2

(a+ b) · (c+ d) · (a+ c) · (b+ d)

Phi =

√Chikwadraat

N

Pearson’s correlatiecoefficient

ρ ( of r ) =

∑[(xi −X) · (yi − Y )

]√∑

(xi −X)2 ·√∑

(yi − Y )2

Lineaire regressiemodel

y = β0 + β · x+ ε

Regressiecoefficienten

b =

∑[(xi −X) · (yi − Y )

]∑

(xi −X)2

b0 = Y − b ·X

5

Page 13: Cursus Statistiek - 2TI - 0910

5Populatie en steekproef

Gegeven een populatieveranderlijke X met gemiddelde µX en variantie σ2X .

Steekproefgemiddelde

X =

n∑i=1

xi

n

X ∼ N(µX ,σ2

X

n) voor n voldoende groot.

Steekproefvariantie

Vertekende steekproefvariantie S2n

S2n =

n∑i=1

(xi −X)2

n

Onvertekende (= zuivere) steekproefvariantie S2n−1

S2n−1 =

n∑i=1

(xi −X)2

n− 1

Gegeven een eigenschap die met een proportie π in de populatie voorkomt.

Steekproefproportie

p =aantal successen

totaal aantal elementen in de steekproef

p ∼ N(π,π · (1− π)

n

)voor n voldoende groot.

6

Page 14: Cursus Statistiek - 2TI - 0910

x

De standaardnormale verdeling

0.41

1.338 104.

f z( )

44 z

1 2 3 4 0 -1 -2 -3 -4

0.4

0.2

oppervlakte rechts van z0 = P(Z > z0)

z0

tweede decimaal

z0 0 1 2 3 4 5 6 7 8 90 0.5 0.496 0.492 0.488 0.484 0.4801 0.4761 0.4721 0.4681 0.46410.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.42470.2 0.4207 0.4168 0.4129 0.409 0.4052 0.4013 0.3974 0.3936 0.3897 0.38590.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.352 0.34830.4 0.3446 0.3409 0.3372 0.3336 0.33 0.3264 0.3228 0.3192 0.3156 0.31210.5 0.3085 0.305 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.281 0.27760.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.24510.7 0.242 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.21480.8 0.2119 0.209 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.18670.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.166 0.1635 0.16111 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.13791.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.123 0.121 0.119 0.1171.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.102 0.1003 0.09851.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.08231.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.06811.5 0.0668 0.0655 0.0643 0.063 0.0618 0.0606 0.0594 0.0582 0.0571 0.05591.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.04551.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.03671.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.02941.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.025 0.0244 0.0239 0.02332 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.01832.1 0.0179 0.0174 0.017 0.0166 0.0162 0.0158 0.0154 0.015 0.0146 0.01432.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0112.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.00842.4 0.0082 0.008 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.00642.5 0.0062 0.006 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.00482.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.004 0.0039 0.0038 0.0037 0.00362.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.003 0.0029 0.0028 0.0027 0.00262.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.002 0.00192.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.00143 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.001 0.001

7

Page 15: Cursus Statistiek - 2TI - 0910

Inhoudsopgave

1 Kansrekenen 41 Opstellen van een kansmodel . . . . . . . . . . . . . . . . . . 5

1.1 Definities . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Kansbegrip . . . . . . . . . . . . . . . . . . . . . . . . 61.3 Eigenschappen van kansen . . . . . . . . . . . . . . . . 71.4 Samenvatting . . . . . . . . . . . . . . . . . . . . . . . 8

2 Kansen van gecombineerde gebeurtenissen . . . . . . . . . . . 92.1 Kans van de unie - de somregel . . . . . . . . . . . . . 92.2 Kans van het complement . . . . . . . . . . . . . . . . 112.3 Voorwaardelijke kansen . . . . . . . . . . . . . . . . . 122.4 Onafhankelijkheid . . . . . . . . . . . . . . . . . . . . 142.5 Kans van de doorsnede - de productregel . . . . . . . 14

3 De kansboom . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Stochastische veranderlijken en hun kansverdeling . . . . . . 21

4.1 Kansverdeling van 1 stochastische veranderlijke . . . . 214.2 De gezamenlijke kansverdeling van 2 stochastische

veranderlijken . . . . . . . . . . . . . . . . . . . . . . . 215 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 30

2 Beschrijvende statistiek 311 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

1.1 Soorten veranderlijken . . . . . . . . . . . . . . . . . . 322 Discrete gegevens . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.1 De frequentietabel . . . . . . . . . . . . . . . . . . . . 342.2 Grafische voorstellingen . . . . . . . . . . . . . . . . . 362.3 Het centrum van de gegevens . . . . . . . . . . . . . . 382.4 De spreiding van de gegevens . . . . . . . . . . . . . . 40

3 Continue gegevens . . . . . . . . . . . . . . . . . . . . . . . . 433.1 Frequentietabellen en grafieken . . . . . . . . . . . . . 433.2 Het centrum van de gegevens zoeken . . . . . . . . . . 463.3 De spreiding van de gegevens zoeken . . . . . . . . . . 47

4 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 52

1

Page 16: Cursus Statistiek - 2TI - 0910

INHOUDSOPGAVE INHOUDSOPGAVE

3 Kansverdelingen 541 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

1.1 Theoretische kansverdelingen . . . . . . . . . . . . . . 551.2 Verwachtingswaarden . . . . . . . . . . . . . . . . . . 55

2 Discrete kansverdelingen . . . . . . . . . . . . . . . . . . . . . 572.1 Binomiale verdeling . . . . . . . . . . . . . . . . . . . 572.2 Andere discrete verdelingen . . . . . . . . . . . . . . . 61

3 Continue kansverdelingen . . . . . . . . . . . . . . . . . . . . 623.1 Kansen berekenen bij continue verdelingen . . . . . . 623.2 De normale verdeling . . . . . . . . . . . . . . . . . . . 653.3 De standaardnormale verdeling . . . . . . . . . . . . . 673.4 Kansen berekenen met de normale verdeling . . . . . . 693.5 Andere continue verdelingen . . . . . . . . . . . . . . . 70

4 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 76

4 Samenhang tussen variabelen 781 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 792 Associatie (discrete veranderlijken) . . . . . . . . . . . . . . . 803 Correlatie (continue veranderlijken) . . . . . . . . . . . . . . . 83

3.1 Pearson’s correlatiecoefficient . . . . . . . . . . . . . . 843.2 Regeressierechte . . . . . . . . . . . . . . . . . . . . . 863.3 Lineaire regressie - statistische interpretatie . . . . . . 87

4 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 95

5 Populatie, steekproef en schatten 961 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 972 Steekproeven . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

2.1 Steekproefveranderlijken . . . . . . . . . . . . . . . . . 982.2 ’Goede’ steekproeven . . . . . . . . . . . . . . . . . . . 982.3 Steekproefgrootheden, schatters . . . . . . . . . . . . . 99

3 Het steekproefgemiddelde . . . . . . . . . . . . . . . . . . . . 1003.1 Formule . . . . . . . . . . . . . . . . . . . . . . . . . . 1003.2 Centrale limiestelling . . . . . . . . . . . . . . . . . . . 1003.3 Het steekproefgemiddelde als schatter voor het popu-

latiegemiddelde . . . . . . . . . . . . . . . . . . . . . . 1044 De steekproefvariantie . . . . . . . . . . . . . . . . . . . . . . 106

4.1 Formule . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.2 De steekproefvariantie als schatter voor de populatie-

variantie . . . . . . . . . . . . . . . . . . . . . . . . . . 1065 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1076 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 108

Academiejaar 2009-2010 2

Page 17: Cursus Statistiek - 2TI - 0910

INHOUDSOPGAVE INHOUDSOPGAVE

6 Betrouwbaarheidsintervallen (B.I) 1101 BI voor het populatiegemiddelde . . . . . . . . . . . . . . . . 1112 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1143 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 115

Academiejaar 2009-2010 3

Page 18: Cursus Statistiek - 2TI - 0910

1Kansrekenen

4

Page 19: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 1. OPSTELLEN VAN EEN KANSMODEL

1 Opstellen van een kansmodel

Beschouw het volgende (eenvoudige) vraagstuk:

Het drankprobleemOp een regenachtige zondagmiddag drinken Frans en Fons, tweemannen op leeftijd, een respectabel aantal pintjes bier in hun stam-cafe. Op een bepaald ogenblik ontstaat er onenigheid over wie derekening zal betalen. De cafebaas bedenkt daarom het volgende een-voudige spel: hij neemt een blauwe dobbelsteen met rode ogen engooit deze op. Er wordt afgesproken dat als er 1 wordt geworpen,Frans de rekening betaalt. In de andere gevallen zal Fons betalen.Bereken voor beide mannen de kans dat ze het drinkgelach moetenbetalen.

Kansrekening bestudeert situtaties die aan het toeval onderhevig zijn. Dezesituaties ontstaan bij het uitvoeren van experimenten zoals het werpenvan een dobbelsteen of het trekken van een kaart. Als we een vraagstukuit de kansrekening voorgeschoteld krijgen, moeten we in eerste instantiede essentie van het verhaal proberen te vatten. Dit kan gebeuren doorhet experiment beknopt, maar volledig en ondubbelzinnig neer te schrijven.Voor het drankprobleem kan dit bijvoorbeeld als volgt:

”Gooi met een (onvervalste) dobbelsteen en tel het aantal ogen”.

Eens het experiment omschreven is, moeten we proberen om het gestel-de probleem wiskundig correct te formuleren. Dit kan gebeuren door hetopstellen van een kansmodel. Een kansmodel bevat altijd dezelfde ingre-dienten: een uitkomstenverzameling, gebeurtenissen en kansen.

1.1 Definities

Bij het uitvoeren van een experiment zijn de resultaten onvoorspelbaar.Meestal kunnen we echter wel de verzameling van alle mogelijke uitkomstenopschrijven. We bekomen dan de uitkomstenverzameling of het univer-sum Ω.Voor ”het drankprobleem” wordt dit Ω = 1, 2, 3, 4, 5, 6.We zullen ons voorlopig beperken tot problemen met een eindig universum.

”2 of meer gooien met een dobbelsteen”, met andere woorden”2, 3, 4, 5of 6 gooien” is een voorbeeld van een (samengestelde) gebeurtenis. Eengebeurtenis is dus een deelverzameling van het universum en bevat 1 of meeruitkomsten van het experiment.Een gebeurtenis met slechts 1 uitkomst noemt men een elementaire ge-beurtenis of elementaire uitkomst. In ”het drankprobleem” is ”1 gooi-en” een voorbeeld van een elementaire gebeurtenis.

Academiejaar 2009-2010 5

Page 20: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 1. OPSTELLEN VAN EEN KANSMODEL

Gebeurtenissen zullen we meestal noteren met hoofdletters, zoals A, B, C.Voorbeeld: A = ”twee of meer gooien” = 2, 3, 4, 5, 6 ⊆ Ω.

Twee gebeurtenissen verdienen speciale aandacht:

De zekere gebeurtenis valt samen met het universum Ω. Zo is hetzeker dat men met een dobbelsteen steeds minder dan 7 gooit.

De onmogelijke gebeurtenis is de lege verzameling ∅. Met eendobbelsteen 7 gooien is een onmogelijke gebeurtenis.

1.2 Kansbegrip

Om het kansmodel te vervolledigen moeten we nog kansen toekennen aande uitkomsten en gebeurtenissen van het experiment. Eerst voeren we degebruikte notatie in:

Notatie

Als A een gebeurtenis is, dan noteren we met P (A) de kans dat gebeurtenisA zich voordoet. Het symbool P staat voor ”Probability”.

Kansregel van Laplace

Om kansen toe te kennen aan de uitkomsten van een experiment kunnen weop verschillende manieren te werk gaan. Als we ons echter beperken tot kans-modellen met een eindig universum waarbij alle uitkomsten even waarschijnlijkzijn, dan mogen we de kansregel van Laplace gebruiken.Bij het gooien met een (onvervalste) dobbelsteen, zoals in ”het drankpro-bleem” is elke uitkomst even waarschijnlijk, dit wil zeggen dat elke uitkomstevenveel kans heeft om op te treden. Omdat het universum Ω bovendien6 uitkomsten bevat, ligt het voor de hand dat de kans van elke uitkomst 1

6bedraagt. Dus:

P (1) = P (2) = P (3) = P (4) = P (5) = P (6) =16.

Bekijk nu de gebeurtenis A = ”2 of meer gooien”. Omdat A zich bij 5 vande 6 uitkomsten voordoet en alle uitkomsten even waarschijnlijk zijn, is:

P (A) =#A#Ω

=56.

We kunnen dit veralgemenen tot de Kansregel van Laplace.

Academiejaar 2009-2010 6

Page 21: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 1. OPSTELLEN VAN EEN KANSMODEL

Als het universum Ω eindig is en als alle uitkomsten even waar-schijnlijk zijn, dan is

P (A) =aantal gunstige uitkomstenaantal mogelijke uitkomsten

=#A#Ω

.

voor elke gebeurtenis A ⊆ Ω.

Om aan te duiden dat alle uitkomsten even waarschijnlijk zijn gebruiktmen het woord ”lukraak”.

Relatieve frequenties

In veel reele situaties is het universum niet eindig of zijn niet alle uitkomsteneven waarschijnlijk. In die gevallen mag de regel van Laplace niet gebruiktworden. Een andere manier om kansen in te voeren is het gebruik vanrelatieve frequenties. Hierbij wordt het experiment een groot aantal keerherhaald en telt men het aantal experimenten waarbij de gebeurtenis Aopduikt. De relatieve frequentie

aantal experimenten waarin A opduiktaantal herhalingen van het experiment

geeft dan een goede benadering voor de werkelijke kans P (A). Hoe groterhet aantal herhalingen, hoe beter de benadering. Omdat het in de praktijkvaak onmogelijk is om een experiment een groot aantal keer uit te voeren,worden computers ingeschakeld om de situatie te simuleren.

1.3 Eigenschappen van kansen

In elk kansmodel volgen de kansen dezelfde wetten. We sommen ze op zonderbewijs.

1. De kans van een gebeurtenis is nooit negatief en nooit groterdan 1.

0 ≤ P (A) ≤ 1 voor elke gebeurtenis A.

2. De som van de kansen van alle elementaire uitkomsten is 1.

P (ω1) + P (ω2) + . . .+ P (ωm) = 1 met Ω = ω1, ω2, . . . ωm.

3. De kans van een gebeurtenis is de som van de kansen vanhaar elementaire gebeurtenissen.

P (A) = P (ω1) + P (ω2) + . . .+ P (ωa) met A = ω1, ω2, . . . , ωa ⊆ Ω.

Academiejaar 2009-2010 7

Page 22: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 1. OPSTELLEN VAN EEN KANSMODEL

4. De zekere gebeurtenis heeft als kans 1.

P (Ω) = 1.

5. De onmogelijke gebeurtenis heeft als kans 0.

P (∅) = 0.

1.4 Samenvatting

Bij het oplossen van een vraagstuk uit de kansrekening stellen we eerst eenkansmodel op. Dit model omvat altijd het universum Ω, de relevante ge-beurtenissen en kansen.In het voorbeeld van ”het drankprobleem” wordt dit

Ω = 1, 2, 3, 4, 5, 6

P (1) = P (2) = P (3) = P (4) = P (5) = P (6) =16

A = ”1 gooien” = 1B = ”2 of meer gooien” = 2, 3, 4, 5, 6

P (A) = P (1) =16

P (B) = P (2) + P (3) + P (4) + P (5) + P (6) =56

=#B#Ω

Academiejaar 2009-2010 8

Page 23: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN

2 Kansen van gecombineerde gebeurtenissen

Door het invoeren van een kansmodel zijn we in staat om vraagstukken uitde kansrekening te formuleren met behulp van verzamelingen. Daardoorkunnen ook combinaties van gebeurtenissen zoals ”A of B”, ”A en B” en”niet A” vertaald worden naar de verzamelingenleer. Er duiken dan be-kende begrippen op zoals unie, doorsnede en complement. In wat volgtzullen we dan ook gebruik maken van Venndiagrammen. Het universum Ωwordt daarbij voorgesteld als een rechthoek met oppervlakte 1. Gebeur-tenissen worden als figuren binnen deze rechthoek getekend en overlappenelkaar als ze gemeenschappelijke uitkomsten hebben.

A

ΩΩΩΩ B

C

Figuur 1.1: Het universum Ω en 3 gebeurtenissen A, B en C

2.1 Kans van de unie - de somregel

Voorbeeld:

Neem als experiment: gooi een (onvervalste) dobbelsteen op.Het universum is Ω = 1, 2, 3, 4, 5, 6 en P (1) = P (2) = P (3) = P (4) =P (5) = P (6) = 1

6 .Stel A is de gebeurtenis ”oneven gooien”, dan is A = 1, 3, 5 en P (A) = 3

6 .Stel B is de gebeurtenis ”minstens 4 gooien”, dan is B = 4, 5, 6 enP (B) = 3

6 .

De unie van A en B is de gebeurtenis ”oneven gooien of minstens 4 gooi-en”.

A ∪B = 1, 3, 4, 5, 6

P (A ∪B) =566=1 =

36

+36

= P (A) + P (B)

Als we naar het Venndiagram kijken, kunnen we ontdekken waarom P (A ∪B) 6= P (A)+P (B). Bij het optellen van de kansen P (A) en P (B) worden de

Academiejaar 2009-2010 9

Page 24: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN

uitkomsten in de doorsnede van A en B dubbel geteld. Deze dubbele tellingdient dus in de formule voor P (A ∪ B) gecompenseerd te worden door ereen keer de kans P (A ∩B) van af te trekken. We vinden inderdaad:

P (A ∪B) =56

=36

+36− 1

6= P (A) + P (B)− P (A ∩B)

Dit is de somregel:

B A

A en B ΩΩΩΩ

Figuur 1.2: Venndiagram met elkaar overlappende gebeurtenissen

P(A ∪B) = P(A) + P(B)−P(A ∩B).

Bijzonder geval:

Als A ∩B = ∅, dan zal P (A ∪B) = P (A) + P (B).

Als de doorsnede van A en B leeg is, dan kunnen de gebeurtenissen niet

B A

ΩΩΩΩ

Figuur 1.3: Venndiagram met elkaar uitsluitende gebeurtenissen

gelijktijdig optreden (zie figuur). Men spreekt dan over elkaar uitsluiten-de gebeurtenissen.

Academiejaar 2009-2010 10

Page 25: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN

Besluit:Alleen bij elkaar uitsluitende gebeurtenissen mag men voor dekans van de unie de kansen bij elkaar optellen.

2.2 Kans van het complement

Voorbeeld:

Neem als experiment: gooi een (onvervalste) dobbelsteen op.Dan is Ω = 1, 2, 3, 4, 5, 6 en P (1) = P (2) = P (3) = P (4) = P (5) = P (6) =16 .Stel A is de gebeurtenis ”zes gooien”, dan is A = 6Het complement van A is het verschil tussen het universum Ω en A. Wevinden dus:

Ac = Ω \A = ”geen zes gooien” = 1, 2, 3, 4, 5.

Op de figuur kunnen we duidelijk zien dat

A ∪Ac = Ω en A ∩Ac = ∅.

Toepassing van de somregel voor elkaar uitsluitende gebeurtenissen geeftdan

1 = P (Ω) = P (A ∪Ac) = P (A) + P (Ac)

zodatP (Ac) = 1− P (A) = 1− 1

6=

56.

In het algemeen geldt:P(Ac) = 1−P(A).

Ac

A

ΩΩΩΩ

Figuur 1.4: Een gebeurtenis A en haar complement Ac

Academiejaar 2009-2010 11

Page 26: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN

Het oplossen van heel wat oefeningen wordt eenvoudiger dankzijde complementregel. Wanneer het berekenen van de kans vanP(A) van een gebeurtenis A moeilijk verloopt, loont het de moeiteom de kans P(Ac) van het complement proberen uit te rekenen.Vaak is dat rekenwerk heel wat lichter en door de complementregelkan men heel eenvoudig overgaan van P(Ac) naar P(A).

2.3 Voorwaardelijke kansen

Kansen kunnen veranderen naarmate men meer voorkennis heeft of naar-mate bepaalde voorwaarden voldaan zijn. We hebben dan te maken metvoorwaardelijke kansen.

Notatie

AlsA enB gebeurtenissen zijn, dan noteren we met P (A | B) de (voorwaarde-lijke) kans dat A zich voordoet als B reeds is opgetreden.

Voorbeelden:

De kans dat het regent wordt groter als het bewolkt is.

De kans om met een dobbelsteen 6 te gooien verandert als men weetdat men even gegooid heeft. Immers, met een dobbelsteen kan je1,2,3,4,5 of 6 gooien, maar als men weet dat men even gegooid heeft,betekent dit dat men 2,4 of 6 gegooid heeft. De kans om, als je evengegooid hebt, met de dobbelsteen 6 te gooien verandert van 1

6 in 13 .

Uitgewerkt voorbeeld:

Stel dat in een zak 3 witte broodjes respectieveljk met ham, kaas en salamien 2 bruine broodjes respectievelijk met ham en kaas zitten. Kies lukraakeen broodje. Bereken de kans dat het een broodje is met kaas. Bereken ookde kans dat het een broodje is met kaas, als je in een glimp zag dat het eenwit broodje was.We stellen het volgende kansmodel op:Ω = broodjes #Ω = 5A = broodjes met kaas #A = 2B = witte broodjes #B = 3A ∩B = witte broodjes met kaas #(A ∩B) = 1Omdat je lukraak een broodje trekt hebben alle broodjes dezelfde kans. Dekansregel van Laplace geeft dus:

P (broodje met kaas) = P (A) =#A#Ω

=25

Academiejaar 2009-2010 12

Page 27: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN

Als je in een glimp ziet dat het broodje wit is, dan is er maar een broodjemet kaas dat in aanmerking komt, zodat

P (broodje met kaas | wit broodje) = P (A | B) =13

=#(A ∩B)

#B=

#(A∩B)#Ω#B#Ω

=P (A ∩B)P (B)

B A

A en B ΩΩΩΩ

B A

A en B ΩΩΩΩ

Figuur 1.5: Voorwaardelijke kansen met Venndiagrammen

Definitie

Als de kansen van A en B niet 0 zijn, dan definieert men de voorwaarde-lijke kansen

P(A | B) =P(A ∩B)

P(B)=

de kans van de doorsnedede kans van de voorwaarde

enP(B | A) =

P(A ∩B)P(A)

=de kans van de doorsnede

de kans van de voorwaarde

Academiejaar 2009-2010 13

Page 28: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN

2.4 Onafhankelijkheid

Voorbeelden:

In het voorbeeld van de broodjes verandert de kans naarmate we meervoorkennis hebben. Immers,

P (A) = P (broodje met kaas) =25

terwijl

P (A | B) = P (broodje met kaas | wit broodje) =13.

Het al dan niet voorkomen van gebeurtenis B beınvloedt dus de kansvan gebeurtenis A. We zeggen dat A en B afhankelijke gebeurtenis-sen zijn.

De kans om 6 te gooien met een dobbelsteen verandert niet als meneerst kop gooit met een muntstuk. We zeggen dat de gebeurtenissen”6 gooien” en ”kop gooien” onafhankelijk zijn.

Definitie

Stel dat de kansen van A en B niet nul zijn. Dan is B onafhankelijk vanA als en slechts als

P(B | A) = P(B).

Men kan aantonen dat als B onafhankelijk is van A, dan ook A onafhankelijkis van B zodat dan ook

P(A | B) = P(A).

Onafhankelijke gebeurtenissen zijn dus gebeurtenissen waarbij hetal dan niet voorkomen van de ene gebeurtenis de kans van hetoptreden van de andere gebeurtenis niet beınvloedt.

2.5 Kans van de doorsnede - de productregel

Als A en B gebeurtenissen zijn dan kan men de gebeurtenis A en B weer-geven door de verzameling A ∩B.Uit de definitieformules voor voorwaardelijke kansen

P (B | A) =P (A ∩B)P (A)

en P (A | B) =P (A ∩B)P (B)

bekomen we door eenvoudig rekenwerk formules voor de kans van de door-snede:

P(A ∩B) = P(A) ·P(B | A) = P(B) ·P(A | B).

Academiejaar 2009-2010 14

Page 29: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN

Men noemt dit de productregel omdat de kans van de doorsnede hierbijwordt uitgedrukt als een product van twee kansen.

Bijzonder geval:Als de gebeurtenissen A en B onafhankelijk zijn, dan is

P (A | B) = P (A) en P (B | A) = P (B)

en herleidt de productregel zich tot

P(A ∩B) = P(A) ·P(B).

Onthoud dat we deze eenvoudige formule alleen mogen gebruiken als A enB onafhankelijk zijn !

Voorbeelden:

Veronderstel dat men na elkaar een muntstuk en een dobbelsteen op-gooit. Wat is de kans dat men met het muntstuk kop gooit en met dedobbelsteen 4?Stel A = ”kop gooien” en B = ”4 gooien”. Omdat een muntstuk eneen dobbelsteen elkaar niet beınvloeden zijn de gebeurtenissen onaf-hankelijk. Het bijzonder geval van de productregel geeft dus:

P (kop,4) = P (A ∩B) = P (A) · P (B) =12· 1

6=

112.

Trek lukraak twee speelkaarten uit een boek (zonder teruglegging).Wat is de kans dat je eerst schoppen heer en daarna klaveren dametrekt?Stel

A = eerste kaart is schoppen heer

enB = tweede kaart is klaveren dame .

Als men de kaarten niet teruglegt is de uitslag van de tweede trekkingafhankelijk van de uitslag van de eerste trekking. De gebeurtenissenA en B zijn dus afhankelijk. We gebruiken dus de algemene vorm vande productregel:

P (A ∩B) = P (A) · P (B | A).

Bij de eerste trekking zijn er 52 kaarten waaronder schoppen heer.Omdat men lukraak trekt zijn alle kaarten even waarschijnlijk zodatP (A) = 1

52 .

Academiejaar 2009-2010 15

Page 30: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN

Als men de eerste keer schoppen heer trekt, zijn er bij de tweede trek-king nog 51 kaarten over waaronder klaveren dame. Omdat men op-nieuw lukraak trekt zijn de 51 kaarten weer even waarschijnlijk. Wevinden dus dat P (B | A) = 1

51 .Dus is

P (A ∩B) = P (A) · P (B | A) =152· 1

51≈ 0.000377

Opmerking:De productregel kan eenvoudig worden uitgebreid worden voor 3 gebeurte-nissen.

Productregel voor 3 onafhankelijke gebeurtenissen A,B en C:

P (A ∩B ∩ C) = P (A) · P (B) · P (C).

Productregel voor 3 niet onafhankelijke gebeurtenissen A,B enC:

P (A ∩B ∩ C) = P (A) · P (B | A) · P (C | A ∩B).

Voorbeeld:Van 480 studenten is 75 % man. Van deze mannen rookt 25 % en van dezemannelijke rokers is 40 % op kot. Als je lukraak een student kiest, danbedraagt de kans dat het een mannelijke roker is die op kot zit 0.75 · 0.25 ·0.40 = 0.075.

Academiejaar 2009-2010 16

Page 31: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 3. DE KANSBOOM

3 De kansboom

Het tekenen van een kansboom is een eenvoudig en interessant hulpmiddelom vlot oefeningen op te lossen.

Voorbeeld 1: kansboom van een dobbelsteenIn de kansboom vinden we 6 takken die allen even waarschijnlijk zijn. Jekan met de dobbelsteen 1,2,3,4,5 of 6 gooien telkens met een kans van 1 op6. We schrijven deze (gewone) kansen bij de takken van de kansboom.

1

2

5

3

6

4

1/6

1/6

1/6

1/6

1/6

1/6

OF

Hoe kan je nu de kans zoeken om even te gooien?Even gooien komt overeen met 2 gooien of 4 gooien of 6 gooien. Volgensde somregel is:

P (even gooien) = P (2) + P (4) + P (6) =36

Besluit:Als vanuit het startpunt verschillende takken goed zijn (OF), danmoet je de kansen van deze takken optellen.

Opmerking:Zeg nooit dat ”even gooien” gelijk is aan 2 gooien en 4 gooien en 6 gooi-en. En betekent wiskundig terzelfdertijd. Als je de dobbelsteen 1 keeropgooit, kan je onmogelijk terzelfdertijd 2,4 en 6 gooien.

Voorbeeld 2:In een zak zitten 2 rode en 3 blauwe knikkers. Kies lukraak een knikker uitde zak. De kansboom van dit experiment is:

Academiejaar 2009-2010 17

Page 32: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 3. DE KANSBOOM

rode knikker

blauwe knikker

2/5

3/5

Voorbeeld 3:Stel dat in een zak 3 witte broodjes respectievelijk met ham, kaas en salamien 2 bruine broodjes respectievelijk met ham en kaas zitten. Kies lukraakeen broodje. Hier maken we het onderscheid tussen de broodsoort en hetbeleg.

met ham

met kaas 3/5

1/3

met salami

met kaas

met ham bruin brood

wit brood 1/3

1/3

1/2

1/2

2/5

Bij de eerste takken staan gewone kansen maar bij de volgende takken wor-den voorwaardelijke kansen ingevuld volgens de formule van Laplace.Bij het tekenen van een kansboom speelt dikwijls een tijdsverloop: eerst kijkje of het broodje wit of bruin is en daarna doe je het open om het beleg tezien.Merk op dat als je weet dat het een bruin broodje is, er geen salami op kanzijn.

Academiejaar 2009-2010 18

Page 33: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 3. DE KANSBOOM

Hoe kan de kansboom ons helpen om oefeningen op te lossen?Neem vorige kansboom en maak het product van 2 opeenvolgende takken.Wat is de betekenis van het resultaat? Vermits de eerste kans een gewonekans is en de volgende een voorwaardelijke kans, maken we volgend product:P (A) · P (B | A). Volgens de productregel is dit gelijk aan P (A ∩ B). Hetproduct van de kansen bij opeenvolgende takken van een kansboom geeft dekans van hun doorsnede.

De kansboom kan uitgebreid worden: bij de eerste tak van de kansboomkomt een gewone kans, bij de volgende takken komen voorwaarde-lijke kansen.

B C A P(CA∩∩∩∩B) P(BA) P(A)

P (A) · P (B | A) · P (C | A ∩B) = P (A ∩B ∩ C)

Als je de kansen van opeenvolgende takken van een kansboom ver-menigvuldigt dan krijg je automatisch de kans van hun doorsnede.Zo kan je het opschrijven van ingewikkelde, lange formules ver-mijden.

Je moet niet altijd de volledige kansboom tekenen. Het deel dat je no-dig hebt, volstaat. Als je enkel geınteresseerd bent in de kans van A ∩ B,dan teken je:

B A P(BA) P(A)

P (A) · P (B | A) = P (A ∩B)

In de kansboom geeft onafhankelijkheid:

B A P(B) P(A)

P (A) · P (B) = P (A ∩B)

Vooral bij het herhalen van experimenten kan de kansboom inzicht geven inde formules. Hierbij zullen wij slechts de takken van de kansboomtekenen die wij nodig hebben.

Academiejaar 2009-2010 19

Page 34: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 3. DE KANSBOOM

Pas op voor volgende oefening:Trek lukraak 2 kaarten uit een gewoon kaartspel. Wat is de kans dat deeerste kaart een aas is en de tweede kaart rood? (Veronderstel dat we dekaarten niet terugleggen).

de tweede kaart is rood de eerste kaart is een aas ? 4/52

De voorwaardelijke kans kan je niet invullen omdat je niet weet of de eerstekaart een zwarte of een rode aas was. Toch kan je de oefening oplossendoor volgende 2 gebeurtenissen die elkaar niet overlappen te bekijken:(de eerste kaart is een rode aas en de tweede kaart is rood) ofwel (de eerstekaart is een zwarte aas en de tweede kaart is rood).

de tweede kaart is rood de eerste kaart is een rode aas 25/51

de tweede kaart is rood de eerste kaart is een zwarte aas 26/51 2/52

2/52

De gevraagde kans is

252· 25

51+

252· 26

51=

252

=126.

Academiejaar 2009-2010 20

Page 35: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.4. STOCHASTISCHE VERANDERLIJKEN EN HUN

KANSVERDELING

4 Stochastische veranderlijken en hun kansverde-ling

Stochastishe veranderlijken zijn toevalsveranderlijken.

Voorbeeld:Experiment: gooi een dobbelsteen op.Het aantal ogen dat je gooit wordt door het toeval bepaald. Als X dit aantalogen voorstelt, dan wordt X een toevalsveranderlijke genoemd.

4.1 Kansverdeling van 1 stochastische veranderlijke

De kansverdeling van X geeft de kans voor elke waarde van detoevalsveranderlijke X.Het begrip kansverdeling van X is zeer belangrijk:

1. Zoek welke waarden X kan aannemen.

2. Zoek hoe de kansen verdeeld zijn over deze X-waarden.

Voorbeeld:Bij het experiment ”gooi en dobbelsteen op” is de kansverdeling:

k P (X = k)1 1/62 1/63 1/64 1/65 1/66 1/6

1

Opmerking:In hoofdstuk 3 komen twee belangrijke kansverdelingen aan bodnamelijk de binomiale verdeling en de normale verdeling.

4.2 De gezamenlijke kansverdeling van 2 stochastische ver-anderlijken

Voorbeeld:Veronderstel dat er een enquete wordt afgenomen onder 51 studenten van2TI, waarbij gevraagd wordt naar een aantal persoonlijke gegevens. Kieslukraak een student uit 2TI die deelgenomen heeft aan de enquete.X is het antwoord op de vraag ”Is de student op kot?” en Y het antwoordop de vraag ”Rookt de student?”.De 51 ruwe gegevens zijn (slechts enkele gegevens vind je hier terug):

Academiejaar 2009-2010 21

Page 36: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.4. STOCHASTISCHE VERANDERLIJKEN EN HUN

KANSVERDELING

De eerste student is noch kotstudent noch roker dus:(x1, y1) = (niet kot, niet roker)(x2, y2) = (niet kot, roker)· · ·(x51, y51) = (kot, niet roker).

X kan slechts 2 waarden aannemen x′1 = kotstudent of x′2 = geen kot-student.Y kan slechts 2 waarden aannemen y′1 = roker of y′2 = geen roker.

P (X = x′1, Y = y′1) stelt de kans voor dat de student kotstudent en ro-ker is. Dergelijke kans wordt een gezamenlijke kans genoemd.

De tabel die alle gezamenlijke kansen bevat, wordt de gezamenlijke kans-verdeling van X en Y genoemd.Zoek hiervoor P (X = x′i, Y = y′i) waarbij i = 1, 2 en j = 1, 2. Dit geeftconcreet:

P (X = x′i, Y = y′j) y′j roker geen rokerx′i

kotstudent 5/51 16/51geen kotstudent 8/51 22/51

Betekenis: 5 op de 51 studenten zijn op kot en roken m.a.w. de kans dateen lukraak gekozen student op kot is en rookt is ongeveer 10%.

De kansverdeling van X en Y afzonderlijk vind je door aan de randhorizontaal en verticaal de sommen te maken. Deze verdelingen wordendaarom de marginale verdelingen genoemd.

P (X = x′i, Y = y′j) y′j roker geen roker P (X = x′i)x′i

kotstudent 5/51 16/51 21/51geen kotstudent 8/51 22/51 30/51P (Y = y′j) 13/51 38/51 51/51

Betekenis: de kans dat een lukraak gekozen student op kot woont, is 21 op51 of ongeveer 41% van de studenten is op kot.

Algemeen:

P (X = x′i) = P (X = x′i, Y = y′1)+P (X = x′i, Y = y′2)+. . .+P (X = x′i, Y = y′m)

P (Y = y′j) = P (X = x′1, Y = y′j)+P (X = x′2, Y = y′j)+. . .+P (X = x′n, Y = y′j)

Academiejaar 2009-2010 22

Page 37: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.4. STOCHASTISCHE VERANDERLIJKEN EN HUN

KANSVERDELING

Berekenen van voorwaardelijke kansen

De kans dat een lukraak gekozen student rookt als deze student op kot is, isgelijk aan 5/21 ≈ 24%. Er zijn 2 mogelijkheden om deze kans te berekenen:

1. De eenvoudigste werkwijze gebruikt de regel van Laplace maar je moetdan wel beschikken over de aantallen.

aantal gunstigeaantal mogelijke

=aantal kotstudenten die roken

aantal kotstudenten=

521

2. Beschik je over de kansen dan gebruik je

kans van de doorsnedekans van de voorwaarde

=5512151

=521

Onafhankelijke stochastische veranderlijken

Bij onafhankelijke gebeurtenissen is volgens de productregel:

P (A ∩B) = P (A) · P (B)

Vandaar dat X en Y onafhankelijk zijn als voor alle x′i en y′j de gezamenlijkekans van X en Y gelijk is aan het product van de marginale kansen. Dus:

X en Y zijn onafhankelijkm

P (X = x′i, Y = y′j) = P (X = x′i) · P (Y = y′j) voor elke i en j.

Enkele uitgewerkte gezamenlijke kansverdelingen

Voorbeeld 1:Kies lukraak een student 2TI die meegedaan heeft aan de enquete. Stel X =”het aantal ongevallen als fietser” en Y = ”het geslacht”. Zijn de meisjesvan 2TI voorzichtiger op de fiets dan de jongens?

De gezamenlijke kansverdeling van X en Y en de marginale verdeling krijgje in de volgende tabel.

P (X = x′i, Y = y′j) y′j man vrouw P (X = x′i)x′i

0 ongevallen 6/51 29/51 35/511 ongeval 5/51 6/51 11/51

2 ongevallen 1/51 3/51 4/513 ongevallen 1/51 0 1/51P (Y = y′j) 13/51 38/51 51/51

Academiejaar 2009-2010 23

Page 38: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1.4. STOCHASTISCHE VERANDERLIJKEN EN HUN

KANSVERDELING

Als de student een jongen is, is de kans dat hij als fietser nog geen ongevalgehad heeft gelijk aan 6 op 13 (= 46%). Betreft het een meisje dan is dekans dat zij als fietser nog geen ongeval gehad heeft gelijk aan 29 op 38 (=76%).Een ongeval vinden we terug bij 5 jongens en 6 meisjes. Staar je niet blindop deze aantallen. Bekijk het relatief: 5 van de 13 jongens (= 38.5%) had 1ongeval als fietser tegen 6 van de 38 meisjes (= 15.8%).

Opmerking:1 meer of minder verandert het percentage bij de jongens met 1 op 13 dusbijna 8 procent. Bij de meisjes is dit slechts 1 op 38 dus 3 procent.

Voorbeeld 2:Zijn meisjesstudenten van 2TI meer gemotiveerd dan hun mannelijke colle-ga’s?

Stel X = ”motivatie” (in de enquete vragen we ”Studeer je omdat dit voorje toekomst nu eenmaal moet of omdat je het graag doet?”)Stel Y = ”geslacht”.De gezamenlijke kansverdeling is:

P (X = x′i, Y = y′j) y′j man vrouw P (X = x′i)x′i

moet 8/51 4/51 12/51graag 5/51 34/51 39/51

P (Y = y′j) 13/51 38/51 51/51

Als de student een jongen is, is de kans dat hij ’graag’ heeft geantwoordgelijk aan 5 op 13 (≈ 38%). Betreft het een meisje, dan is de kans dat zij’graag’ heeft geantwoord gelijk aan 34 op 38 (≈ 92%).

Academiejaar 2009-2010 24

Page 39: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 5. OEFENINGEN

5 Oefeningen

Reeks 1

1. Drie studenten Jan, Piet en Tom zijn de enige deelnemers aan eenwedstrijd. De kans dat Jan wint is het dubbele van de kans dat Tomwint en Jan en Piet hebben dezelfde kans om te winnen. Er kan slechts1 persoon de wedstrijd winnen. Zoek de kans dat Tom de wedstrijdwint.

2. Een dobbelsteen is zo gewogen dat de kans om een zeker aantal ogente gooien, evenredig is met dit aantal. Zoek de kans om 5 te gooienmet deze dobbelsteen.

3. Op 10 meisjes van een klas zijn er 3 op kot. Men kiest lukraak 2meisjes.

Zoek de kans dat ze beiden op kot zijn.

Zoek de kans dat minstens een van beiden op kot is.

4. In een stad hebben 80 % van de inwoners een TV, 90 % heeft een radioen 75 % heeft een radio en een TV.

Wat is de kans dat als een persoon een radio bezit, deze ook eenTV bezit?

Wat is de kans dat als een persoon een TV bezit, deze geen radiobezit?

5. De kans dat een gehuwde man naar TV kijkt is 0,5 terwijl die kansvoor zijn vrouw 0,7 is. De kans dat een man kijkt als zijn vrouw kijktis 0,6.

Zoek de kans dat beiden naar TV kijken.

Zoek de kans dat alleen de man kijkt.

Zoek de kans dat geen van beiden kijken.

Zoek de kans dat minstens 1 van beiden kijkt.

6. Een doos bevat vier witte en drie zwarte bollen en een tweede doosbevat drie witte en vijf zwarte bollen. Men neemt lukraak een boluit de eerste doos en plaatst deze zonder te zien in de tweede doos.Daarna trekt men lukraak een bol uit de tweede doos.

Teken de kansboom.

Wat is de kans dat deze tweede bol wit is?

Wat is de kans dat beide bollen van verschillende kleur zijn?

Academiejaar 2009-2010 25

Page 40: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 5. OEFENINGEN

7. Een rode doos bevat vier witte en drie zwarte bollen en een blauwedoos bevat drie witte en vijf zwarte bollen. Men kiest lukraak een doosen neemt uit deze doos lukraak een bol.

Wat is de kans dat de getrokken bol wit is?

Wat is de kans dat je de blauwe doos kiest en hieruit een wittebol neemt.

Wat is de kans dat je een witte bol trekt als je de blauwe dooskoos?

8. Gooi een dobbelsteen op. Als je meer dan 5 gooit, moet je lukraak eenbal trekken uit een bak die 3 groene en 7 rode ballen bevat. Andersmoet je lukraak een bal trekken uit een bak die 6 groene en 4 rodeballen bevat. Wat is de kans dat je een rode bal trekt?

9. Een bak bevat 5 zwarte en 2 rode ballen. Men trekt lukraak 3 ballen.Hoe groot is de kans om van iedere kleur minstens 1 bal te trekken?

10. Stel: voor elk kind van een gezin met 3 kinderen is de kans op eenjongen gelijk aan de kans op een meisje.

Wat is de kans dat minstens 1 kind uit een gezin met 3 kindereneen meisje is?

Als minstens een kind uit zo’n gezin een meisje is, wat is de kansdat ze allen meisjes zijn?

Wat is de kans dat er precies 2 jongens zijn in zo’n gezin?

11. In een doos zitten 5 rode, 4 witte en 1 zwart briefje. Trek lukraak 3briefjes.

Wat is de kans dat alle briefjes dezelfde kleur hebben?

Wat is de kans dat minstens 1 briefje wit is?

Wat is de kans dat je van elke kleur een briefje trekt?

Wat is de kans dat het eerste briefje wit is en de 2 volgende rood?

Wat is de kans dat het eerste briefje wit is en de anderen niet?

12. Werp 2 dobbelstenen op.

Wat is de kans dat de som der ogen van 8 of 12 is?

Wat is de kans dat je 2 zessen gooit als de som der ogen meerdan 9 is?

13. Een doos bevat 5 radiolampen waarvan er 2 defect zijn. Neem lukraak3 lampen. Wat is de kans dat alleen de derde lamp defect is?

Academiejaar 2009-2010 26

Page 41: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 5. OEFENINGEN

14. Trek lukraak 2 kaarten uit een gewoon kaartspel. Wat is de kans datde eerste kaart een heer is en de tweede kaart rood?

15. Gooi 3 keer een muntstuk op. Wat is de kans om minstens 1 keer kruiste gooien?

16. Twee machines produceren respectievelijk 70 % en 30 % van de totaleproductie. Bij deze machines zijn respectievelijk 2 % en 3 % vande geproduceerde stukken defect. Neem lukraak een stuk uit dezeproductie

Wat is de kans dat het defect is? Wat is de kans dat als het stuk defect is, het door de eerst machine

is gemaakt?

17. Hoe groot is de kans dat

in een reeks van 25 studenten iedereen een verschillende verjaar-dag heeft?

minstens 2 studenten op dezelfde dag jarig zijn?

18. Wordt in volgende gezamenlijke kansverdeling de motivatie van eenstudent beınvloed door het al dan niet op kot zijn?

P (Xx′i, Y = y′j) y′j op kot niet op kot P (X = x′i)x′i

moet 13 % 36 % 49 %graag 21 % 30 % 51 %

P (Y = y′j) 34 % 66 % 100 %

Bereken P(graag indien kotstudent). Bereken P(graag indien geen kotstudent).

19. De gezamenlijke kansverdeling van X en Y is:

P (X = x′i, Y = y′j) y′j 1 2 3 4x′i2 0.06 0.06 0.04 0.045 0.15 0.12 0.10 0.137 0.09 0.12 0.06 0.03

Zijn X en Y onafhankelijk?

20. Geef een verdeling voor X en een verdeling voor Y . Stel daarna eengezamenlijke kansverdeling op, waarbij X en Y onafhankelijk zijn.

21. Gooi 2 dobbelstenen op en stel de gezamenlijke kansverdeling op vanhun aantal ogen.

Academiejaar 2009-2010 27

Page 42: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 5. OEFENINGEN

Reeks 2

1. Stel dat er drie deuren A,B en C opgesteld staan. Achter een vande deuren zit een fantastische computer, achter de andere twee zitniks. Zonder verdere informatie mag je een van de drie deuren kiezen.Nadat je je keuze gemaakt hebt, wordt ee van de twee overige deurengeopend en het blijkt dat daar de computer niet zit. Je krijgt nu demogelijkheid om eventueel een andere keuze te maken.Als je bij je eerste keuze blijft, wat is dan de kans dat je de computerwint?Als je je keuze verandert, wat is dan de kans dat je de computer wint?

2. Examenvraag juni 2006Twee dozen zijn gevuld met ballen: in doos 1 zitten 3 witte en 7 zwarteballen, in doos 2 zitten 6 witte en 4 zwarte. Iemand neemt een bal uitdoos 1 en legt hem in doos 2 zonder op de kleur te letten. Vervolgenstrekt hij lukraak een bal uit doos 2.Als deze bal wit is, wat is dan de kans dat hij een witte bal van doos1 in doos 2 had gelegd?

3. We beschouwen een dobbelspel met de volgende regels: een spelergooit twee dobbelstenen. Is het aantal ogen 4, 7 of 11, dan wint hij;is het aantal ogen 2, 3, 5, 6, 9, 10 of 12, dan verliest hij. Gooit hij 8dan moet hij de dobbelstenen voortgooien totdat hij ofwel opnieuw 8gooit, in welk geval hij wint, ofwel 7 gooit, in welk geval hij verliest.Wat is de kans op winst in dit dobbelspel?

4. In een school met 77 personeelsleden wordt een griepvaccinatie geor-ganiseerd. Enkele dagen later houdt men een kleine enqute waarinmen naar het geslacht vraagt en naar eventuele bijwerkingen van degriepvaccinatie. Stel dat de antwoorden als volgt verdeeld zijn:

mannen vrouwenbijwerkingen 15 6

geen bijwerkingen 40 16

(a) Als de veranderlijke X het geslacht voorstelt en de veranderlijkeY het antwoord op de vraag ’bijwerkingen of niet?’, zijn X en Ydan onafhankelijk? Argumenteer je antwoord.

(b) Als je lukraak een van de 77 personeelsleden kiest en het blijktiemand met bijwerkingen te zijn , wat is dan de kans dat het omeen vrouw gaat?

5. Je werkt in een ziekenhuis op de dienst ’Hematologie’. Op zekere dagarriveert er een container met bloedstalen. 35% van die bloedstalen

Academiejaar 2009-2010 28

Page 43: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 5. OEFENINGEN

is van bloedgroep A, 65% van bloedgroep B. In een omslag zitten 15etiketten met een ’A’, 20 etiketten met een ’B’ en 25 etiketten meteen ’O’. Je kiest een willekeurig bloedstaal uit de container en nadientrek je lukraak een etiket uit de omslag.

(a) Teken de (volledige) kansboom van dit experiment.

(b) Als je eerst lukraak een bloedstaal kiest en dan lukraak een etiket,wat is dan de kans dat het bloestaal een verkeerd etiket krijgt?

Academiejaar 2009-2010 29

Page 44: Cursus Statistiek - 2TI - 0910

Hoofdstuk 1. 6. KENNISBASIS STATISTIEK

6 Kennisbasis Statistiek

De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’ Waarschijn-lijkheid en statistiek’.

Kansrekening

Kansrekening > Uitkomst en uitkomstruimte

Kansrekening > Uitkomst en uitkomstruimte > Complement

Kansrekening > Uitkomst en uitkomstruimte > Doorsnede

Kansrekening > Uitkomst en uitkomstruimte > Vereniging

Kansrekening > Kans en kansruimte

Kansrekening > Kans en kansexperiment > Kansdefinitie

Kansrekening > Kans en kansexperiment > Kansexperimenten

Kansrekening > Kans en kansexperiment > Kansvariabelen

Kansrekening > Kans en kansexperiment > Frequentistische kans-model

Kansrekening > Kansregels

Kansrekening > Kansregels > Somregel

Kansrekening > Kansregels > Complementaire kansen

Kansrekening > Kansregels > Algemene somregel

Kansrekening > Kansregels > Productregels

Kansrekening>Kansregels> Productregels>Voorwaardelijke kans

Kansrekening>Kansregels> Productregels> Simultane en voorwaarde-lijke kansen

Kansrekening > Kansregels > Productregels > Algemene product-regel

Kansrekening > Kansregels > Productregels > Productregel vooronafhankelijke gebeurtenissen

Kansrekening > Kansregels > Productregels > Onafhankelijkheid

Academiejaar 2009-2010 30

Page 45: Cursus Statistiek - 2TI - 0910

2Beschrijvende statistiek

31

Page 46: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 1. INLEIDING

1 Inleiding

Van een verzameling personen, dieren of voorwerpen willen wij een eigen-schap observeren. Meestal beschikken wij slechts over de observaties vaneen deelverzameling. Een fabriek is bijvoorbeeld geınteresseerd in de le-vensduur van een productie lampen. Om nog zoveel mogelijk lampen tekunnen verkopen, observeert men de levensduur van een beperkt aantal -lukraak gekozen - lampen van deze productie. De volledige verzamelingnoemt men de populatie en de deelverzameling hiervan een steekproef. Debeschrijvende statistiek probeert de geobserveerde gegevens van de populatieof de steekproef te verwerken.

De beschrijvende statistiek

zal de gegevens samenvatten in een frequentietabel,

zal tekeningen maken om een snelle interpretatie van de gegevensmogelijk te maken,

zal het centrum van de gegevens zoeken,

zal de spreiding van de gegevens bekijken.

1.1 Soorten veranderlijken

Nemen we als populatie “de studenten 2TI die meegedaan hebben aan eenenquete”. In deze enquete vroegen we naar het geboortejaar, het geslacht, delengte, de bloedgroep, ... De observaties veranderen van persoon tot persoon.Geboortejaar, geslacht, lengte en bloedgroep zijn dus veranderlijken. Wijkunnen het onderscheid maken tussen:

De kwantitatieve en de kwalitatieve veranderlijke

Het geboortejaar en de lengte zijn kwantitatieve veranderlijken omdat hetcijfergegevens zijn.Het geslacht (man of vrouw) en de bloedgroep (A,B, AB of O) zijn kwalita-tieve veranderlijken omdat het geen cijfergegevens zijn.

De discrete en continue veranderlijke

Zowel de kwalitatieve als de kwantitatieve veranderlijke kan discreet of conti-nu zijn. Bij een discrete variabale zijn er hiaten tussen de mogelijke waarden.Bij een continue variabele zitten er tussen elke twee willekeurige waardennog mogelijkheden.Bij de kwalitatieve variabelen is de bloedgroep een discrete variabele omdater slechts vier mogelijke bloedgroepen zijn. De haarkleur is een continue

Academiejaar 2009-2010 32

Page 47: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 1. INLEIDING

kwalitatieve variabele omdat er oneindig veel tussenschakeringen zijn.Bij de kwantitatieve variabelen zijn het geboortejaar en het aantal jongensdiscrete variabelen. De lengte daarentegen is een continue kwantitatieve va-riabele, maar door haar af te ronden geven wij haar een discreet uitzicht.Tellingen zullen altijd discrete variabelen geven. Metingen zijn continu enworden steeds afgerond.

Academiejaar 2009-2010 33

Page 48: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 2. DISCRETE GEGEVENS

2 Discrete gegevens

Nemen we als populatie “de studenten die meegedaan hebben aan de sep-temberzittijd van het tweede jaar informatica in het jaar ...”. Wij observerende punten voor statistiek van deze studenten. “De punten voor statistiek” iseen discrete kwantitatieve variabele. Wij noteren de naam van deze veran-derlijke met de hoofdletter X, wat inhoudt dat men overal X mag vervangendoor de tekst “de punten voor statistiek”. De ruwe fictieve gegevens zijn:

17 13 14 9 4 17 12 14 13 811 15 12 17 13 15 12 16 12 1510 3 15 10 8 13 13 9 2 135 10 5 9 11 10 17 16 8 14

Tabel 2.1: Ruwe gegevens: punten voor statistiek.

Voor de concrete waarnemingsgetallen van de variabele X gebruiken wij dekleine letter x.

x1 = 17, x2 = 13, x3 = 14, x4 = 9, x5 = 4...

De grootte van de populatie noteren wij met m. De populatiegrootte m isgelijk aan 40 studenten.

2.1 De frequentietabel

De eerste opdracht van de beschrijvende statistiek bestaat erin de gegevenssamen te vatten in een tabel: de frequentietabel. Voor de ruwe gegevens uittabel 2.1 wordt de frequentietabel afgebeeld in tabel 2.2.

De verschillende mogelijkheden en hun rangnummer

Als wij de ruwe gegevens bekijken, stellen wij vast dat alleen 2, 3, 4, 5, 8, 9,10, 11, 12, 13, 14, 15, 16 en 17 als punten voor statistiek voorkomen. Vande 40 gegevens zijn er slechts 14 verschillend. Het aantal verschillende voor-komende gegevens noteren we door q. Dus hier is q = 14. Het rangnummeri kan bijgevolg nooit groter zijn dan q.x′i stelt de i-de voorkomende mogelijkheid voor. In dit voorbeeld wordt dit:

x′1 = 2, x′2 = 3, x′3 = 4, ...

De frequentie en de cumulatieve frequentie

Indien we de voorkomende gegevens turven, bekomen we het aantal keer datx′i voorkomt. Dit aantal wordt de absolute frequentie van x′i genoemd. Wijnoteren dit met het symbool fi. Zo vertelt de absolute frequentie dat vierstudenten 17 op 20 behalen.

Academiejaar 2009-2010 34

Page 49: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 2. DISCRETE GEGEVENS

i x′i Turven fi Fi ri (%) Ri (%)1 2 | 1 1 2,5 2,52 3 | 1 2 2,5 5,03 4 | 1 3 2,5 7,54 5 || 2 5 5,0 12,55 8 ||| 3 8 7,5 20,06 9 ||| 3 11 7,5 27,57 10 |||| 4 15 10,0 37,58 11 || 2 17 5,0 42,59 12 |||| 4 21 10,0 52,5

10 13 |||||| 6 27 15,0 67,511 14 ||| 3 30 7,5 75,012 15 |||| 4 34 10,0 85,013 16 || 2 36 5,0 90,014 17 |||| 4 40 10,0 100,0

40 100,0

Tabel 2.2: Frequentietabel: punten voor statistiek

Om vlug fouten te detecteren (zoals een gegeven ontbreekt of werd 2 keergeturfd), controleren we dat:

f1 + f2 + . . .+ fq = m

m.a.w. de som van de absolute frequenties van alle verschillende mogelijk-heden moet gelijk zijn aan de populatiegrootte.Per definitie is de i-de cumulatieve frequentie de som van de i-de frequentieen alle voorgaande frequenties:

Fi = f1 + f2 + . . .+ fi

Zo vertelt F6 dat 11 studenten een onvoldoende hebben voor statistiek.Aangezien Fq de som is van alle frequenties, moet Fq = m.

De relatieve en de cumulatieve relatieve frequentie

Vragen zoals “Hebben veel studenten 17 op 20?” en “Zijn er veel studentengebuisd?”, hangen af van de populatiegrootte. Daarvoor definieren we enkelegrootheden die onafhankelijk zijn van de populatiegrootte.De relatieve frequentie, ri, bekomen wij door de absolute frequentie te delendoor de populatiegrootte.

ri =fim

Meestal drukt men de relatieve frequentie uit in procenten. Via de relatievefrequentie vinden wij dat 4 op de 40 studenten 17 op 20 heeft, m.a.w. 10%van de studenten behaalt 17 op 20 voor statistiek.

Academiejaar 2009-2010 35

Page 50: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 2. DISCRETE GEGEVENS

De som van alle relatieve frequenties is gelijk aan 1 (of 100%). Omwille vanafrondingsfouten zal het resultaat meestal ongeveer gelijk aan 1 zijn.De cumulatieve relatieve frequentie bekomen we door de absolute cumula-tieve frequentie te delen door het totaal aantal gegevens. Zij wordt ook inprocenten uitgedrukt. Zo heeft 27,5% van de studenten een onvoldoendevoor statistiek.

2.2 Grafische voorstellingen

De frequentietabel is een goed hulpmiddel om de onoverzichtelijkheid vande ruwe gegevens te ordenen. Een tweede mogelijkheid om de gegevens tekunnen bestuderen is de gegevens grafisch voor te stellen. Met de grafischevoorstelling kan de lezer in een oogopslag belangrijke conclusies trekken uitde beschikbare gegevens. We bespreken kort enkele veel gebruikte soortendiagrammen.

Het staafdiagram

Het meest voorkomend diagram is het staafdiagram. Er zijn verschillendestaafdiagrammen: verticaal, horizontaal, geclusterd of gestapeld.Bij dit type grafiek worden de verschillende gegevens uitgezet op de x-as,bijeen vertikaal staafdiagram, of op de y-as, bij een horizontaal staafdiagram.De lengte van de staaf komt overeen met het aantal keer dat het gegevenvoorkomt, m.a.w. de absolute frequentie.

Figuur 2.1: Een staafdiagram van de punten voor statistiek

In figuur 2.1 valt onmiddelijk op dat 13 punten het meest voorkomt en datniemand meer dan 17 op 20 heeft. Ook abnormaliteiten vallen onmiddelijkop. Zo heeft niemand een 6 of 7 gescoord.

Academiejaar 2009-2010 36

Page 51: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 2. DISCRETE GEGEVENS

Het taartdiagram

Een ander populaire voorstelling is het taartdiagram zoals in figuur 2.2 weer-gegeven. De totale oppervlakte van de taart is 100%. De taart wordt ver-deeld in een aantal sectoren dat overeenkomt met het aantal verschillendegegevens. De oppervlakte van elk taartstuk is evenredig met de relatievefrequentie.

1

2

3

4

5

6

7

1024x7681280x1024

800x600

ongekend

1152x8641600x1200

640x480

Figuur 2.2: De verdeling van de resoluties bij de surfers voor augustus 2006(bron: http://www.thecounter.com)

Het pictogram

Een derde voorstelling is het pictogram. Bij een pictogram worden figurengebruikt om het aantal aan te duiden. In figuur 2.3 komt een figuur overeenmet vijf studenten. Om minder dan vijf studenten weer te geven, wordt defiguur afgesneden.

Figuur 2.3: Wijze waarop een student naar de universiteit gaat (bron:http://www.cll.coventry.ac.uk/Volume/Vol0/stacpic.htm)

Academiejaar 2009-2010 37

Page 52: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 2. DISCRETE GEGEVENS

Een pictogram wordt vooral gebruikt in situaties waar men ook het staaf-diagram kan gebruiken. Een pictogram fleurt de boel wat extra op.

Het spreidingsdiagram

In een spreidingsdiagram wordt gezocht naar de samenhang tussen tweevariabelen. Voor een spreidingsdiagram verzamelt men de gegevens vantwee variabelen. De gegevens vormen dus steeds koppels. Een variabelewordt op de x-as aangeduid, de andere op de y-as. Op het belang van hetspreidingsdiagram en de samenhang tussen twee variabelen komen we laternog terug.

Figuur 2.4: Het verband tussen de lengte en het gewicht van de studenten2 TI.

2.3 Het centrum van de gegevens

Een derde taak van de beschrijvende statistiek is kenmerkende getallen voorhet centrum van de gegevens zoeken.

De modus

De modus is het gegeven met de grootste frequentie. Het kan gebeuren dater 2 modussen zijn; Men spreekt dan van een bimodaal. Komen alle gegevensevenveel voor, dan is er geen modus.De modus is vooral geschikt voor kwalitatieve gegevens.Voor de punten vanstatistiek is de modus gelijk aan 13 omdat 13 op 20 het meest voorkomt. Inhet staafdiagram in figuur 2.1 valt de modus onmiddellijk op.

De mediaan

De mediaan is het middelste gegeven wanneer de gegevens geordend zijn vanklein naar groot. Bij een even aantal gegevens zijn er 2 middelsten en de

Academiejaar 2009-2010 38

Page 53: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 2. DISCRETE GEGEVENS

mediaan is dan de helft van de som van de 2 middelste gegevens.Voor de punten statistiek is de mediaan (12 + 12)/2 = 12. Bij het zoekennaar de mediaan is het noodzakelijk de gegevens te ordenen. In een tabelzijn de gegevens geordend en de cumulatieve frequentie geeft snel de waardevan de middelste gegevens.De mediaan gebruikt alleen de middelste gegevens en laat dus veel informatieverloren gaan. Daar tegenover staat dat de mediaan geen last heeft vanextreme gegevens.

Het rekenkundig gemiddelde

Het rekenkundig gemiddelde is de som van alle gegevens gedeeld door hetaantal gegevens.De notatie voor het rekenkundig gemiddelde is:

µX voor de gegevens van de populatie.

X voor de gegevens van een steekproef.

Het gebruik van Griekse letters geeft steeds aan dat wij met de gegevensvan een populatie te doen hebben. Als er slechts sprake is van een variabeleschrijven wij meestal µ in plaats van µX

Het rekenkundig gemiddelde bij ruwe gegevens xi

De ruwe gegevens zijn de gegevens zoals ze zich voordoen, m.a.w. de gege-vens zijn dan nog niet gerangschikt in een tabel.Voor de eenvoud nemen wij een kleine populatie met als ruwe gegevens: 5,2, 4, 6, 4, 6, 6 en 7. Het rekenkundig gemiddelde is:

µ =5 + 2 + 4 + 6 + 4 + 6 + 6 + 7

8=

408

= 5

Algemeen kunnen we zeggen:

µ =x1 + x2 + . . .+ xm

m(2.1)

Het rekenkundig gemiddelde van getabelleerde gegevens

Wij kunnen bovenstaande gegevens rangschikken van klein naar groot. Ditverandert het gemiddelde niet want de optelling is commutatief. We krijgen:2, 4, 4, 5, 6, 6, 6, 7. Nu zijn 2, 4, 5, 6 en 7 de verschillende voorkomendegegevens. Zij komen respectievelijk 1, 2, 1, 3 en 1 keervoor.

µ =2 + 4 + 4 + 5 + 6 + 6 + 6 + 7

8

=2 · 1 + 4 · 2 + 5 · 1 + 6 · 3 + 7 · 1

8

Academiejaar 2009-2010 39

Page 54: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 2. DISCRETE GEGEVENS

=408

= 5

Algemeen kunnen we zeggen:

µ =x′1 · f1 + x′2 · f2 + . . .+ x′q · fq

m(2.2)

waarbij q het aantal verschillende gegevens, x′i het i-de voorkomende gege-ven, fi de frequentie van x′i en m het totaal aantal gegevens is.We kunnen de formule herschrijven met de relatieve frequentie ri(= fi/m):

µ = x′1 · r1 + x′2 · r2 + . . .+ x′q · rq (2.3)

In kansrekening is ri = P (X = x′i) en wordt het gemiddelde:

µ = x′1 · P (X = x′1) + x′2 · P (X = x′2) + . . .+ x′q · P (X = x′q)

In ons voorbeeld van de punten voor statistiek uit tabel 2.1 zijn de kentallenvoor het centrum van de gegevens:

modus 13mediaan 12gemiddelde 11,5

We merken op dat de drie kentallen hier even geschikt zijn om het centrumvan de gegevens weer te geven. Dit is niet altijd het geval: als je het centrumvan de gegevens zoekt moet je controleren of het kental wel degelijk hetcentrum van de gegevens aanduidt.

2.4 De spreiding van de gegevens

Naast het centrum van de gegevens zoekt de beschrijvende statistiek ooknaar de spreiding van de gegevens t.o.v. het rekenkundig gemiddelde.

Het bereik van de gegevens

Bij de punten voor statistiek vinden wij lage en hoge scores. Om de spreidingvan de gegevens gemakkelijk weer te geven kunnen wij het bereik van degegevens berekenen. Het bereik (de range) is het grootste gegeven min hetkleinste gegeven en is dus zeer eenvoudig te berekenen.Het bereik wordt alleen bepaald door de 2 uiterste gegevens. Het kan echterzijn dat de gegevens dicht bij mekaar liggen en de spreiding dus klein isterwijl de uiterste waarden toevallig ver van mekaar liggen.

Academiejaar 2009-2010 40

Page 55: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 2. DISCRETE GEGEVENS

De variantie

Een ander kental voor de spreiding dat alle gegevens gebruikt is de variantie.Zij onderzoekt of de gegevens al dan niet dichtbij het gemiddelde liggen. Devariantie bekijkt de gemiddelde kwadratische afwijking van de gegevens tenopzichte van het rekenkundig gemiddelde.Voor de populatie noteren wij σ2

X (de gekwadrateerde Griekse letter sigma)en voor een steekproef s2

X . Als er slechts 1 variabele is, wordt de index Xweggelaten.Om de spreiding weer te geven, gebruiken we de gemiddelde kwadratischeafwijking daar de gemiddelde afwijking ten opzichte van het rekenkundiggemiddelde onbruikbaar is omdat zij altijd gelijk is aan 0.

De variantie voor ruwe gegevens xi

De variantie kan berekend worden door twee formules:

de definitieformule

σ2 =(x1 − µ)2 + (x2 − µ)2 + . . .+ (xm − µ)2

m(2.4)

de korte formule

σ2 =x2

1 + x22 + . . .+ x2

m

m− µ2 (2.5)

Men kan aantonen dat beide formules aan elkaar gelijk zijn. In de korteformule is de variantie gelijk aan het gemiddelde van de kwadraten van degegevens verminderd met het kwadraat van het gemiddelde van de gegevens.Het voordeel van de korte formule is dat wij gelijktijdig het gemiddelde vande gegevens en het gemiddelde van de kwadraten van de gegevens kunnenzoeken. Dit geeft tijdsbesparing ten opzichte van de definitieformule van devariantie, waar wij eerst het rekenkundig gemiddelde van de gegevens moetenzoeken voor wij de afwijkingen kunnen berekenen t.o.v. het rekenkundiggemiddelde. Bij de definitieformule moeten wij de gegevens twee keer inlezenen daarom is de korte formule erg handig.Het nadeel van de korte formule voor de variantie is dat ze aanleiding kangeven tot substraction cancellation, het verlies aan correcte betekenisvollecijfers bij het uitrekenen van het verschil. We verwijzen hiervoor naar deoefeningen.

De variantie voor getabelleerde gegevens

Stel, de gerangschikte ruwe gegevens zijn: 2 4 4 5 6 6 6 7. De tabel met devoorkomende gegevens en hun bijkomende frequentie is:

Academiejaar 2009-2010 41

Page 56: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 2. DISCRETE GEGEVENS

x′i fi2 14 25 16 37 1

Vertrekkende van de formule voor de ruwe gegevens vinden wij:

σ2 = 2, 25

Bij getabelleerde gegevens is x′i het i-de voorkomende gegeven en fi de bij-horende frequentie.

definitieformule

σ2 =(x′1 − µ)2 · f1 + (x′2 − µ)2 · f2 + . . .+ (x′q − µ)2 · fq

m(2.6)

σ2 = (x′1 − µ)2 · r1 + (x′2 − µ)2 · r2 + . . .+ (x′q − µ)2 · rq (2.7)

korte formule

σ2 =x′1

2 · f1 + x′22 · f2 + . . .+ x′q

2 · fqm

− µ2 (2.8)

σ2 = (x′12 · r1 + x′2

2 · r2 + . . .+ x′q2 · rq)− µ2 (2.9)

De standaardafwijking

Wij noteren σ voor de populatie en s voor de steekproef. Voor de populatieis

σ = +√σ2 (2.10)

en voor de steekproef iss = +

√s2 (2.11)

Het grootste voordeel van de standaardafwijking is dat deze dezelfde eenhe-den heeft als de gegevens.

De variatiecoefficient

De variatiecoefficient V bekijkt de standaardafwijking relatief t.o.v. hetgemiddelde. Een afwijking van 3 cm op een gemiddelde van 10 cm is heelwat meer dan 3 cm op een gemiddelde van 100 cm. De variatiecoefficientwordt meestal in % uitgedrukt, is eenheidsloos maar wordt onbruikbaar alsde noemer ongeveer 0 is.

V =σ

µ(2.12)

Academiejaar 2009-2010 42

Page 57: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 3. CONTINUE GEGEVENS

3 Continue gegevens

De continue kwantitatieve veranderlijke kan theoretisch elke waarde aan-nemen binnen bepaalde grenzen. In de praktijk echter worden de gegevensafgerond en krijgen ze een discreet uitzicht. Typische voorbeelden van conti-nue veranderlijken zijn ”de lengte” en ”het gewicht”. We geven een concreetvoorbeeld.Als populatie beschouwen we de studenten die meegedaan hebben aan deenquete in het schooljaar 2004-2005. De lengte van deze studenten is eencontinue veranderlijke X.De symmetrisch afgeronde1 ruwe gegevens zijn:

167 173 169 170 173 190 184 196 173 180 194 179 174 173183 189 174 177 180 182 181 187 182 182 195 174 180 195193 185 182 185 185 186 172 193 179 180 191 192 179 187174 175 188 180 181 190 180 175 170 191 177 184 180 177177 185 175 187 174 180 191 170 187 172 174 186 175 175193 162 159 155 156 159 163 165 163 172 162 174 156 169168 158 160 165 167 182 167 173 174 163 172 160 156 164168 176 160 181

3.1 Frequentietabellen en grafieken

Wij lezen alle gegevens en schrijven telkens het eindcijfer op de juiste rij:

15 956968616 79235329805773048017 30339434742994550777540245524342618 403902172205255607801040570763119 0645533120113

Vorige tekening wordt een bladstamdiagram genoemd met links de stamen rechts de blaadjes als cijfers. Uitschieters, die eventueel kunnen wijzen opfouten, vallen in een bladstamdiagram onmiddellijk op en bij het kantelenvan het bladstamdiagram zie je of de verdeling symmetrisch of scheef is.De kleinste student is 155 cm en de grootste 196 cm. Het bereik van degegevens is 196 cm - 155 cm = 41 cm. Een tabel die alle mogelijke voorko-mende gegevens bevat met hun bijhorende frequentie zou ongeveer 40 lijnenbevatten. Omdat een tabel de gegevens beknopt moet voorstellen, brengenwij de gegevens onder in klassen van 5 cm.

eerste klasse: [155,160[tweede klasse: [160, 165[

1gegevens symmetrisch afronden geeft kleinere fouten dan wegkappen

Academiejaar 2009-2010 43

Page 58: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 3. CONTINUE GEGEVENS

Door deze keuze is een lengte van 160 cm eenduidig onder te brengen. Hetis essentieel dat elk gegeven maar in 1 klasse kan geturfd worden.In dit voorbeeld is het aangewezen klassen van 5 cm te gebruiken maar jekan ook het aantal gewenste klassen op voorhand vastleggen. Daarna deel jehet bereik van de gegevens door dit aantal. De uitkomst, altijd naar bovenafgerond, wordt dan de klassebreedte. Wil je bijvoorbeeld 9 klassen, dan is:

41/9 = 4, 55⇒ klassebreedte = 5 cm.

De klassebreedte krijgt altijd evenveel cijfers na de komma als de gegevens.Je mag niet te veel klassen kiezen want dan worden toevallige onregelma-tigheden te fel benadrukt wat ten nadele is van de overzichtelijkheid. Teweinig klassen is ook niet goed want hoe minder klassen, hoe groter het ver-lies aan informatie. Bij de bevolkingspiramide vind je bij te weinig klassende gevolgen van de wereldoorlog niet terug.Omdat de gegevens tot stand kwamen door symmetrische afronding van demetingen, zijn de werkelijke klassegrenzen van de eerste klasse: [154, 5; 159, 5[.Nadat de gegevens ingedeeld zijn in klassen kan je een frequentietabel hier-van maken door:

de gegevens te turfen en met de frequentie fi het aantal gegevens inde i-de klasse te tellen.

de cumulatieve frequentie Fi te berekenen met de formule:

Fi = f1 + f2 + . . .+ fi

de relatieve frequentie ri te berekenen met de formule:

ri =fim

de relatieve cumulatieve frequentie Ri te berekenen met de formule:

Ri =Fim

De tabel van de (relatieve) frequentieverdeling wordt:

nr klasse klasse met fi Fi ri(in%)klasse werkelijke grenzen

1 [155, 160[ [154, 5; 159, 5[ 7 7 6, 92 [160, 165[ [159, 5; 164, 5[ 9 16 8, 83 [165, 170[ [164, 5; 169, 5[ 9 25 8, 84 [170, 175[ [169, 5; 174, 5[ 20 45 19, 65 [175, 180[ [174, 5; 179, 5[ 13 58 12, 76 [180, 185[ [179, 5; 184, 5[ 19 77 18, 67 [185, 190[ [184, 5; 189, 5[ 12 89 11, 88 [190, 195[ [189, 5; 194, 5[ 10 99 9, 89 [195, 200[ [194, 5; 199, 5[ 3 102 2, 9

102 ≈ 100

Academiejaar 2009-2010 44

Page 59: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 3. CONTINUE GEGEVENS

De relatieve cumulatieve frequentie kan een antwoord geven op de vraag:hoeveel procent van de studenten is kleiner dan 170 cm?

Opmerkingen:

De eerste klasse mag beginnen vanaf de eerste waarneming.

Ook als de gegevens discreet zijn wordt bij een groot aantal moge-lijke gegevens voor de overzichtelijkheid toch een indeling in klassengemaakt.

Het histogram

Het histogram moet tonen hoe de frequenties verdeeld zijn over de verschil-lende klassen. Een histogram is een verzameling van rechthoeken. Voor elkerechthoek wordt de basis aangebracht op de X-as. De breedte van de basiskomt overeen met de klassebreedte. De oppervlakte van de rechthoek moetevenredig zijn met de frequentie. Bij gelijke klassebreedte zal de hoogte vande rechthoek evenredig zijn met de frequentie.In volgend voorbeeld komt de oppervlakte van elke rechthoek overeen metde relatieve frequentie.

150 155 160 165 170 175 180 185 190 195 200 205

0.01

0.02

0.03

0.04

1

Figuur 2.5: Een histogram voor de lengte met een klassebreedte van 5 cm.

Toen wij in het begin de gegevens rangschikten in een bladstamdiagramkregen wij een gekanteld histogram met een klassebreedte van 10 cm.

Academiejaar 2009-2010 45

Page 60: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 3. CONTINUE GEGEVENS

Wij tekenen de frequentiepolygoon die ontstaat door de middelpunten van debovenzijde van opeenvolgende rechthoeken te verbinden. Wij maken links enrechts een uitbreiding naar de middelpunten van de bovenzijden van fictieverechthoeken met frequentie 0.De totale oppervlakte van de rechthoeken van het histogram is gelijk aan deoppervlakte tussen de frequentiepolygoon en de X-as. Het bewijs steunt opde gelijkvormigheid van driehoeken.

3.2 Het centrum van de gegevens zoeken

De modale klasse

Bij continue gegevens heeft het weinig zin te zoeken naar het gegeven dathet meest voorkomt. Een modale klasse is zinvoller. De modale klasse isde klasse met de grootste frequentie. Voor de lengte van de studenten isde modale klasse [170, 175[. Beschikt men over de frequentiepolygoon, dannoemt men de top van de frequentiepolygoon toch de modus.

De mediaanklasse

De mediaan is het middelste geordende gegeven. Er zijn evenveel studentenkleiner als groter dan de mediaan.De mediaanklasse is de klasse die het middelste geordende gegeven bevat.De kolom van de cumulatieve relatieve frequentie kan helpen om de klasse,die het middelste geordende gegeven bevat, te vinden. De mediaanklassevoor de lengte is [175, 180[.Bij een histogram verwijst de oppervlakte van een rechthoek naar de (rela-tieve) frequentie. Het middelste geordende gegeven verdeelt de totale op-pervlakte in 2 gelijke delen. Als je enkel over een tabel beschikt en je gaatervan uit dat alle gegevens gelijk verdeeld zijn binnen een klasse, dan kan jedeze 50 % grens van de oppervlakte zoeken met lineaire interpolatie.Interessant is dat de mediaan geen last heeft van extreme gegevens.

Opmerking:Als men de oppervlakte in 4 gelijke delen verdeelt, verkrijgt men quar-tielen Q1, Q2, Q3. Het tweede quartiel valt samen met de mediaan. Alsje de oppervlakte in 10 gelijke delen verdeelt, spreekt men over decielenD1, D2, D3, . . . , D9. Het vijfde deciel komt overeen met de mediaan.

Het rekenkundig gemiddelde

De beste berekening van het rekenkundig gemiddelde is de som van al deruwe gegevens gedeeld door het aantal gegevens. Dit geeft µ = 176, 45. Hetkan gebeuren dat je alleen over een tabel beschikt. Zonder kennis van deruwe gegevens kunnen wij toch een schatting maken van het rekenkundig

Academiejaar 2009-2010 46

Page 61: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 3. CONTINUE GEGEVENS

gemiddelde: doe alsof alle gegevens in een klasse op het midden van dieklasse terecht komen. Natuurlijk maken wij hierdoor fouten. Wij hopenechter dat positieve en negatieve fouten elkaar zullen opheffen.Stel de klassemiddelpunten voor door x′i. Het klassemiddelpunt van de eer-ste klasse is de helft van de som van de werkelijke grenzen van die klasse.Tel je hierbij de klassebreedte, dan bekom je het volgende klassemiddelpunt.Voor de nauwkeurigheid is het ideaal dat de klassemiddelpunten kunnen sa-menvallen met de gegevens, maar dit kan alleen bij een oneven klassebreedte.

x′i fi x′ifi x′2i fi157 7 1099 172543162 9 1458 236196167 9 1503 251001172 20 3440 591680177 13 2301 407277182 19 3458 629356187 12 2244 419628192 10 1920 368640197 3 591 116427

18014 3192748µ ≈

∑x′ifi/m

µ ≈ 18014/102µ ≈ 176, 6

Controleer steeds of het gemiddelde wel mogelijk is. Als je een gemiddeldelengte vindt van 1735 cm, dan heb je zeker fouten gemaakt.

Opmerking:Bij een symmetrische verdeling zijn modus, mediaan en gemiddelde gelijk.Maar dit is niet altijd het geval. Daarom bestaan er ook kentallen voor descheefheid van een verdeling. Bovendien bestaan er ook kentallen voor despitsheid of afgeplatheid van een verdeling.

3.3 De spreiding van de gegevens zoeken

De variantie

De variantie drukt de spreiding van de gegevens uit ten opzichte van hetrekenkundige gemiddelde.Als je over de ruwe gegevens beschikt is σ2 = 107, 5. Beschik je over een tabelen niet meer over de ruwe gegevens dan nemen wij voor x′i het middelpuntvan de i-de klasse en gebruiken wij een van de volgende formules:

De definitieformule

σ2 =(x′1 − µ)2 + (x′2 − µ)2 + . . .+ (x′q − µ)2

m(2.13)

Academiejaar 2009-2010 47

Page 62: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 3. CONTINUE GEGEVENS

De korte formule

σ2 =x′1

2 + x′22 + . . .+ x′q

2

m− µ2 (2.14)

Voor eenvoudiger berekeningen gebruiken wij de transformatie:

Y = (X − 177)/5.

Immers de gegevens voor Y zijn veel eenvoudiger dan de gegevens van X. Jekrijgt altijd eenvoudige gegevens door van de oorspronkelijke gegevens eencentraal gelegen middelpunt af te trekken en dit verschil te delen door deklassebreedte. Bij deze transformatie wordt X = 5 · Y + 177.Het gemiddelde volgt dezelfde transformatie als de gegevens:

µX = 5 · µY + 177

De standaarddeviatie ondergaat alleen de schaalverandering:

σX = 5 · σY of σ2X = 25 · σ2

Y

Dit geeft:

y′i fi y′i · fi y′i2 · fi

-4 7 -28 112-3 9 -27 81-2 9 -18 36-1 20 -20 200 13 0 01 19 19 192 12 24 483 10 30 904 3 12 48

102 -8 454

µY = −8/102 = −0, 078µX ≈ 5 · µY + 177 = 176, 6

De standaarddeviatie ondergaat alleen de schaalverandering:

σ2Y = 454/102− (−0, 078)2 = 4, 44σ2X = 25 · σ2

Y = 111, 1

Academiejaar 2009-2010 48

Page 63: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 3. CONTINUE GEGEVENS

De variatiecoefficient

V =σXµX

=10, 541176, 6

≈ 6%

Wij hernemen de oefening waarbij wij de klassebreedte verdubbelen tot 10cm. Wij maken de tabel en de tekening en benaderen het rekenkundiggemiddelde en de variantie.

De tabel voor een klassebreedte van 10 cm is:

nr klasse klasse met fi Fi ri in %klasse werkelijke grenzen

1 [150, 160[ [149,5; 159,5[ 7 7 6,92 [160, 170[ [159,5; 169,5[ 18 25 17,63 [170, 180[ [169,5; 179,5[ 33 58 32,44 [180, 190[ [179,5; 189,5[ 31 89 30,45 [190, 200[ [189,5; 199,5[ 13 102 12,7

102 100

Het middelpunt van de derde klasse is (169,5 + 179,5)/2 = 174,5.

Wij berekenen gemiddelde van standaardddeviatie met behulp van

Y =X − 174, 5

10X = 10 · Y + 174, 5µX = 10 · µY + 174, 5σX = 10 · σYσ2X = 102 · σ2

Y

Dit geeft:

y′i fi y′i · fi y′i2 · fi

-2 7 -14 28-1 18 -18 180 33 0 01 31 31 312 13 26 52

102 +25 129

µY =25102

µX ≈ 10 · 25102

+ 174, 5 = 176, 95

σ2Y =

129102−(

25102

)2

= 1, 2

σ2X ≈ 102 · 1, 2 = 120

Academiejaar 2009-2010 49

Page 64: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 3. CONTINUE GEGEVENS

Het histogram voor een klassebreedte van 10 cm wordt op volgendepagina in het grijs voorgesteld. Op dezelfde tekening vind je ook hethistogram met een klassebreedte van 5 cm.

– De oppervlakte van een rechthoek stelt de relatieve frequentievoor.

– De oppervlakte van een rechthoek met basis 10 is de som van deoppervlakten van 2 rechthoeken met basis 5.

150 155 160 165 170 175 180 185 190 195 200 205

0.01

0.02

0.03

0.04

1

Opmerking :Als je bij de tekening van een histogram als hoogte van de rechthoekende relatieve frequentie gedeeld door de klassebreedte uitzet dan komt deoppervlakte van elke rechthoek overeen met de relatieve frequentie. Detotale oppervlakte van het histogram is dan gelijk aan 100%. Deze keuze isbijzonder interessant om 2 histogrammen te kunnen vergelijken waarbij hetaantal waarnemingen erg verschilt.

Academiejaar 2009-2010 50

Page 65: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 4. OEFENINGEN

4 Oefeningen

1. Zoek de frequentietabel, teken het staafdiagram, bereken het gemid-delde, de modus en de mediaan voor de punten van ’organisatie enstructuur van de vrije tijd’ van de volgende 40 studenten. De ruwegegevens zijn:

11 13 14 13 9 14 12 10 12 1212 11 11 11 10 13 12 11 11 1311 9 12 9 10 10 12 11 10 1212 13 12 14 11 9 10 13 12 13

(a) Vergelijk het gemiddeld aantal punten voor ’statistiek’ (zie p.34) met het gemiddeld aantal punten voor ’organisatie’. Watstelt je vast? Bekijk de punten voor ’statistiek’ en de puntenvoor ’organisatie’ en vergelijk. Is er een verschil? Bereken devariantie.

(b) Wat is de kans dat je meer dan 12 hebt?

(c) Hoeveel punten hebben de meeste studenten?

(d) Als je weet dat iemand meer dan 12 heeft, wat is dan de kans datdie persoon 13 heeft?

2. Gegeven is volgende frequentietabel:

i x′i fi1 5100100 62 5100200 73 5100300 124 5100400 205 5100500 5

(a) Bereken modus, mediaan en gemiddelde zo eenvoudig mogelijk.

(b) Bereken de variantie en de standaardafwijking zo eenvoudig mo-gelijk.

Academiejaar 2009-2010 51

Page 66: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 5. KENNISBASIS STATISTIEK

5 Kennisbasis Statistiek

De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’Wetenschap-pelijk onderzoek’.

Waarnemen > Typen variabelen

Waarnemen > Typen variabelen > Continue variabelen

Waarnemen > Typen variabelen > Discrete variabelen

Frequentieverdeling

Frequentieverdeling > Frequentietabel

Frequentieverdeling > Classificeren

Frequentieverdeling > Centrum en spreiding

Centrummaten

Centrummaten > Modus

Centrummaten > Mediaan

Centrummaten > Gemiddelde

Centrummaten > Gemiddelde > Gemiddelde, gegroepeerde uit-komsten

Centrummaten>Gemiddelde>Gemiddelde, geclassificeerde uit-komsten

Spreidingsmaten

Spreidingsmaten > Deviatie

Spreidingsmaten > Variantie

Spreidingsmaten > Standaardafwijking

Spreidingsmaten > Standaardafwijking > Standaardafwijking, ge-groepeerde uitkomsten

Spreidingsmaten > Standaardafwijking > Standaardafwijking, ge-classificeerde uitkomsten

Spreidingsmaten > Variatiebreedte

Spreidingsmaten > Variatiecoefficient

Academiejaar 2009-2010 52

Page 67: Cursus Statistiek - 2TI - 0910

Hoofdstuk 2. 5. KENNISBASIS STATISTIEK

Grafieken

Grafieken > Staafdiagram

Grafieken > Cirkeldiagram

Grafieken > Histogram

Grafieken > Histogram > Frequentiepolygoon

Academiejaar 2009-2010 53

Page 68: Cursus Statistiek - 2TI - 0910

3Kansverdelingen

54

Page 69: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 1. INLEIDING

1 Inleiding

1.1 Theoretische kansverdelingen

In de beschrijvende statistiek verzamelden we gegevens die we vervolgenssamenvatten in frequentietabellen, grafieken en kengetallen. Vaak kan defrequentieverdeling van verzamelde gegevens benaderd worden door een the-oretische kansverdeling. Zo’n theoretische kansverdeling laat ons toe omkansen te berekenen aan de hand van formules. Net zoals je bij het ver-zamelen van data een onderscheid kan maken tussen discrete en continuegegevens, kunnen we spreken over discrete en continue kansverdelingen. El-ke kansverdeling wordt gekarakteriseerd door een of meer getalletjes die naargelang de context een concrete waarde aannemen. We noemen deze getallende parameters van de kansverdeling.

1.2 Verwachtingswaarden

De begrippen gemiddelde (voor het centrum van de gegevens) en variantie(voor de spreiding van de gegevens t.o.v. het centrum) die we in beschrij-vende statistiek ontmoetten, kunnen ook gebruikt worden voor theoretischekansverdelingen. In het geval van kansverdelingen spreken we van verwach-tingswaarden. Ze drukken uit wat je als gemiddelde en variantie kan ver-wachten als je het experiment ’tot in het oneindige’ zou uitvoeren. We geveneen voorbeeld, waarbij we ons beperken tot een discrete kansverdeling.

Voorbeeld

Beschouw een kansspel waarbij je e 2 moet inzetten om te kunnen deelne-men. Vervolgens mag je lukraak een kaart kiezen uit een gewoon kaartspel.Als het een rode kaart is, dan verlies je 1 euro. Als het een zwarte heer ofzwarte dame is, dan win je 15 euro. In de andere gevallen ben je gewoon jeinzet kwijt zonder dat je nog iets extra wint of verliest. Stel X = ’de nettowinst (= bedrag dat je wint of verliest - de inzet)’. Dan is X een discreteveranderlijke. We schrijven de (theoretische) kansverdeling van X uit:

x′i P (X = x′i)−3 1/2−2 11/26+13 1/13

Het gemiddelde en de variantie van een (discrete) kansverdeling kunneneenvoudig berekend worden door in de formules uit beschrijvende statistiekde relatieve frequenties ri te vervangen door de kansen P (X = x′i).

Academiejaar 2009-2010 55

Page 70: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 1. INLEIDING

Gemiddelde

Zo vinden we voor het gemiddelde

µX = x′1 · P (X = x′1) + x′2 · P (X = x′2) + . . .

= −3 · 12

+ (−2) · 1126

+ 13 · 113

=−3526≈ −1.35

Als je dit kansspel heel vaak zou spelen (’tot in het oneindige’), dan zal jesoms winnen en soms verliezen. Maar je mag verwachten dat je gemiddeldongeveer e 1.19 per spel zal verliezen.Het gemiddelde van een kansverdeling wordt genoteerd met µX of E[X]. DeE staat daarbij voor ’expectation’.

Variantie

Voor de variantie (met de korte formule) vinden we

σ2X =

(x′1

2 · P (X = x′1) + x′22 · P (X = x′2) + . . .

)− µ2

X

=(

(−3)2 · 12

+ (−2)2 · 1126

+ 132 · 113

)−(−35

26

)2

=11749676

≈ 17.38

Als je dit kansspel heel vaak zou spelen (’tot in het oneindige’) en telkens jenetto winst zou opschrijven, dan kan je verwachten dat de variantie (sprei-ding t.o.v. het gemiddelde) 28.46 zal bedragen.De variantie van een kasverdeling wordt genoteerd met σ2

X of V ar[X].

Academiejaar 2009-2010 56

Page 71: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 2. DISCRETE KANSVERDELINGEN

2 Discrete kansverdelingen

2.1 Binomiale verdeling

Veronderstel dat we volgende vragen willen oplossen:

Voorbeeld 1:Een multiple choice examen bestaat uit 5 vragen. Er zijn 3 mogelijke ant-woorden per vraag waarvan 1 juist. Je antwoordt lukraak op alle vragen.Wat is de kans dat je minstens 3 vragen juist beantwoordt?

Voorbeeld 2:Neem als populatie alle Vlaamse gezinnen met 3 kinderen. Stel dat voorelk kind, de kans op een jongen gelijk is aan de kans op een meisje. Zoekde kansverdeling van het aantal meisjes, het gemiddeld aantal meisjes en devariantie.

Beide vragen zijn op het eerste zicht erg verschillend van elkaar. Ze kun-nen echter opgelost worden met dezelfde achterliggende theoretische kans-verdeling, namelijk de binomiale verdeling. De binomiale verdeling is hettheoretisch model voor verdelingen die in de praktijk veel voorkomen. Wewerken deze verdeling eerst theoretisch uit.

Ingredienten voor het gebruik van de binomiale verdeling

De volgende punten zijn vereist voor het gebruik van een binomiale verdeling:(controleer of je ze terugvindt in voorbeeld 1 en 2) :

1. Een Bernoulli-experiment. Dit is een experiment met 2 mogelijke uit-slagen succes en mislukking. Je kan gemakkelijk Bernoulli-experimentenopstellen. bv. gooi een dobbelsteen op waarbij een 6 gooien succes isen geen 6 gooien een mislukking is. We stellen de kans op succes gelijkaan p en de kans op mislukking gelijk aan q. Dan is:

0 ≤ p ≤ 1; 0 ≤ q ≤ 1 en q = 1− p

2. Je moet het Bernoulli-experiment n keer herhalen bvb. je gooit dedobbelsteen n keer op.

3. De herhalingen van het Bernoulli-experiment moeten onafhankelijkvan mekaar gebeuren. Onafhankelijkheid houdt in dat de kans opsucces constant blijft bij alle herhalingen van het experiment. Bij eendobbelsteen is wat je de tweede keer gooit onafhankelijk van wat je deeerste keer gooide. Bij een kaartspel is er enkel onafhankelijkheid alsje de kaart teruglegt voor je lukraak een andere kaart trekt.

Academiejaar 2009-2010 57

Page 72: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 2. DISCRETE KANSVERDELINGEN

4. Tel nu het aantal successen bij n onafhankelijke herhalingen van hetexperiment. Het aantal successen X varieert van nooit (0) tot altijd(n).

Opstellen van de formule

Zoek de kans op k successen (en dus op n−k mislukkingen) bij n herhalingen.Of nog, zoek de kans P (X = k). De kans dat de k eerste experimentensuccesvol zijn en de volgende n − k experimenten mislukkingen is omwillevan de onafhankelijkheid pk · qn−k. Maar niet de eerste k experimentenmoeten succesvol zijn. Er zijn nog een heleboel andere mogelijkheden metdezelfde kans zoals: alleen de k laatste experimenten zijn succesvol. In totaalzijn er (

nk

)=

n!k! · (n− k)!

mogelijke manieren om bij n herhalingen k keer succes te hebben en n − kkeer mislukking. De kans van elk van die mogelijkheden bedraagt telkenspk · qn−k. De kans op k successen bij n herhalingen is dus:

P (X = k) =n!

k! · (n− k)!· pk · qn−k

De binomiale verdeling van het aantal successen krijg je door in deze formulek = 0 tot n te stellen.

Samengevat

Stel n het totaal aantal herhalingen van het experiment, X het aantal suc-cessen, p de kans op succes en q (q = 1−p) gelijk aan de kans op mislukking,dan zal bij n onafhankelijke herhalingen van het experiment het aantal suc-cessen een binomiale verdeling volgen waarbij:

P (X = k) =

(nk

)· pk · qn−k voor k = 0, 1, 2..., n (3.1)

Omdat n en p volstaan om een binomiale verdeling vast te leggen zegt mendat X een binomiale verdeling volgt met parameters n en p. Korte notatie:X ∼ B(n, p).

Opmerkingen:

De coefficient (nk

)=

n!k! · (n− k)!

wordt de binomiaalcoefficient genoemd. Deze coefficient duikt ook opin het ’Binomium van Newton’. De binomiaalcoefficient drukt uit op

Academiejaar 2009-2010 58

Page 73: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 2. DISCRETE KANSVERDELINGEN

hoeveel manieren je een groepje van k kan kiezen uit een totaal van nals de volgorde waarin de keuzes gemaakt worden niet van belang is.In de context van de binomiale verdeling gebruiken we het getal omhet aantal manieren te berekenen waarop je precies k successen kanhebben in een rij van n herhalingen.

Wanneer de kans op succes nagenoeg constant is bij n herhalingen vanhet experiment, spreken we over quasi-onafhankelijkheid. De binomialeverdeling is dan een goede benadering voor de werkelijke kansverdeling.

We werken de voorbeelden nu verder uit door gebruik te maken van debinomiale verdeling.

Voorbeeld 1

Een multiple choice examen bestaat uit 5 vragen. Er zijn 3 mogelijke ant-woorden per vraag waarvan 1 juist. Je antwoordt lukraak op alle vragen.Zoek de kansverdeling van het aantal juiste antwoorden.

1. Het Bernoulli-experiment is het beantwoorden van een meerkeuzevraagwaarbij succes overeenstemt met een juist antwoord. De kans op succesp is 1/3 en de kans op mislukking q is 2/3.

2. Het examen bestaat uit 5 meerkeuzevragen dus n = 5.

3. Omdat je de 5 vragen lukraak beantwoordt zijn er 5 onafhankelijkeherhalingen van het Bernoulli-experiment.

4. X telt het aantal juiste antwoorden. Dit aantal varieert van niets juist(0) tot alles juist (5).

Wij zoeken bvb. de kans om 2 vragen juist te hebben. De kans dat alleen de

2 eerste vragen juist zijn is(

13

)2·(

23

)3Maar het is niet nodig dat de eerste

2 vragen juist zijn. Belangrijk is dat 2 van de 5 vragen correct zijn. Zo zijner 5!

2!·3! = 10 situaties te vinden in de kansboom.

P (2 juiste antwoorden) =5!

2! · 3!·(

13

)2

·(

23

)3

P (X = 2) =

(52

)·(

13

)2

·(

23

)3

Academiejaar 2009-2010 59

Page 74: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 2. DISCRETE KANSVERDELINGEN

De kansverdeling van het aantal juiste antwoorden is:

k P (X = k)

0

(50

)·(

13

)0·(

23

)5= 13, 17%

1

(51

)·(

13

)1·(

23

)4= 32, 92%

2

(52

)·(

13

)2·(

23

)3= 32, 92%

3

(53

)·(

13

)3·(

23

)2= 16, 46%

4

(54

)·(

13

)4·(

23

)1= 4, 12%

5

(55

)·(

13

)5·(

23

)0= 0, 41%

Voorbeeld 2

Neem als populatie alle Vlaamse gezinnen met 3 kinderen. Stel dat voor elkkind, de kans op een jongen gelijk is aan de kans op een meisje.Zoek de kansverdeling van het aantal meisjes, het gemiddeld aantal meisjesen de variantie.

1. Het aantal meisjes (X) volgt een binomiale verdeling met parametersn = 3 en p = 1/2. De tabel van deze kansverdeling is:

k P (X = k)0 1/8 = 12, 5%1 3/8 = 37, 5%2 3/8 = 37, 5%3 1/8 = 12, 5%

Omdat P (X = 3) = 12, 5% , zijn er in 12,5 % van de Vlaamse gezinnen3 meisjes.

2. Onderstaande tabel geeft de berekeningen weer voor het gemiddeldeen de variantie. Deze laatste wordt uitgerekend met de korte formule.

k P (X = k) k · P (X = k) k2 · P (X = k)0 1/8 0 01 3/8 3/8 3/82 3/8 6/8 12/83 1/8 3/8 9/8

We bekomen zo:µ = 3/2 en σ2 = 3/4

Academiejaar 2009-2010 60

Page 75: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 2. DISCRETE KANSVERDELINGEN

Gemiddelde en variantie van de binomiale verdeling

In het voorbeeld hierboven hebben we het gemiddelde en de variantie be-rekend aan de hand van de kansverdeling. Men kan bewijzen dat bij debinomiale verdeling:

µ = n · p (3.2)σ2 = n · p · q (3.3)

Voor een binomiale verdeling zijn de formules voor gemiddelde en variantiedus zeer eenvoudig.

2.2 Andere discrete verdelingen

Er zijn nog heel wat andere discrete verdelingen, zoals de Poissonverdelingdie belangrijk is in ’Wachtrijtheorie’. We gaan er in deze tekst niet verderop in.

Academiejaar 2009-2010 61

Page 76: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN

3 Continue kansverdelingen

Bij discrete veranderlijken kan je gemakkelijk kansen berekenen aan de handvan de kansverdeling. Eens de tabel met mogelijke waarden en bijhorendekansen is opgesteld, kan je elke vraag naar kansen beantwoorden door eenof meerdere kansen uit de tabel bij elkaar op te tellen.

Omwille van het groot aantal mogelijke waarden is het bij continue ver-anderlijken niet mogelijk om kansen te vinden door de kansen van individu-ele waarden bij elkaar op te tellen. Voor het berekenen van kansen moetenwe in dat geval gebruik maken van oppervlaktes onder een grafiek.

3.1 Kansen berekenen bij continue verdelingen

Veronderstel dat X een eigenschap voorstelt bij een grote populatie. Bekijkde histogrammen, die ontstaan door de klassebreedte te halveren en waarbijde oppervlakte van een rechthoek overeenkomt met de relatieve frequentie(in % ).

Figuur 3.1: Histogram voor klassebreedte = 20

Figuur 3.2: Histogram voor klassebreedte = 10

De oppervlakte van een rechthoek met basis 20 is de som van de oppervlaktenvan 2 rechthoeken met basis 10.

Academiejaar 2009-2010 62

Page 77: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN

Figuur 3.3: Histogram voor klassebreedte = 5

Figuur 3.4: Histogram voor klassebreedte = 2.5

Academiejaar 2009-2010 63

Page 78: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN

Figuur 3.5: Histogram voor klassebreedte = 1.25

Figuur 3.6: Histogram voor klassebreedte = 0.625

Academiejaar 2009-2010 64

Page 79: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN

Figuur 3.7: Histogram voor klassebreedte = 0.3125

Na vele halveringen worden de bovenzijden van de rechthoeken zo smal, datwij de indruk krijgen dat zij een vloeiende lijn vormen. Deze kurve noemenwij de dichtheidsfunctie f(x). De relatieve frequentie voor de klasse [a, b[,voorgesteld door de oppervlakte van een rechthoek van het histogram, gaatover in de oppervlakte onder de dichtheidsfunctie

P (a ≤ X < b) =∫ b

af(x) · dx.

∫+∞−∞ f(x) · dx = 1 omdat de totale relatieve frequentie 100 % is.

3.2 De normale verdeling

Definitie en formule

De meest voorkomende dichtheidsfunctie is de normale verdeling met ver-gelijking:

f(x) =1√2πσ

· e−(x−µ)2

2σ2 waarbij σ > 0.

In deze formule stellen µ en σ2 het gemiddelde en de variantie van de ver-deling voor. Omdat ze de normale verdeling volledig vastleggen, worden zede parameters van de verdeling genoemd. Dat X een normale verdeling volgtmet parameters µ en σ2 wordt kort genoteerd als volgt:

X ∼ N(µ, σ2)

Elke waarde voor µ en σ2 geeft een nieuwe normale verdeling.

Academiejaar 2009-2010 65

Page 80: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN

Tekening

Elke nieuwe waarde voor µ en/of σ2 geeft een nieuwe tekening. Bekijk detekeningen van normale verdelingen en vergelijk ze met elkaar.

10 8 6 4 2 0 2 4 6 8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.80.82

0

f1 x( )

f z( )

f2 x( )

f3 x( )

1010 x z, x, x,

De belangrijkste tekening is de standaardnormale verdeling waarbij µ =0 en σ2 = 1. Bij x gelijk aan nul, bereikt de dichtheidsfunctie van destandaardnormale verdeling een maximale waarde nl. 0,4.Zoek de normale verdeling waarbij het gemiddelde ook nul is terwijl despreiding kleiner is (σ2 = 0, 25 < 1). Omdat de totale oppervlakte onder dedichtheidsfunctie 100 % is, moet de top hoger liggen dan bij de standaard-normale verdeling.Zoek de normale verdeling met gemiddelde 0 waarbij de spreiding σ2 = 16,groter is dan bij de standaardnormale verdeling. Ligt de top hoger of lagerdan bij de standaardnormale verdeling?Zoek de normale verdeling waarbij µ = 5 en σ2 = 1. Vergelijk deze kurvemet de standaardnormale verdeling. Wat stelt je vast?We kunnen aantonen dat bij al deze normale verdelingen:

1. de X-as een horizontale asymptoot is

2. de dichtheidsfunctie een maximale waarde bereikt voor x = µ

3. er symmetrie optreedt ten opzichte van de rechte x = µ

4. voor al deze tekeningen bijna 100 % van de oppervlakte onder dedichtheidsfunctie tussen 3 standaardafwijkingen links en rechts rondhet gemiddelde ligt. Ongeveer 95% van de gegevens ligt hoogstens 2standaardafwijkingen verwijderd van het gemiddelde. Zie oefeningen.

Academiejaar 2009-2010 66

Page 81: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN

3.3 De standaardnormale verdeling

De belangrijkste normale verdeling noemt men de standaardnormale ver-deling. De standaardnormale verdeling heeft een gemiddelde µ = 0 en eenvariantie σ2 = 1. Haar standaarddeviatie σ is dus gelijk aan 1.Voor de standaardnormale verdeling reserveert men de letter Z. Wij noteren:

Z ∼ N(0, 1)

Als Z een standaardnormale verdeling volgt, dan is de dichtheidsfunctie:

f(z) =1√2π· e−

z2

2

Voor enkele z-waarden berekenen wij f(z):z . . . -3 -2 -1 0 1 2 3 . . .

f(z) 0,004 0,05 0,24 0,4 0,24 0,05 0,004

Tekening

De tekening van de standaardnormale verdeling is:

3 2.5 2 1.5 1 0.5 0 0.5 1 1.5 2 2.5 3

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.42

3.267 103.

f z( )

3.13.1 z

Bij welke Z-waarde ligt de top? Tussen welke grenzen voor Z ligt bijna detotale oppervlakte?We bestuderen nu de tekening van de standaardnormale verdeling.

De Z-as is horizontale asymptoot.

f(z) verloopt symmetrisch t.o.v. de Y-as.

f(z) bereikt een maximale waarde voor z=0.

µ = 0 omwille van de symmetrie rond de Y-as.

Academiejaar 2009-2010 67

Page 82: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN

Berekening van kansen

P (Z ≥ b) berekent het percentage van de populatie waarvoor Z ≥ b is. Dezerelatieve frequentie of kans vinden wij terug als een oppervlakte onder dedichtheidsfunctie:

P (Z ≥ b) =∫ ∞b

f(z) · dz =∫ ∞b

1√2π· e−

z2

2 · dz

0.42

3.267 103.

f z( )

3.13.1 z 0 b

Oppervlakte = P(Z > b)

z

Deze integraal is moeilijk uit te rekenen. Gelukkig is er een tabel om deoppervlakte te vinden. De tabel geeft echter enkel de oppervlakte waarbijZ ≥ b en b ≥ 0 (m.a.w. de oppervlakte van een rechterstaart).Deze tabel volstaat echter. Voor de oppervlakte van een linkerstaart doenwij beroep op de symmetrie, waardoor:

P (Z ≤ −b) = P (Z ≥ b)

0.42

3.267 103.

f z( )

3.13.1 z 0 b

Oppervlakte = P(Z > b)

z -b

Wij weten dat de totale oppervlakte 100 % of 1 is:

P (−∞ ≤ Z ≤ +∞) = 100% = 1

Omwille van de symmetrie rond de Y-as is:

P (Z ≤ 0) = P (Z ≥ 0) = 50% = 0, 5

Academiejaar 2009-2010 68

Page 83: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN

Berekenen van c als de kans dat Z ≥ c gegeven is

We geven twee voorbeelden.

1. Zoek c als P (Z ≥ c) = 2, 5%.Oplossing:

P (Z ≥ c) = 2, 5%P (Z ≥ 1, 96) = 2, 5%

c = 1, 96

c wordt de terugzoekwaarde genoemd bij 2,5 % in de rechterstaart.Wij noteren: c = z2,5% = 1, 96.

2. Zoek c als P (−c < Z < c) = 95%.Oplossing:Zoek de oppervlakte van de rechterstaart. Deze is:

P (Z ≥ c) = (100%− 95%)/2 = 2, 5%.

c = z2,5% = 1, 96.

3.4 Kansen berekenen met de normale verdeling

Voor het berekenen van de relatieve frequentie of de kans dat X ≥ b, wat eenoppervlakte onder de dichtheidsfunctie voorstelt en vervelende integraalre-kening inhoudt, zouden wij evenveel tabellen nodig hebben als tekeningen.Wij kunnen deze oppervlakte terugbrengen tot de oppervlakte onder destandaardnormale verdeling. Immers:

Als Z =X − µσ

dan Z ∼ N(0, 1) en P (X ≥ b) = P (Z ≥ b− µσ

)

Besluiten:

Als X een normale verdeling volgt met gemiddelde µ en variantie σ2

dan zal Z = (X − µ)/σ een standaardnormale verdeling volgen.

Door de transformatie Z = (X − µ)/σ gaat elke oppervlakte onder denormale verdeling over in een oppervlakte onder de standaardnormaleverdeling.

De standaardnormale verdeling is de belangrijkste van de normale ver-delingen, omdat alle integralen bij de normale verdeling terug te bren-gen zijn tot integralen bij de standaardnormale verdeling.

Academiejaar 2009-2010 69

Page 84: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN

Samengevat:

Als X ∼ N(µ, σ2), dan zal

Z =X − µσ

∼ N(0, 1)

enP (X ≥ b) = P (

X − µσ

≥ b− µσ

) = P (Z ≥ b− µσ

)

3.5 Andere continue verdelingen

Naast de normale verdeling zijn er nog een hele reeks andere continue ver-delingen, zoals de uniforme verdeling (belangrijk voor random generators)en de exponentiele verdeling (belangrijk in ’Wachtrijtheorie’). We gaan erin deze tekst niet verder op in.

Academiejaar 2009-2010 70

Page 85: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 4. OEFENINGEN

4 Oefeningen

1. Een multiple choice examen bestaat uit 4 vragen. Er zijn 3 mogelijkeantwoorden per vraag waarvan 1 juist. Je antwoordt lukraak op allevragen. Stel X = ’het aantal juiste antwoorden’.

(a) Zoek de kansverdeling van X, het gemiddeld aantal juiste ant-woorden en de variantie.

(b) Hoeveel procent van de studenten heeft alle vragen juist?

(c) Hoeveel procent van de studenten heeft geen enkele vraag juist?

(d) Hoeveel procent van de studenten heeft minstens 2 vragen juist?

2. Zoek de kansverdeling van het aantal keer dat je zes gooit bij 4 worpenmet een teerling. Wat is de kans om meer dan 2 zessen te krijgen in 4worpen met een teerling?

3. Wat is de kans om minstens 4 keer zes te gooien bij 6 worpen met eenteerling?

4. Gooi 6 keer een muntstuk op. Wat is de kans om 4 keer kruis te gooien?Wat is de kans om minstens 4 keer kruis te gooien?

5. Van 5 meerkeuzevragen weet je het antwoord niet. Er zijn 3 mogelijkeantwoorden per vraag waarvan 1 juist. Je duidt lukraak 1 antwoordaan. Wat is de kans om

(a) minstens 2 vragen juist te hebben?

(b) hoogstens 1 vraag fout te hebben?

(c) Wat is het gemiddeld aantal juiste antwoorden?

(d) Wat is de variantie van ’het aantal juiste antwoorden’?

6. Elke persoon heeft 40 % kans om bloedgroep O te hebben. Berekende kans dat van 7 lukraak uitgekozen personen er 3 tot bloedgroep Obehoren.

7. Een computer vormt een binair getal van 8 cijfers. De kans op eenvergissing in een willekeurig cijfer is 0.01. Hoe groot is de kans op eenverkeerd getal in de veronderstelling dat de fouten in de verschillendecijfers onafhankelijk zijn?

8. Stel 70 % is de kans dat een patient positief is voor een bepaalde test.Zoek de kans dat van 5 patienten

(a) ze allen positief zijn

(b) er 2 positief zijn

Academiejaar 2009-2010 71

Page 86: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 4. OEFENINGEN

(c) minstens 3 patienten positief zijn.

9. In een stad staan de verkeerslichten 40 % van de tijd op rood. (geensynchronisatie) Je moet 5 verkeerslichten voorbijrijden. Zoek de kansom hoogstens 1 keer voor het rood licht te staan.

10. Stel 1 % van de autobanden voldoet niet aan de kwaliteitsnormen. Eenpersonenwagen krijgt 4 nieuwe banden.

(a) Zoek de kansverdeling van het aantal slechte banden.

(b) Hoe groot is de kans op een perfect stel?

11. Aan een productieband worden gemiddeld per 1.000 afgewerkte pro-ducten 5 defecte stukken gemaakt. Het uittesten kost te duur en menverpakt goede en slechte stukken in kisten van 200. Bereken de kansdat een kist minstens 3 slechte stukken bevat.

12. Een machine wordt elke dag gestart. De kans dat dit mislukt is voorelke dag 1 op 100. Dit betekent dan een verloren werkdag. Hoe grootis de kans om gedurende een jaar juist 2 werkdagen te verliezen.

13. Examenvraag januari 2007Van een bloembollensoort is geweten dat 5 % van de bollen niet uit-komt. De bollen worden willekeurig verpakt in dozen van 9 stuks metde garantie dat ten minste 8 van de 9 bollen zullen uitkomen. Het aldan niet uitkomen van de bollen gebeurt onafhankelijk van elkaar.

(a) Als je lukraak een doos bloembollen kiest, wat is dan de kans datdie doos de gegarandeerde eigenschap niet heeft?

(b) Een winkelier koopt bij de groothandelaar 100 dozen van dezebollen. Wat is de kans dat precies 2 van deze dozen de gegaran-deerde eigenschap niet hebben?

14. Stel dat Z een standaardnormale verdeling volgt. Gegeven: 0 ≤ a ≤ b,P (Z ≥ a) en P (Z ≥ b). Zoek:

(a) P (a ≤ Z < b)

(b) P (−a < Z < b)

(c) P (−b < Z ≤ −a)

15. Stel dat Z een standaardnormale verdeling volgt, voor hoeveel procentvan de populatie zal:

(a) Z ≥ 1, 96

(b) Z ≤ −1, 96

(c) 0 ≤ Z < 1, 96

Academiejaar 2009-2010 72

Page 87: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 4. OEFENINGEN

(d) −1, 96 < Z ≤ 0

(e) Z < 2, 15

(f) −2, 15 < Z < 2, 15

(g) −2, 15 < Z

(h) 1 ≤ Z < 2

(i) −1 < Z < 2

(j) −2 < Z ≤ −1

16. Stel dat Z een standaardnormale verdeling volgt en

(a) voor 95 % van de populatie is −c < Z < c. Zoek c.

(b) voor 99 % van de populatie is −c < Z < c. Zoek c.

(c) voor 90 % van de populatie is −c < Z < c. Zoek c.

(d) voor 5 % van de populatie is Z ≤ c. Zoek c.

(e) voor 1 % van de populatie is Z ≥ c. Zoek c.

(f) voor 1 % van de populatie is Z ≤ c. Zoek c.

17. Stel X volgt een normale verdeling met gemiddelde 1,5 en variantie 4.Zoek

(a) P (X < 2)

(b) P (1, 8 ≤ X < 2, 8)

(c) P (1, 2 < X < 2)

18. Als X een normale verdeling volgt met gemiddelde 150 en variantie400, voor hoeveel procent van de populatie is:

(a) X ≤ 110

(b) 135 ≤ X(c) 190 ≤ X(d) 115 < X < 155

(e) X < 200

(f) 160 ≤ X < 195

19. De lichaamslengte van de rekruten in het Belgisch Leger is normaalverdeeld met gemiddelde 1,75 m en σ2 gelijk aan 0,122 m2. Hoeveelprocent van de rekruten heeft een lichaamslengte tussen 1,60 en 1,80meter?

20. De uitslag op statistiek (punten op 100) is normaal verdeeld met pa-rameters 60 en 92.

Academiejaar 2009-2010 73

Page 88: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 4. OEFENINGEN

Hoeveel procent van de populatie is geslaagd?

Zoek de uitslag waarboven 10% van de hoogste punten vallen?

21. De hoeveelheid vitamine in een tablet vitaminex is normaal verdeeldmet parameters 10,1 g en 0,22 g2. De verpakking vermeldt dat 1tablet 10 g vitamine bevat. Hoeveel procent van de productie bevatte weinig?

22. De kogellagers vervaardigd door een machine hebben een diameter dienormaal verdeeld is met parameters 14,04 en 0,102. De speling rondhet gemiddelde mag maximaal 0,18 bedragen. Hoeveel procent van deproductie is slecht?

23. Verifieer dat, bij een willekeurige normale verdeling, X voor bijna 100% van de populatie tussen 3 standaarddeviaties links en rechts rondhet gemiddelde ligt?Zoek dus P (µ− 3σ < X < µ+ 3σ).Zoek ook P (µ− 2σ < X < µ+ 2σ) en P (µ− σ < X < µ+ σ).

24. Stel dat de levensduur van een bepaald motortype een normale ver-deling volgt met een gemiddelde levensduur van 7 jaar en een stan-daardafwijking van 2 jaar.De fabrikant vervangt gratis alle motoren die defect geraken tijdens degarantieperiode. Indien hij bereid is slechts 3% van de motoren, diedefect geraken, te vervangen, hoe lang moet de garantieperiode danzijn?

25. Examenvraag januari 2007Onderstel dat het IQ normaal verdeeld is met gemiddelde 100 en va-riantie 500.

Hoeveel % van de bevolking heeft een IQ van meer dan 109?

Onder welk IQ vallen de 20 % minst begaafden?

Onderstel dat je het gemiddelde niet kent en de 7 % minst be-gaafden onder IQ 89 vallen, hoe groot is dan het gemiddelde inde veronderstelling dat de variantie 500 blijft?

26. Benadering van binomiale verdeling met normale verdelingVan de programmeurs die afstuderen vindt 70 % binnen de 6 maandenwerk.

Wat is de kans dat, van 9 willekeurig gekozen afgestudeerde pro-grammeurs, er minstens 8 binnen de 6 maanden werk vinden?(binomiale verdeling)

Academiejaar 2009-2010 74

Page 89: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 4. OEFENINGEN

Wat is de kans dat, van 100 willekeurige gekozen afgestudeerdeprogrammeurs, er minstens 80 binnen de 6 maanden werk vin-den?Met de binomiale verdeling is dit onbegonnen rekenwerk. Alsn · p ≥ 5 n · q ≥ 5, mag men beroep doen op een normale ver-deling, die het gemiddelde en de variantie van de binomiale ver-deling krijgt. Omdat de normale verdeling, in tegenstelling totde binomiale verdeling, een continue verdeling is, gebruiken wijeen continuıteitscorrectie t.t.z. X ≥ 80 bij de binomiale verdelingwordt X ≥ 79, 5 voor de normale.

27. Examenvraag januari 2006Stel dat de inhoud van flessen normaal verdeeld is, dat de vulmachineingesteld is op µ = 750 ml. De standaardafwijking bedraagt 10 ml.

Hoeveel procent van de afgeleverde flessen bevat minder dan 735ml?

Hoeveel procent van de flessen bevat meer dan 765 ml?

Stel dat de gemiddelde instelling 750 ml blijft. Hoe groot moetde standaardafwijking van de vulmachine zijn opdat 95 % van deflessen een inhoud zou hebben tussen 740 en 760 ml?

Academiejaar 2009-2010 75

Page 90: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 5. KENNISBASIS STATISTIEK

5 Kennisbasis Statistiek

De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’ Waarschijn-lijkheid en statistiek’.

Kansverdelingen

Kansverdelingen > Empirische kansverdelingen

Kansverdelingen > Theoretische kansverdelingen

Kansverdelingen > Kansverdeling als model

Kansverdelingen > Overschrijdingskansen

Kansverdelingen > Verwachtingswaarden

Kansverdelingen > Discrete kansverdelingen

Kansverdelingen > Discrete kansverdelingen > Overschrijdingskan-sen van discrete verdelingen

Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling

Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Binomiaalcoefficient

Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Overschrijdingskansen van de binomiale verdeling

Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Afleiding van de binomiale verdeling

Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Voorbeeld van de binomiale verdeling

Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Parameters van de binomiale verdeling

Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Verwachtingen van de binomiale verdeling

Kansverdelingen > Continue kansverdelingen

Kansverdelingen > Continue kansverdelingen > Kansdichtheid

Kansverdelingen > Continue kansverdelingen > Overschrijdings-kansen van continue verdelingen

Kansverdelingen > Continue kansverdelingen > Normale verdeling

Academiejaar 2009-2010 76

Page 91: Cursus Statistiek - 2TI - 0910

Hoofdstuk 3. 5. KENNISBASIS STATISTIEK

Kansverdelingen > Continue kansverdelingen > Normale verdeling >Overschrijdingskansen van de normale verdeling

Kansverdelingen > Continue kansverdelingen > Normale verdeling >Standaard normale verdeling

Kansverdelingen > Continue kansverdelingen > Normale verdeling >Normale benadering van discrete verdelingen

Kansverdelingen > Continue kansverdelingen > Normale verdeling >Normale benadering van discrete verdelingen>Continuıteitscorrectie

Academiejaar 2009-2010 77

Page 92: Cursus Statistiek - 2TI - 0910

4Samenhang tussen variabelen

78

Page 93: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 1. INLEIDING

1 Inleiding

Tijdens een onderzoek gaat een statisticus vaak op zoek naar mogelijke ver-banden tussen de stochastische veranderlijken.

Voorbeeld 1Het bestuur van de hogeschool wil een sensibiliseringsactie voeren rond degevolgen van roken. Ze vragen zich daarbij of het rookgedrag bij de studen-ten beınvloed wordt door het al dan niet op kot zitten.

Voorbeeld 2Een bedrijfsdokter wil de medische controles van zijn werknemers snellerlaten verlopen door het aantal metingen te beperken. Hij vermoedt dat hetgewicht op een lineaire (= rechtlijnige) manier afhangt van de lengte. Opbasis van het gewicht en de lengte van een aantal lukraak gekozen patientenwil hij zijn vermoeden statistisch staven. Tenslotte wil hij het gevondenverband gebruiken om op basis van de lengte van een werknemer een be-trouwbare voorspelling te maken van het gewicht.

Statistiek biedt ons een aantal getallen die uitdrukken in welke mate eenvooropgesteld verband al dan niet aanwezig is. Zowel bij discrete als bijcontinue veranderlijken kunnen we op zoek gaan naar verbanden. In hetgeval van discrete veranderlijken (voorbeeld 1) spreken we van ’associatie’.Bij continue veranderlijken (voorbeeld 2) spreken we van ’correlatie’.

Academiejaar 2009-2010 79

Page 94: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 2. ASSOCIATIE (DISCRETE VERANDERLIJKEN)

2 Associatie (discrete veranderlijken)

Veronderstel dat we willen onderzoeken of het rookgedrag bij de studentenafhangt van het al dan niet op kot zitten (voorbeeld 1). We vragen aan 51lukraak gekozen studenten of ze op kot zitten of niet en of ze roken of niet.Stel

X = ’op kot of niet’,

Y = ’roker of niet’.

De gezamenlijke verdeling van de 51 studenten zou er dan als volg kunnenuitzien:

y′j roker geen rokerx′i

kotstudent 5 16geen kotstudent 8 22

51

Op basis van deze cijfers kunnen we nu volgende vragen proberen te beant-woorden:

1. Zijn de veranderlijken X en Y geassocieerd? Dit wil zeggen, hangtde veranderlijke X af van de veranderlijke Y en omgekeerd? Of nog,wordt de veranderlijke X beıvloedt door de veranderlijke Y ?

2. Als er sprake is van associatie tussen X en Y , hoe sterk is die dan?

Om deze vragen te beantwoorden, kunnen we het getal Φ (lees: ’fie’) be-rekenen. Het drukt uit in welke mate twee discrete veranderlijken X en Ymet elkaar geassocieerd zijn.Als X en Y beiden twee mogelijke waarden hebben, dan is de gezamenlijkeverdeling een tabel van 2 bij 2:

y′1 y′2x′1 a bx′2 c d

N

met N = a+ b+ c+ d.De formule voor de berekenig van Φ is dan

Φ =

√(ad− bc)2

(a+ b) · (c+ d) · (a+ c) · (b+ d)

De waarde van Φ ligt altijd tussen 0 en 1. Afhankelijk van de ligging van Φbinnen het interval [0, 1], zijn X en Y in meer of mindere mate geassocieerdmet elkaar. We geven enkele voorbeelden.

Academiejaar 2009-2010 80

Page 95: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 2. ASSOCIATIE (DISCRETE VERANDERLIJKEN)

Voorbeeld 1Veronderstel dat de gezamenlijke verdeling van X en Y gegeven wordtdoor

y′j roker geen rokerx′i

kotstudent 13 0geen kotstudent 0 38

51

Dan is Φ = 1. X en Y zijn dan maximaal geassocieerd. De tweeveranderlijken zijn dan inderdaad zeer sterk afhankelijk van elkaar. Indit geval impliceert op kot zitten immers automatisch dat je roker benten omgekeerd.

Voorbeeld 2Veronderstel dat de gezamenlijke verdeling van X en Y gegeven wordtdoor

y′j roker geen rokerx′i

kotstudent 7 10geen kotstudent 14 20

51

Dan is Φ = 0. X en Y zijn dan helemaal niet geassocieerd met elkaar.De twee veranderlijken zijn dan onafhankelijk van elkaar. Dit betekentondermeer dat de verhouding rokers/niet rokers niet afhangt van hetal dan niet op kot zitten. Immers, zowel binnen de groep van dekotstudenten als binnen de groep van de niet-kotstudenten (als binnende volledige groep) is de verhouding rokers/niet rokers gelijk aan 7/10.

Voorbeeld 3Veronderstel dat de gezamenlijke verdeling van X en Y gegeven wordtdoor

y′j roker geen rokerx′i

kotstudent 5 17geen kotstudent 25 4

51

Dan is Φ = 0.64. In dit geval kunnen we zeggen dat X en Y matigmet elkaar geassocieerd zijn. Dit is een soort tussensituatie.

Academiejaar 2009-2010 81

Page 96: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 2. ASSOCIATIE (DISCRETE VERANDERLIJKEN)

Opmerking:We moeten voorzichtig omspringen met uitspraken over het al dan niet geas-socieerd zijn van twee veranderlijken X en Y . Het is belangrijk om te wetenof je je uitspraken baseert op de gegevens van de volledige populatie of opdie van een steekproef. We lichten dit toe aan de hand van het voorbeeldover het verband tussen roken en op kot zitten bij studenten.

Als de studentenpopulatie bestaat uit 51 studenten en we vinden voordie 51 studenten dat Φ = 0.9 dan kunnen we terecht zeggen dat hetrookgedrag bij de studenten sterk beınvloedt wordt door het al danniet op kot zitten.

Als de studentenpopulatie echter bestaat uit 5213 studenten en eensteekproef van 51 lukraak gekozen studenten levert Φ = 0.9 op, danmoeten we voorzichtig zijn met onze uitspraken. Het is best mogelijkdat het rookgedrag en het al dan niet op kot zitten voor de 51 studen-ten uit die ene steekproef toevallig sterk geassocieerd is. Maar ditbetekent niet noodzakelijk dat dit ook zo is voor de volledig populatie.Omdat je je bij een steekproef slechts baseert op een beperkt deel vande populatie kan de steekproef toevallig een foutief beeld geven. Erbestaan statistische tabellen om na te gaan of de associatie die je vindtin een steekproef ook nog van belang is voor de volledige populatie.We gaan er hier niet verder op in.

Academiejaar 2009-2010 82

Page 97: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)

3 Correlatie (continue veranderlijken)

Veronderstel dat we willen onderzoeken of er een verband bestaat tussende lengte en het gewicht van personen (voorbeeld 2). We vragen aan 29personen om hun lengte (in cm) en hun gewicht (in kg) op te geven. Stel

X = ’lengte (in cm)’,

Y = ’gewicht (in kg)’.

Merk op dat X en Y continue veranderlijken zijn. Om een eerste idee tekrijgen van de samenhang van de 2 reeksen gegevens, zetten we ze uit in eenspreidingsdiagram.

Het spreidingsdiagram laat ons toe om reeds een aantal kwalitatieve uit-spraken te doen over

het soort verband (lineair of niet-lineair),

de richting (positieve of negatieve samenhang),

de sterkte van het verband.

In deze tekst beperken we ons tot het onderzoeken van lineaire (= recht-lijnige) verbanden. We zoeken dus een antwoord op de volgende vragen:

1. Is er een lineair verband tussen de veranderlijken X en Y ? Met anderewoorden, kan je op het spreidingsdiagram een rechte tekenen die goedaansluit bij de punten op de grafiek?

2. Indien er sprake is van een lineair verband, hoe sterk is het? Of nog,hoe goed sluiten de punten op de grafiek aan bij een rechte?

Academiejaar 2009-2010 83

Page 98: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)

3.1 Pearson’s correlatiecoefficient

Om bovenstaande vragen te beantwoorden, kunnen we de correlatiecoefficientvan Pearson berekenen. Notatie: ρ (lees: ’roo’) of ’r’ als het over de gegevensvan een steekproef gaat. Als we de verzamelde gegevens voor X voorstellendoor x1, x2, . . . en de verzamelde gegevens voor Y door y1, y2, . . . dan wordtρ als volgt berekend

ρ =∑

(xi −X) · (yi − Y )√∑(xi −X)2 ·

√∑(yi − Y )2

De correlatiecoefficient ligt altijd tussen -1 en 1. Het getal geeft aan in welkemate er een lineair verband bestaat tussen de veranderlijken X en Y . Wegeven enkele voorbeelden.

Voorbeeld 1: verband tussen Fahrenheit en Celsius

Figuur 4.1: r = +1

We spreken in dit geval van een perfect positieve correlatie. Er is daneen perfect lineair verband tussen X (graden Celsius) en Y (gradenFahrenheit). Je kan dan op het spreidingsdiagram een rechte tekenendie precies door alle punten gaat. Het plusteken geeft bovendien aandat de rechte stijgend is.

Voorbeeld 2: verband tussen gewicht en lengte

Figuur 4.2: r = +0.56

Er is in dit geval een matig positieve correlatie. Dit wil zeggen dat er

Academiejaar 2009-2010 84

Page 99: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)

slechts een matig stijgend lineair verband is tussen X (lengte) en Y(gewicht). Elke rechte die je probeert te tekenen op het spreidingsdi-agram zal slechts matig bij de punten op de grafiek aansluiten.

Voorbeeld 3: verband tussen inkomen en gewicht

Figuur 4.3: r = +0.022

De veranderlijken X (gewicht) en Y (inkomen) zijn niet gecorreleerd.Er is dus geen lineair verband tussen X en Y . De punten op hetspreidingsdiagram liggen willekeurig verspreid op de grafiek en sluitenniet aan bij een rechte.

Voorbeeld 4: verband tussen kwaliteit ogen en leeftijd

Figuur 4.4: r = -0.87

Er is in dit geval een sterke negatieve correlatie. Dit wil zeggen dat ereen sterk lineair verband is tussenX (leeftijd) en Y (kwaliteit ogen). Jekan op het spreidingsdiagram een rechte tekenen die nagenoeg perfectaansluit bij de punten op de grafiek. Het minteken geeft bovendienaan dat de rechte dalend is.

Opmerkingen:

De correlatiecoefficient van Pearson drukt alleen uit in welke mate ereen lineair verband bestaat tussen 2 veranderlijkenX en Y . Dat ρ = 0impliceert daarom niet noodzakelijk dat er geen verband is tussen Xen Y , of nog dat X en Y onafhankelijk zijn. Het is best mogelijkdat ρ = 0 is, maar dat er toch een sterk niet-lineair verband bestaat

Academiejaar 2009-2010 85

Page 100: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)

tussen X en Y . Een voorbeeld daarvan vind je in onderstaande figuur.

Figuur 4.5: r = 0

De waarde van de correlatiecoefficient van Pearson is onafhankelijk vande gebruikte eenheden. Of je een lengte uitdrukt in cm of m, of je eengewicht uitdrukt in g of in kg, zolang je dezelfde gegevens gebruiktverandert de waarde van de correlatiecoefficient niet.

Dat twee veranderlijken volgens de correlatiecoefficient van Pearsongecorreleerd zijn, betekent niet noodzakelijk dat er ook een causaalverband bestaat tussen die twee. Het is best mogelijk dat er een der-de veranderlijke is die beide veranderlijken beınvloedt. Zo zullen deveranderlijken X = ’dagomzet ijsventer’ en Y = ’percentage patientenmet zonnebrand’ tijdens de zomermaanden misschien sterk gecorre-leerd zijn. Maar dat wil niet zeggen dat er ook een rechtstreeks cau-saal verband is tussen die twee. Beide veranderlijken worden beınvloeddoor een derde veranderlijke zoals Z = ’maximale dagtemperatuur’.

3.2 Regeressierechte

Als de waarde van de correlatiecoefficient ρ wijst op een sterk lineair verband(ρ in de buurt van -1 of +1), dan is het zinvol om op zoek te gaan naar derechte die het best bij de punten op de grafiek aansluit. We noemen dezerechte de regressierechte. Het bepalen van het functievoorschrift van dezerechte kan gebeuren met de kleinste kwadratenmethode. Daarbij wordt derechte gezocht waarvan de kwadraten van de verticale afstanden van derechte tot de punten samen zo klein mogelijk zijn. Het is dus de rechte diein verticale zin het best aansluit bij de punten op het spreidingsdiagram. Devergelijking van de regressierechte is van de vorm

Y = b0 + b ·X

waarbij

b =∑

(xi −X) · (yi − Y )∑(xi −X)2

en b0 = Y − b ·X

Academiejaar 2009-2010 86

Page 101: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)

3.3 Lineaire regressie - statistische interpretatie

De correlatiecoefficient kan berekend worden om na te gaan in welke mate deverzamelde gegevens een lineair verloop vertonen. Indien het lineair verbandvoldoende sterk is, kunnen we de regressierechte berekenen als de rechte diehet best bij de gegevens aansluit. Indien we daarbij beschikken over allegegevens van een populatie is het probleem daarmee opgelost. Statistiekwordt echter typisch ingeschakeld wanneer je uitspraken wil doen over eenvolledige populatie , maar slechts beschikt over gegevens van een beperktdeel (= steekproef). In dat geval berekenen we de correlatiecoefficient en deregressierechte aan de hand van de steekproefgegevens. De conclusies die webekomen op basis van de steekproef kunnen echter niet zomaar doorgetrok-ken worden naar de volledige populatie. Enige voorzichtigheid is geboden.Zo is het perfect mogelijk dat een steekproef toevallig een sterk lineair ver-band vertoont terwijl dat in de populatie misschien in minder mate of zelfshelemaal niet aanwezig is. We illustreren dit met onderstaande figuren.

Steekproef r = 0.79 Populatie = 0.56

Statistische tabellen kunnen ons helpen om de overgang van steekproef naarpopulatie te maken. De tabel laat ons toe om met een vrij grote zekerheidte bepalen of een correlatie die waargenomen wordt in een steekproef vol-doende groot (significant) is om te kunnen zeggen dat er ook in de populatiesprake is van correlatie. Het gebruik van de tabel is echter gebonden aaneen aantal voorwaarden. Dit brengt ons bij het lineaire regressiemodel.

Lineaire regressiemodel

Beschouw een populatie met 2 eigenschappen die worden uitgedrukt door 2veranderlijken X en Y . Veronderstel dat bij elke waarde van X meerdereY -waarden mogelijk zijn. Bij elke waarde van X hoort dus een volledigeverdeling van Y -waarden met een gemiddelde en een standaardafwijking (=spreiding). In het lineaire regressiemodel vertrekken we van de idee dat ereen lineair verband bestaat tussen X en het gemiddelde van de verdelingvan Y -waarden.

Academiejaar 2009-2010 87

Page 102: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)

In het lineaire regressiemodel gaan we uit van volgende voorwaarden:

voor elke waarde van X volgen de bijhorende Y -waarden een normaleverdeling met telkens dezelfde standaardafwijking σ,

de waarden van Y bij verschillende waarden van X zijn onafhankelijkvan elkaar.

VoorbeeldVeronderstel dat we willen onderzoeken of er een lineair verband is tussende lengte (in cm) en het gewicht (in kg) van personen. Stel

X = ’lengte (in cm)’,

Y = ’gewicht (in kg)’.

Als de populatie voldoende groot is, dan zullen bij iedere lengte meerderemensen horen die niet allemaal hetzelfde gewicht hebben. De voorwaar-de betekent dan dat de gewichten van alle mensen met een bepaalde lengtenormaal verdeeld zijn met telkens dezelfde standaardafwijking (dus onafhan-kelijk van de lengte). Dus, dat bijvoorbeeld de gewichten van alle mensenmet een lengte van 170 cm normaal verdeeld zijn met gemiddelde 72 kgen standaardafwijking σ = 3 kg, dat de gewichten van alle mensen met eenlengte van 182 cm normaal verdeeld zijn met gemiddelde 80 kg en standaard-afwijking σ = 3 kg, enz...

Gewichten bij lengte = 170 cm Gewichten bij lengte = 182 cm

Gemiddelde = 72 kgStandaardafwijking = 3 kg

Gemiddelde = 80 kgStandaardafwijking = 3 kg

Symbolisch kunnen de aannames van het lineaire regressiemodel als volgtgeformuleerd worden:

Y = β0 + β ·X + ε

met ε ∼ N(0, σ2). ε is de spreiding van de Y -waarden rond de gemiddeldewaarde van Y .

Academiejaar 2009-2010 88

Page 103: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)

Globaal krijg we dan het volgende beeld van het lineaire regressiemodel:

Conditional probability distribution and population regression function

X

Y

f(u)

X2

X3

X1

Van steekproef naar populatie: praktisch stappenplan

Om vanuit een steekproef uitspraken te doen over de mogelijke lineaire sa-menhang van twee variabelen X en Y in de populatie doorlopen we devolgende stappen:

1. Bereken de correlatiecoefficient r van de steekproef.

2. Overgang van steekproef naar populatie Dat de correlatiecoefficient rverschillend van 0 is, betekent niet noodzakelijk dat er ook sprake isvan correlatie in de populatie. Zelfs wanneer er geen correlatie is in depopulatie kan er in de steekproef toevallig wel een correlatie te vindenzijn. Om na te gaan of de waargenomen correlatie in de steekproef ookstatistisch relevant is en impliceert dat er correlatie in de populatie isgebruiken we een tabel. Deze tabel heeft het volgende uitzicht

N 0.1 0.05 0.01 0.001

4 0.900 0.950 0.990 0.9995 0.805 0.878 0.959 0.9916 0.729 0.811 0.917 0.9747 0.669 0.754 0.875 0.9518 0.621 0.707 0.834 0.925. . . . . . . . . . . . . . .

Academiejaar 2009-2010 89

Page 104: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)

In de tabel staat N voor het aantal elementen in de steekproef. Degetallen in de eerste rij (0.1, 0.05, 0.01, . . .) geven de ’onzekerheid’ vanonze beslissing weer. Zo geeft 0.1 aan dat er een kans is van 10% datje per toeval in een steekproef een correlatie verschillend van nul hebtals er in de populatie geen correlatie is.

Gebruiksaanwijzing van de tabel:

Bepaal het aantal elementen van de steekproef N .

Kies een ’onzekerheidsniveau’.

Vergelijk de berekende waarde van r met de waarde in de tabel.

Conclusie:

(a) als r groter is dan de waarde in de tabel, dan concluderen wedat de correlatie in de populatie verschillend van 0 is,

(b) als r kleiner is dan de waarde in de tabel, dan concluderenwe dat we op basis van deze steekproef niet kunnen sprekenover correlatie in de populatie.

3. Bepaal de regressierechte voor de gegevens van de steekproef:

Y = b0 + b ·X

De coefficienten b0 en b die we bekomen op basis van de steekproefleveren een schatting op voor de overeenkomstige coefficienten β0 en βuit het populatiemodel. De gevonden regressierechte is dus een schat-ting voor het populatiemodel Y = β0 + β ·X.

Gebruik van de regressierechte

De regressierechte die we op basis van een steekproef gevonden hebben, kangebruikt worden om voorspellingen te doen. Voor een gegeven waarde vanX kunnen we de regressierechte gebruiken om een voorspelling te doen voorde bijhorende (gemiddelde) Y -waarde. Om een kwaliteitsvolle voorspellingte bekomen, moeten een aantal voorwaarden voldaan zijn:

de correlatie moet voldoende groot zijn. Wat we precies moeten ver-staan onder ’voldoende’ groot, hangt af van de context.

we beperken onze voorspellingen best tot X-waarden die binnen degegevens van de steekproef vallen. We spreken in dat geval van in-terpolatie. Als we een voorspelling zouden doen voor een X-waardebuiten het bereik van de gegevens van de steekproef dan spreken weover extrapolatie.

Academiejaar 2009-2010 90

Page 105: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)

Opmerkingen

Of een concreet populatiemodel al dan niet voldoet aan de voorwaar-den die we vooropstellen (zie hoger), kan grafisch geverifieerd wordenaan de hand van een grafiek van de residuen. Als yi de i-de waarde isuit de steekproef voor de veranderlijke Y en yi = b0 + b · xi de voor-spelde waarde volgens de regressierechte dan is ei = yi − yi het i-deresidu.

De waarde van σ (spreiding in de Y -waarden) in het populatiemodelkan vanuit de steekproef geschat worden aan de hand van de volgendeformule:

s =

√∑(yi − yi)2

n− 2

Academiejaar 2009-2010 91

Page 106: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)

Voorbeeld

Antropologen onderzoeken het verband tussen de lengte van de mens ende lengte van een van zijn beenderen. Volgende gegevens komen uit TheEstimation of Adult Stature from Metacarpal Bone Length (Amer. J. Phys.Anthro. (1978) 113-120).

lengte bot 45 51 39 41 52 48 49 46 43 47lengte lichaam 171 178 157 163 183 172 183 172 175 173

Berekeningen:

X Y X −X Y − Y (X −X) (X −X)2 (Y − Y )2

·(Y − Y )45 171 -1,1 -1,7 1,87 1,21 2,8951 178 4,9 5,3 25,97 24,01 28,0939 157 -7,1 -15,7 111,47 50,41 246,4941 163 -5,1 -9,7 49,47 26,01 94,0952 183 5,9 10,3 60,77 34,81 106,0948 172 1,9 -0,7 -1,33 3,61 0,4949 183 2,9 10,3 29,87 8,41 106,0946 172 -0,1 -0,7 0,07 0,01 0,4943 175 -3,1 2,3 -7,13 9,61 5,2947 173 0,9 0,3 0,27 0,81 0,09

som 461 1727 271,3 158,9 590,1gem. 46.1 172.7

Pearson’s correlatiecoefficientr = 0.8859822

Opzoeken in tabel (v.b. ’onzekerheid’ = 1%)N = 100.8859822 > 0.765

Regressierechte

b = 1.71b0 = 93.87Y = 93.87 + 1.71 ·X

Academiejaar 2009-2010 92

Page 107: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 4. OEFENINGEN

4 Oefeningen

1. Examenvraag - januari 2007FranZ Bauer wil onderzoeken of er een verband bestaat tussen de duurvan een liedje en de grootte van het MP3-bestand. Uit een speellijstworden lukraak 15 liedjes gekozen. Dit zijn de resultaten:

Naam Tijd Grootte(min:sec) bestand (kB)

Concord dawn - morning light 5:09 7247Dom&Roland - dynamo 3:32 4988Bad company - blind 7:30 10566Bad company - mass hysteria 6:58 9800Breakbeat era - bullitproof 4:32 5329Dj krust - guess 7:11 10108Kiko - passport 5:54 8315Kryptic minds - the gift 6:06 8481London elektricity - dancing vip 6:39 9355Peshay - road to San Marino 8:04 11360Nookie - solstice 7:59 11237Nu:tone - jazm 5:55 8339Shogun - together 7:20 10318Makoto - my soul 8:44 12293Johnny L - let’s roll 6:14 8780

(a) Is er een aannemelijk lineair verband tussen de tijdsduur van eenliedje (in seconden) en de grootte (in kB) van het MP3-bestand?

(b) Indien zinvol, bepaal de regressierechte.

(c) Kan je aan de hand van de regressierechte voorspellen of eenkort liedje van 25 seconden op een gewone floppy (1.44 MB) kanworden opgeslagen? Wat kan je hierbij opmerken?

2. Examenvraag - augustus 2007De bekende Wet van Moore stelt dat het aantal transistoren op eenchip elke achttien maanden verdubbelt. Wiskundig betekent dit dat ereen exponentieel verband bestaat tussen de tijd en het aantal transis-toren op een chip. Of nog, dat er een lineair verband bestaat tussen detijd en de logaritme van het aantal transistoren op een chip. Hierondervind je een tabel met informatie over 11 types van processors.

Academiejaar 2009-2010 93

Page 108: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 4. OEFENINGEN

Intel- Introductie- # transistoren log(# transistoren)processor jaar8086 1978 29000 4,46286 1982 134000 5,13386 1985 275000 5,44486 1989 1200000 6,08Pentium 1993 3100000 6,49Pentium II 1997 7500000 6,88Pentium III 1999 9500000 6,98Pentium 4 2000 42000000 7,62Itanium 2001 25000000 7,40Itanium 2 2003 220000000 8,34Itanium 2 9M 2004 592000000 8,77

(bron: http://www.computable.nl/artikels/archief5/d16hb5zi.htm)

(a) Lijkt de wet van Moore aannemelijk? Met andere woorden, iser een aannemelijk lineair verband tussen het introductiejaar vande processor en de logaritme van het aantal transistoren op eenchip?

(b) Indien zinvol, bepaal de regressierechte.

(c) Kan je aan de hand van de regressierechte het aantal transistorenop een chip voorspellen voor een processor die in 2010 op de marktzal gebracht worden? Wat kan je hierbij opmerken?

Academiejaar 2009-2010 94

Page 109: Cursus Statistiek - 2TI - 0910

Hoofdstuk 4. 5. KENNISBASIS STATISTIEK

5 Kennisbasis Statistiek

De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’ Waarschijn-lijkheid en statistiek > Samenhang tussen variabelen’.

Associatie en correlatie

Associatie en correlatie > Asscociatie

Associatie en correlatie > Associatie > Kruistabellen

Associatie en correlatie > Associatie > Kruistabellen > Marginaleverdeling

Associatie en correlatie > Associatie > Kruistabellen > Conditioneleverdeling

Associatie en correlatie > Associatie > Associatiematen >Chikwadraat

Associatie en correlatie > Associatie > Associatiematen > Phi

Associatie en correlatie > Correlatie

Associatie en correlatie > Correlate > Spreidingsdiagram

Associatie en correlatie > Correlate > Correlatie en causaliteit

Associatie en correlatie > Correlate > Correlatiecoefficienten

Associatie en correlatie > Correlatie > Correlatiecoefficienten >Pearson’s correlatiecoefficient

Regressie en variantie-analyse > Regressie-analyse

Regressie en variantie-analyse > Regressie-analyse >Lineaire regressiemodel

Regressie en variantie-analyse> Regressie-analyse>Kleinste kwadraten-methode

Regressie en variantie-analyse> Regressie-analyse>Kleinste kwadraten-methode > Regressiecoefficienten

Regressie en variantie-analyse> Regressie-analyse>Kleinste kwadraten-methode > Voorspellen

Academiejaar 2009-2010 95

Page 110: Cursus Statistiek - 2TI - 0910

5Populatie, steekproef en schatten

96

Page 111: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 1. INLEIDING

1 Inleiding

Als we een statistisch onderzoek willen doen dan hebben we altijd een be-paalde groep van mensen, dieren, voorwerpen in gedachten. De volledigeverzameling van eenheden die we willen onderzoeken noemen we de po-pulatie. Meestal zijn we geınteresseerd in een of meer eigenschappen vande eenheden van een populatie. Elke eigenschap kan uitgedrukt worden ineen populatieveranderlijke. Zoals elke veranderlijke heeft ook een populatie-veranderlijke een bepaalde verdeling, met een gemiddelde en een variantie.We spreken dan over het populatiegemiddelde en de populatievariantie. Dezegetallen noemen we parameters van de populatie.

VoorbeeldBeschouw als populatie ’alle Vlamingen’. Als we geınteresseerd zijn in delengte van de Vlamingen dan is X = ’lengte (in cm)’ een populatieveran-derlijke. Deze X zou bijvoorbeeld normaal verdeeld kunnen zijn met popu-latiegemiddelde µX = 172 cm en populatievariantie σ2

X = 100 cm2.

Vaak is het onmogelijk om de volledige populatie te onderzoeken omdat

de populatie te groot is,

een dergelijk uitgebreid onderzoek te duur is,

het onderzoek destructief is (bijvoorbeeld levensduur gloeilampen),

. . .

We onderzoeken daarom in de meeste gevallen slechts een beperkt deel vande populatie en spreken dan van het nemen van (een) steekproef(ven). Hetaantal elementen in een steekproef noemen we de lengte van de steekproefof ook wel steekproefgrootte.

VoorbeeldVeronderstel dat we in het onderzoek naar de lengte van de Vlamingen be-sluiten om slechts 10 Vlamingen te bevragen. Dan krijgen we een steekproefvan lengte 10 die er als volgt zou kunnen uitzien:

(172, 159, 150, 184, 179, 202, 194, 181, 172, 163)

Academiejaar 2009-2010 97

Page 112: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 2. STEEKPROEVEN

2 Steekproeven

2.1 Steekproefveranderlijken

Het nemen van een concrete steekproef van lengte 5 levert een rijtje met 5getallen op. Wanneer we deze procedure een paar keer herhalen, zullen wezelden exact dezelfde steekproeven krijgen.Veronderstel bijvoorbeeld dat we in het onderzoek naar de lengte van alleVlamingen meerdere steekproeven van lengte 5 nemen. Dan zou het resul-taat er als volgt kunnen uitzien:

steekproef 1: (156, 172, 184, 172, 188)steekproef 2: (173, 181, 158, 173, 192)steekproef 3: (171, 167, 181, 173, 195). . .

↑ ↑ ↑ ↑ ↑X1 X2 X3 X4 X5

Als we in elke steekproef kijken naar het eerste element dan merken we datdit verschilt van steekproef tot steekproef. Over alle mogelijke steekproevenvan lengte 5 gezien, kan ’het eerste element van de steekproef’ daarom ge-zien worden als een veranderlijke waarvan de waarde verandert naargelangde steekproef. Dit geldt ook voor de andere elementen van de steekproef.De steekproeven van lengte 5 geven dus aanleiding tot een rijtje van 5 ver-anderlijken

(X1, X2, X4, X4, X5)

met de volgende betekenis

X1 = ’eerste element van de steekproef’,

X2 = ’tweede element van de steekproef’,

. . .

X5 = ’vijfde element van de steekproef’,

In het algemeen geven de steekproeven van een bepaalde lengte n dus aan-leiding tot een rij (X1, X2, . . . , Xn) van n veranderlijken. We noemen dezeveranderlijken de steekproefveranderlijken.

2.2 ’Goede’ steekproeven

Om zinvolle uitspraken te kunnen doen aan de hand van een of meerderesteekproeven, moeten de steekproeven de juiste kwaliteiten bezitten. Zonderin detail te treden, kunnen we zeggen dat een steekproef ’goed’ is als ze

Academiejaar 2009-2010 98

Page 113: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 2. STEEKPROEVEN

betrouwbaar is, d.w.z. dat wanneer je meerdere steekproeven vandezelfde lengte neemt dat er kleine verschillen mogelijk zijn, maar datje globaal toch dezelfde resultaten vindt,

representatief is voor de populatie, d.w.z. dat de kenmerken vande populatie ook weerspiegeld worden in de steekproef. Dit probeertmen over het algemeen te bekomen door aselecte steekproeven tenemen. Daarbij heeft iedere eenheid van de populatie evenveel kans omtoevallig in de steekproef terecht te komen. Bij een eindige populatiekan dit gerealiseerd worden door alleen eenheden van de populatie eennummer te geven en vervolgens at random nummers te selecteren. Wezeggen dan vaak dat de elementen van de steekproef lukraak gekozenworden.

Wanneer we op een correcte manier steekproeven nemen, kunnen we ver-wachten dat de resultaten uit de steekproef veralgemeend kunnen wordennaar de populatie. Dit betekent echter niet dat we de resultaten uit desteekproef zomaar kunnen overnemen voor de hele populatie, maar wel datwe aan de hand van de steekproef zinvolle uitspraken kunnen doen over depopulatie.

2.3 Steekproefgrootheden, schatters

Na het nemen van een steekproef worden de elementen ervan vaak onder-worpen aan allerlei bewerkingen om de juiste informatie te bekomen. Zokunnen we bijvoorbeeld de elementen van een steekproef gebruiken om hetsteekproefgemiddelde of de steekproefvariantie te berekenen. We sprekendan van steekproefgrootheden. Omdat er verschillen kunnen opduikentussen de steekproeven van eenzelfde lengte, varieert de waarde van diesteekproefgrootheden van steekproef tot steekproef. Steekproefgroothedenzijn daarom veranderlijken waarvan de waarde kan veranderen naar gelangde concrete steekproef die getrokken wordt.

Vaak worden steekproefgrootheden gebruikt om ongekende parameters vande populatie te schatten vanuit een steekproef. We spreken in dat geval vanschatters.

VoorbeeldBeschouw opnieuw het onderzoek naar de lengte van alle Vlamingen. Alshet populatiegemiddelde µX en/of de populatievariantie σ2

X ongekend zijn,kunnen we deze parameters vanuit een steekproef proberen te schatten methet steekproefgemiddelde en/of de steekproevariantie.

Academiejaar 2009-2010 99

Page 114: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE

3 Het steekproefgemiddelde

3.1 Formule

Wanneer we de formule voor een gemiddelde van een rijtje getallen toe-passen op de elementen van een steekproef van lengte n bekomen we hetsteekproefgemiddelde X:

X =X1 +X2 + . . .+Xn

n

3.2 Centrale limiestelling

Stel dat we altijd nieuwe steekproeven maken en daarvan telkens het steekproef-gemiddelde berekenen. Dan kunnen we ons de volgende vragen stellen:

Waar komt het steekproefgemiddelde terecht?

Komt het ver van of dicht bij µX terecht?

Waar komt het meestal terecht?

Waar komt het gemiddeld terecht?

We kunnen dit soorten vragen wiskundig vertalen als volgt:

Welke verdeling volgt het steekproefgemiddelde?

Wat is het gemiddelde van deze verdeling?

Wat is de variantie van deze verdeling?

We proberen een antwoord te vinden met het volgend voorbeeld. Veron-derstel dat je aan elk lid van een zeer grote populatie een kaartje geeft metdaarop 1 cijfer: 0, 1, 2 of 3. Veronderstel ook dat er van elk cijfer evenveelkaartjes zijn. Veronderstel verder dat X het cijfer op een kaartje voorstelt.

De populatieveranderlijke X

De verdeling van X vind je hieronder.Omwille van de symmetrie zien we dat het gemiddelde µX gelijk is aan 1.5.Je kan µX en σ2

X ook vinden door kolommen toe te voegen aan de tabel vande kansverdeling.

x′i P (X = x′i) x′i · P (X = x′i) x′i2 · P (X = x′i)

0 1/4 0 01 1/4 1/4 1/42 1/4 2/4 4/43 1/4 3/4 9/4

1 E[X] = 6/4 E[X2] = 14/4

Academiejaar 2009-2010 100

Page 115: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE

0 1 2 3

1/4 1/4 1/4 1/4

X

We vinden dus:

µX = E[X] =64

= 1.5

σ2X = var[X]

= E[X2]− (E[X])2

=144− 9

4=

54

= 1.25

Steekproeven van lengte 2

We nemen lukraak een eerste kaartje uit de populatie en stellen X1 gelijkaan het nummer op het eerste kaartje. We nemen lukraak een tweede kaartjeuit de populatie en stellen X2 gelijk aan het nummer op het tweede kaartje.Op die manier ontstaan er steekproeven (X1, X2) van lengte 2. Er zijn 16verschillende mogelijke steekproeven:

(0,0) (0,1) (0,2) (0,3) (1,0) (1,1) (1,2) (1,3)(2,0) (2,1) (2,2) (2,3) (3,0) (3,1) (3,2) (3,3)

Elk van deze steekproeven heeft dezelfde kans (1/16) om getrokken te wor-den. We berekenen nu voor elke steekproef het steekproefgemiddelde envinden de volgende mogelijkheden:

Academiejaar 2009-2010 101

Page 116: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE

steekproefgemiddelde steekproef0 (0,0)

0.5 (0,1), (1,0)1 (0,2), (1,1), (2,0)

1.5 (0,3), (1,2), (2,1), (3,0)2 (1,3), (2,2), (3,1)

2.5 (2,3), (3,2)3 (3,3)

De gafiek van de verdeling van het steekproefgemiddelde (over alle mogelijkesteekproeven) ziet er als volgt uit:

0 0.5 1 1.5 2 2.5 3

1/16

2/16 2/16

1/16

3/16 3/16

4/16

steekproefgemiddelde

De symmetrie in deze verdeling valt meteen op. Met een tabel kunnen wehet gemiddelde en de variantie van deze kansverdeling van X berekenen(doen!). We vinden dan

E[X] = 1.5 = µX

var[X] = 0.625 =σ2X

2

Steekproeven van lengte 3

Analoog als bij de steekproeven van lengte 2 kunnen we alle mogelijkesteekproeven van lengte 3 opsommen, voor elke steekproef het steekproef-gemiddelde berekenen en tenslotte de verdeling van het steekproefgemiddeldeuittekenen.De kansverdeling van X is opnieuw symmetrisch. Met een tabel berekenenwe het gemiddelde en de variantie van deze verdeling en vinden:

E[X] = 1.5 = µX

var[X] ≈ 0.4167 =σ2X

3

Academiejaar 2009-2010 102

Page 117: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE

0.00 0.33 0.67 1.00 1.33 1.67 2.00 2.33 2.67 3.00

1/64 1/64

3/64 3/64

3/32 3/32

5/32 5/32

3/16 3/16

steekproefgemiddelde

Steekproeven van lengte 4

Als we bovenstaande procedure nogmaals doorlopen vinden we volgendekansverdeling voor het steekproefgemiddelde van steekproeven van lengte 4:

0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00

11/64 5/32 5/32

31/256 31/256

5/64 5/64

5/128 5/128

1/64 1/64 1/256 1/256

steekproefgemiddelde

Opnieuw springt de symmetrie van deze verdeling in het oog. Berekenenvan het gemiddelde en de variantie van deze verdeling geeft:

E[X] = 1.5 = µX

Var[X] = 0.3125 =σ2X

4

Academiejaar 2009-2010 103

Page 118: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE

Steekproeven van lengte n

Naarmate n groter wordt, wordt de kwaliteit van het steekproefgemiddeldenog beter. Omwille van de symmetrie van deze verdeling wordt het al vlugaannemelijk dat het steekproefgemiddelde een normale verdeling gaat volgen.Verder nemen we zonder bewijs aan dat

E[X] = µX

Var[X] =σ2X

n

Besluit: centrale limietstelling

De centrale limietstelling zegt dat, naarmate de steekproef groter wordt,de verdeling van het steekproefgemiddelde van steekproeven van lengte neen normale verdeling benadert, wat ook de verdeling van de populatie sto-chastische veranderlijke is.Verder is het gemiddelde van alle steekproefgemiddelden E[X] gelijk aanhet populatiegemiddelde µX en de varaiantie van alle steekproefgemiddel-den Var[X] gelijk aan de populatievariantie gedeeld door de lengte van desteekproeven σ2

Xn . Dus

X ∼ N(µX ,σ2X

n)

Vanaf steekproeflengte n = 30 mogen we gebruik maken van deze normaleverdeling.Naarmate de verdeling van X zelf symmetrisch is, kan je deze benaderingook gebruiken voor kleinere waarden van n.Als X normaal verdeeld is, geldt deze stelling automatisch.

3.3 Het steekproefgemiddelde als schatter voor het popula-tiegemiddelde

Om een idee te krijgen van het populatiegemiddelde ligt het voor de handdat we iets analoog gebruiken in de steekproef, namelijk het steekproef-gemiddelde. Het steekproefgemiddelde is dus een schatter voor het po-pulatiegemiddelde.Naast het steekproefgemiddelde zijn er andere mogelijkheden om het po-pulatiegemiddelde te schatten. We zouden als schatter ook het gemiddeldekunnen nemen van het kleinste en grootste element van de steekproef.Van een goede schatter verwachten we dat deze

onvertekend is, d.w.z. gemiddeld (over alle mogelijke steekproevenbekeken) terecht komt op wat je zoekt.

Academiejaar 2009-2010 104

Page 119: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE

een zo klein mogelijke spreiding heeft rond wat je zoekt.

De kwaliteit van een schatter hangt dus af van haar verdeling. Bekijkenwe als voorbeeld de verdeling van het steekproefgemiddelde X. We zagen

0.125

1.171 105.

f x( )

255 x

µ X

dat het steekproefgemiddelde verandert van steekproef tot steekproef. Hetsteekproefgemiddelde volgt, bij een voldoende grote steekproef, een normaleverdeling met gemiddelde µ en variantie σ2/n. We concluderen:

Het steekproefgemiddelde X is een onvertekende schatter voor hetpopulatiegemiddelde µ.

Omwille van de normale verdeling komen heel veel steekproefgemid-delden dicht bij µ terecht.

Men kan ook bewijzen dat, van alle schatters van µ, het steekproef-gemiddelde X de kleinste variantie (spreiding) heeft. We noemen hetsteekproefgemiddelde daarom de beste schatter voor µ.

Academiejaar 2009-2010 105

Page 120: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 4. DE STEEKPROEFVARIANTIE

4 De steekproefvariantie

4.1 Formule

Om een idee te krijgen van de populatievariantie gebruiken wij iets analoogsin de steekproef, namelijk de steekproefvariantie S2

n. (De index n in denotatie geeft aan dat er gedeeld wordt door n).

Definitieformule: S2n =

∑ni=1(Xi −X)2

n

Korte formule: S2n =

∑ni=1X

2i

n−X2

4.2 De steekproefvariantie als schatter voor de populatieva-riantie

Om een goede schatter voor σ2 te zijn, moet S2n onvertekend zijn. We moeten

dus controleren of E[S2n] gelijk is aan σ2. We vinden echter dat

E[S2n

]=n− 1n

σ2 < σ2

zodat S2n een onderschatting is van σ2.

Een onvertekend schatter van σ2 wordt dus gegeven door

n

n− 1· S2

n =n

n− 1

∑ni=1(Xi −X)2

n=∑ni=1(Xi −X)2

n− 1= S2

n−1.

Er wordt dus gedeeld door n− 1 in plaats van door n hetgeen we ook in denotatie aangeven. Op de meeste zakrekenmachines vind je toetsen voor bei-de definities. We zullen voortaan de steekproefvariantie gebruiken waarbijgedeeld wordt door n − 1 om op die manier een onvertekende schatter vanσ2 te krijgen.Net zoals bij de vertekende steekproefvariantie S2

n is er ook voor de onver-tekende steekproefvariantie S2

n−1 een definitieformule en een korte formule.

Definitieformule: S2n−1 =

∑ni=1(Xi −X

2)n− 1

Korte formule: S2n−1 =

∑ni=1X

2i −

(∑n

i=1Xi)2

n

n− 1

Academiejaar 2009-2010 106

Page 121: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 5. OEFENINGEN

5 Oefeningen

1. De dikte van de computer chips die wereldwijd geproduceerd wordenis normaal verdeeld met gemiddelde 200 micrometer en standaard-afwijking 5 micrometer.

(a) Als je lukraak 15 computer chips kiest, wat is dan de kans datde gemiddelde dikte van deze chips tussen 197.5 micrometer en203.2 micrometer ligt?

(b) Een fabrikant van computer chips verpakt de chips in dozen van10 stuks. Ter controle wordt de gemiddelde dikte van de chipsin een doos berekend. De kwaliteitsverantwoordelijke beslist datde dozen met de 10% kleinste gemiddeldes niet mogen verkochtworden. Wat is de minimaal gemiddelde dikte in een doos van 10chips die mag verkocht worden?

2. De nationale bank vermoedt dat er een valse muntstukken in omloopzijn. Deze muntstukken zijn zo vervaardigd dat er een kans is van 35%om kop te gooien. De muntstukken worden per 1000 getest: ze wor-den opgegooid en er wordt genoteerd hoe vaak ’munt’ wordt gegooid.Als je deze procedure 30 keer herhaalt, tussen welke waarden zal hetgemiddeld aantal keer munt per 1000 muntstukken dan met een kansvan 95% gelegen zijn?

3. Door een fabricagefout is 40% van een bepaald model laptop binneneen jaar defect. Testaankoop wil dit geval onderzoeken. Verondersteldat Testaankoop lukraak steekproeven neemt van 30 laptops. Na eenjaar wordt gekeken of de laptops nog werken of niet. Voor een werkendelaptop wordt een ’1’ genoteerd, voor een defecte een ’0’. Om eenschatting te maken van de proportie defecte laptops wordt tenslottehet aantal eentjes opgeteld en gedeeld door 30.

(a) Wat is de verdeling van de proportie defecte laptops voor steek-proeven van lengte 30?

(b) Wat is de kans dat de proportie defecte laptops in een steekproefvan lengte 30 groter is dan 0.55 of kleiner 0.30?

Academiejaar 2009-2010 107

Page 122: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 6. KENNISBASIS STATISTIEK

6 Kennisbasis Statistiek

De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’ Waarschijn-lijkheid en statistiek’.

Populatie en steekproef

Populatie en steekproef > Steekproeftrekking

Populatie en steekproef > Steekproeftrekking > Generaliseerbaar-heid

Populatie en steekproef > Steekproeftrekking > Aselectheid

Populatie en steekproef > Steekproefvariabiliteit

Populatie en steekproef > Steekproefvariabiliteit > Steekproefom-vang

Populatie en steekproef > Steekproefgrootheden

Populatie en steekproef > Steekproefgrootheden > Kansverdelingvan steekproefgrootheden

Populatie en steekproef > Steekproefgrootheden > Verwachtingenvan steekproefgrootheden

Populatie en steekproef > Steekproefgrootheden > Centrale limiet-stelling

Schatten en toetsen

Schatten en toetsen > Puntschatters en intervalschatters

Schatten en toetsen > Puntschatters en intervalschatters > Zuivereschatting

Schatten en toetsen > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van het populatiegemiddelde

Schatten en toetsen > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van het populatiegemiddelde >Kansverdeling van het steekproefgemiddelde

Schatten en toetsen > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van de populatievariantie

Schatten en toetsen > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van de populatieproportie

Academiejaar 2009-2010 108

Page 123: Cursus Statistiek - 2TI - 0910

Hoofdstuk 5. 6. KENNISBASIS STATISTIEK

Schatten en toetsen > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van de populatieproportie >Kansverdeling van de steekproefproportie

Academiejaar 2009-2010 109

Page 124: Cursus Statistiek - 2TI - 0910

6Betrouwbaarheidsintervallen (B.I)

110

Page 125: Cursus Statistiek - 2TI - 0910

Hoofdstuk 6. 1. BI VOOR HET POPULATIEGEMIDDELDE

1 BI voor het populatiegemiddelde

VoorbeeldEen drankenfabrikant produceert kleine flesjes met een suikeroplossing alsbasis voor een nieuwe frisdrank. De concentratie aan suiker is normaalverdeeld met ongekend gemiddelde µX en standaardafwijking σX = 20 g/l.Een steekproef van 5 flesjes heeft de volgende concentraties opgeleverd:

(120, 132, 125, 128, 116)

We stellen

Populatie = ’alle flesjes met suikeroplossing’

Populatieveranderlijke X = ’concentratie (in g/l)’

Dan isX ∼ N(µX , σ2

X = 400).

Uit de lessen over het steekproefgemiddelde weten we dan dat voor steek-proeven van lengte 5 het steekproefgemiddelde

X ∼ N(µX ,

4005

).

0.0205

4.363 10 5.

f x( )

7070 xµµX

X ~ (µµX , 400) 5

DEMO VERSION

PDF-XCHANGE

www.docu-track.com

Als we zoals in het voorbeeld een concrete steekproef hebben getrokken, kun-nen we met het steekproefgemiddelde X het ongekende populatiegemiddeldeµX proberen te schatten. In dit voorbeeld vinden we X = 124.2. We noe-men dit een puntschatting omdat we met een enkele waarde de ongekendepopulatieparameter µX proberen te schatten. De verdeling van X toontechter aan dat we met zo’n schatting meestal onder of boven de correctewaarde µX terecht komen. Deze puntschatting leert ons daarom weinig overhet ongekende populatiegemiddelde µX .

In een poging om meer te weten te komen over het ongekende populatie-gemiddelde µX proberen we een interval te construeren rond het steekproef-gemiddeldeX = 124.2 op zo’n manier dat er 95% kans is dat het ongekendepopulatiegemiddelde µX tot dat interval behoort.

Academiejaar 2009-2010 111

Page 126: Cursus Statistiek - 2TI - 0910

Hoofdstuk 6. 1. BI VOOR HET POPULATIEGEMIDDELDE

Om dat doel te bereiken zoeken we eerst een positief getal a zodat op deverdeling van X geldt dat

P (µX − a ≤ X ≤ µX + a) = 0.95.

0.0205

4.363 10 5.

f x( )

7070 xµµX

X ~ (µµX , 400) 5

a a

µµX + aµµX - a

9 5 %

DEMO VERSION

PDF-XCHANGE

www.docu-track.com

De berekening van a maken we verderop, maar laat ons eerst even bekijkenwat we met deze a kunnen doen.Er zijn nu twee situaties mogelijk:

1. Er is 95% kans dat een willekeurig steekproefgemiddelde (van eensteekproef met 5 flesjes) zoals X = 124.2 in het interval [µX−a, µX+a]ligt. In dat geval zal het interval [124.2− a, 124.2 + a] het ongekendepopulatiegemiddelde µX bevatten.

0.0205

4.363 10 5.

f x( )

7070 xµµX

9 5 %

a

124.2 124.2 - a 124.2 + aSituatie 1: interval bevat populatiegemiddelde wel

DEMO VERSION

PDF-XCHANGE

www.docu-track.com

2. Er is 5% kans dat een willekeurig steekproefgemiddelde (van een steek-proef met 5 flesjes) zoals X = 124.2 buiten het interval [µX−aµX +a]valt. In dat geval zal het interval [124.2− a, 124.2 + a] het ongekendepopulatiegemiddelde µX niet bevatten.

0.0205

4.363 10 5.

f x( )

7070 xµµX

9 5 %

a

124.2 124.2 - a 124.2 + aSituatie 2: interval bevat populatiegemiddelde niet

DEMO VERSION

PDF-XCHANGE

www.docu-track.com

Academiejaar 2009-2010 112

Page 127: Cursus Statistiek - 2TI - 0910

Hoofdstuk 6. 1. BI VOOR HET POPULATIEGEMIDDELDE

Samengevat:als je een steekproef van lengte 5 neemt en rond het steekproefgemiddeldeX het interval [X − a, X + a] construeert heb je 95% kans dat dit intervalhet ongekende populatiegemiddelde µX bevat. We noemen dat interval een95%-betrouwbaarheidsinterval voor µX.

We berekenen a:

P (µX − a ≤ X ≤ µX + a) = 0.95

⇔ P

(µX − a)− µX√4005

≤ X − µX√4005

≤ (µX + a)− µX√4005

= 0.95

⇔ P

− a√4005

≤ Z ≤ a√4005

= 0.95

De tabel van de standaard normaalverdeling (kijken bij P (Z ≥ z0) = 0.025)leert ons dat dat

a√4005

= 1.96

zodat

a = 1.96 ·√

4005

= 1.96 · 20√5.

Conclusie:In ons voorbeeld vormt het interval [124.2 − 1.96 ·

√4005 , 124.2 + 1.96 ·√

4005 ] = [106.67, 141.73] een 95%-betrouwbaarheidsinterval voor het on-

gekende populatiegemiddelde µX .

Algemeen: betrouwbaarheidsintervallen voor het populatie-gemiddelde µX

Veronderstel dat zα2

het punt is op de tabel van de standaard normaal-

verdeling waarvoor geldt dat P (Z ≥ zα2) =

α

2%. Dan vormt het interval

[X − zα

2· σX√

n, X + zα

2· σX√

n

]een (100 − α)%-betrouwbaarheidsinterval voor het populatiegemiddelde µX.Het getal (100− α)% noemen we de betrouwbaarheid.

Academiejaar 2009-2010 113

Page 128: Cursus Statistiek - 2TI - 0910

Hoofdstuk 6. 2. OEFENINGEN

2 Oefeningen

1. Een weerstation doet elke dag precies om 12u00 een temperatuurs-meting (in graden Celsius). Veronderstel dat die temperatuursmetin-gen normaal verdeeld zijn met ongekend gemiddelde µX en variantieσ2X = 9. Een steekproef van 10 dagen levert de volgende temperaturen

op:−2, 12, 5, 22, 15, 28, 1, 17, 5 31

(a) Gebruik deze steekproef om een 90%- betrouwbaarheidsinerval teconstrueren voor het ongekende gemiddelde µX .

(b) Hoeveel metingen moet een steekproef minstens bevatten om een90%- betrouwbaarheidsinterval voor µX te bekomen dat maxi-maal 2 graden Celsius breed is?

(c) Als je de betrouwbaarheid laat toenemen, wordt het betrouwbaar-heidsinterval dan korter of langer?

2. De webmasters van een druk bezochte website houden statistieken bijvan het dagelijks aantal bezoekers. Veronderstel dat het aantal be-zoekers normaal verdeeld is met ongekend gemiddelde µX en variantieσ2X = 4000000. Een steekproef van 4 dagen levert volgende resultaten

op:16450, 22325, 12120, 31400

(a) Als je een betrouwbaarheidsinterval wil construeren dat maxi-maal 1500 eenheden breed is, hoe groot kan je de betrouwbaar-heid dan maken?

(b) Construeer een 99%-betrouwbaarheidsinterval voor het ongekendegemiddelde µX .

Academiejaar 2009-2010 114

Page 129: Cursus Statistiek - 2TI - 0910

Hoofdstuk 6. 3. KENNISBASIS STATISTIEK

3 Kennisbasis Statistiek

De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’ Waarschijn-lijkheid en statistiek’.

Schatten en toetsen

Schatten en toetsen > Puntschatters en intervalschatters

Schatten en toesten > Puntschatters en intervalschatters >Betrouwbaarheidsinterval

Schatten en toesten > Puntschatters en intervalschatters >Berekening van het betrouwbaarheidsinterval

Schatten en toesten > Puntschatters en intervalschatters > Berekeningvan het betrouwbaarheidsinterval >Eenzijdig betrouwbaarheidsinterval

Schatten en toesten > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van het populatiegemiddelde >Betrouwbaarheidsinterval van het steekproefgemiddelde

Schatten en toesten > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van de populatieproportie >Betrouwbaarheidsinterval van het steekproefproportie

Academiejaar 2009-2010 115