estadística inferencial

36
Estimació de paràmetres: distribució mostral Antoni Cosculluela Mas Albert Fornieles Deu Jaume Turbany Oset P08/10512/02519

Upload: claudia-camissar

Post on 26-Nov-2014

89 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: estadística inferencial

Estimació de paràmetres: distribució mostralAntoni Cosculluela MasAlbert Fornieles DeuJaume Turbany Oset

P08/10512/02519

Page 2: estadística inferencial

© FUOC • P08/10512/02519 2 Estimació de paràmetres: distribució mostral

Page 3: estadística inferencial

© FUOC • P08/10512/02519 Estimació de paràmetres: distribució mostral

Índex

Objectius ................................................................................................... 5

1. Introducció ......................................................................................... 7

2. Distribució mostral d’un estadístic ............................................. 9

2.1. Distribució mostral de la mitjana aritmètica ................................. 10

2.1.1. Teorema central del límit .................................................... 13

2.2. Distribució mostral d’una proporció .............................................. 13

3. Intervals de confiança per a l’estimació

de paràmetres .................................................................................... 15

3.1. Interval de confiança per a la mitjana aritmètica .......................... 15

3.1.1. La precisió de l’estimació .................................................... 15

3.1.2. Els intervals de confiança .................................................... 16

3.2. Interval de confiança per a la mitjana, coneguda la desviació

estàndard de la població ................................................................. 17

3.2.1. Intercanvi entre la precisió i el nivell de confiança ............ 18

3.2.2. Efecte de la mida de la mostra ............................................ 19

3.3. Interval de confiança per a la mitjana, desconeguda

la desviació estàndard de la població ............................................. 19

3.4. Interval de confiança per a la proporció ........................................ 22

4. Les mides mostrals per a un marge d’error

prèviament establert ........................................................................ 25

5. Càlcul dels intervals de confiança amb Excel ........................... 27

5.1. Interval de confiança per a la mitjana .......................................... 27

5.2. Interval de confiança per a la proporció ........................................ 29

Resum dels vídeos ................................................................................... 32

Activitats .................................................................................................. 35

Enllaços web ............................................................................................ 36

Page 4: estadística inferencial

© FUOC • P08/10512/02519 Estimació de paràmetres: distribució mostral

Page 5: estadística inferencial

© FUOC • P08/10512/02519 5 Estimació de paràmetres: distribució mostral

Objectius

En els materials didàctics d’aquest mòdul presentem els continguts i les eines

imprescindibles per a assolir els objectius següents:

1. Saber identificar i comprendre els conceptes bàsics d’estadística inferencial

per poder-los utilitzar a l’hora de construir proves de decisió estadística.

2. Conèixer el concepte de distribució mostral d’un estadístic.

3. Saber interpretar i utilitzar la distribució mostral d’un estadístic.

4. Diferenciar entre desviació estàndard i error estàndard.

5. Veure l’aproximació de la distribució mostral de les proporcions a una llei

normal a mesura que augmenta la mida de la mostra.

6. Saber utilitzar la distribució mostral per poder fer estimacions de paràme-

tres desconeguts (intervals de confiança).

7. Calcular l’interval de predicció.

8. Calcular l’interval de confiança.

Page 6: estadística inferencial

© FUOC • P08/10512/02519 6 Estimació de paràmetres: distribució mostral

Page 7: estadística inferencial

© FUOC • P08/10512/02519 7 Estimació de paràmetres: distribució mostral

1. Introducció

En aquest mòdul entrarem en un nou i ampli apartat de l’anàlisi de dades, que

és l’anomenada estadística inferencial, a diferència dels temes anteriors que

s’ocupaven de l’estadística denominada descriptiva.

Si en la majoria dels mòduls anteriors hem tractat dels aspectes de l’anàlisi de

dades que tenen com a finalitat bàsica l’organització i descripció de les dades

d’una mostra, en aquest mòdul i els pròxims ens centrarem en els procedi-

ments i proves estadístiques la finalitat principal de les quals és l’estudi de les

característiques numèriques de les poblacions a les quals pertanyen les mos-

tres descrites i analitzades.

Sembla lògic suposar que en molts estudis el nostre interès no sigui només es-

brinar o descriure certes característiques rellevants dels subjectes estudiats,

sinó que a partir d’aquestes dades puguem fer algun tipus de suposició o pre-

dicció d’aquestes mateixes característiques per a tots aquells subjectes que per-

tanyen a la seva mateixa població.

Així, en el nostre exemple pràctic general sobre les dades obtingudes en dife-

rents variables psicològiques en una mostra de 100 habitants d’un determinat

municipi, si els responsables de l’estudi solament disposessin d’aquestes da-

des, sembla lògic pensar que tindrien interès a tractar d’esbrinar a partir d’elles

com es comporten aquestes variables en la població de referència que en

aquest cas compondrien tots els habitants del municipi.

Podem tractar de fer una previsió o pronòstic del grau d’ansietat mitjà de tots

els habitants del municipi a partir de les dades de què disposem dels 100 sub-

jectes analitzats? Podem tractar d’esbrinar si hi ha diferències en el grau de

Estadística inferencial

L’estadística inferencial té com a objectiu principal l’estudi de les caracte-

rístiques numèriques d’una població o la verificació d’afirmacions sobre

aquestes característiques, a partir de calcular-les en una o diverses mostres

escollides a l’atzar d’aquesta població. El procés utilitzat en aquest tipus

d’estudis es denomina inferència estadística i ens permet, per exemple,

pronosticar (inferir) la mitjana aritmètica d’una variable en la població (μ),

a partir de l’obtenció i el càlcul d’aquesta variable en una mostra aleatòria

d’aquesta mateixa població. Dit d’una altra manera, ens permetrà inferir o

pronosticar el valor dels paràmetres poblacionals a partir del

valor dels estadístics mostrals .( ), , ,etc.μ σ π

( ), , ,etc.xx s p

Recordeu que podeu consultar l’exemple pràctic general en l’annex, disponible al web de l’assignatura.

Page 8: estadística inferencial

© FUOC • P08/10512/02519 8 Estimació de paràmetres: distribució mostral

depressió dels subjectes d’aquest municipi en funció de ser d’un gènere o

d’un altre?

Totes aquestes preguntes semblen pertinents per a un estudi complet del grau

de salut dels habitants del municipi, o per a altres estudis de caràcter similar.

Per poder respondre-les, o haurem d’haver registrat les variables estudiades en

tots els subjectes adults del municipi, és a dir, en tota la població (cosa que ha-

bitualment és molt costós o fins i tot de vegades impossible), o necessitarem

alguns procediments estadístics que ens permetin obtenir aquestes respostes

amb les dades de què disposem, en el nostre exemple amb les obtingudes en

la mostra de 100 subjectes estudiats. Aquests procediments estadístics confor-

men l’anomenada estadística inferencial, i seran objecte d’estudi d’aquest mò-

dul i dels pròxims.

Page 9: estadística inferencial

© FUOC • P08/10512/02519 9 Estimació de paràmetres: distribució mostral

2. Distribució mostral d’un estadístic

Un concepte fonamental que ens servirà de base per a bona part dels procedi-

ments que utilitzarem en apartats posteriors és el de distribució mostral d’un

estadístic.

Si en la definició anterior hem posat un exemple a partir de la mitjana aritmè-

tica és perquè, tal com s’ha comentat en els mòduls anteriors, aquest estadístic

és el que més habitualment s’utilitza per a caracteritzar en un sol valor la ten-

dència central o valor més representatiu d’un conjunt de dades. Però cal tenir

en compte que aquesta distribució mostral pot obtenir-se per a qualsevol altre

d’estadístic dels estudiats anteriorment. Així, també podem parlar de distribu-

ció mostral de la variància, distribució mostral de la proporció, distribució

mostral de la mediana, etc. Totes elles s’obtindrien calculant en cada una de

les infinites mostres el valor de l’estadístic corresponent (sia variància, propor-

ció, mediana o qualsevol altre).

Atès que el procediment per a l’obtenció de les mostres és aleatori, el valor de

l’estadístic calculat en cada mostra també variarà aleatòriament d’una a l’altra,

i en conseqüència podem considerar la distribució mostral d’aquest estadístic

com la distribució d’una variable aleatòria que pot ajustar-se a un dels models

de distribució de probabilitat estudiats en el mòdul anterior.

En aquest apartat sobre distribucions mostrals veurem que la distribució mos-

tral de la mitjana aritmètica d’una variable que es distribueix normalment en

la població també es distribueix d’una manera normal, però amb una desvia-

ció estàndard més petita. També trobarem un dels famosos teoremes de l’esta-

dística, el teorema central del límit. Aquest teorema ens diu que encara que les

dades no es distribueixin normalment en la població, la distribució mostral de

la mitjana tendeix a la normal en augmentar la mida de les mostres. Final-

ment, també exposarem la distribució mostral d’una proporció, que ens servi-

Distribució mostral d’un estadístic

La distribució mostral d’un estadístic (mitjana aritmètica, variància,

proporció, etc.) és la distribució d’aquest estadístic, calculada en mos-

tres infinites de la mateixa mida n escollides a l’atzar d’una determinada

població. Així, si en la població d’estudiants de la UOC, anéssim esco-

llint mostres aleatòries de la mateixa mida (per exemple 30), i a cada

mostra calculéssim la mitjana d’edat dels subjectes, obtindríem una dis-

tribució de mitjanes d’edat que denominem distribució mostral de la

mitjana.

Page 10: estadística inferencial

© FUOC • P08/10512/02519 10 Estimació de paràmetres: distribució mostral

rà per a aquelles variables categòriques dicotòmiques i que serà de distribució

aproximadament normal per a mostres grans.

2.1. Distribució mostral de la mitjana aritmètica

Ja hem comentat anteriorment que l’estadístic mes àmpliament utilitzat com

a representatiu d’un conjunt de dades és la seva mitjana aritmètica. També

hem comentat que si prenem repetides mostres de la mateixa mida d’una po-

blació de dades o observacions, i calculem en cada una d’elles la seva mitjana

aritmètica, la distribució dels seus valors conformen l’anomenada distribució

mostral de la mitjana aritmètica.

Aquesta distribució mostral de la mitjana tindrà, al seu torn, la seva mitjana

aritmètica, denominada mitjana de la distribució mostral de la mitjana i re-

presentada per , i la seva desviació estàndard, que serà la desviació estàn-

dard de la distribució mostral de la mitjana que es representa com a

Aquesta desviació estàndard de la distribució mostral de mitjanes també es de-

nomina error típic o error estàndard de la mitjana, i l’utilitzarem sovint en els

apartats i mòduls següents.

En aquest subapartat veurem com es comporta aquesta distribució mostral de

la mitjana i quines característiques presenta en funció de com es distribueixen

les dades en la població.

Hi ha moltes formes possibles d’il·lustrar aquestes idees i algunes d’elles les po-

dem trobar en diferents pàgines web que més endavant presentarem, però de

moment i a nivell purament didàctic, podem partir de les dades del nostre

exemple pràctic general, i cenyir-nos només als valors de l’edat dels 100 sub-

jectes estudiats. Suposem, insistim que solament a nivell didàctic per a il·lus-

trar aquest punt sense gaire sentit real, que per al nostre propòsit aquests 100

subjectes són tota la nostra població de referència, i que per tant podem co-

nèixer perfectament els valors dels paràmetres poblacionals. Fet aquest supòsit

i calculada la mitjana i la desviació estàndard de l’edat d’aquests subjectes,

aquests valors són els següents:

Mitjana d’edat: μ = 37,66

Desviació estàndard de l’edat: σ = 13,736

Ara podem anar fent diferents supòsits de repartir aquests 100 subjectes en di-

ferents mostres de la mateixa mida. Així, podem repartir-los en 5 mostres

L’error típic o error estàndard d’un estadístic és la desviació típica de la

distribució mostral d’aquest estadístic. Així, per exemple, l’error típic de la

mitjana és la desviació estàndard de la distribució mostral de la mitjana.

.xσ

Page 11: estadística inferencial

© FUOC • P08/10512/02519 11 Estimació de paràmetres: distribució mostral

de 20 subjectes cada una (n = 20), en 10 en mostres de mida 10 (n = 10) , o en

20 mostres de mida 5 (n = 5). Una vegada realitzats els repartiments, per a cada

supòsit podem obtenir la distribució mostral de la mitjana i calcular la mitjana

aritmètica i la desviació estàndard d’aquesta distribució. Així, en el primer su-

pòsit tindrem 5 mitjanes aritmètiques (una per a cada mostra), i la distribució

mostral de mitjanes estarà formada per aquests cinc valors, dels quals obtin-

drem la mitjana i la desviació estàndard, i així per als altres dos supòsits.

Si mantenim el mateix ordre dels subjectes que a la matriu inicial, els resultats

d’aquests tres casos hipotètics seran els següents:

Taula 1. Mostres de mida 20 (n = 20)

Taula 2. Mostres de mida 10 (n = 10)

M1 M2 M3 M4 M5

28 19 42 42 32

27 26 47 57 30

30 26 59 73 29

32 41 64 30 37

41 21 36 33 32

34 20 50 38 25

21 32 26 61 28

33 35 30 55 46

29 26 40 46 55

18 35 22 53 61

40 44 24 18 52

34 65 34 42 54

42 47 20 24 48

18 43 41 18 40

30 72 27 35 44

20 30 35 25 46

28 58 29 62 55

22 53 18 34 26

31 27 46 44 54

33 21 55 35 70

Mitjana 29,55 37,05 37,25 41,25 43,2

Mitjana de les mitjanes: 37,66

Desviació estàndard de les mitjanes: 5,241

M1 M2 M3 M4 M5 M6 M7 M8 M9 M10

28 40 19 44 42 24 42 18 32 52

27 34 26 65 47 34 57 42 30 54

30 42 26 47 59 20 73 24 29 48

Page 12: estadística inferencial

© FUOC • P08/10512/02519 12 Estimació de paràmetres: distribució mostral

Taula 3. Mostres de mida 5: (n = 5)

Podem resumir tots aquests resultats a la taula 4.

Taula 4

Evidentment podíem haver escollit moltes altres mostres i ho haguéssim

pogut fer a l’atzar, i a això en un exemple amb una població finita bastant

petita. Lògicament, en poblacions molt mes àmplies o infinites, el nombre

de mostres diferents possibles és també pràcticament infinit (o infinit real-

ment), però a nivell de la lògica subjacent aquest petit exemple poc plau-

sible ens permet il·lustrar un resultat ben conegut en estadística, és a dir,

que la mitjana de la distribució mostral de mitjanes tendeix cap a la mitja-

na població (o hi coincideix en poblacions finites, com en el nostre petit

exemple anterior), i que la desviació estàndard d’aquesta distribució (és a

dir l’error estàndard de la mitjana) disminueix a mesura que augmenta la

mida mostral.

M1 M2 M3 M4 M5 M6 M7 M8 M9 M10

32 18 41 43 64 41 30 18 37 40

41 30 21 72 36 27 33 35 32 44

34 20 20 30 50 35 38 25 25 46

21 28 32 58 26 29 61 62 28 55

33 22 35 53 30 18 55 34 46 26

29 31 26 27 40 46 46 44 55 54

18 33 35 21 22 55 53 35 61 70

Mitjana : 29,3 29,8 28,1 46 41,6 32,9 48,8 33,7 37,5 48,9

Mitjana de les mitjanes: 37,66

Desviació estàndard de les mitjanes: 8,144

M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12 M13 M14 M15 M16 M17 M18 M19 M20

28 34 40 20 19 20 44 30 42 50 24 35 42 38 18 25 32 25 52 46

27 21 34 28 26 32 65 58 47 26 34 29 57 61 42 62 30 28 54 55

30 33 42 22 26 35 47 53 59 30 20 18 73 55 24 34 29 46 48 26

32 29 18 31 41 26 43 27 64 40 41 46 30 46 18 44 37 55 40 54

41 18 30 33 21 35 72 21 36 22 27 55 33 53 35 35 32 61 44 70

Mitjana 31,6 27,0 32,8 26,8 26,6 29,6 54,2 37,8 49,6 33,6 29,2 36,6 47,0 50,6 27,4 40,0 32,0 43,0 47,6 50,2

Mitjana de les mitjanes: 37,66

Desviació estàndard de les mitjanes: 9,366

Mides mostrals

n = 5 n = 10 n = 20

Mitjana de la distribució mostral de mitjanes: 37,66 37,66 37,66

Error típic o error estàndard de la mitjana: 9,366 8,144 5,241

Page 13: estadística inferencial

© FUOC • P08/10512/02519 13 Estimació de paràmetres: distribució mostral

Tal com pot veure’s al vídeo 19 del CD, si σ indica la desviació estàndard de la

població i indica la desviació estàndard de la distribució mostral de la mit-

jana aritmètica (l’error típic de la mitjana), basada en una mostra de mida n,

llavors la relació exacta entre i σ és la següent:

En conseqüència, l’error típic de la mitjana disminueix en proporció inversa a

l’arrel quadrada de la mida mostral.

2.1.1. Teorema central del límit

Tot el que hem dit fins a aquest punt és aplicable a variables de distribució nor-

mal en la població, és a dir, quan les seves observacions es distribueixen normal-

ment.

2.2. Distribució mostral d’una proporció

Quan treballem amb una variable categòrica, no tenim valors numèrics per a cada

observació, sinó la presència o no de determinat atribut o modalitat de la variable.

Així, per a la variable sexe dels subjectes, el que tenim per a cada observació (sub-

jecte) és si és un home o una dona, igual que per a la variable estat civil tindrem

si està casat o no ho està. Per a aquestes variables dicotòmiques o dicotomitzades

l’estadístic mes representatiu és la proporció (P) de determinat atribut. En les va-

riables anteriors tindrem la proporció d’homes o la proporció de subjectes casats.

Igual com ocorria amb la mitjana, aquesta proporció també serà una característica

de la població de referència, i en aquest context parlarem de la proporció pobla-

cional com un paràmetre que es representa per π.

Si escollim a l’atzar diferents observacions d’una variable categòrica i assignem

a un dels seus atributs el valor 1 (habitualment el que és centre del nostre in-

El teorema central del límit diu que, encara que la distribució d’una

variable no sigui normal, la distribució mostral de la mitjana basada en

mostres de mida n serà aproximadament normal, també amb la mitjana

igual a μ i l’error estàndard igual a la desviació estàndard de la

població dividida per l’arrel quadrada de n .

Aquest teorema és més cert com més grans són les mides mostrals, així

per a n “petits” (per exemple menys de 10), la distribució mostral de la

mitjana solament és aproximadament normal, mentre que per a n

“grans” (per exemple de 30), la distribució és pràcticament normal.

xn

σσ =

( )xμ = μ

( )x nσ = σ

Page 14: estadística inferencial

© FUOC • P08/10512/02519 14 Estimació de paràmetres: distribució mostral

terès), i a l’altre atribut el valor 0, podrem definir la distribució de freqüències

d’aquests valors com una variable de Bernouilli, i la seva distribució de proba-

bilitat s’ajustarà a una distribució binomial.

L’avantatge de la codificació amb valors 1 i 0 és que la suma d’una mostra

d’aquestes observacions és igual al nombre de casos amb atribut igual a 1, i la

mitjana d’aquestes observacions és la proporció de casos amb atribut igual a 1.

Així, si tenim una mostra de 20 subjectes (per exemple 8 homes i 12 dones), i

assignem un 1 als homes i un 0 a les dones, la suma de valors d’aquesta varia-

ble sexe serà igual al nombre d’homes (ΣX = 8, suma dels vuit uns de la distri-

bució), i la mitjana d’aquesta distribució de valors serà igual a la proporció

d’homes

A partir del que hem exposat anteriorment i fent les mateixes consideracions

que fèiem amb la mitjana de la distribució, podem descriure les característi-

ques que tindrà la distribució mostral de la proporció, és a dir, la distribució

de la proporció (P) calculada en les mostres infinites de mida n escollides a l’at-

zar de la mateixa població. Així i continuant amb l’exemple amb què il·lustrà-

vem la distribució mostral d’un estadístic, si en la població d’estudiants de la

UOC anéssim escollint mostres aleatòries de la mateixa mida (per exemple

30), i a cada mostra calculéssim la proporció d’homes (P), obtindríem la distri-

bució de proporcions que denominem distribució mostral de la proporció.

Quina serà la mitjana i la desviació estàndard d’aquesta distribució mostral de

la proporció? Podem deduir-les directament de la mateixa forma que fèiem

amb la distribució mostral de la mitjana, però sabent que es distribueix segons

la distribució binomial:

• La mitjana o esperança matemàtica de la distribució mostral de la propor-

ció serà:

• La desviació estàndard de la distribució mostral de la proporció (error típic

de la proporció) serà:

Tanmateix, segons el teorema central del límit, a mesura que la mida mostral

augmenta la distribució binomial s’ajusta a la distribució normal, per tant, per

a mides mostrals grans la distribució mostral de la proporció tendirà a la nor-

mal amb paràmetres i .

( )8 0,4 .20X P= = =

( )P E Pμ = = π

( )1P n

π − πσ =

π ( )1n

π − π

Page 15: estadística inferencial

© FUOC • P08/10512/02519 15 Estimació de paràmetres: distribució mostral

3. Intervals de confiança per a l’estimació de paràmetres

De què ens servirà conèixer les característiques de la distribució mostral d’un

estadístic?

En aquest apartat veurem una de les aplicacions més immediates, això és l’es-

timació del valor d’un paràmetre poblacional a partir de l’obtenció d’una úni-

ca mostra escollida aleatòriament de l’esmentada població. Això és el que

ocorre a la pràctica habitual, en què es treballa amb una sola mostra d’obser-

vacions. Però si aquestes observacions han estat escollides a l’atzar, aquesta

mostra d’observacions ja sabem que serà una de les infinites (o de les moltes)

mostres possibles que podíem haver escollit, i que l’estadístic que calculem a

partir d’elles serà un dels valors possibles de la distribució mostral d’aquest es-

tadístic per a la mida mostral n. Sabem també que aquesta distribució mostral

de l’estadístic s’ajustarà a una distribució de probabilitat coneguda (com serà

en moltes ocasions la distribució normal, segons el teorema central del límit),

i per tant podrem calcular el grau de precisió de les nostres estimacions, els

anomenats intervals de confiança. Aquest grau de precisió (la possible diferèn-

cia màxima entre el valor de l’estadístic mostral de les nostres observacions i

el verdader valor del paràmetre en la població, l’anomenat també marge d’er-

ror de l’estimació) pot establir-se per a diferents graus de confiança que vul-

guem assumir, és a dir, de com de segurs vulguem estar que aquest interval de

confiança calculat conté el valor del paràmetre que volem estimar.

3.1. Interval de confiança per a la mitjana aritmètica

Amb tot el que hem dit anteriorment podem començar a pensar com hem de res-

pondre una de les preguntes que, com a exemple, ens fèiem en començar aquest

mòdul. Aquesta pregunta la ubicàvem en el context de l’exemple pràctic general

que utilitzem en diferents apartats i era la següent: podem tractar de fer una pre-

visió o pronòstic del grau d’ansietat mitjà de tots els habitants del municipi a par-

tir de les dades de què disposem dels 100 subjectes analitzats?

Per a respondre a aquesta pregunta haurem de construir l’interval de confiança de

l’estimació de la mitjana d’ansietat de tots els habitants del municipi (és a dir, de

la població). Com farem aquest procés d’estimació per interval de confiança?

3.1.1. La precisió de l’estimació

La pregunta anterior és solament una de les moltes que podríem plantejar-nos

sobre estimació de la mitjana desconeguda μ d’una població. També parlàvem

Page 16: estadística inferencial

© FUOC • P08/10512/02519 16 Estimació de paràmetres: distribució mostral

d’estimar la proporció de barons en la població d’estudiants de la UOC, en què

la verdadera proporció π és una mitjana poblacional.

Hem suposat que la mitjana poblacional és un valor fix que només podríem

mesurar amb exactitud si coneguéssim la població sencera. Per tant, escollim

una mostra aleatòria d’observacions i utilitzem la mitjana de la mostra per a

estimar el valor poblacional (μ).

També hem vist que la mitjana mostral és en si mateixa una variable aleatòria

i té la seva pròpia distribució mostral. Per tant, si escollíssim una altra mostra,

obtindríem una estimació diferent de la mateixa mitjana poblacional μ.

A la pràctica solament disposem d’una única mostra i una única estimació de

la mitjana. Sabem que, si la mostra hagués estat més àmplia, llavors la seva va-

riabilitat seria més petita, i això suggereix clarament que una mostra tal seria

una estimació més precisa de μ.

Però com podem mesurar la precisió de les nostres estimacions?

3.1.2. Els intervals de confiança

Tornem a la pregunta sobre el grau mitjà d’ansietat dels habitants del municipi

del nostre exemple pràctic general. Com que solament disposem d’una mostra de

100 subjectes d’aquest municipi, la nostra estimació de la mitjana de tots els ha-

bitants, és a dir, de la mitjana de la població μ, serà la mitjana aritmètica d’aquesta

mostra. Si calculem aquesta mitjana a la nostra matriu de dades, veiem que és

aproximadament igual a 22 (a partir de les puntuacions en el test MAS). Tanma-

teix, aquesta és solament una mostra escollida a l’atzar de 100 habitants del mu-

nicipi, però si haguéssim escollit una altra mostra d’uns altres 100 subjectes, la

nova estimació de la mitjana en ansietat podria ser perfectament un altre valor,

com per exemple 20. Quina d’aquestes dues estimacions, 22 o 20, és més precisa

respecte al valor del grau d’ansietat de tots els habitants del municipi (és a dir, de

μ)? Únicament podríem saber-ho si tinguéssim les puntuacions en el test MAS de

tots els habitants del municipi, i poguéssim calcular el verdader valor de μ, però

això a la pràctica és molt poc habitual, i en gairebé totes les situacions estimarem

uns valors poblacionals que no podrem confirmar.

Per tant, com podem quantificar la precisió de les nostres estimacions quan

solament tenim una única mostra de dades i no hi ha manera de confirmar el

resultat?

La manera de fer-ho és no donant una única estimació del valor poblacional,

sinó un interval, i després reforçar aquest interval de valors per mitjà d’una de-

claració del nostre nivell de confiança que el verdader valor estigui dins

d’aquest interval. Això es denomina interval de confiança.

Page 17: estadística inferencial

© FUOC • P08/10512/02519 17 Estimació de paràmetres: distribució mostral

3.2. Interval de confiança per a la mitjana, coneguda la desviació

estàndard de la població

Considerem el cas en el qual la població és normal i coneixem la desviació es-

tàndard σ d’aquesta distribució (és molt poc freqüent que coneguem la desvi-

ació estàndard poblacional, normalment l’estimem també a partir de la

mostra com veurem més endavant).

El vídeo 20 del CD il·lustra com es calcula un interval de confiança per a la

mitjana μ en una mostra de mida n. El procediment és el següent:

1) Calculeu la mitjana de la mostra.

2) Calculeu l’error típic de la mitjana: .

3) Calculeu el marge d’error com a z* per l’error típic: .

4) Tenim així que l’interval de confiança és la mitjana més menys el marge

d’error:

L’exemple del vídeo mostra un interval de confiança del 95% per a μ, i fa servir

un valor de z* = 2. Parlant en propietat, el valor de z* que inclou exactament

el 95% de la distribució normal és 1,96, però a la pràctica sovint s’utilitza el

valor 2. Podem calcular un interval de confiança per a qualsevol nivell de con-

fiança que escollim: per exemple, per a un nivell de confiança del 90% neces-

sitaríem buscar el valor de z*, de manera que el 90% de l’àrea sota la corba

normal, aquest inclòs, entre –z* i +z* . Aquest valor de z* és 1,645.

Per a ser més precís, ometrem la notació * usada al vídeo i al seu lloc utilitzarem

la notació z0,05 = 1,645 per a indicar el valor de la puntuació típica estandarditza-

da (z) que talla el 5% en la cua superior de la distribució normal (i el 5% en la cua

inferior). Per tant, també z0,025 = 1,96 és el valor z que usarem per a un interval

de confiança del 95%, i z0,005 = 2,576, el que utilitzarem per a un nivell de confi-

ança del 99%. En general, podem indicar el valor de z com zα/2, on ± zα/2 inclou

una àrea de (1 – α) sota la corba normal (vegeu la figura 1).

Marge d’error d’un interval de confiança

El marge d’error d’un interval de confiança és l’amplitud de l’interval al

voltant del valor de l’estadístic calculat.

Nivell de confiança

El nivell de confiança (1 – α) representa la probabilitat que el paràmetre

estimat estigui inclòs en l’interval de confiança. Es presenta habitual-

ment com a percentatge, en multiplicar el valor de (1 – α) per 100.

x

xn

σσ =

* xz σ

* .xx z± σ

Page 18: estadística inferencial

© FUOC • P08/10512/02519 18 Estimació de paràmetres: distribució mostral

Figura 1

Figura 2

3.2.1. Intercanvi entre la precisió i el nivell de confiança

Com més baixem el nivell de confiança més petit serà el marge d’error (ja que

el valor de z disminuirà; així per a un nivell de confiança del 99% és de 2,567,

del 95% 1,96 i del 90% 1,645), i l’interval de confiança més curt. Per tant, el

resultat serà més precís, però el nivell de confiança naturalment serà més baix,

Page 19: estadística inferencial

© FUOC • P08/10512/02519 19 Estimació de paràmetres: distribució mostral

i per tant la probabilitat que l’interval no inclogui el vertader valor del parà-

metre μ serà més elevada. Veiem amb això que res no és gratuït. Hi ha un in-

tercanvi entre la precisió que es pot expressar en un interval de confiança i el

nivell de confiança. Per a una mostra en particular, com més curt i precís sigui

l’interval de confiança, més baix serà el nivell de confiança.

3.2.2. Efecte de la mida de la mostra

L’única manera de millorar tant la precisió com el nostre nivell de confiança

és reduint l’error típic. Si la desviació estàndard poblacional σ és fixa, llavors

únicament podem reduir l’error típic mitjançant l’augment de la mida de la

mostra. Això redueix el marge d’error i així disminueix l’interval de confiança

per a un determinat nivell de confiança. Alternativament, si es manté el marge

d’error fix, incrementar la mida de la mostra comporta un increment del valor

de z i per tant també el nivell de confiança.

Fixeu-vos que, com l’error típic s’obté dividint la desviació estàndard per l’ar-

rel quadrada de n, es necessita una mostra quatre vegades més gran per a reduir

l’amplitud de l’interval de confiança a la meitat.

3.3. Interval de confiança per a la mitjana, desconeguda

la desviació estàndard de la població

En subapartat anterior hem suposat que coneixíem la desviació estàndard de la

població σ, però ja hem comentat allà que aquesta suposició rarament es com-

pleix a la pràctica. Per tant, el mes habitual és que desconeguem el valor de σ, i en

conseqüència l’hàgim d’estimar a partir de les dades de la nostra mostra.

L’estimador centrat de la desviació estàndard de la població és la desviació es-

tàndard de la mostra, i en conseqüència usarem aquest valor per a reemplaçar

σ en la fórmula de càlcul de l’error típic de la mitjana.

Estimador d’un paràmetre

Un estimador d’un paràmetre de la població és l’estadístic d’una mostra

d’observacions que ens dóna una aproximació millor del valor del paràme-

tre. Per exemple, la mitjana d’una mostra és un estimador de la mitjana po-

blacional, i la variància de la mostra és una estimador de la variància

poblacional. Un bon estimador ha de complir certes propietats, entre les

quals hi ha, per exemple, que sigui centrat (és a dir, que la seva esperança

matemàtica o valor esperat coincideixi amb el paràmetre que estima), i que

sigui consistent (que a mesura que augmenta la mida de la mostra més

s’aproximi el valor de l’estimador al del paràmetre estimat).

Page 20: estadística inferencial

© FUOC • P08/10512/02519 20 Estimació de paràmetres: distribució mostral

En reemplaçar σ pel seu estimador s (desviació estàndard de la mostra) hem

introduït una nova incertesa en la nostra estimació de la mitjana i ho hem de

tenir en compte. Tot el que sabem és que únicament quan la mida de la mostra

és molt gran l’estimador s s’apropa a σ, i solament en aquests casos podríem

actuar com en el subapartat anterior.

Aquesta nova incertesa introduïda fa que la distribució mostral de la mitjana

no s’ajusti a la distribució normal sinó a la distribució t de Student, ja estudi-

ada al mòdul anterior. Com vèiem allà, la distribució t, com la distribució nor-

mal, també és simètrica al voltant del valor 0, però és més dispersa que la

distribució normal estàndard. El perfil de la distribució depèn de la mida de la

mostra, i és més dispersa per a mostres més petites. Més específicament, la dis-

tribució t es defineix en termes de n – 1, la mida de la mostra menys un. Aquest

nombre és el denominat graus de llibertat de la distribució i habitualment

s’abreuja com a df (degree of freedom).

Figura 3

La connexió entre la distribució t i la cervesa Guiness

W. S. Gosset (1876-1937), l’autor de la distribució t, va treballar com a cerveser cap a la des-til·leria Guiness de Londres. La seva feina, entre altres coses, consistia a comparar diversosmètodes d’elaboració, i per a ell era important poder quantificar la variabilitat de la mitjanaamb mides mostrals petites. Gosset va publicar els seus estudis científics amb el pseudònimde Student, motiu pel qual la distribució t rep sovint el nom de t de Student.

Gosset va observar que, encara que la distribució esperada era normal, la distribució de la mit-jana tenia una variància més gran del que es podria esperar si la mitjana hagués estat normal-

A la figura 3 podeu veure que per a 4 graus de llibertat (és a dir, una mos-

tra de mida 5), al valor t = 2,78 li correspon una probabilitat de 0,025 en

la cua dreta. Això donarà lloc a un interval de confiança molt més ample

que l’interval calculat segons el valor normal d’1,96 que usem si la vari-

ància és coneguda.

Page 21: estadística inferencial

© FUOC • P08/10512/02519 21 Estimació de paràmetres: distribució mostral

ment distribuïda. Això el va portar al descobriment de la distribució t, de manera que es potdir que la cervesa va ser còmplice d’una incalculable contribució a l’estadística.

En funció del que hem comentat anteriorment, podem determinar ja els passos

per a obtenir l’interval de confiança per a estimar la mitjana poblacional quan la

desviació estàndard de l’esmentada població és desconeguda. Aquest procedi-

ment solament és lleugerament diferent del d’abans, i el presentem a continuació:

1) Calcular la mitjana aritmètica de la mostra.

2) Calcular la desviació estàndard de la mostra s.

3) Calcular l’error típic de la mitjana: .

4) Calcular el marge d’error com a per a l’error típic: ,

on és el valor de la distribució t (amb n – 1 graus de llibertat) tal que

el 100 (1 – α)% de l’àrea està inclòs en ± . Aquest valor es pot obtenir

en la taula 5 de les taules estadístiques de l’annex d’aquest material, o mit-

jançant la funció DISTR.T.INV de l’Excel.

5) Tenim així que l’interval de confiança és la mitjana més menys el marge

d’error, és a dir, que està centrat en la mitjana i la seva amplitud és dues vega-

des el marge d’error: .

Aquest procediment es manté per a mostres de qualsevol mida, mentre siguin

aleatòries provinents d’una població amb distribució normal. Si la distribució

no és normal també es manté per a mostres de mida superior a 30 (teorema

central del límit).

Llavors podem resumir, a tall de formulari, els càlculs necessaris per a l’estima-

ció de l’interval de confiança de la mitjana poblacional.

x

x

ss

n=

Recordeu que l’annex està disponible al web de l’assignatura.

Interval de confiança de la mitjana poblacional:

• Coneguda la variància de la població:

Interval:

sent

• Desconeguda la variància de la població:

Interval:

sent

2, 1ntα − 2, 1n xt sα −

2, 1ntα −

2, 1ntα −

2, 1n xx t sα −±

2 xx zα± σ

2 2x xx z x zα α− σ ≤ μ ≤ + σ

x nσ

σ =

2, 1n xx t sα −±

2, 1 2, 1n x n xx t s x t sα − α −− ≤ μ ≤ +

x

ss

n=

Page 22: estadística inferencial

© FUOC • P08/10512/02519 22 Estimació de paràmetres: distribució mostral

Arribats a aquest punt, sí que veritablement ja podem respondre la pregunta

que ens havíem formulat en començar aquest apartat, això és: podem tractar

de fer una previsió o pronòstic del grau d’ansietat mitjà de tots els habitants

del municipi a partir de les dades de què disposem dels 100 subjectes analitzats

en el nostre exemple pràctic general?

Ara ja sabem que per a respondre-la haurem de construir l’interval de confian-

ça per a la mitjana aritmètica desconeguda la variància de la població, ja que

no disposem d’aquesta dada (com és habitual a la pràctica).

Llavors haurem d’obtenir els valors següents (tal com hem vist en els mòduls

anteriors, podem obtenir-los amb l’Excel) (arrodonirem a 3 decimals).

Mitjana en el test MAS dels 100 subjectes:

Desviació estàndard:

Error típic de la mitjana:

Establim un nivell de confiança del 95% per a obtenir el valor de t amb n – 1,

és a dir, 99 df:

Podem obtenir aquest valor amb la funció DISTR.T.INV de l’Excel amb pro-

babilitat = 0,05 i graus de llibertat = 99: .

Marge d’error:

Interval de confiança:

Per tant, ja podem concloure que amb un nivell de confiança del 95%, el grau

d’ansietat mitjà de tots els habitants del municipi estarà entre 19,505 i 24,615

punts de l’escala del MAS.

3.4. Interval de confiança per a la proporció

Ja hem vist anteriorment que per a variables dicotòmiques, es pot considerar

la proporció d’una de les seves dues modalitats com la mitjana del conjunt de

valors prèviament codificats com 0 i 1, assignant l’1 a la modalitat la proporció

del qual volem estudiar. També hem comentat que per a mostres grans, la pro-

porció calculada té una distribució aproximadament normal, amb una mitja-

na igual a la proporció poblacional π, i una desviació estàndard (és a dir, un

error típic) igual a . Com succeeix amb el cas de la mitjana, el valor

22,06x =

12,878s =

12,8781,288

100x

ss

n= = =

2, 1 0,025,99 1,984n dft tα − = =

2, 1 1,984 1,288 2,555n xt sα − = × =

2, 1 22,06 2,555n xx t sα −± = ±

19,505 24,615≤ μ ≤

( )1n

π − π

Page 23: estadística inferencial

© FUOC • P08/10512/02519 23 Estimació de paràmetres: distribució mostral

del paràmetre π habitualment el desconeixem i hem d’estimar-lo a partir del

seu estimador mostral. En aquest cas, l’estimador de π és la proporció P de la

mostra, ja que, com vèiem també anteriorment, .

En conseqüència, per a mostres grans la proporció calculada tindrà una distri-

bució normal aproximada, amb mitjana igual a P i error típic igual a

.

Però, què volem dir amb mostres grans? La distribució binomial ja sabem

que pot ser molt asimètrica quan la proporció de la població s’allunya de

0,5. Hem de tenir una mostra àmplia perquè el teorema central del límit

pugui aplicar-se, i en tot cas, es necessitaran almenys 100 dades per a poder

calcular un percentatge correcte i ajustat per a cada punt percentual. Per

tant, solament estudiarem proporcions calculades sobre mostres de 100 ob-

servacions o més.

Així, els passos que hem de seguir per a calcular l’interval de confiança per a

una proporció són els següents:

1) Calcular la proporció P de l’atribut estudiat a partir d’una mostra de mida n.

2) Calcular l’error típic de la proporció:

.

3) Calcular el marge d’error com a per a l’error típic: , on és el

valor de la puntuació z per a un nivell de confiança del 100 (1 – α)%.

4) Obtenir l’interval de confiança sumant i restant a la proporció P el marge

d’error: .

Aquí també podem resumir a tall de formulari els càlculs necessaris per a l’es-

timació per interval de confiança de la proporció poblacional.

Interval de confiança per a la proporció poblacional:

Interval:

sent

( )E P = π

( )1P P

n

( )1P

P P

n

−σ =

2zα 2 Pzα σ 2zα

2 PP zα± σ

2 PP zα± σ

2 2P PP z P zα α− σ ≤ π ≤ + σ

( )1P

P P

n

−σ =

Page 24: estadística inferencial

© FUOC • P08/10512/02519 24 Estimació de paràmetres: distribució mostral

Una pregunta que ens podríem fer en el nostre exemple pràctic general és qui-

na és la proporció d’homes en el municipi del nostre estudi? Ara podem res-

pondre aquesta pregunta obtenint l’interval de confiança per a la proporció

poblacional de les dades de la variable sexe a la mostra de 100 subjectes estu-

diada.

• Primer calculem la proporció P d’homes de la mostra:

• Després calculem l’error típic d’aquesta proporció:

• Després obtenim el marge d’error per a un nivell de confiança del 95% (que

ens en dóna una :

• Finalment obtenim l’interval de confiança:

Interval:

Amb la qual cosa ja podríem respondre la pregunta anterior dient que, per a

un nivell de confiança del 95%, la proporció d’homes en el municipi estudiat

serà entre 0,304 i 0,496, és a dir, un percentatge d’homes estimat entre el 30,4

i el 49,6%.

400,40

100P = =

( )1 0,40 0,600,049

100P

P P

n

− ×σ = = =

2 1,96)zα =

2 1,96 0,049 0,096Pzα σ = × =

2 0,40 0,096PP zα± σ = ±

0,304 0,496≤ π ≤

Page 25: estadística inferencial

© FUOC • P08/10512/02519 25 Estimació de paràmetres: distribució mostral

4. Les mides mostrals per a un marge d’error prèviament establert

Com ja hem vist, en general el marge d’error per a estimar una mitjana amb

un nivell de confiança de 100 (1 – α)% a partir d’una mostra de mida n és

:

Aïllant la mida de la mostra n en l’expressió anterior tenim

Si apliquem aquesta fórmula a la situació anterior d’estimació d’una proporció

poblacional, on , obtenim:

Aquesta fórmula és útil per a determinar quina mida mostral necessitarem per

a aconseguir una estimació poblacional amb un marge d’error preestablert.

S’utilitza molt habitualment, per exemple, en els estudis d’enquestes per son-

deig per a determinar la mida mostral requerida per a estimar una proporció

amb una precisió donada. Però, com abans, per poder aplicar aquesta fórmula

necessitem conèixer el valor de P, la proporció que tractem d’estimar. Si en rea-

litat P = 0,25, llavors P (1 – P) és 0,1875, mentre que si P = 0,10, P (1 – P) = 0,09,

que és la meitat del valor anterior, la qual cosa implicaria que es necessita la

meitat de la mida mostral.

Quin valor de P hem d’utilitzar? Això depèn de si tenim alguna idea aproxi-

mada de la proporció poblacional o si no sabem quina pot ser. Per exemple,

podem estar bastant segurs que la popularitat d’un partit polític està al voltant

del 30%, però volem dur a terme una enquesta per a determinar amb més pre-

cisió aquest percentatge, diguem que amb un marge d’error de 2 punts percen-

tuals. Podríem usar el valor 0,30 per a determinar la mida de la mostra

necessària:

D’altra banda, si no tinguéssim ni idea de la proporció poblacional, o si, per

exemple, l’enquesta volgués determinar la popularitat de diferents partits, les

2zn

ασ

2marge d'error zn

ασ

=

2

2Mida de la mostra marge d'error

⎞⎛ σ= ⎟⎜⎝ ⎠

( )1P Pσ = −

( )( )

22 2

1Mida de la mostra ( )

marge d'error

P Pzα

−=

×⎛ ⎞= =⎜ ⎟⎝ ⎠

22

0,30 0,70Mida de la mostra 1,96 2.017

0,02

Page 26: estadística inferencial

© FUOC • P08/10512/02519 26 Estimació de paràmetres: distribució mostral

proporcions dels quals podem suposar que seran molt diferents (unes altes i

altres baixes), llavors haurem d’utilitzar el valor 0,5 per a P. La proporció de

0,5 dóna el valor més alt de P (1 – P) = 0,5 × 0,5 = 0,25, i així ens proporciona

la mida mostral màxima necessària per a obtenir el marge d’error per a qual-

sevol proporció. Aquest recurs de P = 0,5 s’anomena de “màxima indetermi-

nació”, i és el més habitualment utilitzat per a calcular mides mostrals amb la

fórmula anterior. Per tant, per a obtenir un marge d’error de 2 punts percen-

tuals per a estimar qualsevol proporció, la mida mostral hauria de ser:

És a dir, necessitaríem 2.401 subjectes per a obtenir un interval de confiança

per a estimar una proporció poblacional qualsevol, amb un marge d’error del

2% i un nivell de confiança del 95%.

×⎛ ⎞= =⎜ ⎟⎝ ⎠

22

0,50 0,50Mida de la mostra 1,96 2.401

0,02

Page 27: estadística inferencial

© FUOC • P08/10512/02519 27 Estimació de paràmetres: distribució mostral

5. Càlcul dels intervals de confiança amb Excel

5.1. Interval de confiança per a la mitjana

L’obtenció d’un interval de confiança de la mitjana aritmètica amb l’Excel pot

fer-se seguint tots els passos comentats per a la seva resolució, amb les funci-

ons ja conegudes, però resulta mes ràpid fer-ho a partir d’un dels programes

preconfigurats del menú d’Eines.

Per a usar aquesta opció hem de seguir la seqüència d’opcions de menú se-

güent: Eines Anàlisi de dades Estadística descriptiva.

Utilitzarem el mateix exercici de l’interval de confiança per a la mitjana de les

puntuacions en el MAS dels 100 subjectes del nostre exemple pràctic general.

Així, si hem aïllat solament la variable MAS de la matriu de dades, la pantalla

del quadre de diàleg que ens apareix amb la seqüència d’instruccions anterior

és la que es mostra a la figura 4.

Figura 4

on hem inclòs:

• Rang d’entrada: caselles on s’ubiquen les puntuacions del MAS a la matriu de

dades.

• Rètols a la primera fila: activar si tenim etiquetada la variable a la primera fila.

• Opcions de sortida: activar “En un full nou” (sempre recomanable).

Page 28: estadística inferencial

© FUOC • P08/10512/02519 28 Estimació de paràmetres: distribució mostral

• Resum d’estadístiques: activar per a obtenir els resultats descriptius.

• Nivell de confiança per a la mitjana: activar per a obtenir l’interval de con-

fiança. En activar aquesta opció s’estableix, per defecte, un nivell de confi-

ança del 95%, però pot substituir-se aquest valor per qualsevol altre.

Una vegada executada aquesta opció, fent clic a Acceptar s’obtenen els resul-

tats següents:

Taula 5

La majoria d’informació que ens proporciona aquesta anàlisi de l’Excel ja s’ha co-

mentat en anteriors mòduls i correspon a la descripció d’aquesta variable. Per al

nostre propòsit en aquest apartat, la informació que ens interessa és la mitjana i

el nivell de confiança. Ja coneixem àmpliament la interpretació de la mitjana,

però desconeixíem fins a aquest moment la interpretació del nivell de confiança.

El valor que ens proporciona és el del marge d’error de l’interval de confiança per

al nivell de confiança escollit. Així, en el nostre cas, per al nivell de confiança del

95% aquest marge d’error és de 2,555. La seva obtenció, com hem comentat, es fa

multiplicant l’error típic (que també ens proporciona aquesta anàlisi) pel valor de

. Ara solament hem de sumar i restar a la mitjana aquest marge d’error per

a obtenir l’interval de confiança de la mitjana poblacional.

Interval de confiança (95%):

Lògicament arribem al mateix resultat i, per tant, també podem concloure que,

amb un nivell de confiança del 95%, el grau d’ansietat mitjà de tots els habitants

del municipi estarà entre 19,505 i 24,615 punts de l’escala del MAS.

MAS

Mitjana 22,060

Error típic 1,288

Mediana 21,000

Moda 31,000

Desviació estàndard 12,878

Variància de la mostra 165,855

Curtosi –0,855

Coeficient d’asimetria 0,135

Rang 48,000

Mínim 0,000

Màxim 48,000

Suma 2.206,000

Compte 100,000

Nivell de confiança (95,0%) 2,555

2, 1ntα −

2, 1 22,06 2,555n xx t sα −± = ±

19,505 24,615≤ μ ≤

Page 29: estadística inferencial

© FUOC • P08/10512/02519 29 Estimació de paràmetres: distribució mostral

5.2. Interval de confiança per a la proporció

Obtindrem l’interval de confiança d’una proporció mitjançant l’Excel i l’il·lus-

trarem amb el mateix cas anterior de la proporció d’homes del municipi estu-

diat en l’exemple pràctic general.

Una manera de fer-ho seria obtenir la taula de freqüències de la variable estu-

diada (en el nostre cas el sexe), i a partir d’allà fàcilment podríem calcular la

proporció P de l’atribut desitjat (en el nostre cas la proporció P d’homes). Una

vegada coneguda P, ja podríem calcular l’interval de confiança usant l’Excel

com a calculadora per als diferents passos, obtenint el valor de amb la fun-

ció DISTR.NORM.ESTAND.INV.

Tanmateix, també en aquest cas podem usar el mateix programa preconfigurat

del menú d’Eines que utilitzàvem per a la mitjana. Hem de tenir en compte,

però, que per a poder fer-ho, tal com hem vist en apartats anteriors, hem de

codificar la variable sexe amb 0 i 1, assignant l’1 al valor de l’atribut estudiat,

en el nostre cas als homes. Feta aquesta codificació, la mitjana de la mostra

serà la P que estem buscant.

Per tant, el primer que farem a la nostra matriu de dades de l’exemple pràctic

general serà aïllar la variable sexe i recodificar-ne els valors, assignat un 1 als

homes i un 0 a les dones. Una vegada fet això, ja podem utilitzar el programa

preconfigurat esmentat.

Per a usar aquesta opció hem de seguir la seqüència d’opcions de menú se-

güent: Eines Anàlisi de dades Estadística descriptiva.

La pantalla del quadre de diàleg que ens apareix amb la seqüència d’instrucci-

ons anterior és la que es mostra a la figura 5.

Figura 5

2zα

Page 30: estadística inferencial

© FUOC • P08/10512/02519 30 Estimació de paràmetres: distribució mostral

on hem inclòs:

• Rang d’entrada: caselles on s’ubiquen les valors de la variable sexe dels 100

subjectes.

• Rètols a la primera fila: activar si tenim etiquetada la variable a la primera

fila.

• Opcions de sortida: activar “En un full nou” (sempre recomanable).

• Resum d’estadístiques: activar per a obtenir els resultats descriptius.

• Nivell de confiança per a la mitjana: activar per a obtenir l’interval de con-

fiança. En activar aquesta opció s’estableix, per defecte, un nivell de confi-

ança del 95%, però pot substituir-se aquest valor per qualsevol altre.

Una vegada executada aquesta opció, fent clic a Acceptar, s’obtenen els resul-

tats següents:

Taula 6

La majoria d’informació que ens proporciona aquesta anàlisi d’Excel no és perti-

nent, perquè de fet estem analitzant una variable categòrica com és el sexe, però

per al nostre objectiu sí que hi ha la informació necessària. Així, la mitjana de la

distribució (0,40) és la proporció (P) d’homes de la mostra (aquest fet ja l’havíem

comentat en apartats anteriors). També coincideix l’error típic de la proporció

amb l’error típic de la mostra . Única-

ment hi ha una diferència molt petita en el resultat del marge d’error, perquè l’Ex-

cel ens l’ha calculat amb el valor de la distribució t ( ), i

l’interval de confiança de la proporció es calcula amb el valor de z, que per a un

nivell de confiança del 95% ja sabem que val 1,96.

Sexe

Mitjana 0,400

Error típic 0,049

Mediana 0,000

Moda 0,000

Desviació estàndard 0,492

Variància de la mostra 0,242

Curtosi –1,866

Coeficient d’asimetria 0,414

Rang 1,000

Mínim 0,000

Màxim 1,000

Suma 40,000

Compte 100,000

Nivell de confiança (95,0%) 0,098

( )1 0,40 0,600,049

100P

P P

n

⎞⎛ − × ⎟⎜σ = = =⎜ ⎟⎝ ⎠

2, 1 0,025, 99 1,984n dft tα − = =

Page 31: estadística inferencial

© FUOC • P08/10512/02519 31 Estimació de paràmetres: distribució mostral

Així, si volem ser rigorosos, haurem de recalcular el marge d’error, multipli-

cant el valor de l’error típic pel de la puntuació z corresponent al nivell de con-

fiança establert.

En el nostre exemple el marge d’error exacte serà .

De fet, ja veiem que la diferència entre el càlcul fet per l’Excel i el valor exacte

és molt petita, i això tenint en compte que la mida de la mostra (n = 100) és la

mínima possible per a fer aquest tipus d’estimacions.

Amb tot això obtenim l’interval de confiança sumant i restant a la proporció

el marge d’error calculat.

→ Interval:

Lògicament també arribem al mateix resultat i, per tant, podem continuar

concloent que, amb un nivell de confiança del 95%, la proporció d’homes en

el municipi estudiat està entre 0,304 i 0,496, és a dir, un percentatge d’homes

entre el 30,4 i el 49,6%.

0,049 1,96 0,096× =

2 0,40 0,096PP zα± σ = ± 0,304 0,496≤ π ≤

Page 32: estadística inferencial

© FUOC • P08/10512/02519 32 Estimació de paràmetres: distribució mostral

Resum dels vídeos

Vídeo 19

La primera part del vídeo explica que, si repetim una mostra aleatòria, no ob-

tindrem el mateix resultat que havíem obtingut en el primer intent. Després

de moltes mostres repetides, amb una mitjana aritmètica per a cada una, te-

nim una distribució de mitjanes aritmètiques denominada distribució mostral

de la mitjana aritmètica.

El vídeo ens mostra una fàbrica industrial de commutadors per a centrals tele-

fòniques. Cada circuit imprès té unes dues mil connexions elèctriques que es

poden soldar en una sola operació. Per controlar aquesta operació crítica, els

treballadors inspeccionen una mostra de 5 quadres a intervals regulars. Cada

quadre rep una puntuació per la qualitat de la soldadura: l’estàndard és 100,

per sota de 100 és una qualitat més baixa i per sobre de 100 és millor que l’es-

tàndard. Una distribució normal descriu el patró de variació en la puntuació

de la mitjana en mostres repetides.

Veiem que, si prenem una mostra aleatòria simple de mida n d’una població

amb una mitjana aritmètica μ i una desviació estàndard σ, llavors la mitjana

aritmètica de la mostra també té una distribució mostral amb una mitjana arit-

mètica de μ, però amb una desviació estàndard més petita, .

Si la població té una distribució normal, llavors la mitjana aritmètica de la

mostra també la té normal.

Cap al final del vídeo també veiem una il·lustració del teorema central del lí-

mit. És un dels teoremes fonamentals en estadística i diu que, fins i tot no sent

la població normal, la distribució mostral de la mitjana s’apropa a una distri-

bució normal a mesura que la mida de la mostra s’incrementa. Per exemple,

una distribució de salaris és fortament asimètrica, però quan prenem un nom-

bre de mostres àmplies d’aquesta població i mirem la distribució de la mitjana,

trobem que s’aproxima a la distribució normal.

Vídeo 20

El vídeo comença amb un exemple de l’estimació de la durada d’unes piles per

fonamentar les afirmacions publicitàries que determinades piles duren més.

Aquesta estimació es basa en la comprovació d’una mostra de piles i ja presen-

ta un tipus d’inferència estadística.

Aquí resumim únicament la part del vídeo que utilitzem en

aquest mòdul.

x

Page 33: estadística inferencial

© FUOC • P08/10512/02519 33 Estimació de paràmetres: distribució mostral

També s’exposa un exemple més simple: prendre mesures de la pressió sanguí-

nia cada dia durant una setmana i calcular la mitjana, que és de 130. Si pensem

en tots els mesuraments que haguéssim pogut fer durant aquest període, en

altres paraules, la població de mesuraments, llavors la mitjana és un valor des-

conegut μ. Quin grau de precisió té la nostra estimació? Si haguéssim pres uns

altres set mesuraments independents, fins a quin punt els resultats haguessin

estat diferents?

Per a contestar aquestes preguntes suposem que la distribució subjacent dels

nostres mesuraments és normal i que són prou distants en el temps perquè una

no influeixi sobre cap altra. Volem estimar el paràmetre μ d’aquesta distribu-

ció. Suposem també que coneixem la desviació estàndard σ d’aquesta dis-

tribució des del principi.

Ja hem estudiat com es distribueix la distribució mostral de la mitjana d’una

mostra de mida n extreta d’una població normal, té distribució normal, amb

la mateixa mitjana μ, però amb una desviació estàndard més petita:

També sabem que al voltant del 95% de totes les mitjanes de mostres de mida

n estaran al mig de dues desviacions estàndards de les nostres mitjanes

observades. Podem fer servir aquest resultat per a definir un interval dins del

qual suposem que s’ha de trobar la verdadera (però desconeguda) mitjana po-

blacional μ.

L’interval és un interval de confiança per a μ. El centre de l’interval

és la nostra estimació original, la mitjana mostral. A aquesta mitjana li sumem

i restem el marge d’error per a indicar el grau de precisió de la nostra es-

timació. Hi ha un nivell de confiança associat; en aquest cas, que usem dues

desviacions estàndards, el nivell és del 95%.

El vídeo il·lustra en quin sentit confiem o esperem que hi hagi el 95% de pro-

babilitats que l’interval de confiança contingui la mitjana poblacional μ. Si

repetim l’estimació de l’interval de confiança moltes vegades, en el 95% de

les repeticions l’interval de confiança inclourà la verdadera mitjana, i en el

5% d’ocasions no ho farà. Per tant, la probabilitat que el mètode funcioni és

de 0,95.

Aplicant aquest mètode a la mostra de set lectures de la pressió sanguínia a

partir d’una distribució normal amb mitjana desconeguda, però amb una des-

viació estàndard coneguda de 20, calculem una mitjana de 130 i un marge

d’error de . Això dóna un interval de confiança de ;

és a dir, concloem que la verdadera mitjana es trobarà entre 114,8 i 145,2.

Com que el nostre mètode inclou la verdadera mitjana en el 95% de les oca-

sions que l’usem, confiem que en aquest cas ha funcionat.

xnσ

σ =

2 xσ

2 xX + σ

2 xσ

2 20 7 15,2× = 130 15,2±

Page 34: estadística inferencial

© FUOC • P08/10512/02519 34 Estimació de paràmetres: distribució mostral

Page 35: estadística inferencial

© FUOC • P08/10512/02519 35 Estimació de paràmetres: distribució mostral

Activitats

1. Distribució mostral de la mitjana. Podeu fer una activitat per a observar que es compleixel resultat que la mitjana de la distribució mostral de mitjanes tendeix cap a la mitjana depoblació, o hi coincideix en poblacions finites, i que la desviació estàndard d’aquesta distri-bució (és a dir, l’error estàndard de la mitjana) disminueix a mesura que augmenta la midamostral (tret de fluctuacions aleatòries d’aquests valors). Per a això seleccioneu solament els40 primers subjectes del nostre exemple pràctic general i treballeu amb l’edat d’aquests 40subjectes com si fos la vostra població de referència. En primer lloc, obteniu la mitjana i des-viació estàndard de l’edat d’aquests 40 subjectes. Aquests seran els paràmetres de la població.En segon lloc, dividiu aquests 40 subjectes repartint-los segons 3 mides mostrals diferents:n = 10, n = 8 i n = 5. Comproveu per a cada un d’aquests tres casos, com es comporta la dis-tribució mostral de mitjanes, i si es compleix el resultat apuntat al principi d’aquest paràgraf.

2. Distribució mostral d’una proporció. Us proposem que feu una activitat que us serveixiper a constatar les característiques d’aquesta distribució mostral de la proporció. Pot ser simi-lar a la que vam desenvolupar en l’apartat anterior, quan preníem mostres de diferent midaper a comprovar-ne l’efecte sobre la distribució mostral de la mitjana.

Així, i basant-nos en les dades del nostre exemple pràctic general, analitzeu la variable sexeen els 100 subjectes estudiats, considereu a escala purament didàctica, com fèiem abans, queaquests 100 subjectes són tota la nostra població de referència. Si sobre aquesta població cal-culem la proporció d’homes, obtenim el valor del paràmetre població, que amb les nostresdades serà π = 0,40.

A partir d’aquí, formeu les mostres possibles (mantenint l’ordre dels subjectes) de mida 20,10 i 5, i obteniu per a cada un d’aquests tres supòsits, la mitjana i la desviació estàndard dela distribució mostral de la proporció.

Com es comporten aquesta mitjana i aquesta desviació estàndard?

3. Interval de confiança per a la mitjana aritmètica. Calculeu (podeu fer-ho amb l’Excel,primer a partir de les funcions i després amb el programa preconfigurat) els intervals de con-fiança de les puntuacions en el MAS per a la mostra de 100 subjectes del nostre exemple pràc-tic general, però aquesta vegada amb els nivells de confiança del 99% en primer lloc i del 90%després.

Calculeu també aquests mateixos intervals de confiança (afegint el del 95%) però només perals 25 primers subjectes de la nostra matriu de dades, com si aquests 25 subjectes fossin latotalitat de la mostra de què disposéssim.

Compareu els resultats dels diferents intervals de confiança, i comenteu-los en relació ambl’intercanvi entre la precisió i el nivell de confiança, i l’efecte de la mida de la mostra.

Finalment responeu aquestes qüestions:

a) Quin o quins de tots aquests intervals són més precisos?

b) Quin o quins de tots aquests intervals són més fiables (amb més probabilitat de contenirel valor verdader del paràmetre)?

c) Si haguéssim de donar un sol resultat, quin escolliríem dels diferents que hem obtingut, iper què?

4. Interval de confiança per a la proporció. Calculeu els intervals de confiança per a la pro-porció d’homes de la nostra mostra de l’exemple pràctic general però per als nivells de con-fiança del 90% i del 99%. Compareu i comenteu les diferències amb l’obtingut per al nivellde confiança del 95%.

Calculeu també l’interval de confiança per a la proporció de dones de la mateixa mostra an-terior per a un nivell de confiança del 95%. Compareu aquest interval amb l’obtingut per alshomes. Quines característiques generals podem establir a partir d’aquesta comparació respec-te als intervals de confiança per a una proporció?

Finalment, i sempre amb les mateixes dades, responeu la pregunta següent: quina proporcióde subjectes casats (homes o dones) podem estimar que hi ha en aquest municipi (nivell deconfiança del 99%)?

5. Mida mostral. En el nostre exemple pràctic general, suposant que el nombre d’habitantsdel municipi (població) és prou gran, quants subjectes hauria d’enquestar l’ajuntament, pera fer una estimació de la proporció de subjectes del municipi, que estan a favor de la prohi-

Page 36: estadística inferencial

© FUOC • P08/10512/02519 36 Estimació de paràmetres: distribució mostral

bició total de fumar als locals públics, amb un marge d’error del 5% i un nivell de confiançadel 95%?

Enllaços web

A les pàgines web següents, trobareu simulacions de diferents distribucions mostrals i del te-orema central del límit.

http://www.uam.es/personal_pdi/derecho/lmorales/tecnicas/practica/media.html

http://www.kuleuven.ac.be/ucs/java/index.htm

http://pergamo.upc.es/etseib/e/software/aplicacions.html

http://descartes.cnice.mecd.es/Bach_HCS_2/inferencia_estadistica/estimac.htm