estadística inferencial
TRANSCRIPT
![Page 1: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/1.jpg)
Estimació de paràmetres: distribució mostralAntoni Cosculluela MasAlbert Fornieles DeuJaume Turbany Oset
P08/10512/02519
![Page 2: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/2.jpg)
© FUOC • P08/10512/02519 2 Estimació de paràmetres: distribució mostral
![Page 3: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/3.jpg)
© FUOC • P08/10512/02519 Estimació de paràmetres: distribució mostral
Índex
Objectius ................................................................................................... 5
1. Introducció ......................................................................................... 7
2. Distribució mostral d’un estadístic ............................................. 9
2.1. Distribució mostral de la mitjana aritmètica ................................. 10
2.1.1. Teorema central del límit .................................................... 13
2.2. Distribució mostral d’una proporció .............................................. 13
3. Intervals de confiança per a l’estimació
de paràmetres .................................................................................... 15
3.1. Interval de confiança per a la mitjana aritmètica .......................... 15
3.1.1. La precisió de l’estimació .................................................... 15
3.1.2. Els intervals de confiança .................................................... 16
3.2. Interval de confiança per a la mitjana, coneguda la desviació
estàndard de la població ................................................................. 17
3.2.1. Intercanvi entre la precisió i el nivell de confiança ............ 18
3.2.2. Efecte de la mida de la mostra ............................................ 19
3.3. Interval de confiança per a la mitjana, desconeguda
la desviació estàndard de la població ............................................. 19
3.4. Interval de confiança per a la proporció ........................................ 22
4. Les mides mostrals per a un marge d’error
prèviament establert ........................................................................ 25
5. Càlcul dels intervals de confiança amb Excel ........................... 27
5.1. Interval de confiança per a la mitjana .......................................... 27
5.2. Interval de confiança per a la proporció ........................................ 29
Resum dels vídeos ................................................................................... 32
Activitats .................................................................................................. 35
Enllaços web ............................................................................................ 36
![Page 4: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/4.jpg)
© FUOC • P08/10512/02519 Estimació de paràmetres: distribució mostral
![Page 5: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/5.jpg)
© FUOC • P08/10512/02519 5 Estimació de paràmetres: distribució mostral
Objectius
En els materials didàctics d’aquest mòdul presentem els continguts i les eines
imprescindibles per a assolir els objectius següents:
1. Saber identificar i comprendre els conceptes bàsics d’estadística inferencial
per poder-los utilitzar a l’hora de construir proves de decisió estadística.
2. Conèixer el concepte de distribució mostral d’un estadístic.
3. Saber interpretar i utilitzar la distribució mostral d’un estadístic.
4. Diferenciar entre desviació estàndard i error estàndard.
5. Veure l’aproximació de la distribució mostral de les proporcions a una llei
normal a mesura que augmenta la mida de la mostra.
6. Saber utilitzar la distribució mostral per poder fer estimacions de paràme-
tres desconeguts (intervals de confiança).
7. Calcular l’interval de predicció.
8. Calcular l’interval de confiança.
![Page 6: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/6.jpg)
© FUOC • P08/10512/02519 6 Estimació de paràmetres: distribució mostral
![Page 7: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/7.jpg)
© FUOC • P08/10512/02519 7 Estimació de paràmetres: distribució mostral
1. Introducció
En aquest mòdul entrarem en un nou i ampli apartat de l’anàlisi de dades, que
és l’anomenada estadística inferencial, a diferència dels temes anteriors que
s’ocupaven de l’estadística denominada descriptiva.
Si en la majoria dels mòduls anteriors hem tractat dels aspectes de l’anàlisi de
dades que tenen com a finalitat bàsica l’organització i descripció de les dades
d’una mostra, en aquest mòdul i els pròxims ens centrarem en els procedi-
ments i proves estadístiques la finalitat principal de les quals és l’estudi de les
característiques numèriques de les poblacions a les quals pertanyen les mos-
tres descrites i analitzades.
Sembla lògic suposar que en molts estudis el nostre interès no sigui només es-
brinar o descriure certes característiques rellevants dels subjectes estudiats,
sinó que a partir d’aquestes dades puguem fer algun tipus de suposició o pre-
dicció d’aquestes mateixes característiques per a tots aquells subjectes que per-
tanyen a la seva mateixa població.
Així, en el nostre exemple pràctic general sobre les dades obtingudes en dife-
rents variables psicològiques en una mostra de 100 habitants d’un determinat
municipi, si els responsables de l’estudi solament disposessin d’aquestes da-
des, sembla lògic pensar que tindrien interès a tractar d’esbrinar a partir d’elles
com es comporten aquestes variables en la població de referència que en
aquest cas compondrien tots els habitants del municipi.
Podem tractar de fer una previsió o pronòstic del grau d’ansietat mitjà de tots
els habitants del municipi a partir de les dades de què disposem dels 100 sub-
jectes analitzats? Podem tractar d’esbrinar si hi ha diferències en el grau de
Estadística inferencial
L’estadística inferencial té com a objectiu principal l’estudi de les caracte-
rístiques numèriques d’una població o la verificació d’afirmacions sobre
aquestes característiques, a partir de calcular-les en una o diverses mostres
escollides a l’atzar d’aquesta població. El procés utilitzat en aquest tipus
d’estudis es denomina inferència estadística i ens permet, per exemple,
pronosticar (inferir) la mitjana aritmètica d’una variable en la població (μ),
a partir de l’obtenció i el càlcul d’aquesta variable en una mostra aleatòria
d’aquesta mateixa població. Dit d’una altra manera, ens permetrà inferir o
pronosticar el valor dels paràmetres poblacionals a partir del
valor dels estadístics mostrals .( ), , ,etc.μ σ π
( ), , ,etc.xx s p
Recordeu que podeu consultar l’exemple pràctic general en l’annex, disponible al web de l’assignatura.
![Page 8: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/8.jpg)
© FUOC • P08/10512/02519 8 Estimació de paràmetres: distribució mostral
depressió dels subjectes d’aquest municipi en funció de ser d’un gènere o
d’un altre?
Totes aquestes preguntes semblen pertinents per a un estudi complet del grau
de salut dels habitants del municipi, o per a altres estudis de caràcter similar.
Per poder respondre-les, o haurem d’haver registrat les variables estudiades en
tots els subjectes adults del municipi, és a dir, en tota la població (cosa que ha-
bitualment és molt costós o fins i tot de vegades impossible), o necessitarem
alguns procediments estadístics que ens permetin obtenir aquestes respostes
amb les dades de què disposem, en el nostre exemple amb les obtingudes en
la mostra de 100 subjectes estudiats. Aquests procediments estadístics confor-
men l’anomenada estadística inferencial, i seran objecte d’estudi d’aquest mò-
dul i dels pròxims.
![Page 9: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/9.jpg)
© FUOC • P08/10512/02519 9 Estimació de paràmetres: distribució mostral
2. Distribució mostral d’un estadístic
Un concepte fonamental que ens servirà de base per a bona part dels procedi-
ments que utilitzarem en apartats posteriors és el de distribució mostral d’un
estadístic.
Si en la definició anterior hem posat un exemple a partir de la mitjana aritmè-
tica és perquè, tal com s’ha comentat en els mòduls anteriors, aquest estadístic
és el que més habitualment s’utilitza per a caracteritzar en un sol valor la ten-
dència central o valor més representatiu d’un conjunt de dades. Però cal tenir
en compte que aquesta distribució mostral pot obtenir-se per a qualsevol altre
d’estadístic dels estudiats anteriorment. Així, també podem parlar de distribu-
ció mostral de la variància, distribució mostral de la proporció, distribució
mostral de la mediana, etc. Totes elles s’obtindrien calculant en cada una de
les infinites mostres el valor de l’estadístic corresponent (sia variància, propor-
ció, mediana o qualsevol altre).
Atès que el procediment per a l’obtenció de les mostres és aleatori, el valor de
l’estadístic calculat en cada mostra també variarà aleatòriament d’una a l’altra,
i en conseqüència podem considerar la distribució mostral d’aquest estadístic
com la distribució d’una variable aleatòria que pot ajustar-se a un dels models
de distribució de probabilitat estudiats en el mòdul anterior.
En aquest apartat sobre distribucions mostrals veurem que la distribució mos-
tral de la mitjana aritmètica d’una variable que es distribueix normalment en
la població també es distribueix d’una manera normal, però amb una desvia-
ció estàndard més petita. També trobarem un dels famosos teoremes de l’esta-
dística, el teorema central del límit. Aquest teorema ens diu que encara que les
dades no es distribueixin normalment en la població, la distribució mostral de
la mitjana tendeix a la normal en augmentar la mida de les mostres. Final-
ment, també exposarem la distribució mostral d’una proporció, que ens servi-
Distribució mostral d’un estadístic
La distribució mostral d’un estadístic (mitjana aritmètica, variància,
proporció, etc.) és la distribució d’aquest estadístic, calculada en mos-
tres infinites de la mateixa mida n escollides a l’atzar d’una determinada
població. Així, si en la població d’estudiants de la UOC, anéssim esco-
llint mostres aleatòries de la mateixa mida (per exemple 30), i a cada
mostra calculéssim la mitjana d’edat dels subjectes, obtindríem una dis-
tribució de mitjanes d’edat que denominem distribució mostral de la
mitjana.
![Page 10: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/10.jpg)
© FUOC • P08/10512/02519 10 Estimació de paràmetres: distribució mostral
rà per a aquelles variables categòriques dicotòmiques i que serà de distribució
aproximadament normal per a mostres grans.
2.1. Distribució mostral de la mitjana aritmètica
Ja hem comentat anteriorment que l’estadístic mes àmpliament utilitzat com
a representatiu d’un conjunt de dades és la seva mitjana aritmètica. També
hem comentat que si prenem repetides mostres de la mateixa mida d’una po-
blació de dades o observacions, i calculem en cada una d’elles la seva mitjana
aritmètica, la distribució dels seus valors conformen l’anomenada distribució
mostral de la mitjana aritmètica.
Aquesta distribució mostral de la mitjana tindrà, al seu torn, la seva mitjana
aritmètica, denominada mitjana de la distribució mostral de la mitjana i re-
presentada per , i la seva desviació estàndard, que serà la desviació estàn-
dard de la distribució mostral de la mitjana que es representa com a
Aquesta desviació estàndard de la distribució mostral de mitjanes també es de-
nomina error típic o error estàndard de la mitjana, i l’utilitzarem sovint en els
apartats i mòduls següents.
En aquest subapartat veurem com es comporta aquesta distribució mostral de
la mitjana i quines característiques presenta en funció de com es distribueixen
les dades en la població.
Hi ha moltes formes possibles d’il·lustrar aquestes idees i algunes d’elles les po-
dem trobar en diferents pàgines web que més endavant presentarem, però de
moment i a nivell purament didàctic, podem partir de les dades del nostre
exemple pràctic general, i cenyir-nos només als valors de l’edat dels 100 sub-
jectes estudiats. Suposem, insistim que solament a nivell didàctic per a il·lus-
trar aquest punt sense gaire sentit real, que per al nostre propòsit aquests 100
subjectes són tota la nostra població de referència, i que per tant podem co-
nèixer perfectament els valors dels paràmetres poblacionals. Fet aquest supòsit
i calculada la mitjana i la desviació estàndard de l’edat d’aquests subjectes,
aquests valors són els següents:
Mitjana d’edat: μ = 37,66
Desviació estàndard de l’edat: σ = 13,736
Ara podem anar fent diferents supòsits de repartir aquests 100 subjectes en di-
ferents mostres de la mateixa mida. Així, podem repartir-los en 5 mostres
L’error típic o error estàndard d’un estadístic és la desviació típica de la
distribució mostral d’aquest estadístic. Així, per exemple, l’error típic de la
mitjana és la desviació estàndard de la distribució mostral de la mitjana.
xμ
.xσ
![Page 11: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/11.jpg)
© FUOC • P08/10512/02519 11 Estimació de paràmetres: distribució mostral
de 20 subjectes cada una (n = 20), en 10 en mostres de mida 10 (n = 10) , o en
20 mostres de mida 5 (n = 5). Una vegada realitzats els repartiments, per a cada
supòsit podem obtenir la distribució mostral de la mitjana i calcular la mitjana
aritmètica i la desviació estàndard d’aquesta distribució. Així, en el primer su-
pòsit tindrem 5 mitjanes aritmètiques (una per a cada mostra), i la distribució
mostral de mitjanes estarà formada per aquests cinc valors, dels quals obtin-
drem la mitjana i la desviació estàndard, i així per als altres dos supòsits.
Si mantenim el mateix ordre dels subjectes que a la matriu inicial, els resultats
d’aquests tres casos hipotètics seran els següents:
Taula 1. Mostres de mida 20 (n = 20)
Taula 2. Mostres de mida 10 (n = 10)
M1 M2 M3 M4 M5
28 19 42 42 32
27 26 47 57 30
30 26 59 73 29
32 41 64 30 37
41 21 36 33 32
34 20 50 38 25
21 32 26 61 28
33 35 30 55 46
29 26 40 46 55
18 35 22 53 61
40 44 24 18 52
34 65 34 42 54
42 47 20 24 48
18 43 41 18 40
30 72 27 35 44
20 30 35 25 46
28 58 29 62 55
22 53 18 34 26
31 27 46 44 54
33 21 55 35 70
Mitjana 29,55 37,05 37,25 41,25 43,2
Mitjana de les mitjanes: 37,66
Desviació estàndard de les mitjanes: 5,241
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
28 40 19 44 42 24 42 18 32 52
27 34 26 65 47 34 57 42 30 54
30 42 26 47 59 20 73 24 29 48
![Page 12: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/12.jpg)
© FUOC • P08/10512/02519 12 Estimació de paràmetres: distribució mostral
Taula 3. Mostres de mida 5: (n = 5)
Podem resumir tots aquests resultats a la taula 4.
Taula 4
Evidentment podíem haver escollit moltes altres mostres i ho haguéssim
pogut fer a l’atzar, i a això en un exemple amb una població finita bastant
petita. Lògicament, en poblacions molt mes àmplies o infinites, el nombre
de mostres diferents possibles és també pràcticament infinit (o infinit real-
ment), però a nivell de la lògica subjacent aquest petit exemple poc plau-
sible ens permet il·lustrar un resultat ben conegut en estadística, és a dir,
que la mitjana de la distribució mostral de mitjanes tendeix cap a la mitja-
na població (o hi coincideix en poblacions finites, com en el nostre petit
exemple anterior), i que la desviació estàndard d’aquesta distribució (és a
dir l’error estàndard de la mitjana) disminueix a mesura que augmenta la
mida mostral.
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
32 18 41 43 64 41 30 18 37 40
41 30 21 72 36 27 33 35 32 44
34 20 20 30 50 35 38 25 25 46
21 28 32 58 26 29 61 62 28 55
33 22 35 53 30 18 55 34 46 26
29 31 26 27 40 46 46 44 55 54
18 33 35 21 22 55 53 35 61 70
Mitjana : 29,3 29,8 28,1 46 41,6 32,9 48,8 33,7 37,5 48,9
Mitjana de les mitjanes: 37,66
Desviació estàndard de les mitjanes: 8,144
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12 M13 M14 M15 M16 M17 M18 M19 M20
28 34 40 20 19 20 44 30 42 50 24 35 42 38 18 25 32 25 52 46
27 21 34 28 26 32 65 58 47 26 34 29 57 61 42 62 30 28 54 55
30 33 42 22 26 35 47 53 59 30 20 18 73 55 24 34 29 46 48 26
32 29 18 31 41 26 43 27 64 40 41 46 30 46 18 44 37 55 40 54
41 18 30 33 21 35 72 21 36 22 27 55 33 53 35 35 32 61 44 70
Mitjana 31,6 27,0 32,8 26,8 26,6 29,6 54,2 37,8 49,6 33,6 29,2 36,6 47,0 50,6 27,4 40,0 32,0 43,0 47,6 50,2
Mitjana de les mitjanes: 37,66
Desviació estàndard de les mitjanes: 9,366
Mides mostrals
n = 5 n = 10 n = 20
Mitjana de la distribució mostral de mitjanes: 37,66 37,66 37,66
Error típic o error estàndard de la mitjana: 9,366 8,144 5,241
xμ
xσ
![Page 13: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/13.jpg)
© FUOC • P08/10512/02519 13 Estimació de paràmetres: distribució mostral
Tal com pot veure’s al vídeo 19 del CD, si σ indica la desviació estàndard de la
població i indica la desviació estàndard de la distribució mostral de la mit-
jana aritmètica (l’error típic de la mitjana), basada en una mostra de mida n,
llavors la relació exacta entre i σ és la següent:
En conseqüència, l’error típic de la mitjana disminueix en proporció inversa a
l’arrel quadrada de la mida mostral.
2.1.1. Teorema central del límit
Tot el que hem dit fins a aquest punt és aplicable a variables de distribució nor-
mal en la població, és a dir, quan les seves observacions es distribueixen normal-
ment.
2.2. Distribució mostral d’una proporció
Quan treballem amb una variable categòrica, no tenim valors numèrics per a cada
observació, sinó la presència o no de determinat atribut o modalitat de la variable.
Així, per a la variable sexe dels subjectes, el que tenim per a cada observació (sub-
jecte) és si és un home o una dona, igual que per a la variable estat civil tindrem
si està casat o no ho està. Per a aquestes variables dicotòmiques o dicotomitzades
l’estadístic mes representatiu és la proporció (P) de determinat atribut. En les va-
riables anteriors tindrem la proporció d’homes o la proporció de subjectes casats.
Igual com ocorria amb la mitjana, aquesta proporció també serà una característica
de la població de referència, i en aquest context parlarem de la proporció pobla-
cional com un paràmetre que es representa per π.
Si escollim a l’atzar diferents observacions d’una variable categòrica i assignem
a un dels seus atributs el valor 1 (habitualment el que és centre del nostre in-
El teorema central del límit diu que, encara que la distribució d’una
variable no sigui normal, la distribució mostral de la mitjana basada en
mostres de mida n serà aproximadament normal, també amb la mitjana
igual a μ i l’error estàndard igual a la desviació estàndard de la
població dividida per l’arrel quadrada de n .
Aquest teorema és més cert com més grans són les mides mostrals, així
per a n “petits” (per exemple menys de 10), la distribució mostral de la
mitjana solament és aproximadament normal, mentre que per a n
“grans” (per exemple de 30), la distribució és pràcticament normal.
xσ
xσ
xn
σσ =
( )xμ = μ
( )x nσ = σ
![Page 14: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/14.jpg)
© FUOC • P08/10512/02519 14 Estimació de paràmetres: distribució mostral
terès), i a l’altre atribut el valor 0, podrem definir la distribució de freqüències
d’aquests valors com una variable de Bernouilli, i la seva distribució de proba-
bilitat s’ajustarà a una distribució binomial.
L’avantatge de la codificació amb valors 1 i 0 és que la suma d’una mostra
d’aquestes observacions és igual al nombre de casos amb atribut igual a 1, i la
mitjana d’aquestes observacions és la proporció de casos amb atribut igual a 1.
Així, si tenim una mostra de 20 subjectes (per exemple 8 homes i 12 dones), i
assignem un 1 als homes i un 0 a les dones, la suma de valors d’aquesta varia-
ble sexe serà igual al nombre d’homes (ΣX = 8, suma dels vuit uns de la distri-
bució), i la mitjana d’aquesta distribució de valors serà igual a la proporció
d’homes
A partir del que hem exposat anteriorment i fent les mateixes consideracions
que fèiem amb la mitjana de la distribució, podem descriure les característi-
ques que tindrà la distribució mostral de la proporció, és a dir, la distribució
de la proporció (P) calculada en les mostres infinites de mida n escollides a l’at-
zar de la mateixa població. Així i continuant amb l’exemple amb què il·lustrà-
vem la distribució mostral d’un estadístic, si en la població d’estudiants de la
UOC anéssim escollint mostres aleatòries de la mateixa mida (per exemple
30), i a cada mostra calculéssim la proporció d’homes (P), obtindríem la distri-
bució de proporcions que denominem distribució mostral de la proporció.
Quina serà la mitjana i la desviació estàndard d’aquesta distribució mostral de
la proporció? Podem deduir-les directament de la mateixa forma que fèiem
amb la distribució mostral de la mitjana, però sabent que es distribueix segons
la distribució binomial:
• La mitjana o esperança matemàtica de la distribució mostral de la propor-
ció serà:
• La desviació estàndard de la distribució mostral de la proporció (error típic
de la proporció) serà:
Tanmateix, segons el teorema central del límit, a mesura que la mida mostral
augmenta la distribució binomial s’ajusta a la distribució normal, per tant, per
a mides mostrals grans la distribució mostral de la proporció tendirà a la nor-
mal amb paràmetres i .
( )8 0,4 .20X P= = =
( )P E Pμ = = π
( )1P n
π − πσ =
π ( )1n
π − π
![Page 15: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/15.jpg)
© FUOC • P08/10512/02519 15 Estimació de paràmetres: distribució mostral
3. Intervals de confiança per a l’estimació de paràmetres
De què ens servirà conèixer les característiques de la distribució mostral d’un
estadístic?
En aquest apartat veurem una de les aplicacions més immediates, això és l’es-
timació del valor d’un paràmetre poblacional a partir de l’obtenció d’una úni-
ca mostra escollida aleatòriament de l’esmentada població. Això és el que
ocorre a la pràctica habitual, en què es treballa amb una sola mostra d’obser-
vacions. Però si aquestes observacions han estat escollides a l’atzar, aquesta
mostra d’observacions ja sabem que serà una de les infinites (o de les moltes)
mostres possibles que podíem haver escollit, i que l’estadístic que calculem a
partir d’elles serà un dels valors possibles de la distribució mostral d’aquest es-
tadístic per a la mida mostral n. Sabem també que aquesta distribució mostral
de l’estadístic s’ajustarà a una distribució de probabilitat coneguda (com serà
en moltes ocasions la distribució normal, segons el teorema central del límit),
i per tant podrem calcular el grau de precisió de les nostres estimacions, els
anomenats intervals de confiança. Aquest grau de precisió (la possible diferèn-
cia màxima entre el valor de l’estadístic mostral de les nostres observacions i
el verdader valor del paràmetre en la població, l’anomenat també marge d’er-
ror de l’estimació) pot establir-se per a diferents graus de confiança que vul-
guem assumir, és a dir, de com de segurs vulguem estar que aquest interval de
confiança calculat conté el valor del paràmetre que volem estimar.
3.1. Interval de confiança per a la mitjana aritmètica
Amb tot el que hem dit anteriorment podem començar a pensar com hem de res-
pondre una de les preguntes que, com a exemple, ens fèiem en començar aquest
mòdul. Aquesta pregunta la ubicàvem en el context de l’exemple pràctic general
que utilitzem en diferents apartats i era la següent: podem tractar de fer una pre-
visió o pronòstic del grau d’ansietat mitjà de tots els habitants del municipi a par-
tir de les dades de què disposem dels 100 subjectes analitzats?
Per a respondre a aquesta pregunta haurem de construir l’interval de confiança de
l’estimació de la mitjana d’ansietat de tots els habitants del municipi (és a dir, de
la població). Com farem aquest procés d’estimació per interval de confiança?
3.1.1. La precisió de l’estimació
La pregunta anterior és solament una de les moltes que podríem plantejar-nos
sobre estimació de la mitjana desconeguda μ d’una població. També parlàvem
![Page 16: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/16.jpg)
© FUOC • P08/10512/02519 16 Estimació de paràmetres: distribució mostral
d’estimar la proporció de barons en la població d’estudiants de la UOC, en què
la verdadera proporció π és una mitjana poblacional.
Hem suposat que la mitjana poblacional és un valor fix que només podríem
mesurar amb exactitud si coneguéssim la població sencera. Per tant, escollim
una mostra aleatòria d’observacions i utilitzem la mitjana de la mostra per a
estimar el valor poblacional (μ).
També hem vist que la mitjana mostral és en si mateixa una variable aleatòria
i té la seva pròpia distribució mostral. Per tant, si escollíssim una altra mostra,
obtindríem una estimació diferent de la mateixa mitjana poblacional μ.
A la pràctica solament disposem d’una única mostra i una única estimació de
la mitjana. Sabem que, si la mostra hagués estat més àmplia, llavors la seva va-
riabilitat seria més petita, i això suggereix clarament que una mostra tal seria
una estimació més precisa de μ.
Però com podem mesurar la precisió de les nostres estimacions?
3.1.2. Els intervals de confiança
Tornem a la pregunta sobre el grau mitjà d’ansietat dels habitants del municipi
del nostre exemple pràctic general. Com que solament disposem d’una mostra de
100 subjectes d’aquest municipi, la nostra estimació de la mitjana de tots els ha-
bitants, és a dir, de la mitjana de la població μ, serà la mitjana aritmètica d’aquesta
mostra. Si calculem aquesta mitjana a la nostra matriu de dades, veiem que és
aproximadament igual a 22 (a partir de les puntuacions en el test MAS). Tanma-
teix, aquesta és solament una mostra escollida a l’atzar de 100 habitants del mu-
nicipi, però si haguéssim escollit una altra mostra d’uns altres 100 subjectes, la
nova estimació de la mitjana en ansietat podria ser perfectament un altre valor,
com per exemple 20. Quina d’aquestes dues estimacions, 22 o 20, és més precisa
respecte al valor del grau d’ansietat de tots els habitants del municipi (és a dir, de
μ)? Únicament podríem saber-ho si tinguéssim les puntuacions en el test MAS de
tots els habitants del municipi, i poguéssim calcular el verdader valor de μ, però
això a la pràctica és molt poc habitual, i en gairebé totes les situacions estimarem
uns valors poblacionals que no podrem confirmar.
Per tant, com podem quantificar la precisió de les nostres estimacions quan
solament tenim una única mostra de dades i no hi ha manera de confirmar el
resultat?
La manera de fer-ho és no donant una única estimació del valor poblacional,
sinó un interval, i després reforçar aquest interval de valors per mitjà d’una de-
claració del nostre nivell de confiança que el verdader valor estigui dins
d’aquest interval. Això es denomina interval de confiança.
![Page 17: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/17.jpg)
© FUOC • P08/10512/02519 17 Estimació de paràmetres: distribució mostral
3.2. Interval de confiança per a la mitjana, coneguda la desviació
estàndard de la població
Considerem el cas en el qual la població és normal i coneixem la desviació es-
tàndard σ d’aquesta distribució (és molt poc freqüent que coneguem la desvi-
ació estàndard poblacional, normalment l’estimem també a partir de la
mostra com veurem més endavant).
El vídeo 20 del CD il·lustra com es calcula un interval de confiança per a la
mitjana μ en una mostra de mida n. El procediment és el següent:
1) Calculeu la mitjana de la mostra.
2) Calculeu l’error típic de la mitjana: .
3) Calculeu el marge d’error com a z* per l’error típic: .
4) Tenim així que l’interval de confiança és la mitjana més menys el marge
d’error:
L’exemple del vídeo mostra un interval de confiança del 95% per a μ, i fa servir
un valor de z* = 2. Parlant en propietat, el valor de z* que inclou exactament
el 95% de la distribució normal és 1,96, però a la pràctica sovint s’utilitza el
valor 2. Podem calcular un interval de confiança per a qualsevol nivell de con-
fiança que escollim: per exemple, per a un nivell de confiança del 90% neces-
sitaríem buscar el valor de z*, de manera que el 90% de l’àrea sota la corba
normal, aquest inclòs, entre –z* i +z* . Aquest valor de z* és 1,645.
Per a ser més precís, ometrem la notació * usada al vídeo i al seu lloc utilitzarem
la notació z0,05 = 1,645 per a indicar el valor de la puntuació típica estandarditza-
da (z) que talla el 5% en la cua superior de la distribució normal (i el 5% en la cua
inferior). Per tant, també z0,025 = 1,96 és el valor z que usarem per a un interval
de confiança del 95%, i z0,005 = 2,576, el que utilitzarem per a un nivell de confi-
ança del 99%. En general, podem indicar el valor de z com zα/2, on ± zα/2 inclou
una àrea de (1 – α) sota la corba normal (vegeu la figura 1).
Marge d’error d’un interval de confiança
El marge d’error d’un interval de confiança és l’amplitud de l’interval al
voltant del valor de l’estadístic calculat.
Nivell de confiança
El nivell de confiança (1 – α) representa la probabilitat que el paràmetre
estimat estigui inclòs en l’interval de confiança. Es presenta habitual-
ment com a percentatge, en multiplicar el valor de (1 – α) per 100.
x
xn
σσ =
* xz σ
* .xx z± σ
![Page 18: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/18.jpg)
© FUOC • P08/10512/02519 18 Estimació de paràmetres: distribució mostral
Figura 1
Figura 2
3.2.1. Intercanvi entre la precisió i el nivell de confiança
Com més baixem el nivell de confiança més petit serà el marge d’error (ja que
el valor de z disminuirà; així per a un nivell de confiança del 99% és de 2,567,
del 95% 1,96 i del 90% 1,645), i l’interval de confiança més curt. Per tant, el
resultat serà més precís, però el nivell de confiança naturalment serà més baix,
![Page 19: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/19.jpg)
© FUOC • P08/10512/02519 19 Estimació de paràmetres: distribució mostral
i per tant la probabilitat que l’interval no inclogui el vertader valor del parà-
metre μ serà més elevada. Veiem amb això que res no és gratuït. Hi ha un in-
tercanvi entre la precisió que es pot expressar en un interval de confiança i el
nivell de confiança. Per a una mostra en particular, com més curt i precís sigui
l’interval de confiança, més baix serà el nivell de confiança.
3.2.2. Efecte de la mida de la mostra
L’única manera de millorar tant la precisió com el nostre nivell de confiança
és reduint l’error típic. Si la desviació estàndard poblacional σ és fixa, llavors
únicament podem reduir l’error típic mitjançant l’augment de la mida de la
mostra. Això redueix el marge d’error i així disminueix l’interval de confiança
per a un determinat nivell de confiança. Alternativament, si es manté el marge
d’error fix, incrementar la mida de la mostra comporta un increment del valor
de z i per tant també el nivell de confiança.
Fixeu-vos que, com l’error típic s’obté dividint la desviació estàndard per l’ar-
rel quadrada de n, es necessita una mostra quatre vegades més gran per a reduir
l’amplitud de l’interval de confiança a la meitat.
3.3. Interval de confiança per a la mitjana, desconeguda
la desviació estàndard de la població
En subapartat anterior hem suposat que coneixíem la desviació estàndard de la
població σ, però ja hem comentat allà que aquesta suposició rarament es com-
pleix a la pràctica. Per tant, el mes habitual és que desconeguem el valor de σ, i en
conseqüència l’hàgim d’estimar a partir de les dades de la nostra mostra.
L’estimador centrat de la desviació estàndard de la població és la desviació es-
tàndard de la mostra, i en conseqüència usarem aquest valor per a reemplaçar
σ en la fórmula de càlcul de l’error típic de la mitjana.
Estimador d’un paràmetre
Un estimador d’un paràmetre de la població és l’estadístic d’una mostra
d’observacions que ens dóna una aproximació millor del valor del paràme-
tre. Per exemple, la mitjana d’una mostra és un estimador de la mitjana po-
blacional, i la variància de la mostra és una estimador de la variància
poblacional. Un bon estimador ha de complir certes propietats, entre les
quals hi ha, per exemple, que sigui centrat (és a dir, que la seva esperança
matemàtica o valor esperat coincideixi amb el paràmetre que estima), i que
sigui consistent (que a mesura que augmenta la mida de la mostra més
s’aproximi el valor de l’estimador al del paràmetre estimat).
![Page 20: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/20.jpg)
© FUOC • P08/10512/02519 20 Estimació de paràmetres: distribució mostral
En reemplaçar σ pel seu estimador s (desviació estàndard de la mostra) hem
introduït una nova incertesa en la nostra estimació de la mitjana i ho hem de
tenir en compte. Tot el que sabem és que únicament quan la mida de la mostra
és molt gran l’estimador s s’apropa a σ, i solament en aquests casos podríem
actuar com en el subapartat anterior.
Aquesta nova incertesa introduïda fa que la distribució mostral de la mitjana
no s’ajusti a la distribució normal sinó a la distribució t de Student, ja estudi-
ada al mòdul anterior. Com vèiem allà, la distribució t, com la distribució nor-
mal, també és simètrica al voltant del valor 0, però és més dispersa que la
distribució normal estàndard. El perfil de la distribució depèn de la mida de la
mostra, i és més dispersa per a mostres més petites. Més específicament, la dis-
tribució t es defineix en termes de n – 1, la mida de la mostra menys un. Aquest
nombre és el denominat graus de llibertat de la distribució i habitualment
s’abreuja com a df (degree of freedom).
Figura 3
La connexió entre la distribució t i la cervesa Guiness
W. S. Gosset (1876-1937), l’autor de la distribució t, va treballar com a cerveser cap a la des-til·leria Guiness de Londres. La seva feina, entre altres coses, consistia a comparar diversosmètodes d’elaboració, i per a ell era important poder quantificar la variabilitat de la mitjanaamb mides mostrals petites. Gosset va publicar els seus estudis científics amb el pseudònimde Student, motiu pel qual la distribució t rep sovint el nom de t de Student.
Gosset va observar que, encara que la distribució esperada era normal, la distribució de la mit-jana tenia una variància més gran del que es podria esperar si la mitjana hagués estat normal-
A la figura 3 podeu veure que per a 4 graus de llibertat (és a dir, una mos-
tra de mida 5), al valor t = 2,78 li correspon una probabilitat de 0,025 en
la cua dreta. Això donarà lloc a un interval de confiança molt més ample
que l’interval calculat segons el valor normal d’1,96 que usem si la vari-
ància és coneguda.
![Page 21: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/21.jpg)
© FUOC • P08/10512/02519 21 Estimació de paràmetres: distribució mostral
ment distribuïda. Això el va portar al descobriment de la distribució t, de manera que es potdir que la cervesa va ser còmplice d’una incalculable contribució a l’estadística.
En funció del que hem comentat anteriorment, podem determinar ja els passos
per a obtenir l’interval de confiança per a estimar la mitjana poblacional quan la
desviació estàndard de l’esmentada població és desconeguda. Aquest procedi-
ment solament és lleugerament diferent del d’abans, i el presentem a continuació:
1) Calcular la mitjana aritmètica de la mostra.
2) Calcular la desviació estàndard de la mostra s.
3) Calcular l’error típic de la mitjana: .
4) Calcular el marge d’error com a per a l’error típic: ,
on és el valor de la distribució t (amb n – 1 graus de llibertat) tal que
el 100 (1 – α)% de l’àrea està inclòs en ± . Aquest valor es pot obtenir
en la taula 5 de les taules estadístiques de l’annex d’aquest material, o mit-
jançant la funció DISTR.T.INV de l’Excel.
5) Tenim així que l’interval de confiança és la mitjana més menys el marge
d’error, és a dir, que està centrat en la mitjana i la seva amplitud és dues vega-
des el marge d’error: .
Aquest procediment es manté per a mostres de qualsevol mida, mentre siguin
aleatòries provinents d’una població amb distribució normal. Si la distribució
no és normal també es manté per a mostres de mida superior a 30 (teorema
central del límit).
Llavors podem resumir, a tall de formulari, els càlculs necessaris per a l’estima-
ció de l’interval de confiança de la mitjana poblacional.
x
x
ss
n=
Recordeu que l’annex està disponible al web de l’assignatura.
Interval de confiança de la mitjana poblacional:
• Coneguda la variància de la població:
Interval:
sent
• Desconeguda la variància de la població:
Interval:
sent
2, 1ntα − 2, 1n xt sα −
2, 1ntα −
2, 1ntα −
2, 1n xx t sα −±
2 xx zα± σ
2 2x xx z x zα α− σ ≤ μ ≤ + σ
x nσ
σ =
2, 1n xx t sα −±
2, 1 2, 1n x n xx t s x t sα − α −− ≤ μ ≤ +
x
ss
n=
![Page 22: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/22.jpg)
© FUOC • P08/10512/02519 22 Estimació de paràmetres: distribució mostral
Arribats a aquest punt, sí que veritablement ja podem respondre la pregunta
que ens havíem formulat en començar aquest apartat, això és: podem tractar
de fer una previsió o pronòstic del grau d’ansietat mitjà de tots els habitants
del municipi a partir de les dades de què disposem dels 100 subjectes analitzats
en el nostre exemple pràctic general?
Ara ja sabem que per a respondre-la haurem de construir l’interval de confian-
ça per a la mitjana aritmètica desconeguda la variància de la població, ja que
no disposem d’aquesta dada (com és habitual a la pràctica).
Llavors haurem d’obtenir els valors següents (tal com hem vist en els mòduls
anteriors, podem obtenir-los amb l’Excel) (arrodonirem a 3 decimals).
Mitjana en el test MAS dels 100 subjectes:
Desviació estàndard:
Error típic de la mitjana:
Establim un nivell de confiança del 95% per a obtenir el valor de t amb n – 1,
és a dir, 99 df:
Podem obtenir aquest valor amb la funció DISTR.T.INV de l’Excel amb pro-
babilitat = 0,05 i graus de llibertat = 99: .
Marge d’error:
Interval de confiança:
Per tant, ja podem concloure que amb un nivell de confiança del 95%, el grau
d’ansietat mitjà de tots els habitants del municipi estarà entre 19,505 i 24,615
punts de l’escala del MAS.
3.4. Interval de confiança per a la proporció
Ja hem vist anteriorment que per a variables dicotòmiques, es pot considerar
la proporció d’una de les seves dues modalitats com la mitjana del conjunt de
valors prèviament codificats com 0 i 1, assignant l’1 a la modalitat la proporció
del qual volem estudiar. També hem comentat que per a mostres grans, la pro-
porció calculada té una distribució aproximadament normal, amb una mitja-
na igual a la proporció poblacional π, i una desviació estàndard (és a dir, un
error típic) igual a . Com succeeix amb el cas de la mitjana, el valor
22,06x =
12,878s =
12,8781,288
100x
ss
n= = =
2, 1 0,025,99 1,984n dft tα − = =
2, 1 1,984 1,288 2,555n xt sα − = × =
2, 1 22,06 2,555n xx t sα −± = ±
19,505 24,615≤ μ ≤
( )1n
π − π
![Page 23: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/23.jpg)
© FUOC • P08/10512/02519 23 Estimació de paràmetres: distribució mostral
del paràmetre π habitualment el desconeixem i hem d’estimar-lo a partir del
seu estimador mostral. En aquest cas, l’estimador de π és la proporció P de la
mostra, ja que, com vèiem també anteriorment, .
En conseqüència, per a mostres grans la proporció calculada tindrà una distri-
bució normal aproximada, amb mitjana igual a P i error típic igual a
.
Però, què volem dir amb mostres grans? La distribució binomial ja sabem
que pot ser molt asimètrica quan la proporció de la població s’allunya de
0,5. Hem de tenir una mostra àmplia perquè el teorema central del límit
pugui aplicar-se, i en tot cas, es necessitaran almenys 100 dades per a poder
calcular un percentatge correcte i ajustat per a cada punt percentual. Per
tant, solament estudiarem proporcions calculades sobre mostres de 100 ob-
servacions o més.
Així, els passos que hem de seguir per a calcular l’interval de confiança per a
una proporció són els següents:
1) Calcular la proporció P de l’atribut estudiat a partir d’una mostra de mida n.
2) Calcular l’error típic de la proporció:
.
3) Calcular el marge d’error com a per a l’error típic: , on és el
valor de la puntuació z per a un nivell de confiança del 100 (1 – α)%.
4) Obtenir l’interval de confiança sumant i restant a la proporció P el marge
d’error: .
Aquí també podem resumir a tall de formulari els càlculs necessaris per a l’es-
timació per interval de confiança de la proporció poblacional.
Interval de confiança per a la proporció poblacional:
Interval:
sent
( )E P = π
( )1P P
n
−
( )1P
P P
n
−σ =
2zα 2 Pzα σ 2zα
2 PP zα± σ
2 PP zα± σ
2 2P PP z P zα α− σ ≤ π ≤ + σ
( )1P
P P
n
−σ =
![Page 24: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/24.jpg)
© FUOC • P08/10512/02519 24 Estimació de paràmetres: distribució mostral
Una pregunta que ens podríem fer en el nostre exemple pràctic general és qui-
na és la proporció d’homes en el municipi del nostre estudi? Ara podem res-
pondre aquesta pregunta obtenint l’interval de confiança per a la proporció
poblacional de les dades de la variable sexe a la mostra de 100 subjectes estu-
diada.
• Primer calculem la proporció P d’homes de la mostra:
• Després calculem l’error típic d’aquesta proporció:
• Després obtenim el marge d’error per a un nivell de confiança del 95% (que
ens en dóna una :
• Finalment obtenim l’interval de confiança:
Interval:
Amb la qual cosa ja podríem respondre la pregunta anterior dient que, per a
un nivell de confiança del 95%, la proporció d’homes en el municipi estudiat
serà entre 0,304 i 0,496, és a dir, un percentatge d’homes estimat entre el 30,4
i el 49,6%.
400,40
100P = =
( )1 0,40 0,600,049
100P
P P
n
− ×σ = = =
2 1,96)zα =
2 1,96 0,049 0,096Pzα σ = × =
2 0,40 0,096PP zα± σ = ±
0,304 0,496≤ π ≤
![Page 25: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/25.jpg)
© FUOC • P08/10512/02519 25 Estimació de paràmetres: distribució mostral
4. Les mides mostrals per a un marge d’error prèviament establert
Com ja hem vist, en general el marge d’error per a estimar una mitjana amb
un nivell de confiança de 100 (1 – α)% a partir d’una mostra de mida n és
:
Aïllant la mida de la mostra n en l’expressió anterior tenim
Si apliquem aquesta fórmula a la situació anterior d’estimació d’una proporció
poblacional, on , obtenim:
Aquesta fórmula és útil per a determinar quina mida mostral necessitarem per
a aconseguir una estimació poblacional amb un marge d’error preestablert.
S’utilitza molt habitualment, per exemple, en els estudis d’enquestes per son-
deig per a determinar la mida mostral requerida per a estimar una proporció
amb una precisió donada. Però, com abans, per poder aplicar aquesta fórmula
necessitem conèixer el valor de P, la proporció que tractem d’estimar. Si en rea-
litat P = 0,25, llavors P (1 – P) és 0,1875, mentre que si P = 0,10, P (1 – P) = 0,09,
que és la meitat del valor anterior, la qual cosa implicaria que es necessita la
meitat de la mida mostral.
Quin valor de P hem d’utilitzar? Això depèn de si tenim alguna idea aproxi-
mada de la proporció poblacional o si no sabem quina pot ser. Per exemple,
podem estar bastant segurs que la popularitat d’un partit polític està al voltant
del 30%, però volem dur a terme una enquesta per a determinar amb més pre-
cisió aquest percentatge, diguem que amb un marge d’error de 2 punts percen-
tuals. Podríem usar el valor 0,30 per a determinar la mida de la mostra
necessària:
D’altra banda, si no tinguéssim ni idea de la proporció poblacional, o si, per
exemple, l’enquesta volgués determinar la popularitat de diferents partits, les
2zn
ασ
2marge d'error zn
ασ
=
2
2Mida de la mostra marge d'error
zα
⎞⎛ σ= ⎟⎜⎝ ⎠
( )1P Pσ = −
( )( )
22 2
1Mida de la mostra ( )
marge d'error
P Pzα
−=
×⎛ ⎞= =⎜ ⎟⎝ ⎠
22
0,30 0,70Mida de la mostra 1,96 2.017
0,02
![Page 26: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/26.jpg)
© FUOC • P08/10512/02519 26 Estimació de paràmetres: distribució mostral
proporcions dels quals podem suposar que seran molt diferents (unes altes i
altres baixes), llavors haurem d’utilitzar el valor 0,5 per a P. La proporció de
0,5 dóna el valor més alt de P (1 – P) = 0,5 × 0,5 = 0,25, i així ens proporciona
la mida mostral màxima necessària per a obtenir el marge d’error per a qual-
sevol proporció. Aquest recurs de P = 0,5 s’anomena de “màxima indetermi-
nació”, i és el més habitualment utilitzat per a calcular mides mostrals amb la
fórmula anterior. Per tant, per a obtenir un marge d’error de 2 punts percen-
tuals per a estimar qualsevol proporció, la mida mostral hauria de ser:
És a dir, necessitaríem 2.401 subjectes per a obtenir un interval de confiança
per a estimar una proporció poblacional qualsevol, amb un marge d’error del
2% i un nivell de confiança del 95%.
×⎛ ⎞= =⎜ ⎟⎝ ⎠
22
0,50 0,50Mida de la mostra 1,96 2.401
0,02
![Page 27: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/27.jpg)
© FUOC • P08/10512/02519 27 Estimació de paràmetres: distribució mostral
5. Càlcul dels intervals de confiança amb Excel
5.1. Interval de confiança per a la mitjana
L’obtenció d’un interval de confiança de la mitjana aritmètica amb l’Excel pot
fer-se seguint tots els passos comentats per a la seva resolució, amb les funci-
ons ja conegudes, però resulta mes ràpid fer-ho a partir d’un dels programes
preconfigurats del menú d’Eines.
Per a usar aquesta opció hem de seguir la seqüència d’opcions de menú se-
güent: Eines Anàlisi de dades Estadística descriptiva.
Utilitzarem el mateix exercici de l’interval de confiança per a la mitjana de les
puntuacions en el MAS dels 100 subjectes del nostre exemple pràctic general.
Així, si hem aïllat solament la variable MAS de la matriu de dades, la pantalla
del quadre de diàleg que ens apareix amb la seqüència d’instruccions anterior
és la que es mostra a la figura 4.
Figura 4
on hem inclòs:
• Rang d’entrada: caselles on s’ubiquen les puntuacions del MAS a la matriu de
dades.
• Rètols a la primera fila: activar si tenim etiquetada la variable a la primera fila.
• Opcions de sortida: activar “En un full nou” (sempre recomanable).
![Page 28: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/28.jpg)
© FUOC • P08/10512/02519 28 Estimació de paràmetres: distribució mostral
• Resum d’estadístiques: activar per a obtenir els resultats descriptius.
• Nivell de confiança per a la mitjana: activar per a obtenir l’interval de con-
fiança. En activar aquesta opció s’estableix, per defecte, un nivell de confi-
ança del 95%, però pot substituir-se aquest valor per qualsevol altre.
Una vegada executada aquesta opció, fent clic a Acceptar s’obtenen els resul-
tats següents:
Taula 5
La majoria d’informació que ens proporciona aquesta anàlisi de l’Excel ja s’ha co-
mentat en anteriors mòduls i correspon a la descripció d’aquesta variable. Per al
nostre propòsit en aquest apartat, la informació que ens interessa és la mitjana i
el nivell de confiança. Ja coneixem àmpliament la interpretació de la mitjana,
però desconeixíem fins a aquest moment la interpretació del nivell de confiança.
El valor que ens proporciona és el del marge d’error de l’interval de confiança per
al nivell de confiança escollit. Així, en el nostre cas, per al nivell de confiança del
95% aquest marge d’error és de 2,555. La seva obtenció, com hem comentat, es fa
multiplicant l’error típic (que també ens proporciona aquesta anàlisi) pel valor de
. Ara solament hem de sumar i restar a la mitjana aquest marge d’error per
a obtenir l’interval de confiança de la mitjana poblacional.
Interval de confiança (95%):
Lògicament arribem al mateix resultat i, per tant, també podem concloure que,
amb un nivell de confiança del 95%, el grau d’ansietat mitjà de tots els habitants
del municipi estarà entre 19,505 i 24,615 punts de l’escala del MAS.
MAS
Mitjana 22,060
Error típic 1,288
Mediana 21,000
Moda 31,000
Desviació estàndard 12,878
Variància de la mostra 165,855
Curtosi –0,855
Coeficient d’asimetria 0,135
Rang 48,000
Mínim 0,000
Màxim 48,000
Suma 2.206,000
Compte 100,000
Nivell de confiança (95,0%) 2,555
2, 1ntα −
2, 1 22,06 2,555n xx t sα −± = ±
19,505 24,615≤ μ ≤
![Page 29: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/29.jpg)
© FUOC • P08/10512/02519 29 Estimació de paràmetres: distribució mostral
5.2. Interval de confiança per a la proporció
Obtindrem l’interval de confiança d’una proporció mitjançant l’Excel i l’il·lus-
trarem amb el mateix cas anterior de la proporció d’homes del municipi estu-
diat en l’exemple pràctic general.
Una manera de fer-ho seria obtenir la taula de freqüències de la variable estu-
diada (en el nostre cas el sexe), i a partir d’allà fàcilment podríem calcular la
proporció P de l’atribut desitjat (en el nostre cas la proporció P d’homes). Una
vegada coneguda P, ja podríem calcular l’interval de confiança usant l’Excel
com a calculadora per als diferents passos, obtenint el valor de amb la fun-
ció DISTR.NORM.ESTAND.INV.
Tanmateix, també en aquest cas podem usar el mateix programa preconfigurat
del menú d’Eines que utilitzàvem per a la mitjana. Hem de tenir en compte,
però, que per a poder fer-ho, tal com hem vist en apartats anteriors, hem de
codificar la variable sexe amb 0 i 1, assignant l’1 al valor de l’atribut estudiat,
en el nostre cas als homes. Feta aquesta codificació, la mitjana de la mostra
serà la P que estem buscant.
Per tant, el primer que farem a la nostra matriu de dades de l’exemple pràctic
general serà aïllar la variable sexe i recodificar-ne els valors, assignat un 1 als
homes i un 0 a les dones. Una vegada fet això, ja podem utilitzar el programa
preconfigurat esmentat.
Per a usar aquesta opció hem de seguir la seqüència d’opcions de menú se-
güent: Eines Anàlisi de dades Estadística descriptiva.
La pantalla del quadre de diàleg que ens apareix amb la seqüència d’instrucci-
ons anterior és la que es mostra a la figura 5.
Figura 5
2zα
![Page 30: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/30.jpg)
© FUOC • P08/10512/02519 30 Estimació de paràmetres: distribució mostral
on hem inclòs:
• Rang d’entrada: caselles on s’ubiquen les valors de la variable sexe dels 100
subjectes.
• Rètols a la primera fila: activar si tenim etiquetada la variable a la primera
fila.
• Opcions de sortida: activar “En un full nou” (sempre recomanable).
• Resum d’estadístiques: activar per a obtenir els resultats descriptius.
• Nivell de confiança per a la mitjana: activar per a obtenir l’interval de con-
fiança. En activar aquesta opció s’estableix, per defecte, un nivell de confi-
ança del 95%, però pot substituir-se aquest valor per qualsevol altre.
Una vegada executada aquesta opció, fent clic a Acceptar, s’obtenen els resul-
tats següents:
Taula 6
La majoria d’informació que ens proporciona aquesta anàlisi d’Excel no és perti-
nent, perquè de fet estem analitzant una variable categòrica com és el sexe, però
per al nostre objectiu sí que hi ha la informació necessària. Així, la mitjana de la
distribució (0,40) és la proporció (P) d’homes de la mostra (aquest fet ja l’havíem
comentat en apartats anteriors). També coincideix l’error típic de la proporció
amb l’error típic de la mostra . Única-
ment hi ha una diferència molt petita en el resultat del marge d’error, perquè l’Ex-
cel ens l’ha calculat amb el valor de la distribució t ( ), i
l’interval de confiança de la proporció es calcula amb el valor de z, que per a un
nivell de confiança del 95% ja sabem que val 1,96.
Sexe
Mitjana 0,400
Error típic 0,049
Mediana 0,000
Moda 0,000
Desviació estàndard 0,492
Variància de la mostra 0,242
Curtosi –1,866
Coeficient d’asimetria 0,414
Rang 1,000
Mínim 0,000
Màxim 1,000
Suma 40,000
Compte 100,000
Nivell de confiança (95,0%) 0,098
( )1 0,40 0,600,049
100P
P P
n
⎞⎛ − × ⎟⎜σ = = =⎜ ⎟⎝ ⎠
2, 1 0,025, 99 1,984n dft tα − = =
![Page 31: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/31.jpg)
© FUOC • P08/10512/02519 31 Estimació de paràmetres: distribució mostral
Així, si volem ser rigorosos, haurem de recalcular el marge d’error, multipli-
cant el valor de l’error típic pel de la puntuació z corresponent al nivell de con-
fiança establert.
En el nostre exemple el marge d’error exacte serà .
De fet, ja veiem que la diferència entre el càlcul fet per l’Excel i el valor exacte
és molt petita, i això tenint en compte que la mida de la mostra (n = 100) és la
mínima possible per a fer aquest tipus d’estimacions.
Amb tot això obtenim l’interval de confiança sumant i restant a la proporció
el marge d’error calculat.
→ Interval:
Lògicament també arribem al mateix resultat i, per tant, podem continuar
concloent que, amb un nivell de confiança del 95%, la proporció d’homes en
el municipi estudiat està entre 0,304 i 0,496, és a dir, un percentatge d’homes
entre el 30,4 i el 49,6%.
0,049 1,96 0,096× =
2 0,40 0,096PP zα± σ = ± 0,304 0,496≤ π ≤
![Page 32: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/32.jpg)
© FUOC • P08/10512/02519 32 Estimació de paràmetres: distribució mostral
Resum dels vídeos
Vídeo 19
La primera part del vídeo explica que, si repetim una mostra aleatòria, no ob-
tindrem el mateix resultat que havíem obtingut en el primer intent. Després
de moltes mostres repetides, amb una mitjana aritmètica per a cada una, te-
nim una distribució de mitjanes aritmètiques denominada distribució mostral
de la mitjana aritmètica.
El vídeo ens mostra una fàbrica industrial de commutadors per a centrals tele-
fòniques. Cada circuit imprès té unes dues mil connexions elèctriques que es
poden soldar en una sola operació. Per controlar aquesta operació crítica, els
treballadors inspeccionen una mostra de 5 quadres a intervals regulars. Cada
quadre rep una puntuació per la qualitat de la soldadura: l’estàndard és 100,
per sota de 100 és una qualitat més baixa i per sobre de 100 és millor que l’es-
tàndard. Una distribució normal descriu el patró de variació en la puntuació
de la mitjana en mostres repetides.
Veiem que, si prenem una mostra aleatòria simple de mida n d’una població
amb una mitjana aritmètica μ i una desviació estàndard σ, llavors la mitjana
aritmètica de la mostra també té una distribució mostral amb una mitjana arit-
mètica de μ, però amb una desviació estàndard més petita, .
Si la població té una distribució normal, llavors la mitjana aritmètica de la
mostra també la té normal.
Cap al final del vídeo també veiem una il·lustració del teorema central del lí-
mit. És un dels teoremes fonamentals en estadística i diu que, fins i tot no sent
la població normal, la distribució mostral de la mitjana s’apropa a una distri-
bució normal a mesura que la mida de la mostra s’incrementa. Per exemple,
una distribució de salaris és fortament asimètrica, però quan prenem un nom-
bre de mostres àmplies d’aquesta població i mirem la distribució de la mitjana,
trobem que s’aproxima a la distribució normal.
Vídeo 20
El vídeo comença amb un exemple de l’estimació de la durada d’unes piles per
fonamentar les afirmacions publicitàries que determinades piles duren més.
Aquesta estimació es basa en la comprovació d’una mostra de piles i ja presen-
ta un tipus d’inferència estadística.
Aquí resumim únicament la part del vídeo que utilitzem en
aquest mòdul.
x
nσ
![Page 33: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/33.jpg)
© FUOC • P08/10512/02519 33 Estimació de paràmetres: distribució mostral
També s’exposa un exemple més simple: prendre mesures de la pressió sanguí-
nia cada dia durant una setmana i calcular la mitjana, que és de 130. Si pensem
en tots els mesuraments que haguéssim pogut fer durant aquest període, en
altres paraules, la població de mesuraments, llavors la mitjana és un valor des-
conegut μ. Quin grau de precisió té la nostra estimació? Si haguéssim pres uns
altres set mesuraments independents, fins a quin punt els resultats haguessin
estat diferents?
Per a contestar aquestes preguntes suposem que la distribució subjacent dels
nostres mesuraments és normal i que són prou distants en el temps perquè una
no influeixi sobre cap altra. Volem estimar el paràmetre μ d’aquesta distribu-
ció. Suposem també que coneixem la desviació estàndard σ d’aquesta dis-
tribució des del principi.
Ja hem estudiat com es distribueix la distribució mostral de la mitjana d’una
mostra de mida n extreta d’una població normal, té distribució normal, amb
la mateixa mitjana μ, però amb una desviació estàndard més petita:
També sabem que al voltant del 95% de totes les mitjanes de mostres de mida
n estaran al mig de dues desviacions estàndards de les nostres mitjanes
observades. Podem fer servir aquest resultat per a definir un interval dins del
qual suposem que s’ha de trobar la verdadera (però desconeguda) mitjana po-
blacional μ.
L’interval és un interval de confiança per a μ. El centre de l’interval
és la nostra estimació original, la mitjana mostral. A aquesta mitjana li sumem
i restem el marge d’error per a indicar el grau de precisió de la nostra es-
timació. Hi ha un nivell de confiança associat; en aquest cas, que usem dues
desviacions estàndards, el nivell és del 95%.
El vídeo il·lustra en quin sentit confiem o esperem que hi hagi el 95% de pro-
babilitats que l’interval de confiança contingui la mitjana poblacional μ. Si
repetim l’estimació de l’interval de confiança moltes vegades, en el 95% de
les repeticions l’interval de confiança inclourà la verdadera mitjana, i en el
5% d’ocasions no ho farà. Per tant, la probabilitat que el mètode funcioni és
de 0,95.
Aplicant aquest mètode a la mostra de set lectures de la pressió sanguínia a
partir d’una distribució normal amb mitjana desconeguda, però amb una des-
viació estàndard coneguda de 20, calculem una mitjana de 130 i un marge
d’error de . Això dóna un interval de confiança de ;
és a dir, concloem que la verdadera mitjana es trobarà entre 114,8 i 145,2.
Com que el nostre mètode inclou la verdadera mitjana en el 95% de les oca-
sions que l’usem, confiem que en aquest cas ha funcionat.
xnσ
σ =
2 xσ
2 xX + σ
2 xσ
2 20 7 15,2× = 130 15,2±
![Page 34: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/34.jpg)
© FUOC • P08/10512/02519 34 Estimació de paràmetres: distribució mostral
![Page 35: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/35.jpg)
© FUOC • P08/10512/02519 35 Estimació de paràmetres: distribució mostral
Activitats
1. Distribució mostral de la mitjana. Podeu fer una activitat per a observar que es compleixel resultat que la mitjana de la distribució mostral de mitjanes tendeix cap a la mitjana depoblació, o hi coincideix en poblacions finites, i que la desviació estàndard d’aquesta distri-bució (és a dir, l’error estàndard de la mitjana) disminueix a mesura que augmenta la midamostral (tret de fluctuacions aleatòries d’aquests valors). Per a això seleccioneu solament els40 primers subjectes del nostre exemple pràctic general i treballeu amb l’edat d’aquests 40subjectes com si fos la vostra població de referència. En primer lloc, obteniu la mitjana i des-viació estàndard de l’edat d’aquests 40 subjectes. Aquests seran els paràmetres de la població.En segon lloc, dividiu aquests 40 subjectes repartint-los segons 3 mides mostrals diferents:n = 10, n = 8 i n = 5. Comproveu per a cada un d’aquests tres casos, com es comporta la dis-tribució mostral de mitjanes, i si es compleix el resultat apuntat al principi d’aquest paràgraf.
2. Distribució mostral d’una proporció. Us proposem que feu una activitat que us serveixiper a constatar les característiques d’aquesta distribució mostral de la proporció. Pot ser simi-lar a la que vam desenvolupar en l’apartat anterior, quan preníem mostres de diferent midaper a comprovar-ne l’efecte sobre la distribució mostral de la mitjana.
Així, i basant-nos en les dades del nostre exemple pràctic general, analitzeu la variable sexeen els 100 subjectes estudiats, considereu a escala purament didàctica, com fèiem abans, queaquests 100 subjectes són tota la nostra població de referència. Si sobre aquesta població cal-culem la proporció d’homes, obtenim el valor del paràmetre població, que amb les nostresdades serà π = 0,40.
A partir d’aquí, formeu les mostres possibles (mantenint l’ordre dels subjectes) de mida 20,10 i 5, i obteniu per a cada un d’aquests tres supòsits, la mitjana i la desviació estàndard dela distribució mostral de la proporció.
Com es comporten aquesta mitjana i aquesta desviació estàndard?
3. Interval de confiança per a la mitjana aritmètica. Calculeu (podeu fer-ho amb l’Excel,primer a partir de les funcions i després amb el programa preconfigurat) els intervals de con-fiança de les puntuacions en el MAS per a la mostra de 100 subjectes del nostre exemple pràc-tic general, però aquesta vegada amb els nivells de confiança del 99% en primer lloc i del 90%després.
Calculeu també aquests mateixos intervals de confiança (afegint el del 95%) però només perals 25 primers subjectes de la nostra matriu de dades, com si aquests 25 subjectes fossin latotalitat de la mostra de què disposéssim.
Compareu els resultats dels diferents intervals de confiança, i comenteu-los en relació ambl’intercanvi entre la precisió i el nivell de confiança, i l’efecte de la mida de la mostra.
Finalment responeu aquestes qüestions:
a) Quin o quins de tots aquests intervals són més precisos?
b) Quin o quins de tots aquests intervals són més fiables (amb més probabilitat de contenirel valor verdader del paràmetre)?
c) Si haguéssim de donar un sol resultat, quin escolliríem dels diferents que hem obtingut, iper què?
4. Interval de confiança per a la proporció. Calculeu els intervals de confiança per a la pro-porció d’homes de la nostra mostra de l’exemple pràctic general però per als nivells de con-fiança del 90% i del 99%. Compareu i comenteu les diferències amb l’obtingut per al nivellde confiança del 95%.
Calculeu també l’interval de confiança per a la proporció de dones de la mateixa mostra an-terior per a un nivell de confiança del 95%. Compareu aquest interval amb l’obtingut per alshomes. Quines característiques generals podem establir a partir d’aquesta comparació respec-te als intervals de confiança per a una proporció?
Finalment, i sempre amb les mateixes dades, responeu la pregunta següent: quina proporcióde subjectes casats (homes o dones) podem estimar que hi ha en aquest municipi (nivell deconfiança del 99%)?
5. Mida mostral. En el nostre exemple pràctic general, suposant que el nombre d’habitantsdel municipi (població) és prou gran, quants subjectes hauria d’enquestar l’ajuntament, pera fer una estimació de la proporció de subjectes del municipi, que estan a favor de la prohi-
![Page 36: estadística inferencial](https://reader033.vdocuments.pub/reader033/viewer/2022050919/54756da5b4af9fa1588b4593/html5/thumbnails/36.jpg)
© FUOC • P08/10512/02519 36 Estimació de paràmetres: distribució mostral
bició total de fumar als locals públics, amb un marge d’error del 5% i un nivell de confiançadel 95%?
Enllaços web
A les pàgines web següents, trobareu simulacions de diferents distribucions mostrals i del te-orema central del límit.
http://www.uam.es/personal_pdi/derecho/lmorales/tecnicas/practica/media.html
http://www.kuleuven.ac.be/ucs/java/index.htm
http://pergamo.upc.es/etseib/e/software/aplicacions.html
http://descartes.cnice.mecd.es/Bach_HCS_2/inferencia_estadistica/estimac.htm