estadÍstica u.chile

163
  CURSO DE ESTADISTICA UNIVERSITARIA 2007 DR. MAURICIO CANALS LAMBARRI FACULTAD DE CIENCIAS UNIVERSIDAD DE CHILE RPI N°:153541

Upload: claudio-andres-reyes

Post on 08-Jul-2015

5.052 views

Category:

Documents


0 download

TRANSCRIPT

CURSO DE ESTADISTICA UNIVERSITARIA 2007 DR. MAURICIO CANALS LAMBARRI FACULTAD DE CIENCIAS UNIVERSIDAD DE CHILE RPI N:1535412Prologo Este libro ha sido diseado como un curso de estadstica general de acuerdo a los programasvigentesendiferentesuniversidades.Estescritoenunaformageneralcon ejemplosaplicablesadiferentesmbitos.Tieneunnfasisenlasbasesconceptualesy metodolgicasdelosdistintostemas,sinperderelrigormatemticodesus fundamentos.Engeneralseevitanlasdemostracionesmatemticasdificultosasque distraen del objetivo general. Ellibroestdivididoenseisunidades,delascualeslasprimerascuatro corresponden a los programas habituales de los cursos de pre-grado en todas las carreras donde el anlisis de datos es relevante. LaprimeraunidadcorrespondeaEstadsticadescriptiva,dondesesientanlas bases de la descripcin de la informacin. La segunda unidad corresponde a Estadstica matemtica, donde se aportan los aspectos ms relevantes de la teora de probabilidades. Las unidades tres y cuatro son las ms importantes en un curso bsico, donde se encuentranlosprincipalesmtodosusadoseninferenciaestadstica.Seseparanenuna unidad especial el anlisis de varianza y la regresin. Para los lectores poco avezados en matemticas, se puede pasar directamente desde la unidad 1 a la3. La unidad 5 corresponde a una serie de tpicos, habitualmente no tratados en los cursosbsicos,peroquefrecuentementesonusadosendiversasreascomolas estadsticasvitalesenlosestudiospoblacionales,elmuestreoenpoblacionesfinitasen el rea industrial, las series temporales y la regresin logstica. En esta unidad los temas son tratados con menor profundidad, haciendo hincapi en las bases conceptuales, pero sin perder rigurosidad de tratamiento del tema. Laltimaunidadintroduceelanlisismultivariado,yaquecadadasetoma mayor conciencia del origen multicausal de muchos fenmenos, por lo que es necesario una mayor comprensin y utilizacin de esta metodologa. Este libro es el resultado de varios aos dictando cursos bsicos de estadstica. El tratamiento en todos los captulos intenta ser claro pero conciso, sin redundar en largas explicacionesnirepeticionesdeejemplos.Cuandosehaconsideradonecesario,se apoyan las explicaciones con ejemplos didcticos aplicables en cualquier disciplina. 3ndice general INTRODUCCIN: CIENCIA Y ESTADISTICA6I UNIDAD: ESTADISTICA DESCRIPTIVA8I.- ESTADSTICA9 I.1.- Bases e historia9I.2.- Definicin9 II.- ESTADSTICA DESCRIPTIVA12 II.1.- Observaciones, variables y escalas12II.2.- Representacin de la informacin12II.3.- Medidas de resumen14 Ejercicios de estadstica descriptiva20 II UNIDAD: ESTADISTICA MATEMATICA22 III.- PROBABILIDADES23 III.1.- Experimento Aleatorio, Espacio Muestral23III.2.- Probabilidades y Conjuntos25III.3.- Propiedades de las Probabilidades26III.4.- Independencia Estocstica y Probabilidad Condicional27III.5.- Probabilidades en Medicina31 Ejercicios de Probabilidades39 IV.- VARIABLES ALEATORIAS44 IV.1.- Distribucin de una variable aleatoria44IV.2.- Distribucin de Bernoulli48IV.3.- Distribucin binomial48IV.4.- Distribucin de Poisson50IV.5.- Variables aleatorias continuas524IV.6.- Distribucin uniforme53IV.7.- Distribucin exponencial53IV.8.- DISTRIBUCIN NORMAL53IV.9.- Otras distribuciones importantes 57 Ejercicios de variables aleatorias61 III UNIDAD: INFERENCIA ESTADISTICA64 V.- ESTIMACIN65 V.1.- Estimadores65V.2.- Estimaciones67V.2.1 Intervalo de confianza para una proporcin P y para la diferencia P1-P267V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x268V.3.- El tamao muestral69V.2.3.- Estimaciones en Medicina70 Ejercicios de estimacin72 VI.- DOCIMASIA O PRUEBA DE HIPTESIS74 VI.1.- Bases74VI.2.- Dcimas para una muestra78VI.3.- Dcimas para dos muestras80VI.4.- Supuestos de las dcimas84 Ejercicios de Pruebas de Hiptesis para una y dos muestras87 VII.- ANLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS91 VII.1.- La distribucin 291VII.2.- Bondad de ajuste de 296VII.3. El 2 para proporciones98VII.4.- La prueba G995 Ejercicios de anlisis de datos enumerativos101 VIII.- ESTADSTICA DE DISTRIBUCIN LIBRE O NO-PARAMTRICA103 VIII.1.- Alternativas no paramtricas a las dcimas para dos muestras104 Ejercicios de estadstica no-paramtrica110 IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION Y REGRESION112 IX.- ANLISIS DE LA VARIANZA (ANOVA o ANDEVA)113 IX.1.-El Problema de Bonferroni112IX.2.- Diseo experimental114IX.3.- Anlisis de la varianza de 1 va o factor (ANOVA de 1 va).115IX4.- Comparaciones mltiples 119IX.5.- ANOVA de dos vas: la interaccin122IX.6.- Otros diseos125IX.7.- Alternativas no paramtricas al ANOVA127 Ejercicios de anlisis de la varianza129 X.- CORRELACIN Y REGRESIN132 X.1.- Correlacin132X.2.- Regresin133X.3.- Regresin y ANOVA135X.4.- Predicciones138X.4.- Supuestos y alternativas no paramtricas139X.5.- Anlisis de Covarianza (ANCOVA)140 Ejercicios de correlacin y regresin1426 INTRODUCCIN: CIENCIA Y ESTADISTICA Elobjetivodelacienciaescaptarelordendelosfenmenosparahacerlos comprensiblesdandounaexplicacinracionaldeellos,determinandosuscausasy hacindolos previsibles. Estacaptacindelordenpasaprimeroporlaeleccineidentificacindel fenmeno y decidiendo el enfoque de inters. Este puede ser de tipo sistmico u holista enelqueelintersestaconcentradoenlatotalidadynoenlaspartes(eltodoesmas quelasumadelaspartes),obiendetiporeduccionistaenelqueseestudianlas partes para entender el todo.En general ambos enfoques conducen a la construccin de modelos,seanstosformalesodesimplepalabra,querepresentenelfenmeno.Estos reducen la complejidad del fenmeno, hacindolo comprensible. La ciencia, segn Kuhn (1962), puede ser entendida como una coleccin de datos en el contexto de una forma de entender como funciona la naturaleza (paradigma). En su conjunto, evoluciona saltando de paradigma en paradigma (revoluciones cientficas) enlamedidaqueseacumulanevidenciascontradictoriasalaluzdelparadigma existente.Estaacumulacindeevidenciasobedeceaunprocesoconstantede proposicin de explicaciones y causalidades de fenmenos naturales que puede ir de lo general a lo particular (deduccin) o desde lo particular a lo general (induccin). Ladeduccinesunaformadegeneracindeproposicioneslgicas.Estas proposicioneslgicasquetienenunvalordeverdaddesconocidolasconocemoscomo hiptesisypuedenserentendidascomoenunciadosquecontienenproposiciones verificables y que anteceden a otras en el proceso continuo de la ciencia. Lainduccinporelcontrario,generaproposicionesgeneralesapartirdela repetitividad de hechos particulares. Elprocesodelconocerrequieredeunmtodo.Esteesconocidocomomtodo cientfico, que bsicamente contiene varias etapas: i)eleccin del sistema,ii)enunciado del problema, iii)planteamientodelahiptesisydeduccindeconsecuenciasverificablesdeella (si p, entonces q),iv)diseo experimental,v)prueba de la hiptesis, y vi)interpretacin de los resultados, generando nuevas hiptesis.7 Para Popper (1979) el mtodo consiste en una confrontacin de los datos con una hiptesis,pudiendostasersolamenterechazadaynoprobada.As,enelmtodode Popper,hipottico-deductivo-refutacionista,existeunahiptesisdenulidadque cuandoesrechazada,nospermiteproponernuevashiptesis(falsificacindela hiptesis). EnelmtododePopperconvergenladeduccinylainduccin,estando relacionadalaprimeraconlageneracindehiptesisylasegundaconlarefutacin. Para este segundo proceso, la refutacin, son necesarios mtodos rigurosos y eficientes quepermitanunaadecuadatomadedecisiones.Aquesdondeesrelevantela metodologadelainferenciaestadstica.Esta,ensubasefundamentalconsisteen plantearunadicotomaentrelahiptesisdenulidad(Ho)yunalternativa(H1),detal manera que a travs de la repetitividad de resultados experimentales (induccin) en una muestra,seaposibleelrechazodeHoyportantolainferenciadeH1alapoblacin completa. 8I UNIDAD: ESTADISTICA DESCRIPTIVA 9 I.- ESTADSTICA I.1.- Bases e historia Eltrminoestadsticaprovienedelapalabraestado,yserefierealorigen histricodeestadisciplinarelacionadoconladescripcincuantitativadeasuntosdel estado.Tambinsellamaritmticapoltica.Suobjetivoinicialeradescribir cuantitativamentediversoshechosdeinters.EntiemposdeCesarAugustoel estadstico era el recaudador de impuestos y en tiempos de Guillermo el conquistador se edit el primer censo de Inglaterra (Domesday Book). En el siglo XVII J. Graunt (1620-1674) y W. Petty (1623-1687) desarrollaron la estadstica vital. Enestamismapoca,enformaindependientenacilaramamatemticadelas probabilidades a raz del inters en el juego de Antoine Gombaud (el caballero de Mer: 1610-1685)ydelosmatemticosB.Pascal(1623-1662)yP.Fermat(1601-1665). Posteriormente,JBernouilli(1654-1705),A.DeMoivre(16671754),P.S.Laplace (1749-1827)yK.F.Gauss(1777-1855)contribuyeronafortalecerlasprobabilidades, combinndolaconlosdatosestadsticos.A.Quetelet(1796-1874)yfinalmenteF. Galton (1822-1911) aplicaron la estadstica al anlisis de la variabilidad biolgica. Eldesarrollodefinitivodelaestadstica,uniendosusracesdescriptivasy matemticas viene con K. Pearson (1857-1936), W.S. Gosset Student (1876-1937), J. Neyman (1894), E.S. Pearson (1895), A. Wald (1902-1950) y R.A. Fisher (1890-1962). Talvezlasfigurasmasdestacadasquerelacionaronlaestadsticaylabiologa,dando origenalabiometra,sonK.Pearson(fundadordelarevistaBiometrika)yR.A. Fisher (Statistical methods for research workers, 1925). En paralelo, la estadstica matemtica ha sido enriquecida con las contribuciones de Maxwell, Boltzman y Gills (mecnica estadstica) y por Kolmogorov (probabilidades axiomticas) y Lebesgue (teora de la medida). I.2.- Definicin Laestadsticaactualsepuededefinirdemuchasformas,porejemploconjunto demtodosquepermitenrecolectarpresentaryanalizarinformacinoanlisis cientficodedatosbasadosenfenmenosnaturales(Sokal&Rholf,1969).Sin embargo una definicin til en el contexto de su aplicacin en las ciencias es: 10Laestadsticaeslaciencia,purayaplicada,quecrea,desarrollayaplica tcnicasparaladescripcindedatosylaevaluacindelaincertidumbrede inferencias inductivas(modificada de Steel & Torrie, 1985). Esta definicin hace nfasis en dos aspectos: i)la estadstica no es slo un conjunto de mtodos o recetas para aplicar ante determinadosproblemas,sinoquetambinincluyelacreacinyel desarrollo de la teora y mtodos. ii)laestadsticaencienciassebasaenlaevaluacindelaincertidumbre (probabilidad) de ciertas proposiciones (hiptesis) inferidas mediante un proceso de induccin (de lo particular a lo general) La estadstica tiene tres captulos claramente diferentes que se correlacionan con el desarrollo histrico: I)Estadstica Descriptiva: cuyo fin es describir datos. II)EstadsticaMatemtica:queconstituyelabasetericadetodala estadstica. III)InferenciaEstadstica:quetienedossub-captulosconobjetivos diferentes:a)Estimacin: cuyo fin es aproximar el valor de ciertos parmetros b)DocimasiaopruebadeHiptesis:cuyoobjetivoesprobar hiptesis. Laestadsticaeninvestigacinhaenriquecidoelmtodocientfico,dndole sentidoyunmarcotericoasusdiversasetapas.Esteltimosepuededescribir detalladamente como: i)eleccin del sistema a estudiar y su enfoque,ii)enunciado del problema, iii)definicin de objetivos, iv)planteamiento de la hiptesis, v)deduccin de consecuencias verificables de ella, vi)dicotoma de la hiptesis (Ho vs. H1), vii)diseo experimental: a)decidir tipo de investigacin:1)Recopilacindedatosyaregistrados(estudioretrospectivo)u obtener nuevos datos (estudio prospectivo). 2)Unestudioinstantneo(estudiotransversal)ounseguimiento (estudio longitudinal). 3)Ser slo un estudio descriptivo o explicativo? 114)Ser experimental o no-experimental? b)definir el Universo, c)diseo de la muestra, d)definicin de grupo control, e)definicin de unidades de observacin, f)definicin de las fuentes de informacin, g)unidades de medidas y escalas viii)eleccin de estadgrafos para la prueba de la hiptesis, ix)eleccin del nivel de significacinx)docimasia de hiptesis xi)toma de decisin (rechazo Ho?) xii)representacin de la informacin xiii)interpretacin de los resultados, xiv)gnesis de nuevas hiptesis 12

II.- ESTADSTICA DESCRIPTIVA II.1.- Observaciones, variables y escalas Laestadsticatrabajacondatosuobservaciones,queengeneralsonvalores numricosdeunavariableenunaunidaddeobservacinparticular.Porejemplo,si estamosinteresadosenlaedaddelosindividuos,launidaddeobservacinesel individuo, la variable de inters es la edad, la unidad de medida puede ser aos y un dato puede ser 5 aos en un individuo. Lasvariablespuedensercuantitativascuandomidencantidadocontenidode algn atributo, o bien cualitativas cuando se refieren a calidad. Por ejemplo masa, peso, longitud, cantidad son cuantitativas y color, olor y textura son cualitativas. Las variables puedensertambincontinuascuandosepuedeestablecercorrespondenciabiunvoca conlosnmerosreales,odiscretascuandoestablecenrelacinconlosnmeros naturales. Las escalas de medidas pueden ser nominales, ordinales, discretas, continuas o porintervalos.Porejemplo,nominal:negrooblanco;ordinal:corto,mediano,largo; continua: gramos; por intervalos: menor que 10 aos, mayor o igual que diez aos. II.2.- Representacin de la informacin Losdatosuobservacionesserepresentandediversosmodos,queengeneralse pueden resumir en dos: i) grficos, e ii) tablas. Entre stos, son de inters las tablas de distribucin de frecuencias y los histogramas y polgonos de frecuencia Tablas de distribucin de frecuencias. Las tablas de distribucin de frecuencias de n datos u observaciones corresponden bsicamentealarepresentacinencolumnasdelconjuntodevaloresdeunavariable (niveles de una variable: yi) y sus frecuencias absolutas (ni). En el caso de variables cualitativas adquiere una representacin muy simple: VariableFrecuencia absoluta (ni)% Y1n1(n1 /n)100 Y2n2(n2 /n)100 ....................... Yknk(nk /n)100 n =ni 100 13 Enelcasodelasvariablesdiscretas,siconsideramosunavariableX,dondeXi son las observaciones e yi los k niveles de la variable. Entonces podemos definir:

i)frecuencia relativa n n hi i/ = ii)frecuencia acumulada ===j iii jn N1

iii) frecuencia acumulada relativa ===j iii jh H1 En este caso la tabla incluye las columnas: yi, ni, hi, Ni, y Hi. Enelcasodelasvariablescontinuasmuchasvecesesnecesarioagrupardatos (seriesagrupadas) por intervalos llamados intervalosdeclase.Estosseanotancomo [yi-1, yi], donde yi-1 representa el lmite inferior del intervalo e yi, el lmite superior. La amplitud de cada intervalo es ci = yi- yi-1. SidefinimosrecorridoorangodelavariableXcomoladiferenciaentrelos valoresmximoymnimo,R=xmaxxmin,yseagrupaenkintervalosiguales, entonces ci = R/k. Enestastablasdedistribucindefrecuenciassedefinemarcadeclasecomoel valor promedio entre los lmites del intervalo: yi = (yi- yi-1)/2. La tabla incluye las columnas: yi-1, yi, ci, yi, ni, hi, Ni, y Hi Histograma y polgono de frecuencias Latabladedistribucindefrecuenciastieneunaexpresingrficanaturalenel histograma y el polgono de frecuencias. El histograma de frecuencias corresponde a un grfico de barra de X vs hi, donde cada barra es un intervalo. El polgono de frecuencias corresponde a la grfica de yi vs hi. Ejemplo 1.- La variable X con la siguiente tabla de distribucin de frecuencias: 14 yi-1Yiyi ci nihiNihi 2432200.2200.2 4652250.25450.45 6872300.3750.75 81092100.1850.85 1012112120.12970.97 121413230.031001.00 Enestafigura,elhistogramacorrespondealgrficodebarrasyelpolgonoala lnea poligonal que une los puntos medios de cada barra.

II.3.- Medidas de resumen Lainformacinsepuederepresentarengrficosotablas,sinembargostasno son tiles a la hora de tomar decisiones estadsticas. Es mejor caracterizar las variables porciertasmedidasquedescribensudistribucinohistograma.Estassedenominan medidas de resumen y se pueden dividir en cuatro:

15a)medidasdeposicin:cuyofinesrepresentarlaposicin central de la distribucin u otras posiciones de inters. b)medidasdedispersin:cuyofinesrepresentarla dispersindelosdatosentornoaalgunamedidade posicin. c)medidasdesimetraosesgo:cuyofinesrepresentarel tipo de asimetra de la distribucin. d)medidas de apuntamiento o curtosis: cuyo fin es medir la elevacin de las frecuencias relativas. Medidas de posicin Lamedidadeposicinmsusadaeselpromedio,quepodemosdefinir preliminarmente como una medida central que se relaciona el valor de una variable con sufrecuenciarelativadepresentacin.Correspondealamediaaritmticaysepuede expresar como:

nxxi= Si la serie ha sido agrupada, entonces = =i ii iy hn y ny Algunas propiedades den promedio son: i)La suma de las desviaciones de los valores en torno al promedio es nula. Si definimos zi = xi -x, entonces zi = 0. ii) Dado zi = xi u, con u un valor cualquiera, entonces zi es mnima si u = x. Elpromedioentoncesesunamedidacentralendondeseequilibrala distribucin completa, es decir es su centro de masas. Una segunda medida de posicin es la mediana que corresponde a un valor bajo elcualseencuentrael50%delasobservaciones.Esdecirsiordenamosenorden ascendente la serie de n observaciones, la mediana corresponde al valor Me = x(n+1)/2 si n es impar y al valor Me = (xn/2+xn/2 +1)/2 si n es par. 16 Si la serie se encuentra agrupada la mediana se calcula como: LL LLnN n cy Me) 2 / ('11+ = Donde L es el subndice del intervalo que contiene a la mediana, y ste intervalo es aquel cuya frecuencia acumulada sobrepasa la mitad de la cantidad de observaciones (cuya Nj sobrepasa a n/2). UnamedidadeposicinasociadaalamedianaeselpercentilPpque correspondealvalorbajoelcualseencuentraelp%delasobservaciones.Enuna serie agrupada, se puede calcular como: LL LL pnN np cy P) 100 / ('11+ = Es fcil ver que P50 es la mediana. A los percentiles P25, P50 y P75 se les denomina primer, segundo y tercer cuartl (Q1, Q2 y Q3). Del mismo modo se pueden definir los deciles, por ejemplo P10 es el primer decl. Laterceramedidadeinterseslamoda.Estasedefinecomoelvalorquetiene una mayor frecuencia relativa. En el caso de series agrupadas la moda corresponde a un intervalo, aunque se ha propuesto una frmula que en cierta manera hace perder sentido a la definicin. 1 111' ++++ =L LLL Ln nnc y Md Observaciones i)Si la distribucin de frecuencias es simtrica, entoncesMd Me X = = . ii)Siladistribucindefrecuenciasesasimtrica,sepuedereconoceruna asimetra negativa en que Md Me X < < , y una asimetra positiva en que Md Me X > > . 17Medidas de dispersin Lasmedidasdedispersinsonaquellasqueevalanlavariabilidaddelas observaciones. La ms importante es la varianza (V(x) o S2) que podemos definir como la desviacin cuadrtica media de los valores en torno al promedio, es decir: S2 = (xi-x)2/n Observamos que (xi-x)2 = (xi2 +x2 2xix) = xi2 +x2 2xix) = = xi2 +nx2 2nx2 = xi2 -nx 2 , y entonces: =222xnxsi En una serie agrupada = =2 2 222y y h yny nsi ii i Algunas propiedades de la varianza son: Si a y b son constantes, entonces: V(a) = 0; V(ax) = a2V(x); V(a+x) = V(x) y V(ax+b) = a2V(x). Unproblemadelavarianzacomomedidadedispersinesqueseexpresaen unidades cuadrticas. Por ejemplo, si la variable se mide en metros, su varianza se mide en metros cuadrados. Unamedidadedispersinanmsusadaquelavarianzayquecorrigeel problemadelasunidades,esladesviacinestndar(s)quecorrespondealaraz cuadrada de la varianza: 2s s = Porsuestructura,ladesviacinestndarcorrespondeaproximadamenteauna distancia: la distancia media desde las observaciones individuales al promedio. Lasdesviacionesestndardependendelvalordelpromedio,siendomsgrandes cuanto mas grande es este ltimo, lo que hace difcil su comparacin. Elcoeficiente de variacin(CV)corrigeesteproblemaycorrespondeaunadesviacinestndar normalizada dividida por el promedio: 18 x s CV / = Otra medida de dispersin es el error estndar (Es):n s Es / = Sinembargo,estatieneunsentidodiferente.Correspondealadesviacin estndardelpromedio,esdecirsideunconjuntodeobservacionestomamosvarias sub-muestrasyencadaunadeellascalculamosunpromedioyacontinuacin calculamosladesviacinestndardestospromedios,obtenemosEs.Estamedida adquiere sentido en inferencia estadstica. Otrasmedidasdedispersinsonelrango(R)R=xmx-xmnyelrecorrido intercuartlico (Q): Q = P75-P25 = Q3-Q1. Medidas de simetra o sesgo Lasmedidasdesimetrasebasanenlasrelacionesentrelamoda,medianay promedioenlasdistribucionessimtricasyasimtricas.Existeunarelacinemprica querelacionastasmedidas:) ( 3 Me x Md x = .Apartirdestaseusanlos coeficientes de asimetra de Pearson: sMd x =3y sMe x ) ( 35= Si cualquiera de los > 0 se habla de sesgo positivo, o distribucin sesgada a la derecha.Sielcambio 3, ii)Mesocrticas o igualmente apuntadas, si = 3, y iii)Platicrticas o menos apuntadas que la normal, si < 3. 19Ejemplo 2.- Si tomamos la tabla del ejemplo uno podemos calcular las siguientes medidas de posicin: a)Promedio: 56 . 6 13 03 . 0 11 12 . 0 9 1 . 0 7 3 . 0 5 25 . 0 3 2 . 0 = + + + + + = yb)Intervalo de moda: (6; 8) c)Mediana:elintervaloquecontienelamedianaesaqulqueporprimeravez sobrepasalamitaddelacantidadtotaldeobservaciones,esdecir50.Eneste caso es el intervalo (6; 8). Entonces yL-1= 6. y la mediana es: Me = 6 + 2((50-45)/30) = 6.33. d)Primercuartl:elintervaloquecontieneQ1esaqulqueporprimeravez sobrepasael25%delacantidadtotaldeobservaciones,esdecir25.Eneste caso es el intervalo (4; 6). Entonces yL-1= 4. y Q1 es: Q1 = 4 + 2((25-20)/25) = 4.4. e)Tercer cuartl: en forma anloga al clculo anterior: Q3 = 8 + 2((75-75)/10) = 8. Tambin podemos calcular las siguientes medidas de dispersin: a)Varianza: en este caso lo ms simple es calcular primero hiyi2: 44 . 50 169 03 . 0 121 12 . 0 81 1 . 0 49 3 . 0 25 25 . 0 9 2 . 02= + + + + + =i iy h Y, ahora se puede calcular fcilmente la varianza:

= = = 41 . 7 ) 56 . 6 ( 44 . 502 2 2 2y y h si i

b)Rango: 14-2= 12. c)Desviacin estndar: s = (s2) = 2.74 d)Coeficiente de variacin: CV = 2.74/6.56 = 0.41 e)Error estndar: Es = 2.74/(100) = 0.27. f)Recorrido intercuartlico: Q3-Q1 = 8-4.4 = 3.6. Adems en ocasiones es til cuantificar la simetra, en ste caso a travs de: 5 = 3(6.56-6.33)/2.74 = 0.25. Esto indica un pequeo sesgo o asimetra a la derecha. 20 Ejercicios de Estadstica descriptiva 1.a.Pesos de nacimiento de nios (en kg) RangoMarcade clase (yi) Frecuencia (ni) Frec. acumulada (Ni) Frec. relativa (hi) Frec. relativa acumulada (Hi) 0 22 2 46 4 618 6 812 8 107 10 123 1.b. Datosdemgdeglicinapormgdecreatininaenlaorinade20chimpancs (tomadas de Gartler, Firchein y Dobzhansky, 1956) 0.0080.0180.0560.0550.1350.0520.0770.0260.4400.300 0.0250.0360.0430.1000.1200.1100.1000.3500.1000.300 Para los dos conjuntos de datos presentados arriba:i)Calcular:promedio,mediana,moda,percentil30,desviacinestndary coeficiente de variacin. ii)Sonsimtricaslasdistribuciones?Comprubelohaciendohistogramasde frecuencia. iii)Realice histogramas de frecuencia acumulada para cada grupo de datos. R: i) a) promedio: 6.04; mediana: 5.78; Moda [4;6]; P30: 4.71; desviacin estndar: 2.39; CV:0.395;b)promedio:0.123;mediana:0.089;Moda0.1;P30:0.0475;desviacin estndar: 0.120; CV: 0.979. 21 2.Seharealizadoelestudiodedosmedicamentosutilizandoratas.Semidiel porcentajecambiodeunavariableXenlasangrearterialtraslaadministracinde dosis idnticas de distintos medicamentos. % de cambio en X Compuesto I Compuesto II 26.031.755.165.863.6 30.032.056.358.364.0 30.528.660.057.165.3 26.229.263.555.462.8 30.733.064.956.559.5 31.332.062.755.1 30.532.660.557.0 30.128.259.259.3 29.629.163.760.7 30.230.764.162.1 i)Calcular la media y la mediana muestral. ii)Calcular la varianza y la desviacin estndar de la muestra. iii)Calcular rango y el rango intercuartlico. iv)Cul compuesto produjo una respuesta ms variable? R: i) Compuesto I: media 30.11, mediana: 30.55; Compuesto II: media 60.5, mediana 60.5; ii) CI: V 3.52, ds 1.87; CII: V 12.04, ds 3.47; iii) CI: Rango 7, RIQ 2.35; CII: Rango 10.7, RIQ 6.5; iv) el primero (ver coeficiente de variacin)22II UNIDAD: ESTADISTICA MATEMATICA23 III.- PROBABILIDADES III.1.- Experimento Aleatorio, Espacio Muestral DefinicionesLlamaremosexperimentodeterminstico,aaquelquerepetidoen las mismas condiciones, da siempre el mismo resultado, en caso contrario lo llamaremos aleatorio. Llamaremos espacio muestral () al conjunto de todos los posibles resultados de unexperimentoaleatorio.Unpuntomuestralserunresultadoposible,esdecir,un elemento de omega. Llamaremossigma-lgebraenomegaaunconjunto-formadopor subconjuntos de que cumple con: i)Si P (subconjunto de ) , entonces P -. ii)Si P y Q - entonces P Q -. iii)Si P y Q - entonces P Q - . Esdecir,-escerradabajocomplementacin,unineinterseccin.Una- es el conjunto de todos los subconjuntos de ( ()). Llamaremos suceso o evento a los elementos de -, o de otra forma, a cualquier subconjunto de .En este sentido - es el conjunto de los sucesos. Ejemplo1.- Sea el experimento aleatorio tiro un dadoSu espacio muestral es = {1, 2, 3, 4, 5, 6}Son posibles sucesos (1)= que salga 1; (1,2) = que salga 1 o 2; (1, 2, 3, 4, 5, 6) = que salga 1 o 2 o 3 o 4 o 5 o 6. Delejemploanterioresevidentequehaysucesosmsposiblesoprobables que otros.Es necesario definir entonces probabilidad de un suceso. Existenvariasdefinicionesdeprobabilidad,cadaunadelascualestienecierta utilidad. Definicinclsica:Llamaremosprobabilidaddes sucesoAalcuocienteentreel nmeroderesultadosocasosfavorablesaAyelnmeroderesultadosocasos posibles. 24 les casosposibables casosfavorA P = ) ( As, en nuestro ejemplo, la probabilidad de sacar un dos en una tirada de un dado (A = 2) es P(A) = 1/6, la probabilidad de sacar un uno o un tres (B = (1,3)) es P(B) = 2/6 y la probabilidad de sacar cualquier nmero (C = (1, 2, 3, 4, 5, 6)) es P(C) = 6/6 = 1. Definicin de Frechet:Si un experimento aleatorio se realiza n veces, es posible estimarlaprobabilidaddelsucesoAcomola frecuenterelativadeocurrenciadeA,es decir,elcuocienteentreelnmerodevecesenquediocomoresultadoA(nA)yel nmero de veces en que se repiti el experimento. nnAA P = ) ( Sedebehacernotarquealcontrariodeladefinicinclsica,estaesuna definicinaposteriori,esdecir,exigequeelexperimentosehayarealizadorepetidas veces,antesdeestimarlaprobabilidaddeunsuceso.Ennuestroejemplo,habraque haber tirado el dado en varias oportunidades para luego calcular las probabilidades. LacrticamsimportantealadefinicindeFrechet,esquenorespondeala preguntacuantasveceshayquerepetirelexperimento?Larespuestaes:unnmero suficientemente grande de veces; y es esto lo que quiso corregir Von Mises. DefinicindeVonMises:LaprobabilidaddelsucesoAcorrespondeala frecuenciarelativadeocurrenciadeA,esdecir,elcuocienteentreelnmerodeveces en que dio como resultado A (nA) y un nmero suficientemente grande de veces en que se repiti el experimento:El lmite al que tiende la frecuencia relativa, cuando n tiende a infinito. ) / ( lim ) ( n nA A Pn = Unproblemabsicoconestadefinicin,esquenoesposiblerepetirun experimentoinfinitas veces. Definicin axiomtica (Kolmogorov):Una probabilidad es una funcin: P:- -----------------------> {0,1} A----------------------------> P(A), tal que: 25 i) P () = 1 ii)P (A) > 0 A - iii) si A B = , entonces P (A B) = P(A) +P(B) (teorema de la o) DefinicinAl triplete (,-, P) se le denomina Espacio de probabilidades. III.2.- Probabilidades y Conjuntos Es posible establecer analogas entre los conjuntos y las probabilidades: Conjunto universo:. Conjunto vaco ():suceso imposible. Elemento de -:suceso. A B:sucede A o sucede B o ambos. A B:sucede A y sucede B. AC:no sucede A. DefinicinDossucesosAyBsernmutuamenteexcluyentessilaocurrencia deAquenoocurreB.As,siAB=entoncesAyBsonmutuamente excluyentes. DefinicinDos sucesos A y B son complementarios si la no ocurrencia de A la ocurrencia de B y a la inversa.Es decir AC = B.Notemos que A B = , es decir, constituyenunaparticindeomega.Observemostambinquelossucesos complementariossonmutuamenteexcluyentes,peronotodoslossucesosexcluyentes son complementarios. Una definicin de probabilidad de un suceso, asociada a la nocin conjuntista, es P(A) = m(A) / m(), en que m(A) y m() representan alguna medida del suceso y del espaciomuestralrespectivamente.Unejemplo de esta medida es el cardinal de A y de omega (P(A) / #(A) / #()) 26 III.3.- Propiedades de las Probabilidades I)P () = 0 Demostracin Sea A = y B = , como A B = , entonces usando las propiedades 1y3deladefinicinaxiomtica,P(AB)=P()=1=P(A)+P(B)=1+P(B), entonces P(B) = P( ) = 0. Ejemplo 2.- La probabilidad que salga 0 al tirar un dado es P(0) = P() = 0. II)Aditividad finita: Si Ai Bi = , para cualquier i, j, entonces P ( Ai) = P (Ai) Demostracin por extensin directa de la propiedad 3. Ejemplo 3.- Si tiro una vez un dado, la probabilidad que salga 5 o 6 es P(5 o 6) = P(5) + P(6) = 1/6 +1/6 = 2/6, pues los sucesos sale 5 y sale 6 son excluyentes.

IV)Probabilidad del Complemento:P (AC) = 1 P(A) Demostracin P() = 1 = P(AC A) = P(AC) + P(A). Ejemplo 4.- Silaprobabilidaddequeunindividuoleaeldiarioesp=0.2,entoncesla probabilidad que no lo lea es q = 1-p = 1-0.2 = 0.8. IV)Monotona: Si A B, entonces P(A) < P(B) Demostracin Si A B, #A #B, entonces P(A) R, tal que para cada punto del codominio, su preimagen es un suceso. Ejemplo1.-Seaelexperimentosetira2vecesunamoneda={cc,cs,sc,ss}Podemos definir la variable aleatoria X = nmero de caras.As para X = 0 su preimagen es el suceso (ss), para X = 1 su preimagen es (cs) (sc) y para X = 2 su preimagen es (cc). LasvariablesaleatoriaspuedenserdiscretassislopuedentomarunnmerokN valores distintos, en todo otro caso, soncontinuas. IV.1.- Distribucin de una variable aleatoria Variables discretas DefinicinSiXesunavariablealeatoriadiscreta(vad),llamaremosfuncinde cuanta a: P(X = x), si x al rango de X (Rx) p(x) = 0 si x Rx Adems, llamaremos funcin de distribucin a F(x) = P(X x) = p(xi) xix Se puede observar que F(x) es la funcin acumulada de p(x). Ejemplo 2.- Sisetiran2monedasysedefinelavariablealeatoriaX=nmerodecaras, entonces P(X = 0) = , P(X = 1) = y P(X= 2) = . Entonces: Xp(x)F(x) 00.250.25 10.500.75 20.251.00

45Las caractersticas fundamentales de una variable aleatoria son la esperanza y la varianza Definicin: Llamaremos Esperanza de una v. a a la cantidad: E[X] = xi pi Llamaremos varianza de una v. a. a la cantidad: V[X] = E (X E[X])2 = E[X2] (E[X])2 Asennuestroejemplo,laesperanzaesE[X]=00.25+10.50+20.25=1,yla varianza es V[X] = 00.25+ 120.5+220.25 12 = 1.5 1 = 0.5. Sepuedeobservarquelaesperanzacorrespondealpromedioponderadodeuna variablealeatoriaytienelamismaestructuraqueelpromediodefinidoparaseries agrupadasenestadsticadescriptivay=hiyi.Delmismomodoelhistogramade frecuenciasrepresentalafuncindecuantayelhistogramaacumulado,lafuncinde distribucin.Lavarianzarepresentalavariabilidaddelavariableentornoala esperanza. Ejemplos 3-4.- 3.-Elconceptodeesperanzamatemticasurgidelasmatemticasfinancieras.Supongamosqueaalguienseleofreceelsiguientenegocio:invierte$100,yconeste dinerosetieneunaprobabilidadde0.2deperderlotodo,0.2dequedarigual,0.4de duplicar la inversin y 0.2 de triplicar la inversin.Convendra aceptar el negocio? SealavariablealeatoriaX=retorno;entoncesP(X=0)=0.2P(X=100)=0.2;P(X= 200) = 0.4 y P(X = 300) = 0.2.Entonces, E[X] = 0.0.2 + 100.0.2 + 200.0.4 + 300.0.2 = 160. Como la esperanza del retorno (160) es mayor que la inversin (100), el negocio parece conveniente. 464.-Un alumno ha dado 100 pruebas de matemticas con los siguientes resultados: Notandevecesquelaha obtenido 11 24 310 440 530 612 73 Seenfrentaaunanuevapruebadematemticasqunotaesperamosquesaque (esperanza)? Cul es la varianza? Sea la v. a. X = nota.Entonces P (X = 1) = 0.01, P(X = 2) = 0.04, P(X=3) = 0.1, P(X=4) = 0.4, P(X=5) = 0.3, P(X=6) = 0.12 y P(X = 7) = 0.03.E[X] = 0.011 + 0.042 + 0.13 + 0.44+0.35+0.126+0.037=4.42(Observacin:Laesperanzacorrespondeal promedio) E[X2]=0.0412+0.0422+0.1.2+0.442+0.352+0.1262+0.0372=20.76;(E[X])2= (4.42)2=19.54,yentonces,V[X]=20.7619.54=1.22(Observacin:Lavarianza corresponde a una medida de la dispersin de los valores en torno al promedio) Algunas propiedades de la esperanza i)E[constante] = constante, V[constante] = 0 ii)E[a + X] = a + E[X], V[a+X] = V[X] iii)E[aX] = aE[X], V[aX] = a2V[X] iv)E[(X-E[X])] = 0 (demustrelo) v)E[X+Y] = E[X]+E[Y] vi)Si X e Y son independientes E[XY] = E[X]E[Y] Observacin:SiexaminamosE[(X-E[X])(Y-E[Y])],vemosqueesequivalentea E[XY+E[X]E[Y]-E[X]Y-E[Y]X] =E[XY] + E[X]E[Y] - E[X]E[Y] - E[X]E[Y] = = E[XY] - E[X]E[Y]. Si X e Y son independientes, entonces esta cantidad es 0, pero sisondependientes,entoncesesdistintade0.Aestacantidadseleconocecomo CovarianzaentreXeYyrepresentalavariabilidadconjuntadeambasvariables aleatorias: COV[X,Y] = E[XY]-E[X]E[Y]. 47 Ejercicios Propuestos 1.-Se dividi el pas en 5 regiones y se analizaron las deposiciones de ganado vacuno obtenindose la siguiente informacin ReginTotaldevacas en la regin Deposiciones con parsitos Deposiciones sin parsitos A11000012401867 A22000009812008 A36000024962608 A430000864981 A570000010211564 a)Cul es la probabilidad de que una vaca tenga parsitos en la regin A3?R:0.489 b)Culeslaprobabilidaddequeunavacatengaparsitosenelpasb1)si suponemosqueesigualmenteprobablequevengadecualquierregin?b2)si suponemos que la probabilidad de que venga de la regin Ai=n vacas en Ai/n total de vacas R:0.422 y 0.389 respectivamente. 2.-Se lanza un dado dos veces.Cul es el espacio muestral?Cul es la probabilidad de obtener 2 nmeros iguales?Cul es la probabilidad de sacar un 1 y un 5?Cul es la probabilidad de sacar primero un 1 y despus un 5? R: 1/6; 2/36; 1/36. 3.-Enunapiezahay100cachorros.AlgunosdeellosBeagleyotrosPoodle.Algunos de ellos sanos y otros enfermos. BeaglePoodleTotal Sanos403070 Enfermos201030 Total6040100 Si una persona compra un perro al azar.Cul es la probabilidad de que sea Beagle? Son independientes los sucesos el perro es sano y el perro es Beagle?R: 0.6; no. 484.-Se va a realizar una ciruga de esfago a 2 gatos.Se sabe que en esta ciruga muere el1%.Cualeslaprobabilidaddeque:a)mueranlos2gatosb)mueraslo1c) ninguno muera R:0.0001; 0.0198; 0.9801. 5.-Un procedimiento quirrgico slo se puede realizar 3 veces.Si la probabilidad de queesteprocedimientoseaexitosoes0.25.Culeslaprobabilidaddesalvaral paciente? R:37/64. 6.-La enfermedad x se puede tratar con C o con M.El 80% de los varones prefiere C; el 90% de las mujeres prefiere M.Si el 60% de los enfermos son varones.Cul es la probabilidad de tratar un enfermo con M?R:0.48. 7.-SealavariablealeatoriaX=sumadelospuntosallanzar2vecesundado.a) encontrarP(X=k)paratodok.b)graficarlafuncindecuantayafuncinde distribucin c) Encontrar E(X) y V[X] R: 7;5.83. IV.2.- Distribucin de Bernoulli Sisetieneunexperimentoconunresultadodicotmico,porejemploxitoo fracaso, y la probabilidad de xito es p, entonces la probabilidad de fracaso es q = 1-p. EstetipodeexperimentoseconocecomoensayodeBernoulli.Sicreamoslavariable aleatoriaXdetalmaneraqueX=0siesunfracasoyX=1siesunxito,entonces podemos ver que su funcin de cuanta y su funcin de distribucin son: XP(x)F(x) 01-p = q1-p = q 1P1 Adems E[X] = 1p+0q = p, y V[X] = 12p +02q p2 = p-p2 =p(1-p) = pq. Definicin Diremos que la variable X definida como lo hemos hecho, asociada a un experimento dicotmico tiene distribucin de Bernoulli. IV.3.- Distribucin binomial SiconsideramosunexperimentoqueconsisteennensayosdeBernoulli,y definimos la variable aleatoria discreta: X = n de xitos, entonces X tiene distribucin Binomial. Por ejemplo, si la probabilidad de xito de cada ensayo es p y lo repetimos n veces, entonces la probabilidad que en estos n ensayos haya k xitos es: 49

k n kp pknk X P ||.|

\|= = ) 1 ( ) ( Vemos que una vad con distribucin binomial es caracterizada por 2 parmetros: n y p, entonces se abrevia B(n,p). Observamos que la distribucin binomial consta de n ensayosfijoseindependientes,cadaunodicotmicoensuresultadoyconuna probabilidad constante (p) de xito. ComoesdeesperarE[X]=np,pueseslasumadenensayosdeBernoulli. Adems V[X] = npq. Demostracin La esperanza E[X] = kP(X=k) = = == ==== = = ||.|

\|n kkk n k k n kn kkk n kn kkq pk n knnp q pk n knk p pknk110 0 )! ( )! 1 ()! 1 ()! ( !!) 1 ( === + =||.|

\|= = =m jjm j m jnp q p np q pjmnp n m y k j haciendo0) ( ; 1 , , 1 , La varianza V[X] = k2 P(X=k) (E[X])2 = (k2 - k + k)P(X=k) (E[X])2 = (k(k-1)P(X=k)+kP(X=k)(E[X])2,locualutilizandoelmismojuegodesub-ndices lleva a: n(n-1)p2 + np n2p2 = npq. Estadistribucinesmuyimportanteencienciaspuesesmuyhabitualpoder reducirunexperimentoaunasituacindicotmica,porejemplocuandocontamosel nmero de individuos con una caracterstica, si la tiene (xito) o si no la tiene (fracaso). Sin embargo esta distribucin sigue siendo discreta y tiene el problema que se genera al calcular nmeros combinatorios con grandes valores de n. Estadistribucintiendeaserasimtricaparabajosvaloresdepyn,peroes simtrica si p y n son altos. Ejemplo 5.- Si la probabilidad que un individuo lea el diario es p = 0.2 y se toman al azar 10 individuos, entonces la probabilidad que en stos 10, exactamente 3 lean el diario es: 2013 . 0 8 . 0 2 . 0310) 3 (7 3= ||.|

\|= = X P 50Observacin Si de un universo de N elementos en los cuales una proporcin p de ellostieneunatributo,sacamosnelementos;entonceslaprobabilidadqueenestosn haya k con el atributo es:

||.|

\|||.|

\|||.|

\|= =nNkNpk nNp Nk X P ) ( EstavariabletienedistribucinhipergeomtricayE[X]=npyV[X]=npq(N-n)/(N-1).EsfcildarsecuentaquesiNesmuygrande(tiendea)latomadecada elementonoalteralaprobabilidaddeatributodelsiguienteelementoy,entoncescada ensayo se vuelve de tipo Bernoulli. As si en una vad con distribucin hipergeomtrica, N,sudistribucinsevuelvebinomial(B(n,p)).Estoestambinevidenteal observar que el lmite cuando N de V[X]es npq. Entonces se puede considerar a la distribucin binomial como una distribucin asinttica para poblaciones infinitas. Ejemplo 6.- Sienunaurnahay10bolasrojasy6azulesyseescogenalazar5,la probabilidad que en stas 5 haya 2 rojas es: ||.|

\|||.|

\|||.|

\|= =51621036) 2 ( X P IV.4.- Distribucin de Poisson UnhechoimportanteenladistribucinB(n,p)esqueesmuyasimtricapara valoresbajosdep,apesardevaloresaltosden.Entoncesesinteresanteestudiarque sucede sin y p 0 manteniendo constante np = . k n kp pknk X P ||.|

\|= = ) 1 ( ) (= n(n-1)(n-2)(n-k+1)(/n)k(1-/n)n-k/(k!) = = [k/k!][1(1-1/n)(1-2/n)(1-(x-1)/n)](1-/n)n(1-/n)-k 51y tomando lmite cuando n , = [k/k!]111e-1 = [k/k!]e-. EntoncessiNesgrandeyppequea(engeneralnp 30 o bien np 5. Teoremadellmitecentral(ocentraldellmite)(expresingeneral,Laplace 1812, Lyapunov 1901) CualesquieraqueseanlasdistribucionesdeciertasvariablesXj,conesperanzas jyvarianzas2j,entoncesX=Xjesasintticamentenormal(N(,))donde= j y 2 = 2j . Demostracin Consideraremos slo el caso ms sencillo, donde las Xj tienen la misma distribucin. En este caso se puede partir por el siguiente corolario: Corolario1SiestasXjtienendistribucionesiguales,entoncesXes asintticamente normal N(n,n). 2(1/ 2)[( ) / ]1/( 2 ) ( )bxae 56Demostracin:Enestecasoj=nylavarianzaesn2j,porloquela desviacin estndar es n. Falta por demostrar la normalidad.X = Xj, se puede estandarizar como: Z=(X-E[X])/V[X]=(X-n)/n= = n njZjnXn 1 11) (1.Entoncesse puede obtener la fgm de Z: nzj ZntM t M )] ( [ ) (= y como en MZj(t) el primer y segundo momentos son 0 y 2 se puede desarrollar en serie de Taylor: MZj(t) = 1-2t2/2 + R, y reemplazando t por t/ n obtenemos para MZ(t): ) 2 / ( ) / 2 (222 2)] , (/ 211 [ )] , (21 [ ) (t t n nZt n Rt nt n Rntt M ++ = + = ytomandolmitecuandon tiendeainfinitosetieneque 2 /2) (tZe t M= .Comoestaeslafgmdeunadistribucin normal, entonces concluimos que la distribucin es normal. Corolario 2 El promedio X = X/n de estas Xj tiene distribucin asintticamente normal N(,/n). Demostracin: la esperanza E[X ] = E[X/n] =E[X]/n = n/n = .La varianza V[X] =V[X/n] = V[X]/n2 =n2/n2 = 2/n, y entonces la desviacin estndar es /n. Corolario 3 La variable estandarizada Z = (X -)/(/n) tiene distribucin N(0,1) Demostracin: la esperanza E[Z] = E[(X-)/(/n)] =(E[X]- )/(/n) = = (-)/(/n) = 0. La varianza V[Z] =[(X-)/(/n)] =(V[X]- 0)/(/n)2 = =(2/n)/2/n) = 1, y entonces la desviacin estndar tambin es 1. Corolario4 Si Y es B(n,p) y n,entonceslavariableestandarizadaZ=(Y-np)/(npq)) tiene distribucin N(0,1). Demostracin: Trivial; se sigue inmediatamente del teorema de De Moivre y los corolarios anteriores. El teorema del lmite central y sus importantes corolarios nos explican porqu es normal(habitual)encontrardistribucionesnormalesenlasvariablesqueestudiamos. Adems mediante el uso de la estandarizacin (Z) de la variable X, es posible calcular lasprobabilidadesP(axb)=P((a-)/z(b-)/).Afortunadamentepara nosotroslosvaloresdelasintegralesquedefinenlasprobabilidadesyaseencuentran 57tabuladosysonaccesiblesenprogramascomputacionales.Algunosvaloresmuy conocidos,importantesyfcilesderecordarsonP(z>1.64)=0.05yP(z>1.96)= 0.025. Ejemplo 9.- Supongamos que el peso (W) de los seres humanos tiene distribucin normal con promedio=70Kgydesviacinestndar=5Kg.Entoncescualeslaprobabilidad queunindividuopesemsde83Kg?.ComoWtienedistribucinnormalN(70;5), entoncesZ=(W-)/tienedistribucinnormalN(0;1)ypreguntarporP(W>83)es equivalenteapreguntarporP(Z>(83-70)/5=2.6).Enlastablasdereasdela distribucin normal se puede ver que este valor es: P(Z > 2.6) = 0.0047.

IV.9.- Otras distribuciones importantes Enlossiguientesprrafosintroduciremosalgunasdistribucionesyunaseriede teoremas, cuya importancia se ver mas adelante. En general todas las distribuciones de variablesaleatoriascontinuasseencuentranrelacionadasypuedenexpresarsecomo casosparticularesdeunaecuacingeneral(sistemadePearson).Elconocimientode estasdistribucionespermiteposteriormentegenerarlasdcimasopruebasde hiptesis. Unadistribucinhabitualesladistribucinlogartmico-normalolog-normal. Una variable aleatoria X tiene distribucin log-normal si existe una constante a, tal que Y = log(x-a) se distribuye normalmente. Los siguientes teoremas y distribuciones tienen relacin con la funcin gama (), de importantes aplicaciones en clculo y estadstica:

= 01) ( dx e x kx k, k > 0. Basados en esta funcin, se dice que una variable aleatoria continua X, tiene una distribucin de parmetros r y si su densidad es x re xrx f =1) () () ( , x >0; r > 0; > 0; y 0 en cualquier otro caso. En esta distribucin, E[X] = r/ y V[X] = r/2 y Mx(t) = (1-t/)-r. 58Si r = 1, f(x) = e x , E[X] = 1/ y V[X] = 1/2. Cuando ocurre esto, se dice que la variable tiene distribucin exponencial. Cuandor=n/2y=1/2,sedicequelavariabletienedistribucinChi-cuadrado con n grados de libertad (2n). Teorema Si las variables Zj tienen distribucin N(0,1), entonces X = Z2j, tiene una distribucinChi-cuadrado con n grados de libertad: 2n. DemostracinVeamosprimeroelcasodeunavariableZcondistribucinN(0,1)y llamemos F(Z) y f(Z) a su funcin de distribucin y funcin densidad respectivamente. En este caso:Y = Z2 tendra por funcin de distribucin a G(Y): G(Y)=P(Yy)=P(0 30 esta distribucin es prcticamente normal. DefinicinUnavariablealeatoriacontinuaXtienedistribucinFdeSnedecor con n1 y n2 grados de libertad si su funcin densidad es:

2 / ) 2 1 (1 21 2 / 12 12 / 222 / 112 1) ( ) 2 / ( ) 2 / ()2() (n nnn nx n nxn nn nn nx f++ += Su E[X] = n2/(n2-2) y V[X] = 2n2(n1+n2-2)/n1(n2-2)2(n2-4).60 Esta es una distribucin muy til usada en las dcimas de varianza y en el anlisis de la varianza (ANOVA). TeoremaSiUes2n1yVes2n1,entoncesF=(U/n1)/(V/n2)tieneuna distribucin F de Snedecor con n1 y n2 grados de libertad(Fn1,n2). La demostracin de este teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de este libro. Teorema Si t tiene distribucin tk, entonces t2 tiene distribucin F1,k. Demostracin Como t = X/(Y/k) tiene una distribucin t de Student con k grados de libertad(tk)yenellaXtienedistribucinnormalN(0,1)yunavariableYtieneuna distribucin2kentoncest2eselcuocienteentreX2condistribucin21yY/kcon distribucin 2k. As, por el teorema anterior t2tiene distribucin Fn1,n2.

TeoremaElcuocientedelasvarianzasdedosmuestrasS=s21/s22tiene distribucin Fn1-1,n2-1

DemostracinComo en una poblacin dos muestras independientes de tamaos n1 y n2, Y1=(n1-1)s12/2tienedistribucin2n1-1yY2=(n2-1)s22/2tienedistribucin2n2-1, entonces el cuociente W = [Y1/(n1-1)]/[ Y1/(n1-1)] = s21/s22 tiene distribucin Fn1-1,n2-1. 61 Ejercicios de variables aleatorias 1.Considere un experimento que consiste en tirar una vez un dado.Siendo X = el valor obtenido en el lanzamiento una v.a.d., cul es su esperanza y su varianza? R: 3.5; 2.92. 2.Sea X el nmero de casos nuevos de SIDA diagnosticados en un hospital durante un da. La distribucin acumulativa para X es X0123456 F (x)0.10.20.30.60.80.91.0 a)Hallar la probabilidad de que en un da cualquiera, i)Tres casos nuevos sean diagnosticados.ii)Por lo menos un caso nuevo sea diagnosticado.iii)Ningn caso nuevo sea diagnosticado.iv)Entre dos y cuatro casos nuevos sean diagnosticados.b)Hallar la funcin de cuanta para X. c)Determinar E[x] y V[x].R: a) 0.3; 0.9; 0.1;0.6; c) 2.81; 4.60. 3.Qurequisitosdebecumplirunavariableparaqueensusanlisisseutilicela distribucin binomial? 4.Sehadeterminadoquedecada100nacimientos,20delosniosnacidosson hombresy80mujeres.Dadoqueunamadrehadadoaluz8hijo,culesla probabilidad de que tenga 5 hijas? R: 0.147. 5.Para estudiar la regulacin hormonal de una lnea metablica se inyectan ratas con un frmacoqueinhibelasntesisdeprotenasdelorganismo.Engeneral,4decada20 ratas mueren a causa del frmaco antes de que el experimento haya concluido. Si se trata a 10 animales con el frmaco, cul es la probabilidad de que al menos lleguen 8 vivas al final del experimento?. R: 0.677. 6.En Escherichia coli, una clula de cada 105 muta generando resistencia al antibitico estreptomicina. Observando 556.000 clulas, cul es la probabilidad de que ninguna mute? cul es la probabilidad de que al menos una mute? R: 0.00348; 0.9965. 627.Seestimaqueslounodecada50loroscapturadosenelsurdeChileparasu utilizacincomoanimalesdomsticossobrevivealcambio.Secapturan700pjaros enunda.Culeselnmeroesperadodesobrevivientes?Culeslaprobabilidad de que sobrevivan entre 10 y 12? R: 0.1545. 8.Qu caractersticas tiene la distribucin normal? 9.Si la variable X tiene distribucin normal con =21 y 2=3. Calcule: a)P (x 1. La funcin de potencia K() = P(Z>(1-)/0.2) depende de , obtenindose para varios valores de ste: K() Ho 0.70.0668V 0.80.1587V 0.90.3085V 1.00.5V 1.10.6915F 1.20.8413F 1.30.9332F 76En esta tabla observamos que la probabilidad de rechazar Ho (K()) cuando Ho es verdaderaesmuyalta,porejemplopara=0.9hayunaprobabilidadde0.3(30%)y para = 1 una probabilidad de 0.5!!. Entonces no parece adecuado escoger Co = 1. Si escogemos Co = 1.2 obtenemos: K() Ho 0.80.0228V 0.90.0668V 1.00.1587V 1.10.3085F 1.20.5000F 1.30.6915F 1.40.8413F En este caso en cambio, cuando Ho es falsa, recin tenemos probabilidades de 0.3 a0.5derechazarla.EntoncesloidealseratenerunvalorcrticoCosobreelcualla probabilidad de rechazar Ho cuando esta es falsa (P(RHo/HoF) fuera cercano a 1 y que bajo este, la probabilidad de rechazar Ho cuando esta es verdadera (P(RHo/HoV) fuera cercano a 0. Sin embargo esto no es posible y slo es posible encontrar valores crticos de compromiso entre los posibles errores. As notamos que la validez de Ho es una caracterstica poblacional y que la toma de decisin se realiza en base a la muestra. Esto produce una disociacin entre estos dos eventos, originando dos clases posibles de errores. La situacin se puede expresar en la siguiente tabla: VALOR DE VERDADde Ho V(H1F)F(H1V) DECISINRechazo Ho ERROR I ()K = 1- Acepto Ho C = 1-ERROR II () En esta tabla se describen dos tipos de errores estadsticos: error de tipo I, aquel quesecometecuandoserechazaHo(RHo)yestaesenrealidadverdadera(HoV).Su medidaes=Pmax(RHo/HoV);yelerrordetipoIIeselquesecometecuandose acepta Ho (AHo) y esta es falsa. Su medida es = Pmax(AHo/H1V) = 1-Pmax(RHo/H1V) = 1-K(1). Observamos que C = P(AHo/HoV) = 1-. El valor C establece la confianza de la dcima, y a , el mximo error de tipo I que se est dispuesto a tolerar, se le denomina 77nivel de significacin cuando se encuentra previamente especificado. Del mismo modo aK(1),elvalordelafuncindepotenciaen1,osimplementeK,seleconocecomo potencia de la dcima. La docimasia o prueba de hiptesis debe cumplir varias etapas: i)Planteamiento de la Hiptesis. ii)Dicotoma de la hiptesis: Ho vs H1. iii)Eleccin del nivel de significacin. En esta etapa se define a priori el nivel de significacinconquesevaatrabajar.Engeneralencienciasseconsideran comoadecuadosnivelesmenoresque=0.1;0.05;0.01(oconfianzas mayoresque90%;95%;99%).Elmsaceptadoeslejos=0.05.Oseaen cienciaspareceaceptablecometererroresdetipoIconprobabilidades menores o a lo sumo iguales a 0.05. iv)Eleccin de la dcima apropiada (ver ms adelante). v)Enbasealresultadodeladcima,tomarunadecisinestadsticaporunade dos vas equivalentes:a.rechazar Ho si la probabilidad de error I esp < 0.05, ob.rechazarHosielvalordelestadgrafoqueseuscomodcimase encuentraenlazonaderechazo(Rc)definidaporunciertovalorcrtico (Co). vi)Interpretacin estadstica de los resultados. Slo hay dos posibles: a.De acuerdo a nuestros resultados hay suficiente evidencia para rechazar Ho, y por tanto sostener H1 con una probabilidad de error I = p; yb.De acuerdo a nuestros resultados no hay suficiente evidencia para rechazar Ho(yportantoengeneralaceptamosHo,peroojo!SiaceptamosHo podemosestarcayendoenelerrorIIporloquedeberamosmediro alternativamente la potencia de la dcima(K)). 78 VI.2.- Dcimas para una muestra Dcimaparaunaproporcin(P)Unapreguntamuyhabitualencienciasde cualquier tipo es si cierta proporcin P corresponde o no a un valor dado. Por ejemplo es habitual pensar que la proporcin de mujeres es mayor que 0.5 o que la prevalencia de una cierta enfermedad sea menor que una prevalencia dada etc... Supongamos por ejemplo que se dice que un cierto insecto se encuentra en el 30% (p0) de las viviendas, pero en la localidad en que vivo yo lo veo en casi todas. Entonces planteo la hiptesis: la proporcin de casas infestadas por este insecto es mayor que un 30%. En trminos estadsticos Ho: P 0.3 vs: H1: P > 0.3. Voy a trabajar con un nivel de significacin de = 0.05. Supongamosademsqueexamin25viviendas(muestradetamaon=25)y encontr 13 con el insecto. Como ya sabemos queZ = (p-P)/(PQ/n) es N(0,1), entonces uso el estadgrafoZ = (p-p0)/(p0q0/n) como dcima. Estoesporquelaprobabilidaddeencontrarunaproporcinp>13/25=0.52en unamuestrade25viviendasbajoelsupuestoqueHoesVes:P(Z>(0.52-0.3)/(0.30.7/25)) = P(Z > 2.41) = 0.008. EntoncescomolaprobabilidadderechazarHoconestevalordadoqueHoes verdaderaesmenorque0.05,rechazoHoyaceptoH1:laproporcindeviviendas infectadas es mayor que un 30% y lo afirmo con una confianza mayor que el 95% . En realidadconunaconfianzaaposteriorideun99.2%,yaquehemoscalculadola probabilidad de error I como p = 0.008. Una segunda manera de ver esto es buscando el valor crtico Co tal que P(Z>Co) = 0.05. Este es Co = 1.64, es decir rechazar la hiptesis Ho para todo valor calculado de z > 1.64 (zona de rechazo Rc). Como el valor calculado de Z = 2.41, entonces cae en la zona de rechazo de Ho. ObservacinimportanteSilahiptesisH1hubierasidoP0.3existirandos situaciones que la verifican: P< 0.3 y P > 0.3, entonces la zona de rechazo se divide en los dos extremos de la distribucin dejando una probabilidad 0.025 en cada extremo. En este caso hay dos puntos crticos simtricos Co = -1.96 y Co = +1.96, rechazando Ho si Z 1.96. En este caso se habla de una prueba de dos colas, y en el caso 79anterior,deunacola.EnlaprcticacadavezqueenH1apareceelsmbolose trata de una prueba de dos colas, en caso contrario es de una cola. As,enresumenlapruebaadecuadaparaunamuestraenelcasodeuna proporcin es: nq pp pZ0 00 = Ejemplo 1.- Laprevalenciahistricadeunaciertaenfermedadinfecciosaesdeun8%.Sin embargoenunalocalidadseexaminaron196personas,delascuales25estaban infectadas.Habrenestalocalidadunamayorprevalenciaosloserunhecho fortuito? Planteamos estadsticamente: Ho: P 0.08 vs. H1: P > 0.08. Trabajaremos con = 0.05yelproblemaesdeunacola,porloqueelvalorcrticoderechazoesZc=1.64. Adems, en la muestra, p = 25/196 = 0.128. Aplico el estadgrafo Z: 48 . 219692 . 0 08 . 008 . 0 128 . 0== Z ComoelvalorcalculadodeZapartirdelamuestra(2.48)esmayorque1.64, entoncescaeenlazonaderechazodeHo,yportantodeboaceptarH1.Enotras palabras,puedoafirmarqueendichalocalidadexisteunamayorprevalenciadeesta enfermedad, con una probabilidad de error de tipo I menor que un 5%. Dcima para el promedio () En este caso la afirmacin se refiere a una variable continua distinta de una proporcin, por ejemplo se afirma que el peso promedio de los hombres es ms de 70 kg. 80AqulahiptesisH1esdeunadelassiguientesformas:a)>o(unacola),b) 70 y usamos el test: 2 . 2360170 7359== t . Como el valor crtico de t para una cola, 59 grados de libertad y una mximaprobabilidaddeerrordetipoI=0.05,es1.64,yadems23.2>>1.64, entoncesrechazamosH0yafirmamosqueefectivamenteelpesopromediodelos hombres es mayor que 70 Kg. VI.3.- Dcimas para dos muestras Enestecasosetratadehiptesisquecomparandossituacionesyportantopara probarlas es necesario tomar dos muestras. Por ejemplo, si se afirma que en la ciudad A hay ms prevalencia de cncer que en la ciudad B, es necesario tomar una muestra en A y otra en B. El razonamiento estadstico y la forma en que se toma la decisin son enteramente anlogos a las anteriores por lo que nos limitaremos a escribir las hiptesis Ho y H1 de dos colas y los test o dcimas apropiadas.81Dcimas para dos proporciones Enestecaso,paraunapruebadedoscolas,lashiptesisH0yH1sepueden escribir como: H0: (P1-P2) = P0 vs.H0: (P1-P2) P0. Lo habitual es que P0 = 0, pues en general interesa la pregunta P1 = P2 o P1 P2? La prueba a usar en este caso es: )1 1() (2 10 00 2 1n nq pP p pZ+ =donde 2 12 2 1 10 n nn p n pp++=

Ejemplo 3.- Interesasabersidosinsectos,AyB,seencuentranparasitadosendiferente proporcin.Seexaminan52insectosA,deloscuales10estabanparasitados,yde100 insectosB,36loestaban.Entoncesseplantea:H0:PA=PBvs.H1:PAPB(P0=0).Entonces192 . 0 52 / 10 1= = p y36 . 0 100 / 36 2= = p ,porlo que 303 . 0100 52100 36 . 0 52 192 . 00=+ + = p . Entonces calculo Z: 14 . 2)1001521( 697 . 0 303 . 036 . 0 192 . 0 =+ = Z .Entoncesahorasedebetomarladecisin.El valor crtico de rechazo para un mximo error de tipo I = 0.05 es 1.96, y como es una pruebadedoscolasrechazaremosH0,cuandoelvalorcalculadodeZsea +1.96 . En nuestro caso -2.14 < -1.96 y entonces rechazo H0 y puedo afirmar que existe suficiente evidencia para sostener que la proporcin de insectos parasitados es diferente. Podemos observar adems que si nuestra hiptesis H1 hubiera sido que el insecto B tiene una mayor proporcin de parasitismo que A. La prueba habra sido de una cola, el valor crtico habra sido 1.64, y nuevamente habramos rechazado H0, en este caso afirmando que existe suficiente evidencia para sostener que la proporcin de insectos parasitados es mayor en el insecto B que en A. Dcimas para dos promedios Enelcasodehiptesisreferidasadospromedios,esnecesariodistinguirdos situaciones.Laprimeraenqueson,a)dosmuestrasindependientesylasegundaen que es, b) la misma muestras o muestras relacionadas en dos situaciones experimentales. Este ltimo caso es muy habitual en medicina donde se estudia la misma muestra con y 82sin un cierto frmaco, o bien situaciones del tipo antes-despus. En este ltimo caso se habla de muestras pareadas o dependientes Muestras independientes Por razones estadsticas la prueba a usar depende de si las varianzas muestrales se puedenconsiderariguales(homocedasticidad)obiensondiferentes.Unaestimacin razonable para decidir esto es hacer el cuociente s2M/s2m, donde s2M es la varianza mayor y s2m es la varianza menor, y si es mayor que 4, son diferentes. Sin embargo es posible docimardirectamentelahomocedasticidad(vermsadelante).Lashiptesisparados colas son H0:1 - 2= 0 vs H1: 1- 2 0 y al igual que en el caso de las proporciones lo habitual es que 0 = 0. a)Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos: )1 1(2 120 2 122 1n nsx xtcn n+ = + donde 2) 1 ( ) 1 (2 122 221 1 2 + + =n ns n s nsc Ejemplo 4.- SeafirmaquelaespecieApesamsquelaespecieB.Entoncesseplanteanlas hiptesisH0:AB>0vsH1:A-B 0ysetomanmuestrasdeAydeB. Supongamosqueen46individuosdeAelpesopromediofue36gconunadesviacin estndarde6gyqueen50individuosdeBelpesopromediofue33gconuna desviacin estndar de 5g. As como el cuociente entre las varianzas es 62/52 = 1.44, es decir es menor que 4, usando nuestra regla simple, podemos suponer homocedasticidad. Adems podemos estimar la varianza comn s2c como: 27 . 302 50 4625 49 36 452= + + =cs. Ahora podemos usar nuestro test: 67 . 2)501461( 27 . 3033 3694=+ = t .Para=0.05yunacola,elvalorcrticodetes1.64, entonces como 2.67 > 1.64, rechazamos H0 y podemos sostener H1, es decir A pesa ms que B. Observamos que el valor crtico de t con 94 grados de libertad es 1.64, idntico al valor crtico para Z en el caso de una cola. Esto no debe extraarnos, pues como hemos enunciadoenunteoremaanterior,sieltamaomuestralaumenta,ladistribucintse aproxima a la normal N(0,1) (Z). 8322 21 21 22 22 21 21 21 21 1s sn ngls sn nn n| |+ |\ .=| | | | ||\ . \ .+ b)si no hay homocedasticidad, entonces usamos: ) (2221210 2 1nsns x xtgl+ = pero los grados de libertad gl los estimamos mediante

Ejemplo 5.- Usando el mismo caso anterior, pero ahora las desviaciones estndar son: para A 6gy para B 2g. Entonces la razn entre las varianzas es 36/4=9. Entonces no podemos suponer varianzas iguales. En este caso:

23 . 3)5044636(33 36=+=glty los grados de libertad:55 15 . 541 50) 50 / 4 (1 46) 46 / 36 () 50 / 4 46 / 36 (2 22 =++= glEntoncescon=0.05yunacolaelvalorcrticodetesaproximadamente2. Como 3.23 > 2, entonces nuevamente rechazamos H0 y la interpretacin es la misma. Muestras dependientes (pareadas) Estecasoesequivalenteaunadcimaparapromediode unamuestra.Secreala variableauxiliard=x1-x2,secalculasupromediodysudesviacinestndarsd.Las hiptesis en este caso son referidas al parmetro D = 1- 2. Por ejemplo, proponerque H1: 1> 2, es equivalente a H1: D > 0. Entonces el test de hiptesis a usar es: n sdtdn/1 = 84Ejemplo 6.- Sepiensaqueunfrmacobajalapresinarterial.Entoncesseestudian10 individuos,tomndolelapresindiastlicaantesydespusdelaadministracindel frmaco obteniendo: IndividuosAntes (x1)Despus (x2)d = x1-x2 1100955 295950 38085-5 4908010 598908 61059510 71109515 8100928 9908010 101109317 Total97890078 Promedio97.890 d =7.8 Desviacin estndar9.56.1sd= 6.5

Entoncessepuedenplantearlashiptesisdeunacola:H0:D0vsH1:D>0,yaque pensamos que la presin antes debe ser mayor que despus (1> 2 , o D =1- 2 > 0). Calculamoselvalordelestadgrafo: 79 . 310 / 5 . 68 . 79= = t .Como,para=0.05elvalor calculadodet(3.79)esmayorqueelvalorcrticodet,con9gradosdelibertadyuna cola(1.83),rechazamosH0yentoncespodemosafirmarqueefectivamenteelfrmaco baja la presin arterial. VI.4.- Supuestos de las dcimas Paraquelasdcimastenganrealvalidez,sedebencumplirciertossupuestos bsicosqueprovienendelusodeciertasdistribucionescomounatdeStudentouna normalestandarizadaZ=N(0,1).Lasdcimasparaunaydosmuestrasdebencumplir algunos o todos los siguientes supuestos: i)independencia ii)normalidad iii)homocedasticidad 85IndependenciaEselrequisitofundamentaldetodaslasdcimas.Cadaelemento de la muestra debe ser independiente del resto. Es decir los elementos de una muestra no debenestarrelacionadosentres,masqueporelhechodeperteneceralamisma situacin experimental. Por ejemplo, si estamos estudiando un parmetro fisiolgico, no parece conveniente incluir hermanos en la misma muestra porque sus fisiologas pueden ser semejantes violando el supuesto de independencia. En este caso los elementos de la muestra no constituyen rplicas sino seudo rplicas. Aunque no siempre es fcil decidir si los elementos son realmente independientes, por ejemplo en el caso de las plantas de un prado, el supuesto de independencia lo debe asegurar el investigador. Cuando existen dudas es posible realizar un estudio de correlacin de los errores a travs de una dcima de Durbin-Watson (que no se tratar en este libro). NormalidadEstesupuestoserefiereaqueseesperaquelasvariables consideradas en las muestras tengan distribucin normal. Esto proviene de los supuestos en que se fundamentan las distribuciones que se usan como estadgrafos. Existen varias pruebas para probar la normalidad de los datos de una muestra. En estecaptuloslomencionaremostresyenlossiguientesdescribiremosdosdeellas. Estassoni)PruebadeLillieforsqueconsisteenunapruebagrficautilizandouna distribucinnormalacumulada,ii)BondaddeajustedeKolmogorov-Smirnoveiii) Bondad de ajuste 2. HomocedasticidadEstesupuestoconsisteenlasuposicindeigualdadde varianzas,queesnecesariosloparacompararpromediosconsuposicindela existenciadeunavarianzacomn.Enprrafosanterioreshabamosdadounaregla simple:sielcuocienteentrelasvarianzaseramayorque4,entonceslassuponamos distintas. En esta ocasin vamos a ser ms rigurosos y plantearemos las hiptesis Ho: 21 =22(homocedasticidad)vs.H1:2122.ParatomarladecisinseusaeltestFde Snedecor (F en honor a Fisher): 22) 1 ( ), 1 (2 1mMn nssF = , donde SM2 representa la varianza mayor y Sm2 la menor.

Ejemplo 7.- Supongamosquesetienendatosdealturadedospoblaciones(AyB)deuna especie de rbol: PoblacinAB Nmero de rboles4668 Altura promedio3.5 m4.3 m Desviacin estndar 0.6 m1.26 m 86 Planteamos la hiptesis H1 que los rboles de la poblacin B son ms altos que los de la poblacin A. Entonces, en trminos estadsticosH0:B A vs H1: B > A, por lo queesunahiptesisdepromedios,deunacola,paradosmuestras.Surgeentoncesla preguntapuedoconsiderarlasvarianzasiguales?Entonces,antesdepreocuparmepor mihiptesisprincipal,planteolashiptesis:Ho:21=22(homocedasticidad)vs.H1: 2122yaplicoeltest:F67,45 =(1.26)2/(0.6)2=4.41ycomparoestevalorconelvalor crticodeladistribucinF,con67gradosdelibertadenelnumeradory45gradosde libertadeneldenominador:1.62.Como4.41>1.62,entoncesrechazola homocedasticidad (H0) y deber considerar las varianzas como diferentes. Ahora nos preocupamos de la hiptesis principal y aplicamos el test adecuado: 53 . 4)4636 . 06859 . 1(5 . 3 3 . 4=+=gltcon103 3 . 1021 46) 46 / 36 . 0 (1 68) 68 / 59 . 1 () 46 / 36 . 0 68 / 59 . 1 (2 22 =++= glComo 4.53 > 1.64 (valor crtico), entonces rechazo H0 y afirmo que efectivamente los rboles de B son ms altos que los de A. 87Ejercicios de Pruebas de Hiptesis para una y dos muestras 1. Unciertotipodecncertienehabitualmenteunaletalidad(nmerodemuertospor cadacienenfermos)de30.Seexperimentaunanuevadrogaen80casos,enlos cuales se producen 15 defunciones. Qu puede decir usted sobre la eficiencia de la droga? a)Seale la hiptesis de trabajo. b)Seale el nivel de significacin. c)Realice la prueba de significacin estadstica. R: Z = -2.19d)Saque conclusiones. R: La droga disminuye la letalidad. 2.DeacuerdoconlasleyesdeMendel,elcruzamientodeheterocigotosproduceuna descendenciaformadapordostiposdeindividuos:aquellosconcarcterdominante querepresentanel75%yelrestopresentaelcarcterrecesivo.Enunexperimento con500semillasseobtienen360semillasamarillas(dominante)y140verdes. Puede aceptarse que esta distribucin es mendeliana? R: Z = -1.55, si es mendeliana. 3.Habitualmente la ictericia fisiolgica del recin nacido dura 3.8 das. Al tratar a 100 nios con fototerapia, el perodo ictrico dura 2.8 das con una desviacin estndar de 2.7 das. Es la fototerapia un tratamiento efectivo contra la ictericia?. R: t99 = -3.7; la fototerapia es efectiva. 4.Se ha medido la concentracin de una sustancia en clulas tratadas con un compuesto que se cree sedimenta dicha sustancia, y en clulas no tratadas (controles), dando los siguientes resultados (en ng/mL): Que puede Ud. decir? ControlesTratadas6866 2129 10050 4877 46110 755 591 5790 96114 13850 R: t9 = 0.89. No hay evidencias de variaciones de concentracin. 885.Sehaobservadoquelaadministracindedosisbajasdeaspirinaenpacientes sometidosadilisisrenaldisminuyelafrecuenciadetrombosis.As,enpacientesa los que se les administr un placebo presentaron trombosis en un 70% de los casos y en aquellos que recibieron aspirina, se observ trombosis slo en el 50% de los casos. a)Si el nmero de pacientes es de 30 para ambos grupos, cul sera su conclusin respecto al efecto de la aspirina? b)Si el nmero de pacientes es 60, cul sera ahora su conclusin? R: a) Z = -1.58, no hay evidencia; b) Z = -2.24, la aspirina reduce el riesgo de trombosis. 6.Sehanrealizadomedicionesdemetabolismoencarreraenfelinosprovenientesde doszonas(norteysur).De15felinosnortinosmedidos,seobtuvounmetabolismo de0.120.02[mlO2kg-1m-1](promedioSD).De23felinossureos,seobtuvoun metabolismode0.150.06[mlO2kg-1m-1].Existediferenciaentrelos metabolismos?. R: No hay homocedasticidad; t28 =-2.22, si existe diferencia. 7.La contraccin (en mm) de los teros de 8 ratas usando dos hormonas distintas (A y B) es la siguiente: teroHormona A Hormona B 12824 23029 32528 43430 53525 62619 73132 83232 Existe efecto diferencial entre las dos hormonas? Use nivel de significacin del 1%. R: t7 = 1.79; no hay evidencias de efecto para el nivel 1%. 8.Se desea saber si una determinada dieta produce o no aumento de peso. Para ello se tomaunamuestrade7individuos,loscualessonpesadosantesdeiniciarladietay despusde3mesesdeseguirlarigurosamente.Losresultados(enkg)sonlos siguientes: IndividuoAntes Despus 19585 29085 893110104 48078 59594 68375 79191 Existirnevidenciasparasuponerqueestadietaproduceunadisminucin significativa del peso? (Use nivel de significacin del 1%). R: t6 = 3.24; si hay evidencias de reduccin de peso. 10. SerealizunestudiosobredospoblacionesdeSpalacopuscianus(Cururo) provenientesdelacostaydelacordillera.Selesmidiellargodelpeloa20 individuos de cada poblacin, resultados que fueron tabulados en la siguiente tabla. LARGODELPELAJE [MM] fcostafcordillera 10-1212 12-1435 14-1668 16-1863 18-2022 20-2210 22-2410 Existediferenciaenlalongituddelpeloentreambaspoblaciones?(pruebelos supuestos y elija la dcima adecuada). R: t38 = 1.77; no hay evidencias de diferencias. 11. Mientraspaseabaporelparque,unseor sepusoacontarelnmerodeperrosque eran sacados a pasear por sus dueos. Lossiguientesdatoscorrespondenalnmero de perros por persona, separando hombres de mujeres, obtenidos en esta productiva tarde de ocio. Hombres: 1 - 1 - 2 - 2 - 2 - 3 - 3 - 3 - 3 - 4 - 4 - 6 - 9 Mujeres: 1 - 1 - 1 - 2 - 2 - 2 - 2 - 2 - 2 - 3 - 3 5 Suponiendo que los datos son normales, determine si existe diferencia en el nmero de perros sacados a pasear entre hombres y mujeres R: t23 = 1.63; p = 0.059. 12. En un anlisis qumico de las aguas del ro Mapocho, se encontr que los valores de concentracindecoliformesfecalespresentabanmayorvariabilidadcuandoeran tomadosdurantelamaanaquedurantelatarde.Lamuestratomadaenlamaana 90presento una varianza de 23 mg2/mL2 (N=15) y la muestra de la tarde, una varianza de 20 mg2/mL2 (N=20). Tienen razn los investigadores?. R: no. 91

VII.- ANLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS VII.1.- La distribucin 2 Muchasvecesencienciaslashiptesisserefierenadiferenciasencantidadeso frecuenciasentrediferentespoblaciones,porejemplonmerodeenfermos,poblacin animal,etc.Unadistribucinmuytilenstoscasosesladistribucin2,quecomo recordamos proviene de una variable aleatoria x con distribucin normal estandarizada, N(0,1),elevadaalcuadrado.Sisumamosnvariablesdeestetiposeobtieneunanueva variable X = x2 con distribucin 2n , es decir una distribucin cuya forma depende de un parmetro n llamado grados de libertad. SirecordamosqueZ=(x-)/tienedistribucinN(0,1),esobvioqueZ2tiene distribucin21yentonces2n=[(x-)/]2tienedistribucin2n.Sienestaltima variableestimamosdirectamentedelamuestrarestringimosenunolosgradosde libertad. Bstenos observar que si nos lo proponemos, se pueden escoger libremente tres nmeros,perosiselossometealacondicindequeelpromedioesunnmero determinado,entoncesslosepuedenescogerdoslibrementepueselltimoqueda determinado por la condicin (se ha restringido en uno los grados de libertad). Supongamosquenoesmuydiferentede2(comoenunadistribucinde Poisson)yqueamboslosestimamosporunvaloresperadoeapartirdelamuestra. Entonces esperamos que la variable: X2=(o-e)2/e,dondeoesunvalorobservadodexyesuesperado,tenga distribucin 2n-1. Este estadgrafo es conocido como Chi-cuadrado. Veamos esto de otra forma. Supongamos que en una muestra de N individuos hay N1 mujeres y N2 hombres y que a priori esperamos que la mitad fueran mujeres, entonces o1 = N1, o2 = N2, e1 = N/2 = e2 y entonces X2 = (N1-N/2)2/(N/2) + (N2-N/2)2/(N/2) == (N1-N2)2/N = 4N(N1-N2)2/4N2 = [(N1-N2)/2N]2/(1/4N) = (N1/N 1/2)2/[((1/21/2)/N)]2 = [(p- P)/(PQ/N)]2 = Z2. Enunejemplonumricosupongamosquesetienen35hombres y 46 mujeres en una muestra de 81 personas. Entonces si probamos Ho: P = 0.5 vs. H1: P 0.5 usamos el estadgrafoZ==(p-P)/(PQ/N)=(35/81-0.5)/(0.50.5/81)=1.222ycomoelvalor crtico de Z para dos colas es Z = 1.96, entonces acepto Ho. 92SiahoracalculoX2considerandoqueambosvaloresesperadossone= 0.581=40.5, obtengo X2 = (35-40.5)2/40.5 + (46-40.5)2/40.5 = 1.4938. Es fcil ver que Z2 =1.2222 = 1.4938= X2. Tablas de contingencia Ladistribucin2cobrasumayorimportanciaenlastablasdedobleentradao tablasdecontingencia.Estassonlamanerahabitualdepresentardatosenumerativos. Por ejemplo tres poblaciones A, B y Cy en cada una de ellas el nmero de enfermos y no enfermos. ABCTotal marginal Enfermos No enfermos Total marginal Gran total En general una tabla de doble entrada se puede escribir as: C1C2......CtT. marginalR1N1,1 N1,2......N1,tN1,0 R2N2,1N2,2.......N2,tN2,0 ......... RrNr,1Nr,2Nr,tNr,0 T. marginalN0,1N0,2........N0,tN0,0 Es fcil darse cuenta que si todos los N se comportan en forma homognea en las distintas columnas (C), entonces se cumple que las proporciones en cada columna deben ser semejantes a las proporciones en los totales marginales. Por ejemplo debera ocurrir que N1,1/ No,1 N1,o/ No,o. Entoncessilarespuestaeshomognealosvaloresesperadosparacadaceldase pueden determinar como: ei,j = (Ni,o/No,o)No,j. Existendostiposdediseosexperimentalesqueconducenaunatabladedoble entrada. En el primero se tomas muestras aleatorias sin regular los totales marginales de ningunadelasdosentradasyloqueinteresaessabersiexisteasociacinentrelas 93variablesdeclasificacin(entradas)oindependencia.EnestecasoHo:independencia vs. H1: asociacin. En cambio en el segundo se escoge una muestra de un mismo tamao determinado para cada nivel de una primera entrada (total marginal regulado), y en cada unasedeterminaelnmeroqueseencuentraencadaniveldelasegundaentrada.En esteltimocasointeresalahomogeneidaddelarepuestadelasegundavariablede clasificacin, dentro de la primera. En este caso Ho: homogeneidad vs. H1: diferencia. En ambos casos el estadgrafo adecuado es: = j ic ree o,22) 1 )( 1 () (donde r es el nmero de filas y c el nmero de columnas. Observaciones importantes i)PorsuderivacinlapruebaChi-cuadradoengeneralsedebeusarcuando los valores esperados son 5. ii)La prueba de hiptesis es siempre de 2 colas. iii)Cuandoserealizaunapruebadeindependenciavs.asociacin,unabuena medidadelaasociacines:X2/(No,o(m-1)),dondemeselmenorvalor entre r y c. iv)ElrechazodelahiptesisHoenunapruebadehomogeneidadindica diferenterespuestaelalgnnivel(C)delaprimeravariableclasificatoria, pero no informa cual nivel es el diferente. En caso que esto sea relevante se debeirsacandoenformaiteradalacolumnaquemscontribuyealvalor del X2 y recalculando el valor de X2 hasta que este deje de ser significativo. Las columnas que queden sern homogneas. (Comparaciones mltiples en 2) iv)Enelcasodeunatabladecontingenciade2x2,cuandonosecumplecon Ni,j>5,sedeberealizarlapruebaexactadeFisherqueprovienedeuna distribucin hipergeomtrica Ejemplo 1.- Supongamos que se desea saber si existe asociacin entre el color de las flores y la presencia de abejas. Se realiza un estudio y se obtiene: 94BlancasRojasAmarillas Total Con abejas452460129 Sin abejas368340159 Total81107100288

EntoncesplanteamoslashiptesisH0:independenciauhomogeneidadde proporciones vs. H1: asociacin entre el color de las flores y la presencia de abejas. Acontinuacinhayquecalcularlosvaloresesperadosparacadacelda.Por ejemplo para la primera celda e = 81(129/288), o sea de el total de 81 flores blancas, si a la abeja no le importa el color de la flor (independencia), se espera que una proporcin (129/288) de ellas sea visitada por abejas. Entonces e = 36.3. Para la segunda celda e = 81(159/288) = 44.7. Notamos enseguida que 36.3 + 44.7 = 81. As se puede proseguir el clculo para cada celda, obteniendo:

Blancas (esperadas) Rojas(esperadas) Amarillas (esperadas) Total Con abejas 4536.32447.96044.8129 Sin abejas 3644.78359.14055.2159 Total81107100288 Ahora entonces podemos calcular el valor del X2: 7 . 34 ......... ..........9 . 47) 9 . 47 24 (7 . 44) 7 . 44 36 (3 . 36) 3 . 36 45 (2 2 222= +++= ElvalorcrticodeChi-cuadradopara2gradosdelibertady=0.05es5.99,y como 34.7>>5.99, rechazamos H0 y afirmamos que existe una asociacin entre el color de las flores y la presencia de abejas. Siqueremosavanzarms,observamosquelacolumnaquemscontribuyeal valor del estadgrafo es la de las flores rojas, que tiene una proporcin menor de visitas deabejasquelaesperada.Entoncesretiramoslacolumnayrecalculamoslosvalores esperados obteniendo: Blancas (esperadas) Amarillas(esperadas) Total Con abejas 4547.06058.0105 Sin abejas 36344042.076 Total81100181 95 Planteamos una nueva hiptesis de independencia versus asociacin y calculamos el valor de X2: 36 . 042) 42 40 (58) 58 60 (34) 34 36 (47) 47 45 (2 2 2 221=+++= Comoelvalorcrticoesahora3.84y0.36 7.81, rechazamos la hiptesis de nulidad. Es decir esta variable no tiene distribucin normal. VII.3. El 2 para proporciones Enocasionesesnecesariocomparardosomsproporciones,loculpuede hacerse con una prueba de 2. Ya hemos visto que cuando la hiptesis es de dos colas es posible comparar 2 proporciones a travs de Z = N(0,1) o bien con un 2. En el caso de ms de dos proporciones puede usarse: q pp p nni in=1 21) (en donden p n pii/1= Observamosqueestecasoesenteramenteequivalenteal2paraunatablade contingencia. 99VII.4.- La prueba G Una aproximacin alternativa a la prueba de 2 para bondad de ajuste y tablas de contingenciaeslapruebadellogaritmodelcuocientedeverosimilitudes(log-likelihood ratio), prueba 2I, o prueba G. Para iliustrar esta prueba consideremos por ejemplo que en n ensayos de Bernoulli se obtuvieron f1 xitos y f2 fracasos y nos preguntamos si estas frecuencias corresponden alasfrecuenciasesperadasdeacuerdoaunciertocriterio,porejemplosiestnen relacin a:b. Si fuera as la probabilidad de un xito sera p = a/(a+b) y defracaso q = b/(a+b). Sin embargo, las proporciones observadas son:) /( ); /( 2 1 2 2 1 1f f f q f f f p + = + = . Entonceslaprobabilidaddeobtenerf1xitosbasadosenlahiptesisdenulidad es: 2 11f fq pfnp||.|

\|= ylaprobabilidaddeobtenerf1xitosbasadosenloobservadoes: 2 11 f fq pfnp||.|

\|= . As el cuociente entre estas probabilidades (verosimilitud; L) es: 2 1 f fqqppL||.|

\|||.|

\|= y considerando que las frecuencias fi = npi se obtiene: 222111 f fffffL||.|

\|||.|

\|= , y sacando logaritmo natural: = = + =ai i if f f f f f f f f L )/ ln( ... )/ ln( )/ ln( ) ln(2 2 2 1 1 1 En esta expresin se puede reconocer la definicin de informacin (I) de Shannon. Por otra parte s ha demostrado queG = 2I = 2ln(L) sigue una distribucin2a-1.100

Ejemplo4.-Supongamosqueenunexperimentogenticoseesperaunarelacin 3:1paraunciertocarcterysehaobtenido:80conelcarctery10sinelcarcter.En tonces se propone H0: las frecuencias se encuentran en relacin 3:1. Y podemos calcular: ResultadosObservados Propocin observada Proporcin esperada FrecuenciaEsperadaRaznf obs/f esp Producto frx ln(razn)Conel carcter 808/93/467.51.1813.59 Sinel carccter 101/91/422.50.44-8.11 Total901190lnL=5.48 Entonces G = 2x5.48 = 10.96 y como sigue una distribucin 2, en este caso con 1 grado de libertad, es fcil ver que p 0.05. No hay evidencias que as sea.

3.Sedeseaaveriguarsiexistealgunarelacinentreelbiotipodeunindividuoyla probabilidaddequetengaalgunalesingstrica.Paraesoseanalizelgrupo sanguneodeindividuossanos(control),concncergstricoyconlceragstrica, obtenindose los siguientes resultados: BiotipoCncerlceraControlTotal Ectomrfico38398328924258 Mesomrfico41667926253720 Endomesomrfico84134570788 Endomrfico2543226294 Total908183963139060 102Son eventos independientes el grupo sanguneo y la lesin gstrica? R: No son independientes. 26 = 48.61; p 0.05. No concuerdan.

5.En un estudio sobre polimorfismo de inversiones cromosmicas en el saltamontes Moraba scurra, Lewontin y White (1960), dieron los siguientes resultados para la composicin de una poblacin en Royalla B en 1958. Estn las frecuencias de lastrescombinacionesdelcromosomaEFasociadasalasfrecuenciasdelastres combinaciones del cromosoma CD? R: No. Son independientes. 24 = 6.3; p > 0.05 6.EnlalocalidadAseharealizadounacapturaexhaustivadeserpientesdela especieS.Unexamendelos167machosadultosquehansidorecogidosrevela que 35 de stos presentan bandas plidas alrededor del cuello. De la localidad B, a 30 kilmetros de distancia de la A, se obtuvo una muestra de 27 machos adultos de la misma especie, 6 de los cuales presentaban bandas. Cul es la probabilidad de que ambas muestras procedan de la misma poblacin estadstica con respecto a la frecuencia de bandas?R: p = 0.88. St/St St/B1 B1/B1Td/Td 22 96 75St/Td 8 56 64St/St 0 6 6Cromosoma CDCromosoma EF103 VIII.- ESTADSTICA DE DISTRIBUCIN LIBRE O NO-PARAMTRICA Lasdcimasquehemosmencionadohastaahora,siemprepresuponen distribucionesparticularesdelavariablealeatoria,obiensushiptesisespecifican parmetros o distribuciones. Por esto la estadstica que las usa se denomina estadstica paramtrica.Pero,qusucedecuandonosecumplenlossupuestosnecesariospara tales dcimas? Existe un conjunto de dcimas denominadas no-paramtricas o de distribucin librequevienenaconstituirseenalternativasparastoscasosoparaserusadas directamente.Sinembargoesinteresantenotarqueesdiferentenoespecificar parmetros que no suponer una cierta distribucin. Si se clasifican las dcimas se puede establecer el siguiente cuadro: Supuestosde Distribucin SinsupuestosdeDistribucin Especifica parmetroEj: t de StudentEj: Dcima Binomial No especifica parmetroEj: WilcoxonEj:Kolmogorov-Smirnov Esta estadstica se utiliza fundamentalmente cuando no se cumplen los supuestos de la estadstica paramtrica y, lo que en general va ligado, cuando el nmero muestral es bajo. Tiene ciertas ventajas como la simplicidad de tratamiento para nmeros bajos y lafaltadesupuestosacercadedistribucionesoparmetros.Sin embargo,tienealgunas crticas: i) con n > 10 en general se usan las distribuciones asintticas de los estadgrafos ynosuspropiasdistribuciones,ystassonparamtricas,ii)sondcimasconmenor potencia (mayor error de tipo II), iii) por ser discretas presentan cierta dificultad a fijar el niveldesignificacin,eiv)engeneralsebasanenlatransformacindelosvaloresa rangos, siendo sta ltima transformacin irreversible y anisomtrica (no conserva las distancias). Existenalternativasno-paramtricasparaunamuestra(PruebasdeMediana, DcimasBinomiales),perolasmsusadassonlasalternativasalaspruebaspara2 muestras o las alternativas para el anlisis de la varianza (ver ms adelante). 104 VIII.1.- Alternativas no paramtricas a las dcimas para dos muestras Se pueden resumir en el siguiente cuadro: Muestras pareadas, distribucin asimtricaSIGNOS DE FISHER Muestras pareadas, distribucin simtricaRANGOS SIGNADOS DE WILCOXON Muestras independientesSUMADERANGOSDEWILCOXON-MANN-WHITNEY Datos enumerativosMcNEMAR

Prueba de los signos de Fisher Enestapruebasecomparandosmuestras[xi]e[yi]ysedefineunadiferencia poblacionali=xi-yi =+i,dondeirepresentaelerrordemuestreo.Entonceslas hiptesis pueden ser a) Ho: = 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0 vs. H1: < 0. Se define adems di como la diferencia muestral di = xi-yi y una variable auxiliar bi que es 0 si di 0 y 1 si di > 0. El estadgrafo es: =ib B ObservamosinmediatamentequeBcorrespondealnmerodeocasionesdeun totaldenenquexi>yi, y,quealazarseesperaraquefuerael50%.Entonceses posible calcular directamente la probabilidad de calcular esto mediante una distribucin binomial(deaquesquesedenominaB).Afortunadamentenohayquehacerningn clculo y stas probabilidades se encuentran tabuladas para el nivel de significacin (), eltamaomuestral(n)ylaprobabilidad(p)queennuestrocasoesp=0.5(50%): b(,n,0.5) . Si Ho es del tipo a), rechazamos Ho si el valor calculado de B b(,n,0.5)oB n -b(,n,0.5) , si es del tipo b), rechazamos Ho si B b(,n,0.5)y si es del tipo c) entonces rechazamos Ho si B n - b(,n,0.5) . Ejemplo 1.- Estamos interesados en el efecto de cierto frmacos sobre la presin arterial como en el ejemplo VI.6. Obteniendo la tabla: 105IndividuosAntes (x1)Despus (x2) 110095 29595 38085 49080 59890 610595 711095 810092 99080 1011093 Seproponequeelfrmacobajalapresin,esdecirHo:0vs.H1:>0.Entonces creamos las variables auxiliares d = x1-x2 y b, Obteniendo: IndividuosAntes (x1)Despus (x2)DB 11009551 2959500 38085-50 49080101 5989081 610595101 711095151 81009281 99080101 1011093171 Entonces, B = bi = 8. El valor crtico para n = 10 es 8 con = 0.054, por lo que rechazamosH0yafirmamosqueelfrmacobajalapresin.Observamosquecomola distribucin binomial es discreta no se encuentra exactamente el nivel 0.05 para , y en ciertamedidaquedaacriteriodelinvestigadorlaaceptacinorechazodeH0 (esto ocurre en general en toda la estadstica no-paramtrica). Si se es riguroso, para B = 8, p = 0.054 y este valor es mayor que 0.05, por lo que deberamos aceptar H0. Sin embargo, lasdcimasbinomialessondebajapotenciay,entoncesaceptandoH0contoda seguridad estaramos cayendo en el error estadstico de tipo II. Prueba de los rangos signados de Wilcoxon Enestapruebaseconsideralamismasituacinanteriorylasmismashiptesis, peroestapruebarequiereunadistribucinsimtricadediloquesepuedeapreciar 106observandosuhistogramadefrecuencias(obienrealizandounapruebadesimetrade GUPTA, fuera del alcance de este libro). En esta prueba adems de considerar la variable bi, se ordenan de menor a mayor los valores absolutos de di (,di,) y se les asigna un orden (rango: Ri), como por ejemplo, en la siguiente tabla: di Ri -55 33 01 -12 44

En esta dcima se define el estadgrafo T = biRi. Este valor se compara con un valor crtico tabulado Tc(,n). Si Ho es del tipo a) rechazamos Hosi T Tc(,n) o s T n(n+1)/2 - Tc(,n), si es del tipo b) rechazamos Ho si T Tc(,n),y si es del tipo c) cuendo T n(n+1)/2 - Tc(,n). Ejemplo 2.- Usaremos el mismo caso anterior. Ahora agregamos la asignacin de rangos a las diferencias d: IndividuosAntes (x1)Despus (x2)DRangos(R)B 11009552.51 29595010 38085-52.50 490801071 5989084.51 6105951071 7110951591 81009284.51 990801071 101109317101 Observamosqueenelcasodeempatesselesasignaelrangopromedio.Por ejemplo hay tres valores 10, que deberan ocupar los rangos 6, 7 y 8, por lo que a los tres se les asigna (6+7+8)/3 = 7. 107Ahora se puede calcular T = Ribi = 2.5 + 7 + 4.5 + 7 + 9 + 4.5 + 7 + 10 = 51.5. Comoestevaloresmayoralvalorcrtico..Llegamosalamisma conclusin anterior. Prueba de la suma de rangos de Wilcoxon- Mann-Whitney Enestecasotenemosdosmuestrasindependientes[xi]e[yi]detamaosn1yn2. Se propone que xi = i y que yi = i + , donde i es el error experimental y da cuenta de las diferencias (efecto del tratamiento). Como antes, las hiptesis pueden ser a) Ho: = 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0 vs. H1: < 0. Enestecaso,seordenantodoslosvaloresjuntos(delasdosmuestras)yseles asigna un rango (Ri) y se consigna el estadgrafo: =oniR T11 Aqu es importante indicar que la suma se realiza sobre aquella muestra de tamao no que tiene el menor rango promedio. Estevalorsecomparaconunvalorcrticotabuladow(,n1,n2)donden1esel nmero muestral menor (no necesariamente igual a no) y n2 el mayor. Si Ho es del tipo a)rechazamosHosiT1w(,n1,n2)osT1no(N+1)-w(,n1,n2),siesdeltipob) rechazamos Ho si T1 w(,n1,n2),y si es del tipo c) cuando T1 no(N+1) - w(,n1,n2). EnrealidadWilcoxon(T)yMann-Whitney(U)consideraronestadgrafos diferentes, pero despus se demostr que la U de Mann-Whitney era U = T1-no(no+1)/2 y por tanto ambas dcimas son equivalentes. Ejemplo 3.- SupongamosquesequierencompararlospesosdedosespeciesAyByse plantea la hiptesis que A pesa ms que B. Se realiza un estudio obteniendo: 108 Especie A (masa: g)Especie B (masa: g) 3026 2828 2730 3225 2924 3322 2825 26 28 Planteamos la hiptesis Ho: 0 vs. H1: > 0 y asignamos los rangos: Especie A (masa: g)RangoEspecie B (masa: g)Rango 3013.5265.5 289.5289.5 2773013.5 3215253.5 2912242 3316221 289.5253.5 265.5 289.5 Suma de rangos82.553.5 Rango promedio11.85.9 Observamos que n1 = 7; n2 = 9 y que no = 9, y entonces T = 53.5. A este valor le correspondeunaprobabilidaddeerrordetipoI 0.05. 2.Serealizaunainvestigacinsobrelosefectosdelejerciciofsicosobrepacientes cardipatas,midiendoelmximodeoxgenoconsumidoporcadapacienteantesde comenzarelentrenamientoydespusdeseismesesdergimen.Seobtuvieronlos siguientes datos (suponga simetra): SujetoAntesDespus 14840 22526 34657 44030 54350 64255 72325 83055 Existe diferencia en el oxgeno consumido luego del entrenamiento? R: No hay evidencia; T = 9; p = 0.2. 3.Una sustancia X juega un papel en el desarrollo y mantenimiento de las neuronas. En este estudio se consider el efecto de la privacin de la sustancia sobre el contenido protenicototaldelasracesnerviosasdeO.degu.Secomparandosgrupos:las 111nacidas de hembras deficientes en la sustancia (en el tero) y las nacidas de hembras normales, pero amamantadas por hembras deficientes en la sustancia (en la leche). Se obtienen los siguientes datos: Contenido protenico total (mg de protena por raz de ganglio dorsal) EN EL TEROEn la leche 0.120.19 0.190.21 0.170.21 0.200.23 0.090.20 0.130.22 0.21 Indicanestosdatos,aunnivel=0.05,queelcontenidoprotenicototaltiendeaser menor entre las ratas privadas de la sustancia X en el tero que entre las privadas de ella en la leche? R: Si. T1 = 33; p < 0.05. 112IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION Y REGRESION113IX.- ANLISIS DE LA VARIANZA (ANOVA o ANDEVA) IX.1.-El Problema de Bonferroni Muchas veces en ciencias es necesario comparar ms de dos muestras, como por ejemplo cuando se estudia el comportamiento de una variable en tres poblaciones, o bajo 4 o 5 condiciones experimentales reguladas. En este caso, la primera tentacin es hacer varias pruebas tomando de a pares. Sin embargo inmediatamente vemos que este puede ser un nmero elevado de comparaciones, pues si hay N muestras, el nmero de pruebas que se deben hacer es: Sin embargo, este no es el nico problema. Analicemos lo siguiente: Sirealizamosunavezlaprueba,laprobabilidaddecometererrordetipoIes P(E1) = , es decir la probabilidad de no cometer error de tipo I es P(noE1) = 1-. Silapruebaserealizakvecesentonceslaprobabilidaddenocometerningn error I es P(noEk) = (1-)k y entonces la probabilidad de cometer al menos un error I en krepeticionesdeunapruebaesP(almenos1Ek)=1-(1-)k=1-[1-k+(k!/(k-2)!2!)2-.........]. Y, como n 0 para n 2, porque es pequeo, entonces P(al menos 1 Ek) k. En la siguiente tabla vemos lo que puede significar esto para = 0.05: K123510 P(almenos 1 en Ek) 0.050.090.140.230.4 Observamos que si tenemos 3 muestras k = 3 y tendramos probabilidad de error Ip = 0.14 (14%), con 4 muestras k = 6 y p = 0.3 (30%) etc. Sin embargo Bonferroni nosdaunasolucinenelcasodepocasmuestras:Sise quiere trabajar con una probabilidad de al menos 1 error I en k pruebas de un nivel = 0.05,entoncespodemosasegurarestotrabajandoencadaunadelaspruebasconun niveldesignificacin*=/k.Aunqueestesistemaesmuyrestrictivopuesrestringe mucho , puede ser muy til para bajo nmero de muestras (hasta 4 aproximadamente). EstoseconocecomolacorreccindeBonferroni.Porejemplo,sisevanarealizar4 comparaciones y se quiere una error de tipo I de 0.05, entonces en cada comparacin se debera permitir a lo sumo un error p = 0.05/4 = 0.0125. 2Nk| |= |\ .114 IX.2.- Diseo experimental El diseo experimental en trminos estadsticos se refiere al acoplamiento entre la lgicadeundiseoexperimentalcientficoyelmtodoestadsticodeanlisisdeeste diseo.Esmuyhabitualqueencienciasencontremosmuybuenosdiseoscientficos conmalosanlisisdesdelaperspectivaestadstica,osimplementediseosparalos cuales la estadstica actual es insuficiente o parcial. Enunexperimentoengeneraltenemosunaovariasvariablesrespuestao dependientes,yvariablescualitativasindependientesquedenominamosfactoreso vas.Porejemplo,puedeserinteresanteestudiarelefectodelasestacionesdelao (factor) sobre el metabolismo (variable respuesta). Losfactorespuedenser1(1factoro1va),2(2factoreso2vas)o3oms, hablandoenestecasodediseomultifactorial.Lascategorasenquesedividecada factor se denominan niveles del factor y a las combinaciones (celdas) de los niveles de losfactoressedenominantratamientos.Porejemploenlasiguientetablasemuestra una cierta variable respuesta X frente a diferentes condiciones: TEMPERATURA BAJAMEDIAALTA HUMEDADALTA---------------------- BAJA---------------------- EnestecasolavariablerespuestaesX,ysetratadeundiseodedosfactores: temperatura y humedad. El factor temperatura tiene tres niveles: baja, media y alta, y el factorhumedadtienedos:altaybaja.Elnmerodetratamientoses6(2x3).Alas unidades muestrales dentro de cada tratamiento se les denomina rplicas. Cuandolosnivelesdeunfactorsontodoslosposibles,engeneralfijadosporel experimentadorsedicequesetrabajaconunmodelotipoIodeefectosfijos,cuando los niveles son slo una muestra de las categoras posibles se dice que es un modelo II o de efectos aleatorios. Cuando en algunos factores es de un tipo y en otros de otro, es un modelomixto.Asporejemplo,sinosinteresaelefectodelaaltitudsobreel metabolismo, y escogemos tres localidades a diferentes alturas, se trata de un modelo de tipoII,pueslaslocalidadessonslounamuestradetodaslasposibl