estadistica ii - roberto manchego

Upload: rolando-terceros-moya

Post on 11-Oct-2015

46 views

Category:

Documents


0 download

TRANSCRIPT

  • Pruebas no paramtricas

    VII-12

    UNIVERSIDAD MAYOR DE SAN SIMNFACULTAD DE CIENCIAS Y TECNOLOGADEPARTAMENTO DE MATEMTICAS

    ESTADSTICA II

    CAPTULO VIII

    PRUEBAS NO PARAMTRICAS

    SEMESTRE: II/2003

    DOCENTE: Ing. Roberto Manchego C.

    Cochabamba, Noviembre de 2003

  • Distribuciones de probabilidad

    I-1

    I DISTRIBUCIONES DE PROBABILIDAD

    1.1 Variable aleatoria.- Una variable aleatoria X es una funcin de valor numrico queasigna un nmero real a cada punto del espacio muestral de un experimento.

    Se dice que X es aleatoria por que est asociada a la probabilidad de losresultados del espacio muestral.

    1.1.1 Variable aleatoria discreta.- Una variable aleatoria es discreta si la cantidad devalores que puede tomar es un nmero finito o infinito numerable de valores.

    1.1.2 Variable aleatoria continua.- Se dice que X es una variable aleatoria continuacuando los valores que toma sta son de carcter fraccionario.

    1.2 Distribucin de probabilidad.- Una distribucin de probabilidad de variablealeatoria es el resultado de asignar valores de probabilidad a todos los valoresnumricos posibles de dicha variable aleatoria, ya sea, mediante un listado o a travsde una funcin matemtica.

    1.2.1 Funcin de cuanta.- Es aquella distribucin de probabilidad de una variablealeatoria discreta, funcin que se representa generalmente mediante un listado detodos los valores numricos posibles de la variable aleatoria con sus probabilidadescorrespondientes, tal como se observa en el Cuadro (1.1) y en la Grfica (1.1).

    Cuadro (1.1)DISTRIBUCIN DE PROBABILIDAD

    DE LA VARIABLE Xxi p(xi)x1 p(x1)x2 p(x2)x3 p(x3)... ...xn p(xn)

  • Distribuciones de probabilidad

    I-2

    0 X ix 1x 3x 2

    p ( x 2 )

    p ( x 3 )

    p ( x 1 )

    p ( X i )

    Si xi es el valor de una variable aleatoria discreta y p(xi) la probabilidad de quexi tome un valor en particular, todos los valores de p(xi) deben satisfacer las siguientespropiedades:

    0)x(p i xi Nx 1

    1

    ni

    iixp xi Nx

    Por otra parte, la Funcin de distribucin acumulada de x0, es decir, laprobabilidad de que x sea menor o igual a un valor especfico x0 se calcula con laecuacin (1.1).

    0

    100

    xi

    iixpxxpxF )( xi Nx (1.1)

    1.2.2 Funcin de densidad.- Es aquella funcin en la que la probabilidad de losvalores posibles de una variable aleatoria contnua se determinan a travs de unafuncin matemtica y se ilustra en forma grfica por medio de una curva deprobabilidad.

    X

    f ( X )

    l sl i

  • Distribuciones de probabilidad

    I-3

    Si existe f(x), se debe cumplir:

    0xf l.s.xl.i 1.

    .

    slil

    dxxf

    Es importante recordar que f(x) no representa ninguna probabilidad como tal yque solamente cuando la funcin se integra entre dos puntos produce una probabilidad,es decir:

    ba

    dxxfbxapbxap xRx (1.2)

    La Funcin de distribucin acumulada de x0 se define como:

    ox

    l.ioo f(x)dxxxpxF xRx (1.3)

    1.3 Valor esperado y varianza de una variable aleatoria.-1.3.1 Valor esperado.- El valor esperado de una variable aleatoria es el valor que seespera obtener despus de repetir muchas veces el experimento. Es llamado tambinvalor a la larga y esperanza matemtica. Se define como:

    ni

    iii xpxxE

    1 discretav.a.x (1.4)

    lsli

    dxxxfxE continuav.a.x (1.5)La esperanza de una variable aleatoria x tiene las siguientes propiedades:

    a) E(k) = k k constanteb) E(kx) = k E(x) k constantec) E(k x) = k E(x) k constanted) E(x y) = E(x) E(y) x,y var. aleatorias independientese) E(x y) = E(x) E(y) x,y var. aleatorias independientes

  • Distribuciones de probabilidad

    I-4

    1.3.2 Varianza.- La varianza de una variable aleatoria x se define como:

    22 xExV (1.6)Para el caso de variables discretas y continuas, se tiene:

    ni

    iii xpx

    1

    22 discretav.a.x (1.7)

    lsli

    22 dxxfx continuav.a.x (1.8)Otras formas alternativas de clculo son:

    ni

    iii xpx

    1

    222 discretav.a.x (1.9)

    lsli

    222 dxxfx continuav.a.x (1.10)A partir de las expresiones anteriores, la varianza tambin puede expresarse con

    la ecuacin (1.11).

    222 )()( xExE (1.11)La varianza tiene las siguientes propiedades:

    a) V(k) = 0 k constanteb) V(kx) = k2 V(x) k constantec) V(kx) = V(x) k constanted) V(x y) = V(x) + V(y) x,y var. aleatorias independientes

    La raz cuadrada de la varianza de una variable aleatoria se denominadesviacin standard () y al igual que la varianza es una medida de dispersin, es decir:

    2 (1.12)

    1.4 Distribuciones tericas de probabilidad.-

    1.4.1 Distribuciones tericas de probabilidad de variable aleatoria discreta.- Lasprincipales distribuciones tericas de probabilidad de variable aleatoria discreta son:

    Distribucin Bernoulli. Distribucin Binomial.

  • Distribuciones de probabilidad

    I-5

    Distribucin Poisson. Distribucin Hipergeomtrica. Distribucin Uniforme discreta. Distribucin Polinomial. Distribucin Geomtrica.

    1.4.2 Distribuciones tericas de probabilidad de variable aleatoria continua.- Lasprincipales distribuciones tericas de probabilidad de variable aleatoria continua sedesarrollan a continuacin.

    1.4.2.1 Distribucin Normal.- La distribucin Normal o distribucin de Gauss esfundamental en la aplicacin de la inferencia estadstica, ya que las distribuciones demuchos estadgrafos muestrales tienden a la distribucin Normal conforme crece eltamao de la muestra.

    Se dice que una variable aleatoria x est normalmente distribuida si su funcinde densidad est dada por:

    x-2

    exf 2

    2x21

    (1.13)

    En la que: = valor esperado - < < += varianza > 0

    La grfica de la distribucin Normal es una curva simtrica con forma decampana, que se extiende sin lmites tanto en la direccin positiva como en la negativa.

    1.4.2.1.1.- Clculo de probabilidades.- La probabilidad de que una variable aleatorianormalmente distribuida sea menor o igual a un valor especfico, est dada por lafuncin de distribucin acumulada de la ecuacin (1.14).

    dxax

    eaxp

    22

    221

    (1.14)

  • Distribuciones de probabilidad

    I-6

    La funcin f(x) no es una funcin simple y su integracin no puede realizarse enforma sencilla, adems, si se tabulara la funcin de densidad de la distribucin Normal,la tabla que se elaborara sera para un par de valores de y 2, tarea virtualmenteimposible.

    Por tanto, para reducir el problema anterior, es necesario standarizar la variable,de tal forma que permita presentar los resultados en una sola tabla, es decir:

    xz (1.15)

    Luego:

    2

    2

    2

    2

    zezf

    (1.16)

    con: 0zE 1zV

    De manera que:

    dzeazpaxpa z

    2

    2

    2

    (1.17)

    Con mtodos de clculo integral, todava sigue siendo difcil integrar la funcin dedensidad acumulada de la distribucin Normal standarizada, sin embargo, por medio delanlisis numrico se han obtenido tablas para dicha funcin.

    1.4.2.1.2.- Propiedad reproductiva de la Distribucin Normal.- Una propiedad muyimportante de la Distribucin Normal es la llamada Propiedad Reproductiva de laDistribucin Normal, la cual indica:

    Si x1,x2,x3,.....,xk, son variables aleatorias normalmente distribuidas cada una conmedia y varianza: N(1,21), N(2,22), N(3,23),..., N(k,2k), respectivamente, adems,si:

    kxxxxy ......321 (1.18)

  • Distribuciones de probabilidad

    I-7

    Entonces se cumple:

    kyyE ......)( 321 (1.19)22

    322

    21

    2.....)( kyyV (1.20)

    1.4.2.2 Distribucin Uniforme continua.- Se dice que una variable aleatoria x estdistribuida uniformente en el intervalo (,) si su funcin de densidad es:

    casosotrosen0

    x1

    )( xf (1.21)

    La Distribucin Uniforme es llamada tambin Distribucin Rectangular, por laforma de su figura:

    0 X

    f ( X )

    ba

    1 / ( b - a )

    La Distribucin Uniforme continua presenta en los experimentos en los que ocurreun evento en que la variable aleatoria toma valores de un intervalo finito, de maneraque estos se encuentran distribuidos igualmente sobre el intervalo; es decir, laprobabilidad de que la variable aleatoria tome un valor en cada subintervalo de iguallongitud (contenido en el intervalo (,) es la misma, sin importar la localizacin exactadel subintervalo.

    La esperanza y la varianza de la distribucin Uniforme son:

    2)( xE (1.22)

    12

    )(2

    2 xV (1.23)La distribucin Uniforme es simtrica y su mediana es igual a la media.

  • Distribuciones de probabilidad

    I-8

    1.4.2.3 Distribucin Gamma.- La variable aleatoria x tiene una distribucin Gamma sisu funcin de densidad est dada por:

    x

    1ex)x(f x0, 0, 0 (1.24)

    En la que se define a la funcin gamma de a la expresin (1.25). 0

    z1 dzez)( (1.25)Para distintos valores de y se tienen los siguientes grficos:

    f (X )

    X

    f(X )

    X

    f(X )

    X

    f(X )

    = 1 = 1

    = 2 = 2

    = 2 = 1

    La esperanza y la varianza son:

    )x(E (1.26)2)x(V (1.27)

    Cuando es un nmero entero se origina la distribucin Erlang, cuya funcin dedensidad es:

    !1e)x(f

    x

    x0, 0, 1 (1.28)

    1.4.2.4 Distribucin Exponencial.- La Distribucin Exponencial, llamada tambinDistribucin Exponencial Negativa, es un caso especial de la distribucin Gamma con = 1, es decir:

  • Distribuciones de probabilidad

    I-9

    casosotrosen

    00, x

    0

    )( x

    exf

    (1.29)

    La esperanza y la varianza son:

    )x(E (1.30)2)x(V (1.31)

    Grficamente:

    X

    f ( X )

    1 /

    La variable aleatoria Exponencial representa el tiempo que transcurre hasta quese presenta el primer evento Poisson, es decir, la Distribucin Exponencial puedemodelar el lapso entre dos eventos consecutivos Poisson que ocurren de maneraindependiente y a una frecuencia constante (el parmetro representa el tiempopromedio entre dos eventos Poisson).

    Por ejemplo, el tiempo que transcurre entre llegadas de un cliente a una tienda un paciente a un servicio de emergencia de un hospital, la duracin de una llamadatelefnica, la duracin de un componente elctrico, etc..

    Esta distribucin sirve para modelar problemas del tipo tiempo-falla y problemasde lneas de espera.

    1.4.2.5 Distribucin Chi Cuadrado.- Un caso especial de la Distribucin Gamma, con = v/2 y = 2, es la Distribucin Chi Cuadrado cuya funcin de densidad es:

    2v2x12

    v

    2)2v(ex)x(f

    x0 (1.32)

  • Distribuciones de probabilidad

    I-10

    En la que:v = grados de libertad (entero positivo)

    Los grados de libertad representan la cantidad de valores que se asignan demanera arbitraria en una ecuacin, tal que de esa manera se pueda conocer una deesas variables.

    La esperanza y la varianza se muestran en las ecuaciones (1.33) y (1.34).

    v)x(E (1.33)v2)x(V (1.34)

    Esta distribucin se emplea bastante en la inferencia estadstica (pruebas dehiptesis) y de forma especial al hacer inferencias con respecto a las varianzas.

    De acuerdo al valor de v, la grfica puede ser:

    X

    f ( X )

    v = 6

    v = 3v = 1

    Para calcular probabilidades se aplica la ecuacin (1.35), aunque para elloexisten tablas con la integral ya desarrollada (ver anexos).

    a

    dxxfaxp )()( (1.35)

    1.4.2.6 Distribucin "t" o de Student.- Suponiendo que se realiza un experimento enel que se obtienen dos variables aleatorias independientes: w con Distribucin ChiCuadrado con v grados de libertad y z con Distribucin Normal con media 0 y varianza1, entonces la variable aleatoria "x" definida como:

  • Distribuciones de probabilidad

    I-11

    vwzx - < z < + (1.36)

    w>0, v>0 y entero-

  • Distribuciones de probabilidad

    I-12

    La importancia de la Distribucin t radica en el hecho de que es til al efectuarinferencias respecto a la media aritmtica cuando el valor de la desviacin standard esdesconocido y la poblacin tiene una Distribucin Normal sin importar el tamao de lamuestra.

    1.4.2.7 Distribucin "F" de Fisher.- Esta distribucin es tambin muy utilizada en lainferencia estadstica y se define de la siguiente manera:

    Sea un experimento en el que se generan dos variables aleatoriasindependientes w y z, cada una con una Distribucin Chi Cuadrado con v1 y v2 gradosde libertad respectivamente, se define la variable "x" a la relacin (1.41).

    2

    1

    vzvw

    x x >0 (1.41)

    y se dice que tiene una distribucin F con v1 y v2 grados de libertad con funcin dedensidad:

    2v

    2v

    vxvxvv2vv

    )x(f21

    2vv

    2122v

    2v22

    v1

    21 21121

    (1.42)

    La esperanza y la varianza son:

    2vv)x(E2

    2 v2 2 (1.43)

    )4v()2v(v)4v2v2(v)x(V

    22

    21

    1222

    v2 4 (1.44)

    Grficamente, para distintos valores de v1 y v2 se tiene:

  • Distribuciones de probabilidad

    I-13

    X

    f ( X ) V 1 = V 2 = 3 0

    V 1 = V 2 = 8

    0

    La Distribucin F es asimtrica hacia la derecha para cualquier par de valoresde v1 y v2, pero sta va disminuyendo conforme v1 y v2 se vuelven ms grandes.

    Para el clculo de probabilidades se emplea la ecuacin (1.45).

    a

    dxxfaxp )()( (1.45)

    La ecuacin (1.45) se encuentra tabulada, existiendo tablas para 90%, 95%, y99%.

    La importancia de esta distribucin radica en que es til para efectuar inferenciassobre las varianzas de 2 distribuciones Normales.

    BIBLIOGRAFA:(1) LEVIN Richard (1996): Estadstica para Administracin y Economa. Mxico(2) MOYA Rufino y SARAVIA Gregorio (1988): Probabilidad e Inferencia Estadstica.

    Per.(3) MOYA Rufino (1991): Estadstica descriptiva. Conceptos y aplicaciones. Per.

    ================================

  • Distribuciones de probabilidad

    I-14

    NDICE

    Pgina

    1.1 Variable aleatoria.................................................................................. 11.1.1 Variable aleatoria continua............................................................. 1

    1.1.2 Variable aleatoria discreta............................................................... 11.2 Distribucin de probabilidad de una variable aleatoria............................... 1

    1.2.1 Funcin de cuanta .................................................. 11.2.2 Funcin de densidad ................................ 2

    1.3 Valor esperado y varianza de una variable aleatoria.................................. 31.3.1 Valor esperado........................................................................ ........ 31.3.2 Varianza......................................................................................... 3

    1.4 Momento de una variable aleatoria.......................................................... 41.5 Distribuciones toricas de probabilidad 5

    1.5.1 Distribuciones tericas de probabilidad de variable aleatoria discreta... 51.5.2 Distribuciones tericas de probabilidad de variable aleatoria continua. 5

    1.5.2.1 Distribucin Normal............................................................. 51.5.2.2 Distribucin Uniforme Contnua.... 71.5.2.3 Distribucin Gamma 81.5.2.4 Distribucin Exponencial... 91.5.2.5 Distribucin Chi cuadrado.... 101.5.2.6 Distribucin t de Student 111.5.2.7 Distribucin F de Fisher. 12

  • Teora general del muestreo

    II-1

    II TEORA GENERAL DE MUESTREO

    2.1. Introduccin.- En todo estudio que se realice se desea conocer con absolutaverdad y certeza toda la informacin requerida para tales fines.

    Es natural que se busque conocer de manera exhaustiva las caractersticas deuna poblacin objeto de estudio y que para ello se requiera efectuar un censo. Elcenso tiene sus ventajas y desventajas; estas ltimas ocasionan que se recurra aotro procedimiento que vendra a ser el muestreo.

    El muestreo posee caractersticas especiales que la hacen favorable en su usofrecuente por parte de instituciones con recursos econmicos y tiempo limitados,aunque tambin el factor que se debe controlar es el error presente en esteprocedimiento.

    El muestreo tiene distintas etapas, siendo dos de las ms importantes, laforma de elegir los elementos de la muestra y el tamao de la misma. En estecaptulo se efectuar el estudio de dichas etapas, en base a las cuales se realizarninferencias referentes a los parmetros de estudio desconocidos.

    2.2 Censo.-2.2.1 Poblacin objetivo.-2.2.1.1 Definicin.- Es la totalidad de los elementos en discusin y acerca de loscuales se desea obtener alguna informacin, dichos elementos tienen caractersticascomunes que son de inters para el estudio. Ej.: todos los Centros Hospitalariosubicados en el departamento de Cochabamba, todos los Proyectos de Gradopresentados en la Carrera de Ing. Mecnica de la Facultad de Ciencias y Tecnologade la UMSS, etc..

    Para garantizar el censo es necesario acotar el universo y conocer lasunidades que lo componen; acotar el universo significa concretar la poblacin queva a ser objeto del estudio. Por ejemplo: nmero de bolsas de cemento producidaspor COBOCE el da 22 de julio de 2009 en la planta ubicada en Cochabamba.

    2.2.1.2. Tipos de poblacin.- De acuerdo a la magnitud de la poblacin se definendos tipos de poblacin.

  • Teora general del muestreo

    II-2

    2.2.1.2.1. Poblacin finita.- Una poblacin es finita si tiene un nmero limitadode sucesos o unidades elementales, numricamente es aquella que tiene menos de500.000 unidades, por ejemplo: todos los estudiantes de la Carrera de Biologa,nmero de clientes diarios que llegan a un autobanco, etc..

    2.2.1.2.2. Poblacin infinita.- Es aquella que consiste en un nmeroinfinitamente grande de observaciones. Se considera infinita a una poblacin queposee ms de 500.000 unidades. Ejemplo: el conjunto de estrellas del Universo,toda la poblacin de Bolivia, etc..

    2.2.2. Parmetro.- Es posible definir este concepto de dos formas:a) El parmetro es una caracterizacin numrica de la distribucin de la poblacin,es decir, describe parcial o completamente, la funcin de probabilidad de lapoblacin de la variable de inters. Por ejemplo, cuando se especifica de ladistribucin Poisson, se est definiendo su funcin de probabilidad:

    !xe)x(f

    x

    (2.1)Si se conoce el parmetro se puede calcular cualquier proposicin

    probabilstica. Por tanto, puesto que los parmetros son inherentes a todos losmodelos de probabilidad, es imposible calcular las probabilidades deseadas sin unconocimiento del valor de stos.

    b) El parmetro es una caracterstica de tipo descriptivo de una determinadapoblacin. Ello se refiere a que una poblacin con determinadas caractersticas,pueden ser descritas por ciertas medidas descriptivas , como por ejemplo, la mediaaritmtica, ndices poblacionales, tasas, etc..

    2.2.3. Definicin de censo.- Cuando es necesario conocer uno o ms parmetrosde una poblacin o universo se recurre a la realizacin de un censo.

    El censo constituye un examen completo de todos los elementos de unapoblacin. En la mayora de los casos la realizacin de censos para conocer lascaractersticas de una determinada poblacin resulta muy costosa, exige lamovilizacin de muchos recursos humanos, su duracin suele ser muy larga y enalgunos casos el proceso es destructivo.

  • Teora general del muestreo

    II-3

    Existen muchos tipos de censo, siendo el ms importante el censo dePoblacin y Vivienda, en el cual es necesario recabar la informacin de todos loshabitantes del pas, por ser marco obligado de referencia para multitud de trabajose investigaciones y, por razones meramente administrativas.

    2.3 Muestreo.-2.3.1.- Definicin.- Para el conocimiento de las caractersticas de la poblacinexisten mtodos opcionales cuyo costo y tiempo de realizacin se reducenconsiderablemente. Estos mtodos estn constituidos en lo que se denominamuestreo, cuyo objetivo es reconstruir modelos reducidos de la poblacin total, conresultados que pueden extrapolarse al universo del que se extraen.

    Todo ello quiere decir que a travs de muestras se puede obtener en muchoscasos, la informacin requerida, con un ahorro sustantivo de recursos humanos,econmicos y de tiempo, sin que ello implique un alejamiento de la realidad que sedesea conocer.

    Para que el proceso de muestreo sea una reconstruccin reducida pero realdel universo que se desea investigar es necesario que el tamao de las muestras yla metodologa utilizada en su elaboracin respondan a determinados principios,deducidos del clculo de probabilidades.

    2.3.2. Muestra aleatoria.- La muestra aleatoria es aquella en la que cada unidadelemental para la observacin tiene la misma probabilidad de ser incluida en lamuestra.

    O de una forma ms especfica: x1, x2, x3,....,xn, es una muestra aleatoria detamao n, si cumple:a) Cada xi es una variable aleatoria independiente.b) Cada xi tiene la misma distribucin de probabilidad.

    2.3.3. Inferencia estadstica.- La inferencia estadstica es el proceso mediante elcual se utiliza la informacin de los datos de una muestra para extraer conclusionesacerca de la poblacin de la que se seleccion.

  • Teora general del muestreo

    II-4

    La inferencia estadstica se basa en la inferencia inductiva, la cual constituyeuna generalizacin de los resultados particulares a resultados generales.

    Por ejemplo, si se tiene una florera que cuenta con 100.000 semillas de quese desean comercializar, de la cual se sabe que pueden producir flores blancas orojas. El objetivo para la gerencia es averiguar cuntas de estas 100.000 semillasproducirn flores rojas.

    Por tanto, lo ms lgico sera proceder de la siguiente manera:1o Para dar una respuesta correcta, se debera sembrar todas las semillas yobservar el nmero de las que producen flores rojas.

    2o Como ello es imposible, puesto que se desea vender todas las semillas y aunqueno se quisiera venderlas, el obtener una respuesta requerir invertir muchoesfuerzo y dinero. Por lo que:

    3o La solucin ser emplear unas cuantas semillas y basados en los resultadosaparecidos, hacer una afirmacin sobre el nmero de flores rojas que se tendrn deltotal restante de semillas.

    Toda inferencia inductiva constituye un proceso arriesgado, es decir, lainferencia inductiva exacta es imposible, existiendo un grado de incertidumbresusceptible de medicin a travs de la probabilidad.

    La importancia de la inferencia estadstica radica en que por medio de ella sehallan nuevos conocimientos.

    2.3.4. Estadgrafo.- El estadgrafo es cualquier funcin de las variables que seobservaron en la muestra, de manera que, esta funcin no contiene cantidadesdesconocidas. Por ejemplo: si x1, x2, ..., xn son variables aleatorias obtenidas deuna muestra, entonces:

    n

    xxxxx n.....321 es un estadgrafo.

    Un parmetro es una constante, pero un estadgrafo es una variablealeatoria. Adems, un parmetro describe un modelo de probabilidad, ningn valorde estadgrafo puede desempear este papel, porque depende de las observacionesde la muestra.

  • Teora general del muestreo

    II-5

    2.3.5. Diseo de una muestra.-2.3.5.1 Definicin.- Por diseo de una muestra se entiende la planificacin ometodologa para tomar muestras.

    2.3.5.2. Criterios para evaluar el diseo de una muestra.- Existen dos criteriospara evaluar el diseo de una muestra: su fiabilidad y su efectividad.

    2.3.5.2.1. Fiabilidad.- Es de esperar que en el muestreo existan errores. El errorde muestreo es la diferencia entre el valor de un estadgrafo y el valor delcorrespondiente parmetro de poblacin, ello debido a variaciones fortuitas en laseleccin de las unidades elementales.

    Por otra parte, el error de muestreo es cuantificable mediante la fiabilidad, lacual est estrechamente relacionada con la varianza del estadgrafo; por lo cual,cuanto menor la varianza, mayor ser la fiabilidad del resultado de la muestra.

    2.3.5.2.2. Efectividad.- El diseo de una muestra se considera efectivo si seobtiene cierto grado de fiabilidad al menor costo posible. Un diseo muestral seconsidera ms efectivo que otro, si el primero tiene menor costo que el segundo,dentro del mismo grado de fiabilidad.

    2.3.6. Tipos de muestreo.- Para la seleccin de la muestra se pueden utilizardistintos mtodos o combinacin de mtodos, todos estos divididos en dos grandesgrupos: Muestreo aleatorio. Muestreo no aleatorio.

    2.3.6.1. Muestreo aleatorio.- Comprende:2.3.6.1.1. Muestreo aleatorio simple.- El muestreo aleatorio simple se aplicaen casos en que:Las unidades elementales son fciles de identificar.Cuando la poblacin es pequea.Cuando la poblacin es homognea respecto a la caracterstica de inters.

    El procedimiento consiste en numerar a toda la poblacin del estudio yextraer al azar una muestra de n unidades. En el muestreo aleatorio simple la

  • Teora general del muestreo

    II-6

    seleccin de los elementos se efecta en una sola etapa y en forma directa,pudiendo ser con o sin reemplazo.

    Para la seleccin aleatoria de los nmeros se utilizan tablas de nmerosaleatorios, programas de computacin, bolillos numerados, etc..

    a) Muestreo aleatorio con reemplazo. En este caso cada elemento de la muestraposee la misma probabilidad de ser elegida, puesto que cada uno es reintegrado ala poblacin de la cual fue extrada.

    b) Muestreo aleatorio sin reemplazo. En este caso cada unidad de la poblacinposee la misma probabilidad de ser escogida que las restantes para formar parte dela muestra, considerando que la probabilidad de que un elemento sea extradodepender de los que anteriormente hayan sido elegidos.

    La clave de este procedimiento es naturalmente la tcnica del azar, aunque ellograr dicho "azar" o aleatoriedad no es cosa sencilla. Por ejemplo, si se deseaaveriguar cul es la mejor Universidad de Cochabamba, no es aleatoria una muestrade personas, si nos dirigimos al campus de la Universidad Catlica Boliviana y seprocede a entrevistar a las personas que ingresan a la misma.

    Para poblaciones grandes el mtodo es costoso y requiere mucho tiempo,siendo difcil y tediosa la elaboracin de listas con toda la poblacin. Cuando eluniverso no es homogneo se produce mucho error.

    2.3.6.1.2. Muestreo aleatorio sistemtico.- El muestreo sistemtico se empleacuando existe heterogeneidad respecto a algn rasgo de los elementos de lapoblacin y el tamao de sta es pequeo. Para tal efecto es aconsejable disponerde una lista de las unidades de la poblacin, como ser una gua telefnica.

    En el control de calidad se emplea frecuentemente el muestreo sistemticotomando muestras de artculos de la corriente de produccin.

    Este procedimiento consiste en obtener una muestra tomando cada k-simaunidad de la poblacin, tras numerar las unidades de la poblacin u ordenarlas de

  • Teora general del muestreo

    II-7

    alguna manera. La letra k representa un nmero entero llamado razn demuestreo, coeficiente de elevacin salto y es igual a:

    nNk (2.2)

    En la que:

    N = tamao de la poblacin.n = tamao de la muestra.

    Para que toda unidad de la poblacin tenga igual probabilidad de salir, elprocedimiento debe empezar al azar; para ello se elige un nmero al azar, nmerono superior a k, a partir del cual se suma sucesivamente la razn de muestreo.

    Ahora bien, la muestra sistemtica es menos representativa que el muestreoaleatorio simple, en situaciones en que existe periodicidad oculta en la poblacin, esdecir, cuando existe un movimiento cclico o peridico de los datos con la longituddel ciclo aproximndose a la razn de muestreo k; por ejemplo, la venta deentradas en una empresa cinematogrfica, el elegir sbado o domingo para tomaruna muestra, no siempre es representativo. Este problema se puede solucionarparcialmente si se procede a "desordenar" la lista.

    La desventaja principal del muestreo sistemtico es numerar u ordenar loselementos de una poblacin grande, lo cual es fsicamente imposible si se abarcatodo un pas o zona geogrficamente grande.

    2.3.6.1.3. Muestreo aleatorio estratificado.- El proceso de estratificacinconsiste en dividir la poblacin en clases o grupos llamados estratos. Dentro decada uno de tales estratos se encuentran los elementos situados de manera mshomognea con respecto a las caractersticas en estudio. Para cada estrato se tomauna submuestra mediante el muestreo aleatorio simple y la muestra global seobtiene combinando las submuestras de todos los estratos.

    El muestreo por estratos es efectivo cuando se trata de poblacionesheterogneas, por que al efectuarse la estratificacin, los grupos se establecen demodo que las unidades de muestreo tienden a ser uniformes dentro de cada clase y

  • Teora general del muestreo

    II-8

    los grupos tienden a ser diferentes entre s. As se puede controlar la proporcin decada estrato en la muestra global y no dejarla al azar, quedando asegurado elcarcter representativo de la muestra.

    Si la varianza de la caracterstica observada de cada estrato es menor que detoda la poblacin, que es lo ms usual debido a la uniformidad dentro del estrato,resultar aumentada la fiabilidad para un tamao de muestra.

    El aumento de fiabilidad y efectividad se puede incrementar clasificandotodava los estratos en subestratos llamando a este procedimiento estratificacindoble.

    Para definir los estratos se emplean: Datos anteriores. Resultados preliminares de otros estudios.

    2.3.6.1.4. Muestreo aleatorio por conglomerados.- Llamado tambin muestreopor reas, consiste en seleccionar al azar grupos, llamados conglomerados, deelementos individuales de la poblacin, y tomar luego todos los elementos o unasubmuestra de ellos dentro de cada conglomerado para constituir as la muestratotal. Como ejemplo de conglomerados se tiene:

    Urbanizaciones. Centros hospitalarios. Ciudadelas universitarias.

    Con este tipo de muestreo se desea que las diferencias entre conglomeradossean lo ms pequeas posibles, es decir, que exista homogeneidad entreconglomerados; por otro lado, se busca que dentro de los conglomerados, lasdiferencias entre los elementos individuales sean lo ms grandes posibles, es decir,que exista heterogeneidad dentro de los conglomerados. En ello radica la diferencia,diametralmente opuesta, al muestreo por estratos.

    El objetivo en el muestreo por conglomerados es que cada conglomerado seauna representacin, a escala reducida, del universo. Adems, slo algunos de stos

  • Teora general del muestreo

    II-9

    forman parte de la muestra, mientras que en el muestreo estratificado existe en lamuestra algn elemento de cada uno de los estratos.

    Si todos los elementos de cada uno de los conglomerados se incluyen en lamuestra, se denomina muestreo de una etapa. Si se extrae una submuestraaleatoria de elementos de cada conglomerado seleccionado, se tiene un muestreoen dos etapas. Si se obtienen ms de dos etapas en la obtencin de la muestra, sedice que es un muestreo de etapas mltiples o polietpico.

    Este tipo de muestreo se emplea a menudo en el control de calidadestadstico, seleccionando lotes o "tandas" de produccin al azar comoconglomerados.

    2.3.6.2. Muestreo no aleatorio.- Frente a los distintos tipos de muestreoaleatorio, se suelen utilizar otros sistemas de seleccin de la muestra, englobadosen lo que tambin se denomina muestreo dirigido. El recurrir a uno u otro mtodose encuentra en funcin no slo de los costos, sino tambin de la precisin que sedesea obtener de la estimacin y la posibilidad de cuantificar los errores demuestreo.

    Generalmente, las instituciones oficiales tienden a emplear muestreosaleatorios y las instituciones de opinin, mayormente privadas, emplean elmuestreo no aleatorio; ello en virtud a la disponibilidad de informacin y el costoque ello representa.

    2.3.6.2.1 Muestreo opintico.- En este caso el investigador, segn su criterio,selecciona la muestra de manera que sea lo ms representativa a los efectos de lainvestigacin que se pretende realizar, por ejemplo: estudios sobre el consumo dedroga en una determinada ciudad. Sin embargo, est sujeto a la subjetividad delinvestigador y los resultados carecen de fiabilidad en trminos estadsticos.

    2.3.6.2.2. Muestreo por cuotas.- Consiste en facilitar al entrevistador el perfil delas personas que tiene que entrevistar de acuerdo a los objetivos del estudio.

    2.4. Distribucin muestral.- La distribucin muestral de un estadgrafo es ladistribucin de probabilidad que expresa la relacin funcional entre cada uno de los

  • Teora general del muestreo

    II-10

    valores del estadgrafo y su correspondiente probabilidad, como resultado de unnmero infinito de muestras aleatorias independientes, cada una de tamao n,provenientes de la misma poblacin.

    De la distribucin muestral los elementos ms importantes son el valoresperado y la varianza. Por otro lado, la distribucin muestral de un estadgrafo notiene la misma forma que la funcin de probabilidad de la poblacin de la cualproviene la muestra.

    Por ejemplo, suponga que se tiene inters en el nmero de clientes quellegan a los bancos de la ciudad, entre las 9:00 y las 10:00 de la maana, teniendocerteza que cada una de las llegadas es independiente entre s, se decideseleccionar en forma aleatoria cinco bancos durante 8 das. Para cada muestradiaria, se procede a contar la cantidad de personas que ingresan durante elintervalo de una hora en los cinco bancos. Con tales consideraciones se obtienen losresultados del cuadro (2.1).

    Cuadro (2.1)NUMERO DE LLEGADAS A LOS BANCOS EN UNA HORA

    DIABANCO

    1 2 3 4 5 6 7 8

    BISA 63 59 50 36 36 38 55 58

    MERCANTIL-STA. CRUZ 32 44 25 57 46 45 45 50

    UNION 54 39 39 68 58 50 51 53

    GANADERO 52 46 34 58 54 38 54 51

    DE CREDITO 48 44 56 67 56 58 41 38Promedio (x) 50 46 40 57 50 46 49 50Fuente: Elaboracin propia.

    En este caso, el estadstico es el promedio o media muestral y todos losvalores obtenidos, conforman la distribucin muestral de x.

    2.4.1. Distribucin muestral de x (promedio muestral).- Uno de losestadgrafos ms importante es el promedio de un conjunto de variables aleatoriase independientemente distribuidas, llamado tambin promedio o media muestral.Este estadgrafo tiene un papel muy importante en problemas de decisiones paramedias poblacionales desconocidas.

  • Teora general del muestreo

    II-11

    Por tanto, si: x1, x2, x3,....., xn, es una muestra aleatoria de n variablesaleatorias independientes e igualmente distribuidas con E(xi)= y varianzaVAR(xi) = 2, para i = 1, 2, 3,...., n; se define a la media muestral como:

    n

    1iin21nx

    nx.........xxx (2.3)

    Si se aplica muestreo con reemplazo, entonces se cumple que:

    )x(Ex (2.4)

    n)x(V2

    2x

    (2.5)de lo que se deduce:

    nx (2.6)

    que se denomina error tpico de la media muestral o desviacin standard de ladistribucin muestral de la media muestral.

    Este resultado es vlido sin importar la distribucin de probabilidad de lapoblacin de inters, siempre y cuando la varianza tenga un valor finito.

    Lo expuesto anteriormente hace posible encontrar el error tpico de la mediasin conocer la distribucin de x .

    Para el caso del muestreo sin reemplazo, se tiene:

    x (2.7)

    n)1N()nN( 22

    x

    (2.8)

    En la que:

    N = Nmero de elementos de la poblacin.(N-n)/(N-1) = correccin finita de la poblacin

  • Teora general del muestreo

    II-12

    Cuando N tiende a infinito la ecuacin (2.8) se transforma en la ecuacin(2.6).

    El error tpico de la media vara proporcionalmente a la desviacin standardde la poblacin, pero vara inversamente proporcional a la raz cuadrada del tamaode la muestra, es decir, dado el tamao de la muestra, cuanto mayor sea el valorde tanto mayor ser el valor de x , y dado , cuanto mayor sea el valor de nmenor ser el valor de x . Por tanto, se deduce que cuanto mayor sea la muestra,se tendr ms certeza de que la media muestral es una buena estimacin de lamedia poblacional.

    2.4.2. Teorema central del lmite.- Sean: x1, x2, x3,....., xn un conjunto de nvariables aleatorias independientes e igualmente distribuidas, tal que E(xi)= yVAR(xi)= 2 , tienen un valor finito para i= 1, 2, 3,..., n.

    Si: Yn = x1 + x2 + x3 + ..... + xn (2.9)

    con valor esperado y varianza:E(Yn) = n (2.10)

    VAR(Yn)= n2 (2.11)

    entonces la variable aleatoria z, estandarizada de la siguiente manera:

    n

    nuyz

    (2.12)se aproxima a una Distribucin Normal con media igual a cero y varianza igual a 1,siempre y cuando n tienda al infinito. Esto significa que la suma de un nmerogrande (n 30) de variables aleatorias tendr una Distribucin Normal Standard,independiente de la distribucin de probabilidad de la variable aleatoria original.

    Ahora bien, efectuando operaciones algebraicas se tiene tambin que laecuacin (2.12) se puede expresar como:

    n

    xz (2.13)

    que tambin se ajusta a una distribucin Normal standarizada.

  • Teora general del muestreo

    II-13

    En otras palabras, para n grande (n 30), la variable aleatorian

    xz se

    aproxima a una Distribucin Normal con media 0 y varianza 1, sin importar elmodelo de probabilidad a partir del cual se obtuvo la muestra.

    2.5. 2.5 Clculo del tamao de la muestra.- Dependiendo del tamao de lapoblacin objetivo, el clculo de n, se distingue si la poblacin es finita o infinita.

    2.5.1 Clculo del tamao de muestra para poblaciones infinitas.-

    2.5.1.1. Teorema o desigualdad de Tchebycheff.- Si una variable aleatoria xtiene una distribucin de probabilidad conocida, se podr conocer la media () y lavarianza (2). Pero, si se conoce y 2 no se puede determinar la distribucin deprobabilidad de x, sin embargo, se puede calcular un lmite superior (o inferior)para la probabilidad del tipo (| | < ).

    La desigualdad de Tchebycheff indica: Si la variable aleatoria x con funcin deprobabilidad f(x) (generalmente desconocida) tiene media y varianza conocidos,entonces para cualquier k>1, se cumple que:

    2k11)kx(p (2.14)

    La ecuacin (2.14) indica que la probabilidad de que x tome un valor dentrodel intervalo (-k;+k) es por lo menos 2k

    11 .Puesto que (x- k) y (x- k) son eventos complementarios tambin

    se cumple:

    2k1)kx(p (2.15)

    Lo anterior significa que la probabilidad de que x tome algn valor fuera delintervalo (-k;+k) es a lo ms 1/k.

    La ventaja ms importante de este teorema es que se aplica a todo tipo dedistribucin y su desventaja es que slo proporciona un lmite superior (o inferior,segn sea el caso) de probabilidad.

  • Teora general del muestreo

    II-14

    2.5.1.2. Ley de los grandes nmeros.- El teorema de Tchebycheff se aplica a lavariable x, pero si este Teorema se aplicase a la variable x , esta aplicacin sedenomina Ley de los grandes nmeros, la cual indica:

    Sean: x1, x2, x3,....., xn , n variables aleatorias independientes e igualmentedistribuidas, tales que E(xi)= y VAR(xi)= 2, tienen un valor finito para i= 1,2,3,...., n, y considerando que

    n

    ii n

    xx1

    es un buen estimador de (media

    poblacional).

    A partir del Teorema de Tchebycheff para poblacin:2k11)kx(p (2.16)

    Aplicando a la variable aleatoria x , se tiene:2xx k11)kx(p (2.17)

    Puesto que x y nx , se tiene:

    2k11)nkx(p

    (2.18)o tambin:

    2k1)nkx(p

    (2.19)

    O expresado de otra forma, haciendo que:

    nke (2.20)

    22

    ne1)ex(p (2.21)

    de lo que se deduce que:2

    ekn

    (2.22)

  • Teora general del muestreo

    II-15

    La Ley de los grandes nmeros indica que se puede determinar una muestraaleatoria de tamao n de una poblacin con funcin de probabilidad f(x), tal que laprobabilidad de que x difiera de en menos de una cantidad arbitrariamentepequea e, llegue a ser tan prxima a 1 cuanto ms grande sea n. Es decir, si ncrece, la probabilidad de que x valga se acerca a 1.

    2.5.2. Clculo del tamao de muestra para poblaciones finitas.-Adicionalmente, a la ecuacin presentada con anterioridad, deducida de la Ley delos Grandes Nmeros, la cuales es aplicada para poblaciones infinitas, ya sea elcaso en el que se traten de caracteres cualitativos o cuantitativos, existen otras dos,las cuales son utilizadas con bastante frecuencia en los estudios de mercado paracuando las poblaciones sean finitas. Dichas ecuaciones, deducidas empricamente,son:

    Carcter cuantitativo: n = (2.23) Carcter cualitativo: n = (2.24)

    En la que:N = tamao de la poblacin.2= varianza poblacional (en caso de no disponer de ella, se

    utiliza su estimador respectivo)e = error absolutoP = proporcin poblacional correspondiente al atributo de inters

    (en caso de no disponer de ella se estima a partir de unamuestra piloto)

    Q = 1 - PZtablas = valor perteneciente a la Distribucin Normal Standard

    correspondiente a un nivel de confianza (1-)%, siendolos ms frecuentes:

    Ztablas = 2.575 1- = 99%Ztablas = 1.96 1- = 95%Ztablas = 1.645 1- = 90%

  • Teora general del muestreo

    II-16

    2.6. Determinacin del tamao de muestra en el caso del muestreoaleatorio estratificado.- El problema de conceder a cada estrato la adecuadarepresentacin en la muestra (conociendo de antemano el tamao de la muestra n)se conoce con el nombre de afijacin. Para tal efecto se conocen tres criterios:

    2.6.1. Afijacin igual.- Siendo L el nmero de estratos y n el tamao de lamuestra, ambos conocidos de antemano, entonces:

    Lnn.....nn L21 (2.25)

    2.6.2. Afijacin proporcional.- Considerando Ni el tamao de la poblacin en elestrato i-simo y denominando fraccin de muestreo al cociente n/N, este criterioconsiste en que, en cada estrato, la fraccin de muestreo permanezca constante,por tanto:

    ii NNnn i= 1,2,...,L (2.26)

    Para calcular el estimador de la media poblacional x , se emplea la relacin:

    n

    1iii

    NxNx (2.27)

    2.6.3. Afijacin ptima.- Consiste en que cada tamao de la muestra por estratodepende del tamao de la poblacin en el mismo (Ni) y de la dispersin de lavariable que se estudia, tomndose como medida de dicha dispersin a ladesviacin standard i en el correspondiente estrato i-simo, por lo que, los valoresde ni sern:

    Li

    ii

    iii

    N

    nNn

    1

    (2.28)

    El estimador de la media poblacional se calcula empleando la ecuacin (2.27).

  • Teora general del muestreo

    II-17

    BIBLIOGRAFA:(1) CANAVOS George. Probabilidad y estadstica. Aplicaciones y mtodos,Mxico, 1994.(2) HINES Walter y MONTGOMERY David. Probabilidad y Estadstica paraIngeniera y Administracin. McGraw-Hill, Mexico, 1996.(3) KAZMIER Leonard. Estadstica aplicada a Administracin y Economa,McGraw-Hill, Mxico, 1991.(4) LEVIN Richard y RUBIN David. Estadstica para Administradores, PrenticeHall, Mxico, 1996(5) MILLER Irwin, FREUND John y JOHNSON Richard. Probabilidad y estadsticapara ingenieros, Mxico, 1994.(6) MOYA Rufino y SARAVIA Rufino. Probabilidad e Inferencia Estadstica. Per,1988.

    ==========================

  • Teora de la estimacin estadstica

    III-1

    III TEORA DE LA ESTIMACIN ESTADSTICA

    3.1 Introduccin.- La estimacin estadstica consiste en el proceso de aproximar unparmetro de poblacin desconocido, mediante un estadgrafo obtenido a partir deobservaciones efectuadas en una muestra.

    El proceso de estimacin, bsicamente, consiste en los siguientes pasos:

    a) Seleccionar un estimador para inferir el parmetro deseado del conjunto o universobajo estudio.

    b) Seleccionar una muestra de este conjunto.c) Valorar al estimador de la muestra seleccionada.d) Inferir, de este valor, el parmetro buscado de ese universo.

    La estimacin estadstica se divide en estimacin puntual y estimacin porintervalos.

    3.2 Estimacin puntual.- La estimacin puntual consiste en estimar un slo valorcomo estimacin de un parmetro de poblacin desconocido, se denomina puntualporque se utiliza un slo punto del conjunto de todos los valores posibles.

    En el caso general, si es el parmetro desconocido de una variable aleatoria xcon distribucin de probabilidad f(x,), y sean x1, x2, x3,...., xn, una muestra aleatoria den valores de x tomados de esta distribucin; se denominar (theta circunflejo) a laestimacin de calculada a partir de dicha muestra de n observaciones; de estamanera, es un estadgrafo muestral con una distribucin muestral terica.

    De todas maneras, en toda muestra existen errores, puesto que la muestra esuna parte pequea de todo el conjunto de observaciones posibles, por lo que, es muyarriesgado afirmar que el valor de un estimador obtenido a partir de una muestra es elcorrespondiente al valor del parmetro poblacional.

    3.2.1 Propiedades que debe tener un buen estimador.- Para determinar un buenestimador se aplican cuatro propiedades: consistencia, ausencia de sesgo, eficiencia ysuficiencia.

    A lo largo de todo el anlisis se supondr la existencia de un slo parmetrodesconocido, sin embargo, en condiciones generales estos conceptos puedenextenderse a un nmero mayor de parmetros desconocidos.

    3.2.1.1 Consistencia.- Es razonable esperar que un buen estimador de un parmetro sea cada vez mejor conforme crece el tamao de la muestra. Esto es, a medida que

  • Teora de la estimacin estadstica

    III-2

    la informacin en una muestra aleatoria se vuelve ms completa, la distribucinmuestral de un buen estimador se encuentra cada ms concentrada alrededor delparmetro . Se tendr un mejor estimador de si se basa en 30 observaciones que sise lo hace en 18.

    Un estimador consistente es el que tiende a tener una probabilidad de acercarseal parmetro de la poblacin a medida que el tamao de la muestra crece, es decir, si es un estadgrafo muestral calculado a partir de una muestra de tamao n y es elparmetro de la poblacin que se va ha estimar, entonces, es un estimadorconsistente de si, para todo nmero positivo arbitrariamente pequeo e, se cumple laecuacin (3.1).

    1 )lim epn (3.1)La ecuacin (3.1) se denomina convergencia en probabilidad, es decir, si un

    estimador es consistente converge en probabilidad al valor del parmetro que estintentando estimar conforme el tamao de la muestra crece.

    3.2.1.2 Ausencia de sesgo.- Para comprender mejor esta propiedad, se define el ErrorCuadrtico Medio de como 2E , es decir, el Error Cuadrtico Medio es elvalor esperado del cuadrado de la diferencia entre y .

    Desarrollando la expresin anterior y efectuando operaciones se tiene: 222 )( EE (3.2)La ecuacin (3.2) significa que el error cuadrtico medio es la suma de 2

    cantidades no negativas: 2 es la varianza del estimador y el trmino )(E , el cualse denomina sesgo del estimador, elevado al cuadrado.

    Es deseable que el error cuadrtico medio sea lo ms pequeo posible, para locual la varianza del estimador ( 2 ) debe ser lo ms pequea posible y el sesgoprximo a cero o cero.

    En vista de que la varianza del estimador ( 2 ) no es posible controlar, lodeseable ser tener un estimador cuyo sesgo sea cero, estimador al que se denominarinsesgado.

    Puesto que , estimador de , es una variable aleatoria, como tal tiene unadistribucin de probabilidad con media y varianza, se dice, que es un estimador

  • Teora de la estimacin estadstica

    III-3

    insesgado de , si el valor esperado de es igual a , es decir, si:

    )(E (3.3)

    Dicho de otra forma, es de esperar que si se toman muchas muestras de tamaodado partiendo de la misma distribucin, y si de cada una se obtiene un valor de , lamedia aritmtica de todos los valores de han de estar muy cerca de .

    3.2.1.3 Eficiencia.- Un estimador es eficiente, si entre todos los estimadoresinsesgados, tiene varianza ms pequea. Dicho estimador tambin se llama estimadorinsesgado de varianza mnima.

    En otras palabras, suponiendo que de la misma muestra se obtienen 2estimadores 1 y 2 y, ambos son estimadores insesgados de ; adems, si porejemplo la varianza de 1 es menor que la varianza de 2 , se dice que 1 es mseficiente que 2 , por que sus valores estn ms cerca de que los de 2 .

    3.2.1.4 Suficiencia.- Un estimador suficiente del parmetro , es aquel que utiliza todala informacin pertinente sobre que se puede disponer de la muestra.

    Por ejemplo, si se toma una muestra de 30 observaciones con el fin de estimar ,y si 1x es el promedio de la primera y ltima observaciones, 2x es el promedio de las10 primeras observaciones y 3x es el promedio de las 5 observaciones centrales, seconcluye que 2x es el estimador suficiente entre los 3 estimadores calculados.

    3.2.2 Estimacin por el mtodo de mxima verosimilitud.- Aunque unexperimentador decide sobre qu propiedades desea que posea un estimador, tieneque enfrentarse con el problema de cmo obtener dichos estimadores. Uno de los msutilizados es el mtodo de mxima verosimilitud.

    Bsicamente, el mtodo de estimacin por mxima verosimilitud selecciona comoestimador a aquel valor del parmetro que tiene la propiedad de maximizar el valor de laprobabilidad de la muestra aleatoria observada.

    El procedimiento consiste en considerar todos los valores imaginables delparmetro de poblacin, que se encuentran en la muestra, y calcular la probabilidad deque se hubiera obtenido el estadgrafo muestral particular, dados todos los valoresimaginables del parmetro.

  • Teora de la estimacin estadstica

    III-4

    Sea una variable aleatoria cuya funcin de cuanta o densidad f(x), y con un sloparmetro ; suponiendo que se efecta n veces el experimento correspondiente, conlo que se obtiene una muestra de n nmeros: x1, x2, x3,, xn.

    Adems, si existe independencia de los n ensayos, entonces la probabilidad deque una muestra de tamao n conste precisamente de estos n valores est expresadapor una funcin L(), funcin que se denomina funcin de verosimilitud y que semuestra en la ecuacin (3.4).

    );x(f.........);x(f);x(f);x(f)(L n321 (3.4)

    Los valores );x(f.........);x(f);x(f);x(f)(L n321 dependen delparmetro , luego, L depende de x1, x2, x3,...., xn y . Si x1, x2, x3,.., xn son constantesy conocidos, L ser funcin slo de .

    La estimacin por la mxima verosimilitud consiste en hallar el valor de demanera que L tenga un valor mximo, para lo que ser necesario derivar L respecto de, es decir:

    0L (3.5)

    obteniendo el estimador , llamado estimador mximo verosmil de .

    En virtud a que L(), Ln L() y Log L() tienen su mximo para el mismo valor de, en la mayor parte de los casos es posible utilizar esta propiedad para facilitar losclculos. Por lo que se tiene:

    0LnL (3.6)

    0LogL (3.7)

    Para los casos en que existen varios parmetros, la funcin de mximaverosimilitud es:

    ),..,;x(f...),...,;x(f),..,;x(f),...,(L k21nk212k211k21 (3.8)

    Si se satisfacen ciertas condiciones de regularidad, el punto en que la

  • Teora de la estimacin estadstica

    III-5

    verosimilitud es mxima es una solucin del sistema de k ecuaciones compuesta por:

    0L1

    (3.9)

    0L1

    (3.10)....................

    0Lk

    (3.11)

    Tambin en este caso puede ser ms fcil trabajar con el logaritmo (natural odecimal) de la funcin de verosimilitud.

    Este mtodo tiene la propiedad de proporcionar estimadores que son funcionesde estadsticas suficientes, siempre y cuando el estimador mximo verosmil sea nico.Adems, tambin proporciona un estimador eficiente, si es que existe. Sin embargo, lamayora de estos estimadores son sesgados.

    La desventaja de este mtodo radica en el hecho de que no da medida alguna dela precisin de la estimacin y no indica la magnitud del error en que se puede incurrir.

    3.3 Estimacin por intervalos.- La estimacin por intervalos describe un intervalo devalores dentro del cual es posible que se encuentre un parmetro poblacional, mspropiamente, consiste en determinar un intervalo (a,b) que comprende un parmetro depoblacin con cierta probabilidad (1- ) , es decir:

    1)ba(p (3.12)

    En esta expresin: a y b son variables aleatorias que dependen del estimador y que se denominan:

    lmite de confianza inferior y lmite de confianza superior, respectivamente. Al intervalo (a,b) se denomina intervalo de confianza y es un estimador de intervalo

    que se construye respecto a y que permite especificar el alcance de la estimacinque se est efectuando.

    b-a es una medida de la precisin. (1-) se denomina nivel de confianza y representa la confianza probabilidad de

    que en ese intervalo se incluya el parmetro que se estima. Una probabilidad msalta representa ms confianza.

  • Teora de la estimacin estadstica

    III-6

    Para tal efecto, se puede construir distintos intervalos de confianza, ya seanunilaterales o bilaterales:

    Intervalo de confianza para la media aritmtica. Intervalo de confianza para la diferencia de dos medias aritmticas. Intervalo de confianza para la proporcin. Intervalo de confianza para la varianza. Intervalo de confianza para la razn de dos varianzas.

    3.3.1 Intervalo de confianza bilateral para la media aritmtica de lapoblacin.- Para estimar un intervalo de confianza para , se toma una muestra

    aleatoria de n observaciones: x1, x2, x3,....., xn, y de dicha muestra se calcula elestimador puntual x .

    En el cuadro (3.1) se muestran los intervalos de confianza para la mediapoblacional tanto para Distribuciones Normales como para las que no lo son.

    Cuadro (3.1)INTERVALOS DE CONFIANZA PARA ESTIMAR LA

    MEDIA ARITMTICA DE LA POBLACIONDISTRIBUCION

    DE LA POBLACINTAMAO DE

    MUESTRA2

    CONOCIDO2

    DESCONOCIDONormal Grande (n 30) xtablaszx xtablasszx Normal Pequea (n

  • Teora de la estimacin estadstica

    III-7

    tablasz valor absoluto de z perteneciente a la Distribucin Normal Standarizadacorrespondiente a un valor de (1-) central.

    tablast valor absoluto de t perteneciente a la Distribucin t correspondiente a unvalor de (1-) central con v = n-1 grados de libertad.

    3.3.2 Intervalo de confianza bilateral para la diferencia de dos mediasaritmticas poblacionales.- En el cuadro (3.2), considerando dos muestras

    aleatorias de tamaos n1 y n2 respectivamente, se presentan los intervalos de confianzapara la diferencia entre medias aritmticas de dos distribuciones (1 - 2).

    Cuadro (3.2)INTERVALOS DE CONFIANZA PARA ESTIMAR LA DIFERENCIA ENTRE MEDIAS

    ARITMTICAS DE DOS POBLACIONESDISTRIBU-CION DE

    POBLACIN

    TAMAO DEMUESTRAS

    12 y 22CONOCIDOS

    12 y 22DESCONOCIDOS

    Normal (n1,n2 30) 21 xxtablas21 zxx 21 xxtablas21 szxx Normal (n1,n2< 30) 2121 xxtablaszxx

    2121

    11nnStxx ptablas

    Cualquiera (n1,n2 30) 21 xxtablas21 zxx 21 xxtablas21 szxx FUENTE: Elaboracin propia.

    En la que:

    2

    22

    1

    21

    xx nn21 (3.15)

    21 xx desviacin standard de la distribucin muestral de la diferencia de dosmedias muestrales.

    2

    22

    1

    21

    xxxx nS

    nSS 2121 (3.16)

    21 xxS = estimador de la desviacin standard de la distribucin muestral de ladiferencia de dos medias muestrales.

  • Teora de la estimacin estadstica

    III-8

    2

    1121

    222

    211

    nn

    SnSnSp (3.17)

    Sp = estimador combinado de la desviacin standard de la distribucin muestral de ladiferencia de dos medias muestrales.

    tablast = valor absoluto de t perteneciente a la Distribucin t correspondiente a unvalor de (1-) central con v grados de libertad.

    2nnv 21 (3.18)

    3.3.3 Intervalo de confianza bilateral para la varianza de unaDistribucin Normal.- Para estimar un intervalo de confianza para 2 que

    pertenece a una Distribucin Normal, se toma una muestra aleatoria de nobservaciones: x1, x2, x3,....., xn, y de dicha muestra se calcula el estimador puntual S2.

    Es posible demostrar que la variable: 2

    22 1

    Sn (3.19)

    pertenece a una Distribucin Chi cuadrado con (n-1) grados de libertad, tal como semuestra en el siguiente grfico.

    f(X )

    0 X

    1-

    n

    nXX

    Para desarrollar el intervalo de confianza, se puede observar del grfico:

    1p 2

    1n,2

    221n,21

    (3.20)

    Efectuando operaciones se tiene:

  • Teora de la estimacin estadstica

    III-9

    1s1np 21n,2

    2

    22

    21n,21

    (3.21)

    1s1ns1np 2

    1n,21

    22

    21n,2

    2(3.22)

    3.3.4 Intervalo de confianza bilateral para la proporcin de unaDistribucin Binomial.- Considerando que se ha tomado una muestra aleatoria

    de n observaciones de una poblacin con Distribucin Binomial con parmetros n y p;para estimar el valor de p, se obtiene x observaciones en esta muestra quepertenecen a la clase de inters y se utiliza el estimador puntual:

    nxp (3.23)

    Es posible demostrar que:

    ppEP )( (3.24)

    n

    ppP

    pV 12 (3.25)

    n

    ppP

    1 (3.26)Solamente para el caso de tener un tamao de muestra grande (n 30),

    aplicando el Teorema Central del Lmite y por analoga con el caso de la estimacin dela media aritmtica para el caso de una distribucin cualquiera (con n 30 y varianzaconocida), el intervalo de confianza para la proporcin es:

    ptabzp (3.27)Ahora bien, puesto que en la expresin (3.26) se desconoce p, se reemplaza

    por su estimador p ,, por lo cual se tiene el intervalo (3.28).

    n

    ppzp tablas

    1 (3.28)

    BIBLIOGRAFA:(1) HINES Walter y MONTGOMERY David (1996): Probabilidad y Estadstica para

    Ingeniera y Administracin. McGraw-Hill, Mxico.

  • Teora de la estimacin estadstica

    III-10

    (2) KAZMIER Leonard (1991): Estadstica aplicada a la administracin y economa.McGraw-Hill, Mxico.

    (3) LEVIN Richard y RUBIN David (1996): Estadstica para administradores.Prentice-Hall, Mxico

    (4) MILLER Irwin, FREUND John y JOHNSON Richard (1994): Probabilidad yestadstica para ingenieros, Mxico.

    (5) MOYA Rufino (1988): Estadstica Descriptiva. Per.(6) TRIOLA Mario F. (2000): Estadstica elemental. Prentice-Hall, Mxico.

    ================================

  • Teora de la estimacin estadstica

    III-11

    INDICEPg.

    4.1 Introduccin................................................................................... 14.2 Estimacin puntual......................................................................... 1

    4.2.1 Propiedades que debe tener un buen estimador..................... 14.2.1.1 Consistencia............................................................... 24.2.1.2 Ausencia de sesgo...................................................... 24.2.1.3 Eficiencia................................................................... 34.2.1.4 Suficiencia................................................................. 3

    4.2.2 Estimacin por el mtodo de mxima verosimilitud................... 34.3 Estimacin por intervalos................................................................ 5

    4.3.1 Intervalos de confianza bilaterales para la media de lapoblacin 6

    4.3.2 Intervalos de confianza bilaterales para la diferencia de dos mediaspoblacionales............................................................. 7

    4.3.3 Intervalo de confianza bilateral para la varianza de una DistribucinNormal............................................................... 8

    4.3.4 Intervalo de confianza bilateral para la proporcin de una DistribucinBinomial............................................................. 8

  • Pruebas de hiptesis estadsticas

    IV-1

    IV PRUEBAS DE HIPTESIS ESTADSTICAS

    4.1 Introduccin.- La inferencia relativa a un parmetro cualquiera de unapoblacin suele hacerse a travs de 2 mtodos: estimando el parmetro en base deuna muestra aleatoria o realizando una prueba sobre la aceptacin o refutacin delvalor del parmetro. En este captulo se estudiar el segundo mtodo: la prueba ocontraste de hiptesis estadstica.

    4.2 Conceptos bsicos.- A continuacin se detallan las principales definicionesreferidas a las pruebas estadsticas.

    4.2.1 Hiptesis estadstica.- Una hiptesis estadstica es un enunciado que sehace acerca de la distribucin de probabilidad de una o ms variables aleatorias. Lashiptesis estadsticas a menudo involucran uno ms parmetros.

    Se puede especificar una hiptesis indicando el tipo de distribucin y el valoro valores del parmetro que la definen. En la prctica, la distribucin de poblacin,generalmente se asume, por tanto, una hiptesis se especifica con el valor o losvalores del parmetro.

    4.2.2 Hiptesis nula e hiptesis alterna.- La hiptesis nula, denotada por H0, esla hiptesis estadstica que se desea probar; mientras que, la hiptesis alterna,denotada por H1, es una suposicin de lo que sera si es que no se cumple lahiptesis nula.

    La hiptesis nula suele determinarse de tres maneras: Puede resultar de la experiencia o conocimiento pasado del futuro. Puede determinarse a partir de alguna teora o modelo. Cuando el valor del parmetro poblacional es resultado de consideraciones

    experimentales.

    Una hiptesis nula debe considerarse como verdadera a menos que existierasuficiente evidencia en contra (evidencia que es proporcionada por la muestra).

    4.2.3 Prueba de hiptesis estadstica.- La prueba de hiptesis estadstica esuna metodologa que, en base de los valores experimentales observados, conduce auna decisin, ya sea aceptar o rechazar una hiptesis bajo consideracin.

    Existen dos tipos de pruebas, las pruebas unilaterales y las pruebasbilaterales.

  • Pruebas de hiptesis estadsticas

    IV-2

    4.2.3.1 Pruebas unilaterales.- Estas pruebas se clasifican en:

    4.2.3.1.1 Prueba de la cola inferior o cola izquierda.- En este caso lashiptesis se plantean de la siguiente forma:

    H0: a H0: > a H0: = aH1: < a H1: < a H1: < a

    4.2.3.1.2 Prueba de la cola superior o prueba de la cola derecha.- Para estecaso las hiptesis se plantean de la siguiente manera:

    H0: a H0: < a H0: = aH1: > a H1: > a H1: > a

    4.2.3.2 Pruebas bilaterales o prueba de dos colas.- En este caso, lashiptesis se formulan de la siguiente forma:

    H0: = aH1: a

    4.2.4 Tipos de errores.- La decisin para aceptar o rechazar la hiptesis nula (H0)se basa en los datos de la muestra aleatoria. Cuando se toma una decisinutilizando la informacin de una muestra aleatoria esta decisin se encuentra sujetaa error. En las pruebas de hiptesis pueden cometerse dos tipos de errores: errordel tipo I y error del tipo II.

    4.2.4.1 Error tipo I.- El error de tipo I se comete cuando se rechaza la hiptesisnula (H0) siendo que en realidad es verdadera. La probabilidad de cometer el errorde tipo I es igual a , es decir, es el nivel de significacin. Los niveles designificacin o significancia ms utilizados son: 10%, 5% y 1%.

    El nivel de confianza es el complemento del nivel de significacin, de talforma que se cumple la ecuacin (4.1).

    nivel de confianza + nivel de significacin = 1 = 100% (4.1)

    4.2.4.2 Error tipo II.- El error de tipo II se comete cuando se acepta la hiptesisnula (H0) cuando en realidad es falsa. La probabilidad de cometer el error tipo II serepresenta por .

  • Pruebas de hiptesis estadsticas

    IV-3

    En el cuadro (4.1) se muestran todas las situaciones que se pueden presentaren la toma de decisiones.

    CUADRO (4.1)OPCIONES QUE SE PRESENTAN EN LA TOMA DE DECISIONESDECISION H0 VERDADERA H1 VERDADERA

    ACEPTAR H0 Decisin correcta Error tipo IIRECHAZAR H0 Error tipo I Decisin correcta

    Por ejemplo, si:

    H0= el medicamento XYZ no es peligroso.H1 = el medicamento XYZ es peligroso.

    Si H0 es verdadera y se acepta, se toma una decisin correcta. Si H0 es falsa y se rechaza, se toma una decisin correcta. Si H0 es falsa (es decir, el medicamento es peligroso) y se acepta, se lanza al

    mercado una droga peligrosa. En este caso se comete un error del tipo II. Si H0 es verdadera y se la rechaza, se est eliminado en el sector salud a un

    medicamento que podra ser benfico. Se dice que en este caso se comete unerror del tipo I.

    Se ha demostrado que para cualquier tamao de muestra, la probabilidad decometer un error tipo I guarda una proporcin inversa a la probabilidad de cometeruno del tipo II (si disminuye, aumenta y viceversa). La probabilidad de cometersimultneamente ambos errores decrece a medida que el tamao de muestraaumenta; sin embargo, a un aumento en el tamao de la muestra corresponde unaumento en el costo del procedimiento.

    4.2.5 Estadgrafo de prueba.- El estadgrafo de prueba es el estimadorinsesgado del parmetro que se prueba (obtenido de una muestra), el cual setransforma posteriormente, para comparar con los valores de tablas.

    Por ejemplo, para probar el valor hipottico de la media poblacional (), seconsidera la media de una muestra aleatoria )x( de dicha poblacin comoestadgrafo de prueba, para posteriormente standarizarlo.

    4.2.6 Regiones de aceptacin y rechazo.- La regin de aceptacin es la reginque contiene los valores de la variable standarizada para las cuales se da por vlidala hiptesis nula.

  • Pruebas de hiptesis estadsticas

    IV-4

    La regin de rechazo o regin crtica es la regin que lleva al rechazo de lahiptesis nula en consideracin, lo cual significa aceptar la hiptesis alterna.

    4.3 Etapas bsicas en una prueba de hiptesis.- En todas las pruebas dehiptesis los pasos que se siguen son:1 Plantear la hiptesis nula y la hiptesis alterna.2 Especificar el nivel de significacin a utilizar.3 Elegir el estadgrafo de prueba ms adecuado y su correspondiente

    transformacin.4 Establecer la regin de aceptacin y rechazo, especificando el o los valores

    crticos.5 Calcular el estadgrafo de prueba empleando una muestra aleatoria de tamao n

    y obtener su correspondiente transformacin.6 Tomar una decisin, es decir, aceptar o rechazar H0.

    4.4 Prueba de hiptesis sobre la media aritmtica de una Distribucin convarianza conocida.- En este caso se utiliza la Distribucin Normalconsiderando la standarizacin que se muestra en la ecuacin (4.2).

    nxz

    (4.2)

    En el cuadro (4.2) se muestran las regiones de aceptacin para cada caso.

    CUADRO (4.2)REGIONES DE ACEPTACIN PARA LA MEDIA ARITMTICA DE UNA

    DISTRIBUCIN CON VARIANZA CONOCIDAParmetro Distribucin n Hiptesis Regin de aceptacin

    Normal n 30 H0: = aH1: a

    [-z1-/2; +z1-/2]

    Normal n 30 H0: aH1: < a

    [z; +]

    Normal n 30 H0: aH1: > a

    [-; z1-]

    Normal n< 30 H0: = aH1: a

    [-z1-/2; +z1-/2]

    Normal n< 30 H0: aH1: < a

    [z; +]

    Normal n< 30 H0: aH1: > a

    [-; z1-]

    Cualquiera n 30 H0: = aH1: a

    [-z1-/2; +z1-/2]

  • Pruebas de hiptesis estadsticas

    IV-5

    Cualquiera n 30 H0: aH1: < a

    [z; +]

    Cualquiera n 30 H0: aH1: > a

    [-; z1-]

    Cualquiera n< 30 H0: = aH1: a

    Se aplican pruebas noparmetricas

    Cualquiera n< 30 H0: aH1: < a

    Se aplican pruebas noparmetricas

    Cualquiera n< 30 H0: aH1: > a

    Se aplican pruebas noparmetricas

    Fuente: Elaboracin propia.

    4.5 Prueba de hiptesis sobre la media aritmtica de una distribucincon varianza desconocida.- La Distribucin "t" es apropiada a aplicar cuando

    la muestra proviene de una distribucin con varianza desconocida y la variablepertenece a una Distribucin Normal o se puede aproximar a sta (cuando el tamao demuestra es menor a 30). En este caso el estadgrafo de prueba es x y sutransformacin es la que se muestra en la ecuacin (4.3).

    nSxt (4.3)

    En el cuadro (4.3) se muestran las regiones de aceptacin para cada caso.

    CUADRO (4.3)REGIONES DE ACEPTACIN PARA LA MEDIA ARITMTICA DE UNA

    DISTRIBUCIN CON VARIANZA DESCONOCIDAParmetro Distribucin n Hiptesis Regin de aceptacin

    Normal n 30 H0: = aH1: a

    [-t1-/2,n-1; t1-/2,n-1] Normal n 30 H0: a

    H1: < a[t,n-1; +]

    Normal n 30 H0: aH1: > a

    [-; t1-,n-1]

    Normal n< 30 H0: = aH1: a

    [-t1-/2,n-1; t1-/2,n-1] Normal n< 30 H0: a

    H1: < a[t,n-1; +]

    Normal n< 30 H0: aH1: > a

    [-; t1-,n-1]

    Cualquiera n 30 H0: = aH1: a

    [-t1-/2,n-1; t1-/2,n-1]

  • Pruebas de hiptesis estadsticas

    IV-6

    Cualquiera n 30 H0: aH1: < a

    [t,n-1; +]

    Cualquiera n 30 H0: aH1: > a

    [-; t1-,n-1]

    Cualquiera n< 30 H0: = aH1: a

    Se aplican pruebas noparmetricas

    Cualquiera n< 30 H0: aH1: < a

    Se aplican pruebas noparmetricas

    Cualquiera n< 30 H0: aH1: > a

    Se aplican pruebas noparmetricas

    Fuente: Elaboracin propia.

    4.6 Prueba de hiptesis sobre la varianza de una Distribucin Normal.- Eneste caso se ha demostrado que la Distribucin Chi Cuadrado es la ms adecuadapara efectuar pruebas de hiptesis sobre la varianza de una Distribucin Normal.

    Para efectuar la prueba sobre la varianza de una Distribucin Normal, elestadgrafo a utilizar ser el estimador insesgado de la varianza poblacional:

    1

    1

    2

    2

    n

    xx

    S

    n

    ii

    (4.4)Posteriormente se debe efectuar la siguiente transformacin:

    2

    22 S1n

    (4.5)

    En el cuadro (4.4) se muestran las regiones de aceptacin para cada caso.

    CUADRO (4.4)REGIONES DE ACEPTACIN PARA LA VARIANZA

    DE UNA DISTRIBUCIN NORMALParmetro Distribucin Hiptesis Regin de aceptacin

    2 Normal H0: 2 = aH1: 2 a

    [21- /2, n-1; 2/2, n-1]2 Normal H0: 2 a

    H1: 2 < a[21-, n-1 ; +]

    2 Normal H0: 2 aH1: 2> a

    [0 ; 2, n-1 ]

    Fuente: Elaboracin propia.

  • Pruebas de hiptesis estadsticas

    IV-7

    4.7 Prueba de hiptesis sobre la proporcin de una DistribucinBinomial.- En este caso se efectuar la prueba solamente para el caso en que

    n 30 (lo que implica que se aproxima a una Distribucin Normal). Para efectuar laprueba sobre la proporcin, se utilizar el valor de x (nmero de elementos de unadeterminada caracterstica, en una muestra de tamao n). El estadgrafo de pruebaes el que se muestra en la ecuacin (4.6).

    p

    ppz

    (4.6)

    Reemplazando las ecuaciones (3.24) y (3.26):

    n

    pppp

    z )1(

    (4.7)

    O tambien se tiene:

    )1( pnpnpx

    z (4.8)

    En el cuadro (4.5) se muestran las regiones de aceptacin para cada caso.

    CUADRO (4.5)REGIONES DE ACEPTACIN PARA LA PROPORCION

    DE UNA DISTRIBUCION BINOMIALParmetro Distribucin n Hiptesis Regin de aceptacin

    p Binomial n 30 H0: p = aH1: p a

    [-z1-/2; +z1-/2]

    p Binomial n 30 H0: p aH1: p < a

    [z; +]

    p Binomial n 30 H0: p aH1: p > a

    [-; z1-]

    Fuente: Elaboracin propia.

    BIBLIOGRAFA:(1) HINES Walter y MONTGOMERY David (1996): Probabilidad y Estadstica para

    Ingeniera y Administracin. McGraw-Hill, Mxico.(2) KAZMIER Leonard (1991): Estadstica aplicada a la administracin y

    economa. McGraw-Hill, Mxico.(3) LEVIN Richard y RUBIN David (1996): Estadstica para administradores.

    Prentice-Hall, Mxico.

  • Pruebas de hiptesis estadsticas

    IV-8

    (4) MILLER Irwin, FREUND John y JOHNSON Richard (1994): Probabilidad yestadstica para ingenieros, Mxico.

    (5) MOYA Rufino (1988): Probabilidad e inferencia estadstica. Per.

    =========================

  • Pruebas de hiptesis estadsticas

    IV-9

    INDICEPag.

    5.1 Introduccin................................................................................... 15.2 Conceptos bsicos......................................................................... 1

    5.2.1 Hiptesis estadstica.............................................................. 15.2.2 Hiptesis nula e hiptesis alterna........................................... 15.2.3 Prueba de hiptesis estadstica.............................................. 1

    5.2.3.1 Pruebas unilaterales.................................................. 25.2.3.1.1 Prueba de la cola inferior o cola izquierda........ 2

    5.2.3.1.2 Prueba de la cola superior o cola derecha.......... 25.2.3.2 Pruebas bilaterales o prueba de dos colas..................... 2

    5.2.4 Tipos de errores.................................................................... 25.2.4.1 Error tipo I................................................................. 25.2.4.2 Error tipo II................................................................ 2

    5.2.5 Estadstica de prueba............................................................. 35.2.6 Regiones de aceptacin y rechazo........................................... 3

    5.3 Etapas bsicas en una prueba de hiptesis......................................... 45.4 Prueba de hiptesis sobre la media de una Distribucin con varianzaconocida................................................................................................. 45.5 Prueba de hiptesis sobre la media de una distribucin con varianzadesconocida............................................................................................ 5

    5.6 Prueba de hiptesis sobre la proporcin de una Distribucin Binomial.. 55.7 Prueba de hiptesis sobre la varianza de Distribucin Normal............. 6

    5.8 Anlisis de varianza....................................................................... 75.8.1 Anlisis de experimentos estadsticos..................................... 75.8.2 Anlisis de varianza.............................................................. 7

    5.8.3 Anlisis de varianza con un criterio o factor de clasificacin.... 85.8.3.1 Prueba de hiptesis.................................................... 85.8.3.2 Diagnstico y validacin del modelo........................... 10

    5.8.3.2.1 Distribucin de residuos................................. 105.8.3.2.2 Relacin entre el valor de los residuos y el valor

    esperado de la respuesta.................................... 115.8.3.2.3 Relacin entre los residuos y el tiempo.......... 11

  • Anlisis de regresin y correlacin lineal

    V-1

    V ANLISIS DE REGRESIN Y CORRELACIN LINEAL

    5.1. Introduccin.- En este captulo se examinarn las asociaciones cuantitativasentre un determinado nmero de variables, as como el grado de relacin existenteentre dichas variables, es decir, se examinarn tcnicas que permitan ajustar unaecuacin de algn tipo al conjunto de datos dado, con el propsito de obtener unaecuacin emprica de prediccin razonablemente precisa.

    5.2. Anlisis de regresin.- El objetivo principal del anlisis de regresin esestimar el valor de una variable aleatoria (llamada variable dependiente o variablerespuesta) conociendo el valor de un grupo de variables asociadas (llamadasvariables independientes de prediccin). La ecuacin de regresin es la frmulaalgebraica mediante la cual se estima el valor de la variable dependiente.

    Dicha ecuacin que se obtiene de esta forma puede tener algunaslimitaciones con respecto a su interpretacin fsica, sin embargo, en un medioemprico, ser muy til si puede proporcionar una adecuada capacidad de prediccinpara la respuesta en el interior de una regin especfica de las variables deprediccin. Como ejemplos de variables se tiene: relacin entre el peso y la alturade los seres humanos, relacin entre la temperatura ambiente y el consumo deenerga elctrica, etc..

    Las suposiciones principales en que se basa el modelo de regresin son:

    La variable dependiente en una variable aleatoria, pero no es necesario que lasvariables independientes sean variables aleatorias.

    La relacin entre las diversas variables independientes y la variable dependientees lineal.

    La variable dependiente tiene una Distribucin Normal con varianza constante. Sibien la primera suposicin no es crtica, la suposicin de varianza constante escrucial. Una estimacin insesgada de es el error standard de estimacin.

    El modelo de regresin propuesto debe ser relativamente sencillo y debercontener pocos parmetros. Un procedimiento muy til para la seleccin inicialcuando se tiene slo una variable de prediccin es graficar la variable dependientecontra la variable independiente.

  • Anlisis de regresin y correlacin lineal

    V-2

    Las ecuaciones que ms se utilizan para relacionar 2 ms variables son: Lineal simple:

    bxay (5.1) Lineal inversa:

    xbay (5.2)

    Lineal logartmica natural:)x(bLnay (5.3)

    Exponencial:xaby (5.4)

    Potencial:baxy (5.5)

    Lineal mltiple:kk332211 xb......xbxbxbay (5.6)

    Lineal polinomial:kkk

    22211 xb......xbxbay (5.7)

    5.2.1 Mtodo de estimacin de parmetros por mnimos cuadrados.-Este mtodo se aplica siempre y cuando la funcin sea de carcter lineal o

    se encuentre linealizada. El mtodo halla las estimaciones para los parmetros en laecuacin seleccionada mediante la minimizacin de la suma de los cuadrados de lasdiferencias entre los valores observados de la variable dependiente y de aquellosproporcionados por la ecuacin de regresin.

    2iez (5.8)i,ci,oi VVe (5.9)

    0az

    0bz

    0cz

    ........En la que:

    ei = error o residuo de la observacin "i".Vo,i= valor observado i de la variable dependienteVc,i= valor calculado i de la variable dependientea = trmino independiente

    b, c, d,... = coeficientes de las variables independientes

  • Anlisis de regresin y correlacin lineal

    V-3

    La constante "a" en la ecuacin de regresin se refiere al valor de la ordenadaal origen en el caso lineal con una variable independiente; en el caso de la regresinmltiple y polinomial, es el valor de la variable dependiente cuando todas lasvariables independientes son iguales a cero.

    Cuando se obtiene una ecuacin de regresin por el mtodo de mnimoscuadrados, surgen una serie de propiedades, algunas de las cuales son:

    0ei (5.10) i,ci,o VV (5.11)

    k

    1jjij 0ex j = 1,2,3,......k. (5.12)

    5.2.2 Error standard de estimacin.- El error standard de estimacin odesviacin standard residual es una medida de cuan buena es la recta estimada deregresin a las observaciones. Por tanto, cuanto ms pequeo sea este valor, elmodelo se ajustar mejor a los datos.

    El error standard de estimacin se calcula con la ecuacin (5.13).

    1kne

    Sn

    1i2i

    yx (5.13)

    En la que:n = nmero de observaciones.k = nmero de variables independientes.

    El valor de yxS viene expresado en las mismas unidades que la variabledependiente y el cuadrado de dicho valor ( yxS 2 ) se denomina varianza residual.

    5.2.3 Prueba de hiptesis para coeficientes de regresin.- La pruebas dehiptesis para coeficientes de regresin se efecta con el objetivo de conocer sicada una de las variables independientes se debe incluir o no en la ecuacin deregresin, es decir, si existe alguna relacin entre las dos variables (entre lavariable dependiente y la correspondiente variable independiente analizada). Paraesta prueba se utiliza la distribucin t de Student.

    Este tipo de prueba es de carcter bilateral, con los siguientes pasos:

  • Anlisis de regresin y correlacin lineal

    V-4

    1o Plantear las hiptesis:

    H0,i = no existe relacin entre la variable dependiente y la variable independiente"i".

    H1,i = existe relacin entre la variable dependiente y la variable independiente "i".

    2o Especificar %.

    3o El estadgrafo de la prueba es:

    ii

    i Sbt (5.14)

    En la que:

    bi = estimador del coeficiente de la variable independiente "i".Si = estimacin de la desviacin standard del coeficiente de la

    variable independiente i

    El valor de Si se calcula con la siguiente ecuacin:

    yxiii SqS (5.15)

    En la que:

    [X] = matriz de los valores observados de las variablesindependientes ms la columna de unos comoprimera columna.

    [X'] = matriz transpuesta de [X].qii = elemento "i" de la diagonal formada por la matriz [X'X]-1

    4o Determinar la regin de aceptacin:

    1kn,211kn,2t;t

    5o Calcular el valor de ti.6o Tomar la decisin:

    Si ti

    1kn,211kn,2t;t aceptar Ho,i, caso contrario, aceptar H1,i.

  • Anlisis de regresin y correlacin lineal

    V-5

    5.2.4 Prueba de hiptesis para la regresin.- La prueba de hiptesis deregresin utiliza la distribucin "F" para probar si existe o no relacin de todas lasvariables independientes como grupo con la variable dependiente. Los pasos haseguir son:

    1o Plantear las hiptesis:H0 = no existe relacin entre todas las variables independientes con la variabledependiente.

    H1 = existe relacin entre todas las variables independientes y la variabledependiente.

    2o Especificar .

    3o El estadgrafo a utilizar es Fc, que relaciona el cociente entre dos varianzas(cuadrados medios), por lo cual se emplear la Distribucin F.

    4o Definir la regin de aceptacin:0; Ftablas

    El valor de Ftablas se obtiene en tablas "F", con %, v1 = k y v2 = n-k-1grados de libertad.

    5o Se calcula el valor de Fc construyendo el cuadro (5.1) que es el cuadro de anlisisde varianza, en el que se divide la variabilidad total en dos componentes: lavariabilidad explicada (variabilidad debido a la regresin) y la variabilidad noexplicada (variabilidad residual o debido al error de muestreo).

    La variabilidad explicada (VE) se calcula con la ecuacin (5.16)

    2i,c DVVDVE (5.16)En la que:VDc,i = valor calculado i de la variable dependiente.DV = media aritmtica de los valores de la variable dependiente.

    La variabilidad no explicada (VNE) se determina con la ecuacin (5.17).

    2i,ci,o VDVDVNE (5.17)En la que:VDo,i = valor observado i de la variable dependiente.

  • Anlisis de regresin y correlacin lineal

    V-6

    La variabilidad total (VT) es:

    2i,o DVVDVT (5.18)Es de hacer notar que, para cualquier caso, se cumple la siguiente identidad:

    i,ci,oi,Cci,o VDVDDVVDDVVD (5.19)

    CUADRO (5.1)ANLISIS DE VARIANZA PARA LA PRUEBA DE REGRESIN

    FUENTE DEVARIACIN

    SUMA DECUADRADOS

    GRADOS DELIBERTAD

    CUADRADOSMEDIOS

    RATIO"F"

    Regresin VE k se2 FcError VNE n-k-1 sne2Total VT n-1

    En la que:

    kVEs2e (5.20)

    1knVNEs2ne (5.21)

    2ne

    2e

    c ssF (5.22)

    6o Tomar la decisin:

    Si Fc 0; Ftablas, se acepta la hiptesis nula H0, es decir, no existe relacinentre la(s) variable(s) independiente(s) y la variable dependiente, caso contrario serechaza H0.

    5.3 Anlisis de correlacin.- El principal objetivo del anlisis de correlacin esmedir el grado de relacin entre todas las variables independientes y la variabledependiente.

  • Anlisis de regresin y correlacin lineal

    V-7

    Para efectuar el anlisis de correlacin se calculan dos coeficientes: elcoeficiente de determinacin y el coeficiente de correlacin.

    5.3.1 Coeficiente de determinacin.- El coeficiente de determinacin mide laproporcin de variabilidad que ha sido estadsticamente explicada, respecto a lavariabilidad total, mediante la ecuacin de regresin, es decir:

    VTVNE1VT

    VER (5.23)

    Los valores que toma estn siempre comprendidos en el intervalo:0 R 1.

    De manera ideal se desea tener un valor de R = 1, puesto que entonces lavariabilidad no explicada sera igual a cero, y que toda la variacin puede explicarsepor la presencia de las variables independientes en la ecuacin de regresin.

    5.3.2 Coeficiente de correlacin.- El coeficiente de correlacin indica el grado derelacin que existe entre las variables independientes con la variable dependiente.Se calcula de la siguiente manera:

    Rr (5.24)

    El valor de r flucta entre 0 r 1, cuando r es igual a 1 la relacin esperfecta y cuando el valor de r es igual a cero, se dice que no existe relacin entrelas variables consideradas.

    Para el caso de un modelo lineal con una sola variable independiente, el valorr vara entre -1 y 1, siendo el signo de r el mismo que el del coeficiente de lavariable independiente.

    5.4 Diagnstico y validacin del modelo.- Con el objeto de validar el modeloencontrado se efecta el diagnstico de los datos a travs del anlisis de residuos.Dicho anlisis se efecta mediante la construccin y anlisis de ciertos grficos, losprincipales son:

    Grfico: Residuos Vs. Valores calculados. Grfico: Residuos Vs. Valores observados. Grfico: Residuos Vs. Tiempo.

    En algunos casos tambin se recomienda elaborar grficos de Residuos Vs.Variable(s) independientes(s).

  • Anlisis de regresin y correlacin lineal

    V-8

    Para todos los grficos elaborados, los puntos deben estar distribuidos enforma aleatoria, es decir, no deben formar ninguna curva conocida.

    5.5 Anlisis de autocorrelacin.- El anlisis de autocorrelacin se realiza cuandoen el grfico: Residuos Vs. Tiempo se ha podido detectar algn tipo de relacin, loque significa, la presencia del tiempo como variable de prediccin.

    Por tal motivo es que se realiza la prueba de Durwin-Watson, cuyoestadgrafo de prueba es:

    2i

    21ii

    eeed (5.25)

    Considerando: k (nmero de variables independientes) y n (tamao de lamuestra) se emplean tablas "Durwin-Watson" para obtener los valores dL y dU conlos que se efectuar el anlisis respectivo.

    Con los valores de dL y dU se elaboran los siguientes intervalos y sedetermina la existencia de autocorrelacin, as como la direccin de sta.

    0 < d < dL Autocorrelacin positiva.dL < d < dU Prueba no concluyente.dU < d < 4 - dU No existe autocorrelacin.4 - dU < d < 4 - dL Prueba no concluyente.4 - dL < d < 4 Autocorrelacin negativa.

    BIBLIOGRAFA:(1) HINES Walter y MONTGOMERY David (1996): Probabilidad y Estadstica para

    Ingeniera y Administracin. McGraw-Hill, Mxico.(2) LEVIN Richard y RUBIN David (1996): Estadstica para administradores.

    Prentice-Hall, Mxico.(3) MILLER Irwin, FREUND John y JOHNSON Richard (1994): Probabilidad y

    estadstica para ingenieros, Mxico.

    ==============================

  • Anlisis de regresin y correlacin lineal

    V-9

    NDICEPgina

    6.1 Introduccin.................................................................................... 16.2 Anlisis de regresin........................................................................ 1

    6.2.1 Mtodo de estimacin de parmetros por mnimos cuadrados...... 26.2.2 Error standard de estimacin.................................................. 36.2.3 Prueba de hiptesis para coeficientes de regresin..................... 36.2.4 Prueba de hiptesis para la regresin........................................ 4

    6.3 Anlisis de correlacin...................................................................... 66.3.1 Coeficiente de determinacin..................................................... 66.3.2 Coeficiente de correlacin........................................................ 7

    6.4 Diagnstico y validacin del modelo................................................... 76.5 Anlisis de autocorrelacin................................................................ 7

  • Anlisis de regresin y correlacin lineal

    V-10

    UNIVERSIDAD MAYOR DE SAN SIMNFACULTAD DE CIENCIAS Y TECNOLOGADEPARTAMENTO DE MATEMTICAS

    ESTADSTICA II

    CAPITULO VI

    ANLISIS DE REGRESIN YCORRELACIN LINEAL

    SEMESTRE: I/2004

    DOCENTE: Ing. Roberto Manchego C.

    Cochabamba, Mayo de 2004

  • Anlisis de series cronolgicas

    VI-1

    VI ANLISIS DE SERIES CRONOLGICAS

    6.1 Introduccin.- La planificacin racional exige prever los sucesos del futuroque probablemente vayan a ocurrir. La previsin suele basarse en lo ocurrido en elpasado, por lo que, estamos en presencia de un nuevo tipo de inferencia estadsticaque se realiza acerca del futuro de alguna variable basados en sucesos pasados.Esta tcnica se basa en el anlisis de series cronolgicas.

    6.2 Serie cronolgica.- Una serie cronolgica o serie de tiempo es un conjunto devalores observados de cierta variable dispuestos en el orden cronolgico de suocurrencia, por lo general, registrados a intervalos igualmente espaciados.

    En virtud a que una serie de tiempo es una descripcin del pasado inmediato,el procedimiento ms lgico para pronosticar el futuro es utilizar dichos datoshistricos. Bajo el supuesto de que la historia ha de repetirse, es decir, si los datospasados indican lo que se puede esperar en el futuro, es posible postular un modelomatemtico que sea representativo del proceso.

    En situac