nociones de estadistica

69
NOCIONES DE ESTADÍSTICA NOCIONES DE ESTADÍSTICA NOCIONES DE ESTADÍSTICA NOCIONES DE ESTADÍSTICA

Upload: juanjoseoliva

Post on 16-Sep-2015

24 views

Category:

Documents


3 download

DESCRIPTION

Nociones de Estadistica

TRANSCRIPT

  • NOCIONES DE ESTADSTICANOCIONES DE ESTADSTICANOCIONES DE ESTADSTICANOCIONES DE ESTADSTICA

  • INDICE

    1. Usos de la Estadstica y conceptos bsicos............................................................ 1

    2. Estadstica Descriptiva y Estadstica Inferencial..................................................... 3

    3. Mtodos bsicos de la Estadstica Descriptiva. ...................................................... 4 3.1. Recogida de datos ............................................................................................. 4 3.2. Ordenacin y tabulacin de datos...................................................................... 5 3.3. Representacin de datos ................................................................................... 7 3.4. Parmetros estadsticos................................................................................... 14

    3.4.1. Medidas de posicin o centralizacin.................................................... 14 3.4.2. Medidas de dispersin .......................................................................... 20 3.4.3. Medidas de forma.................................................................................. 23

    4. Mtodos bsicos de la Estadstica Inferencial....................................................... 25 4.1. Muestreo .......................................................................................................... 25 4.2. Estimacin estadstica ..................................................................................... 32 4.3. Contrastes de hiptesis.................................................................................... 33

    5. Aplicaciones de la estadstica ................................................................................ 35

    6. Series estadsticas bidimensionales. ..................................................................... 40 6.1. Variables estadsticas bidimensionales: tablas estadsticas. ........................... 40 6.2. Representaciones grficas............................................................................... 42 6.3. Distribuciones marginales y condicionadas ..................................................... 44

    6.3.1. Distribuciones marginales ..................................................................... 44 6.3.2. Distribuciones condicionadas................................................................ 44 6.3.3. Independencia y dependencia funcional ............................................... 45 6.3.4. Caractersticas marginales y condicionadas ......................................... 47

    6.4. Covarianza....................................................................................................... 48

    7. Regresin y correlacin lineal................................................................................. 49 7.1. El problema del ajuste...................................................................................... 49 7.2. Regresin lineal ............................................................................................... 50

    8. Coeficiente de correlacin....................................................................................... 53 8.1. Correlacin lineal ............................................................................................. 53 8.2. Coeficiente de correlacin lineal: propiedades................................................. 54

    9. Significado de la regresin y aplicaciones............................................................. 58

  • Estadstica unidimensional

    1

    1 - USOS DE LA ESTADSTICA Y CONCEPTOS BSICOS

    A pesar de los distintos usos de la Estadstica, histricamente se la conoca con el nico objetivo de recopilar datos, y as fue hasta el siglo XVII, momento en que los matemticos comenzaron a abordar los problemas relacionados con el recuento de datos analizando las tendencias que se pueden presentar en los sucesivos resultados.

    El hecho de entender y usar la Estadstica nicamente como coleccin de datos se deba a que tradicionalmente la Estadstica la usaban los gobiernos para establecer registros de nacimientos, defunciones, impuestos,... De hecho, la palabra Estadstica tiene el mismo origen que la palabra estado y como puede verse en multitud de documentos histricos, los estados ya saban como recoger y organizar los datos mucho antes que los mtodos cientficos les permitiesen un estudio de ellos.

    Es a los matemticos del s. XIX a los que les debemos el uso de la palabra Estadstica en todo su sentido tcnico ya que fueron ellos los que posibilitaron el paso de la estadstica deductiva a la estadstica inductiva o inferencial, que es la que actualmente tiene mayor influencia en todos los campos de la ciencia.

    La ciencia de la Estadstica se divide en dos partes: Estadstica descriptiva y Estadstica inferencial. - La estadstica descriptiva se encarga de la recogida, ordenacin y tabulacin de los datos

    obtenidos en las diferentes observaciones. - La estadstica inferencial cuya funcin es la de establecer conclusiones y tomar decisiones

    basadas en ese anlisis descriptivo.

    Conceptos bsicos en un proceso estadstico

    Es obvio que toda investigacin estadstica debe estar necesariamente referida a un conjunto o coleccin de personas o cosas (realmente existentes o posibles) que verifiquen una definicin bien determinada.

    Recibe el nombre de poblacin el conjunto de individuos o elementos que tienen unas caractersticas comunes. Las personas o cosas que componen una poblacin reciben el nombre de elementos y pueden tener existencia real: un coche, una casa, , o bien referirse a algo mucho ms abstracto: un intervalo de tiempo, un voto, etc..

    El tamao de una poblacin viene dado por el nmero de elementos que componen dicha poblacin. Puede ser finito o infinito. No siempre es posible analizar cada elemento de una poblacin, ya sea por razones econmicas, de tiempo, de personal disponible, por destruccin de los elementos tras el anlisis... Por eso, en muchos estudios estadsticos se estudia solo una parte de la poblacin, que denominamos muestra. La operacin de tomar una muestra de la poblacin se denomina muestreo.

    Es necesario que seleccionemos adecuadamente los elementos que integran la muestra, eliminando criterios personales. Es decir, los elementos de una muestra han de ser elegidos al azar. Si operamos as estamos haciendo un muestreo probabilstico a partir del cual obtenemos muestras representativas. Cuando la seleccin de los elementos de la muestra se

  • Estadstica unidimensional

    2

    hace por criterios personales no aleatorios, estamos ante un muestreo no probabilstico que nos da una muestra no representativa.

    Las propiedades o cualidades que poseen los elementos de una poblacin se denominan caracteres. Los caracteres de los elementos que componen una poblacin los dividiremos en:

    - Cuantitativos o variables. - Cualitativos o atributos.

    Los caracteres cualitativos o atributos son los que se describen mediante palabras, tal como el sexo, estado civil, nacionalidad, etc. Un atributo adopta diversas modalidades. Por ejemplo el sexo: hombre o mujer.

    Los caracteres cuantitativos o variables son los que se describen mediante nmeros, es decir, son medibles; tales como la estatura, la edad,... Las variables se expresan con smbolos (x, y, z...) que pueden tomar un valor numrico de entre un conjunto de valores posibles que se denomina dominio de la variable.

    Distinguimos dos tipos de variables: - Variable discreta: cuando sus posibles valores son finitos o numerables - Variable continua: cuando sus posibles valores son infinitos no numerables.

    La representacin de un carcter mediante un nmero no es un indicador infalible de que se trate de una variable, pues a unos atributos se les asigna un nmero para indicar la modalidad. Por ejemplo para sexo: 1 para indicar hombre, 2 para indicar mujer. La verdadera diferencia entre un carcter cuantitativo y otro cualitativo es que si se trata de un atributo carece de sentido realizar operaciones algebraicas con los nmeros que representan las modalidades. Adems, los atributos se pueden ordenar por modalidades pero no jerarquizar.

    Los resultados que se obtienen tras la observacin de atributos y variables se denominan datos u observaciones. En el caso de las variables tambin se les suele llamar valores.

    Los mtodos de observacin de los caracteres de los elementos se denominan: - Observacin exhaustiva: cuando observamos todos los elementos de la poblacin. - Observacin parcial: cuando slo observamos los elementos de una muestra. - Observacin mixta: en este tipo de observacin se combinan la observacin exhaustiva

    y la observacin parcial, de tal manera que los caracteres que se consideran bsicos para la investigacin se observan exhaustivamente, y los restantes, mediante muestras.

  • Estadstica unidimensional

    3

    2 - ESTADSTICA DESCRIPTIVA Y ESTADSTICA INFERENCIAL

    Cuando se observan exhaustivamente todos los elementos de la poblacin (se supone que la observacin se efecta sin errores), entonces se dispone de todos los datos posibles para aquel estudio. Con tales datos, es posible describir exactamente las regularidades, el comportamiento o las caractersticas de la poblacin.

    Estadstica descriptiva La Estadstica descriptiva no es otra cosa, pues, que la ciencia dedicada a descubrir las

    regularidades o caractersticas existentes en un conjunto de datos. Pero si la observacin no es exhaustiva, sino que se parte de una muestra con la finalidad de conocer, mediante ella, las caractersticas de la poblacin, entonces nos enfrentamos con un proceso de induccin, en virtud del cual se aprovecha la informacin suministrada por la muestra para conocer, aunque sea aproximadamente, aquellas caractersticas.

    Estadstica inferencial La Estadstica Inductiva, tambin llamada Inferencia Estadstica, tiene, por tanto, como

    funcin, generalizar los resultados de la muestra para estimar las caractersticas de la poblacin. No obstante, el conjunto de datos muestrales puede describirse o analizarse de la misma forma que una poblacin. Por tanto, el conjunto de observaciones o datos de una muestra puede manejarse en un doble sentido. Primero, para describir el propio conjunto de observaciones, y segundo, para inferir lo que ocurre en la poblacin.

    En consecuencia, la fase descriptiva es comn a cualquier conjunto de observaciones o datos, ya se refieran stos a toda la poblacin, a una muestra o incluso a una subpoblacin. La Estadstica descriptiva, por otro lado, es la parte ms clsica y elemental de la ciencia estadstica.

    Como ya hemos mencionado, una poblacin est constituida por todos los elementos que poseen unos caracteres por cuyo estudio estamos interesados. Una muestra, en cambio, es una parte de los elementos de la poblacin, que, lgicamente, ser representativa del total.

    Cuando el estadstico puede observar todos los elementos de la poblacin (observacin exhaustiva), entonces su tarea se reduce a describir las caractersticas y regularidades de la poblacin. Pero si la observacin no puede ser exhaustiva, entonces aquellas caractersticas hay que estudiarlas a travs de una muestra representativa. La informacin suministrada por la muestra sirve para inducir o inferir, con mayor o menor exactitud, las caractersticas de la poblacin.

    Conviene que subrayemos, y esto es muy importante, que los conceptos de poblacin y muestra estn subordinados al uso que se piensa hacer del conjunto de observaciones disponibles. Si lo nico que se pretende es describir las caractersticas de dicho conjunto, entonces ste constituye, ciertamente, una poblacin, aun cuando sea una parte de un total ms general. Pero si se desea extender la informacin obtenida de l a otro conjunto mayor para inferir sus caractersticas, entonces, evidentemente, el conjunto de observaciones constituye una muestra (se supone que con todas las garantas).

    La fase de descripcin es (o puede ser) comn a cualquier conjunto de observaciones, mientras que la de inferencia slo tiene efectividad cuando se trabaja con muestras.

  • Estadstica unidimensional

    4

    3 - MTODOS BSICOS DE LA ESTADSTICA DESCRIPTIVA

    Como hemos indicado, la estadstica descriptiva es la que estudia los datos resultantes de una experiencia. En este caso con el trmino "estudia" nos referimos a recoger los datos, clasificarlos, representarlos y resumirlos en informaciones que ayuden a los interesados en su anlisis para poder sacar conclusiones que ayuden a comprender algo o a la toma de decisiones. Por tanto, los mtodos bsicos que utiliza la Estadstica descriptiva para describir e interpretar numricamente la informacin obtenida de una gran cantidad de datos son:

    - Recogida de datos. - Ordenacin y tabulacin datos. - Representacin de los datos. - Calculo de los parmetros estadsticos.

    Es importante tener en cuenta que en la estadstica descriptiva no nos preguntamos si los datos provienen de una muestra de la poblacin o de toda la poblacin.

    Con los datos obtenidos tras la observacin y suponiendo ausencia de errores, tanto de medicin como de manipulacin, trascripcin y clculo, podemos describir perfectamente cuanto acontece en la poblacin o muestra objeto de estudio. La estadstica descriptiva es una fase necesaria para luego realizar inferencia.

    3.1 - Recogida de datos

    Por tcnicas de obtencin de datos entendemos el conjunto de mtodos empleados para recoger una informacin determinada de una poblacin o muestra. La obtencin de datos se realizar de forma que facilite guardar la informacin con un orden lgico para su posterior estudio y minimizando los errores entre la informacin inicial dada y el dato final que se analizar. Son justamente el coste de estas tcnicas de recogidas de datos, el tiempo necesario para ejecutarlas y el personal disponible, algunos de los motivos que inducen a realizar un muestreo en lugar de analizar cada elemento de la poblacin. Una vez definidas, exactamente, la poblacin, el tipo de muestreo y la muestra se elaborar un documento que permita recoger las respuestas a las preguntas de una manera sencilla y precisa.

    Por las razones econmicas, de tiempo y de personal antes comentadas, lo primero que se realiza para obtener los datos es buscar si la informacin que necesitamos ya ha sido trabajada, es decir, si existe alguna fuente que ya la haya estudiado. Una fuente importante son los registros administrativos en donde la informacin se recoge a nivel de gestin pero que luego se depura de manera que sea una informacin vlida a distintos niveles. Estos trabajos se recogen a nivel oficial en el inventario de operaciones estadsticas del Estado.

    En el supuesto de que no exista documentacin estadstica apropiada y suficiente para el estudio que pretendemos realizar es cuando se lleva a cabo los distintos mtodos de recogida, siendo los ms usuales:

    Por correo Es el que suele utilizarse cuando se dispone de la lista y direcciones de los elementos de

    la poblacin. Una buena prctica consiste en adjuntar, junto con el cuestionario a rellenar e instrucciones para su cumplimentacin, el sobre con la direccin de retomo ya impresa y convenientemente franqueado; as las molestias son menores.

  • Estadstica unidimensional

    5

    Por agentes distribuidores Se encarece notablemente el mtodo anterior si hay que investigar a una gran masa de

    poblacin. Este mtodo se realiza mediante agentes debidamente acreditados que recogen el cuestionario una vez efectuado. En esencia, es el mismo mtodo que el anterior. Por encuestadores

    Son ahora personas especializadas las que formulan las preguntas que aparecen en el cuestionario y anotan las respuestas. Lgicamente, este sistema es el ms apropiado, aunque no elimina totalmente los errores, pues pueden darse algunas influencias en las respuestas. Su inconveniente es que puede resultar ms caro que los dos primeros mtodos. Por telfono

    Evidentemente mucho ms barato que por encuestadores aunque menos fiable. Por Internet

    Mtodo cada vez ms generalizado ya que permite minimizar costes, tiempo y personal necesario.

    Hoy en da, los estadsticos siguen estudiando formas de mejorar algunos problemas relacionados con las tcnicas de recogidas de datos. Estos problemas se centran en conseguir que los elementos de la poblacin o muestra cumplimenten las encuestas necesarias y conseguir que las realicen de un modo que resulte ms fiable.

    El primero de los problemas, la "participacin", se est consiguiendo de dos maneras: compensando de alguna forma al encuestado (regalos, vales descuentos ... ) o haciendo que las encuestas sean de obligado cumplimiento (como son algunas encuestas que el Estado realiza a distintas empresas).

    El segundo de los problemas, la fiabilidad, se intenta mejorar implicando al encuestado en la propia encuesta, por ejemplo, enviando los estudios y resultados que se obtienen tras el anlisis de los datos de la encuesta que ha realizado o de otras encuestas que lleve la misma empresa y que puedan ser interesantes para el encuestado.

    Una de las formas de clasificar los datos para depurarlos y prepararlos para la realizacin de tablas es organizarlos en montones segn una caracterstica determinada aunque actualmente se suelen organizar y representar geogrficamente (si los elementos estudiados pertenecen a una provincia, por pueblos; si pertenecen a una ciudad, por barrios ... ) Esta forma de organizar y representar los datos se denomina S.I.G. (Sistema de Informacin Georeferenciada).

    3.2 - Ordenacin y tabulacin de datos

    Todos los datos obtenidos mediante las distintas tcnicas de recogida de datos se resumen en tablas, las cuales constituyen una parte fundamental de una investigacin estadstica. Toda tabla debe ir acompaada de una ficha tcnica en donde se especifica el tipo y mbito de la encuesta, el tipo de muestreo y tamao de la muestra, el periodo de la referencia de la informacin, el mtodo de obtencin de datos utilizado y los fines de la investigacin.

    En las tablas estadsticas se introducen las siguientes magnitudes: Frecuencia absoluta

    Denominamos frecuencia absoluta al nmero de repeticiones que presenta dato. Representaremos por ni a la frecuencia absoluta referente al dato i.

  • Estadstica unidimensional

    6

    Frecuencia relativa Es la frecuencia absoluta dividida por el nmero total de datos, que denominamos

    tamao de la muestra y representaremos por N. Se suele expresar en tanto por uno, siendo el valor correspondiente al dato i -simo, fi, es decir:

    Nnf ii =

    La suma de todas las frecuencias relativas es igual a la unidad.

    Frecuencia absoluta acumulada Es la suma de los distintos valores de la frecuencia absoluta tomando como

    referencia un individuo dado. La ltima frecuencia absoluta acumulada es el tamao de la muestra. Si representamos su valor i-simo por Ni tenemos:

    N1= n1 N2 = n1+n2 ...................

    Ni = n1 + n2 + ... + ni

    Frecuencia relativa acumulada Se obtiene al dividir cada frecuencia absoluta acumulada por el tamao de la

    muestra, la representaremos por F, y tambin se puede definir, al igual que la frecuencia absoluta acumulada, como la suma de los distintos valores de la frecuencia relativa, tomando como referencia un individuo dado.

    F1= f1 F2 = f1+f2

    ...................

    Fi = f1 + f2 + ... + fi

    La ltima frecuencia relativa acumulada es igual a la unidad.

    Una tabla estadstica contiene los datos observados y las distintas frecuencias absolutas y relativas de stos. Una vez los datos estn tabulados, la tabla obtenida ofrece una visin de conjunto de los caracteres que se estudian. Un ejemplo de una tabla estadstica para una variable discreta es:

    Datos xi

    Frecuencia absoluta

    ni

    Frecuencia absoluta

    acumulada Ni

    Frecuencia relativa

    fi

    Frecuencia relativa

    acumulada Fi

    x1 n1 N1 f1 F1 x2 n2 N2 f2 F2

    xn nn Nn = N fn Fn = 1 = Nni

    = 1if

    Cuando queremos realizar una tabla de frecuencias para una distribucin con un nmero elevado de variables o con una distribucin cuyas variables son continuas, stas se suelen

  • Estadstica unidimensional

    7

    agrupar en intervalos [Li-1, Li) para facilitar la elaboracin de la tabla y la comprensin de los datos.

    Antes de ver como se ordenan las frecuencias en una tabla para una variable continua veamos brevemente algunas definiciones propias de la tabla de frecuencia para variables continuas:

    Denominaremos recorrido a la resta entre el valor mayor de los datos y el valor menor y lo representaremos por Re.

    Para operar utilizaremos la marca de clase, el punto medio de un intervalo. La marca de clase se define como la semisuma de los valores extremos del intervalo, esto es, si la marca de clase del intervalo [Li-1, Li) la representamos por xi, entonces:

    21 ii

    iLL

    x+

    =

    Denominaremos amplitud del intervalo a la diferencia entre el extremo superior del intervalo y el extremo inferior, es decir, a la longitud del intervalo, y se representa por:

    ai = Li Li-1

    El nmero de intervalos que formarn la tabla se obtendr a partir de la raz cuadrada del nmero de datos.

    Nmero de intervalos el nmero de datos=

    Si los intervalos no son de la misma amplitud para trabajar con ellos obtendremos la densidad de frecuencia del intervalo i-simo, como el cociente entre el nmero total de observaciones de un intervalo, esto es , la frecuencia absoluta, y la amplitud del mismo:

    a

    nd ii =

    Teniendo en cuenta esto, la ordenacin de la tabla ser la siguiente:

    Intervalo: [Li-1, Li)

    Marca de clase: xi

    ni Ni fi Fi

    3.3 - Representacin de datos

    Una vez que la masa inicial de datos est tabulada, la tabla obtenida ofrece una visin de conjunto de los caracteres que se estn estudiando. Un modo de poner de relieve dicha visin de conjunto consiste en utilizar representaciones grficas de la tabla obtenida, lo que permite que el impacto visual proporcione una visin global del reparto de las observaciones.

    No obstante, las representaciones grficas no deben considerarse como un medio definitivo para extraer conclusiones, sino como un medio auxiliar de la investigacin estadstica, que ser fundamentalmente numrica, y esto siempre que el impacto visual provocado por la grfica corresponda a la realidad, por lo que se debe recurrir a sistemas geomtricos capaces de describir los datos de manera correcta para no inducir a conclusiones errneas. Por lo tanto, se

  • Estadstica unidimensional

    8

    deben considerar las representaciones grficas como medios tiles de presentacin de los datos que, junto con otras medidas numricas, permitirn un estudio correcto de la masa de datos inicial y, por tanto, de los caracteres de la poblacin que nos interesan.

    En general, las representaciones grficas ms utilizadas se basan en un sistema de ejes cartesianos, de forma que en el eje horizontal (o de abscisas) se toman los distintos valores de la variable, y en el eje vertical (o de ordenadas) las frecuencias. As, el plano queda determinado por cuatro cuadrantes, si bien en estadstica la mayor parte de los grficos pertenecen al primer cuadrante. Debe advertirse tambin que la graduacin de los ejes puede obtenerse aplicando la escala aritmtica o de nmeros reales o la escala logartmica. En el ltimo caso, si se aplica a un solo eje, se dice escala semilogartmica, y si se aplica a las dos, escala doblemente logartmica.

    Una posible clasificacin de los distintos grficos es respecto al tipo de variable que representa. Esta es la clasificacin por la que optamos aunque los grficos que veremos no tienen que ser exclusivos de un tipo variable concreta, como indicaremos en cada caso. En principio distinguimos dos tipos de grficos independientemente se trate de una variable discreta o continua, estos grficos dependen de que queramos representar las frecuencias (absolutas o relativas) o las frecuencias acumuladas.

    Se denominan diagramas diferenciales a aquellos grficos en los que se representan frecuencias absolutas o relativas y se denominan diagramas integrales a aquellos que se realizan a partir de las frecuencias acumuladas, lo que da lugar a grficos crecientes, y es obvio que este tipo de grficos no tiene sentido para variables cualitativas.

    Grficos para variables cualitativas:

    Los grficos ms usuales para representar este tipo de variable son los siguientes:

    a) Diagramas de barras.

    Se realizan representando en el eje de ordenadas las variables y en el eje abscisas las frecuencias absolutas relativas.

    Si, mediante el grfico, se intenta comparar varias poblaciones entre s, existen otras modalidades del diagrama de barras como por ejemplo:

    Solteros 4

    Casados 5

    Viudos 7

    Divorciados 3

  • Estadstica unidimensional

    9

    Cuando los tamaos de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podran resultar engaosas.

    b) Diagrama de sectores

    Para realizar estos diagramas, tambin llamados coloquialmente tartas, se divide un crculo en tantos sectores circulares como clases existan, de modo que el rea de cada sector sea proporcional a la frecuencia que se quiera representar.Para calcularlo podemos decir que el rea depende del ngulo central, mediante la siguiente proporcin:

    360

    =

    Nni

    As, siguiendo el ejemplo anterior:

    Este diagrama se utiliza para cualquier tipo de variable.

    c) Pictogramas

    Expresan con dibujos relativos al tema que se quiera representar las frecuencias de las variables. Se realizan representado a diferentes escalas un mismo dibujo. Las escalas de los dibujos se realizan de forma que el rea de cada uno sea proporcional a la frecuencia que representan. Este tipo de grficos suele usarse en los medios de comunicacin, para que sean comprendidos por el pblico no especializado, sin que sea necesaria una explicacin compleja.

    Muestra 1 Muestra 2 Solteros 4 5 Casados 5 6 Viudos 7 6 Divorciados 3 2

  • Estadstica unidimensional

    10

    d) Cartogramas

    Para las distribuciones de tipo geogrfico se suelen usar mapas, que se colorean con diferentes tonalidades, cuyas frecuencias equivalentes se explican al margen, o bien se colocan dibujos alusivos si se estn estudiando los lugares en que se producen o se encuentran los bienes correspondientes. Estos grficos se denominan cartogramas y la forma de construirlos se basa en la proporcionalidad con las frecuencias de la misma forma que los pictogramas.

    Grficos para variables cuantitativas discretas:

    a) Diagrama de barras

    Para representar las frecuencias absolutas o relativas, acumuladas o no, de una variable cuantitativa discreta se utiliza principalmente el diagrama de barras, aunque se utiliza tambin para representar otros tipos de variables, como indicaremos en el apartado correspondiente.

    En este caso, las barras deben ser estrechas para representar que los valores que toma la variable son discretos. En el eje de abcisas, situaremos los diferentes valores de la variable. En el eje de ordenadas la frecuencia que queramos representar. Levantaremos barras o columnas de altura correspondiente a la frecuencia adecuada.

    As, un ejemplo de diagrama diferencial de barras es:

    Variables Frecuencia absoluta

    Frecuencia absoluta

    acumulada X1 5 5 X2 4 9 X3 6 15 X4 2 17 X5 4 21

  • Estadstica unidimensional

    11

    b) Diagrama integral o acumulado

    El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de escalera.

    Grficos para variables cuantitativas continuas:

    Para variables cuantitativas continuas utilizaremos principalmente como diagramas diferenciales los histogramas y los polgonos de frecuencias.

    a) Histograma

    Un histograma se construye a partir de la tabla estadstica, representando en el eje de abcisas los intervalos y en el eje de ordenadas las frecuencia que queremos representar. Es decir, es igual que el diagrama de barras para el caso discreto pero en este caso representaremos un rectngulo que tiene como base la longitud del intervalo al que hace referencia. El criterio para calcular la altura de cada rectngulo es el de mantener la proporcionalidad entre las frecuencias absolutas o relativas de cada intervalo y el rea de los mismos.

    El histograma, por tanto, representa las frecuencias de los intervalos mediante reas y no mediante alturas. Sin embargo, como nos es mucho ms fcil hacer representaciones grficas teniendo en cuenta estas ltimas, si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los conceptos de rea y altura. Por ejemplo:

    Frecuencia absoluta

    [0-2] 2

    [2-4] 1

    [4-6] 4

    [6-8] 3

    [8-10] 2

  • Estadstica unidimensional

    12

    b) Polgono de frecuencias

    El polgono de frecuencias se construye fcilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante lneas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polgono de frecuencias en el primer y ltimo intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una lnea recta los puntos del histograma que corresponden a sus marcas de clase

    c) Polgono de frecuencias acumulado

    El diagrama integral para una variable continua se denomina tambin polgono de frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas.

    Tendenciosidad y errores ms comunes

    Cuando se realiza una investigacin estadstica de cierta envergadura es casi imposible obtener resultados sin error. El objetivo que debe marcarse un estadstico es el informe que se haga del estudio exprese de forma clara y con precisin los resultados que se han obtenido en el anlisis y de manera que no se puedan malinterpretar.

  • Estadstica unidimensional

    13

    Los errores ms comunes y no significativos (por errores no significativos nos referimos a los errores no muestrales) podemos hablar de los siguientes tipos:

    1. Errores de planteamiento, que se deben a una investigacin mal estructurada o planificada, a definiciones ambiguas o incompletas que no permiten localizar perfectamente los elementos que han de ser observados.

    2. Errores de respuesta, originados por un cuestionario poco pensado, por un mtodo de recogida de datos inapropiado, por unos agentes mal instruidos O por no haber previsto el control y depuracin de respuestas. Dentro de los errores de respuesta se incluye el no consta, es decir, el cuestionario no contestado.

    3. Errores de manipulacin, provocados fundamentalmente por los defectos de organizacin, pudiendo suceder, incluso, que se pierdan cuestionarios antes de llegar al centro de tabulacin.

    4. Errores de tabulacin y de clculo, debidos, lgicamente, a la inexistencia de controles de operaciones.

    5. Errores en la expresin de los datos, debidos principalmente a la forma como se realiza las grficas. Es por ejemplo cuando la presentacin de la grfica no es legible.

    6. Tendenciosidad, intencionada o no, es probablemente el principal problema que se puede presentar en un estudio estadstico. Consiste en presentar la informacin, informacin verdadera, de forma que pueda ser malinterpretada e inducir a error. Un ejemplo es el producido al no tener una escala predeterminada:

    Aunque las dos tablas estn realizadas con los mismos datos, el crecimiento de la primera parece mucho mayor que el de la segunda. Esto se ha debido, simplemente, al haber utilizado distintas escalas.

    Otro ejemplo comn es presentar un diagrama de barras con el eje de ordenadas no completo (en vez de comenzar en 0 comenzar en otro valor) mostrando un resultado tendencioso ya que da la impresin de que la diferencia entre las barras es diferente a la real.

    Otro ejemplo tendencioso es el de agrupar los datos segn interese o mostrar nicamente los datos que se quieran; por ejemplo, si tras es estudio de los habitantes de una determinada ciudad se obtiene que el 86% de los menores de 30 aos consumen una marca A y que el 92% de los mayores de 30 aos no la consumen, se puede omitir este segundo dato e indicar nicamente que el 86% de los menores de 30 aos la consumen, dando a entender que el consumo es elevado.

  • Estadstica unidimensional

    14

    3.4 - Parmetros estadsticos

    Las tablas estadsticas y la representacin grfica nos dan una idea cualitativa de conjunto de una distribucin de frecuencias que no es suficiente, por ejemplo, para comparar dos distribuciones.

    Con el fin de obtener un resumen cuantitativo se sustituye el conjunto de valores por nmeros llamados parmetros estadsticos o medidas descriptivas de los datos, que son unos nmeros que nos permitirn, con objetividad y precisin, tener una visin ms completa del fenmeno estudiado, comparar distintas distribuciones de frecuencias y valorar con nmeros sus distintas caractersticas. Los parmetros estadsticos se clasifican en diversos tipos:

    - Medidas de posicin o centralizacin. - Medidas de dispersin. - Medidas de asimetra y curtosis.

    3.4.1 - MEDIDAS DE POSICIN O CENTRALIZACIN.

    Las medidas de centralizacin son valores que estn medidos en las mismas unidades que las observaciones y que nos indican en torno a qu posicin se distribuyen las observaciones que disponemos, es decir, cmo se agrupan los datos observados.

    Se clasifican en medidas de posicin central (medias mediana y moda) y en medidas de posicin no central (cuartiles, deciles , percentiles) dependiendo de que estos valores nos orienten sobre el lugar central de la distribucin o sobre la posicin de una parte cualquiera previamente determinada de la misma.

    Todas ellas verifican que su valor est comprendido entre el menor y el mayor valor de los datos disponibles.

    1.- Media aritmtica de una variable.

    Lo que se busca con este parmetro es determinar la posicin central de una distribucin cualquiera, de modo que su valor represente su centro de gravedad en el sentido de compensar las desviaciones con respecto a l de los valores de la variable en un sentido u otro.

    Se define por tanto la media aritmtica como la suma de todos los valores de la distribucin dividida por el nmero total de datos y se representa por x . As pues,

    1 2

    1

    1 NNi

    i

    x x xx x

    N N=

    + + += =

    Si el valor xi de la variable Xi se repite ni veces, hay que considerar estas repeticiones en la

    suma, de modo que 1

    ki i

    i

    x nx

    N=

    = ; con 1

    k

    ii

    n N=

    = .

    La frecuencia relativa del valor xi queda determinada por iinfN

    = , por lo que podemos poner

    1

    k

    i ii

    x x f=

    =

    En el caso de que tuviramos una distribucin con datos agrupados, los valores individuales de la variable seran desconocidos y por tanto no se podra utilizar la expresin anterior. En este

  • Estadstica unidimensional

    15

    supuesto se formulan las hiptesis de que el punto medio del intervalo de clase (marca de clase) representa adecuadamente el valor medio de dicha clase, y se aplicara la frmula original de la media simple para dichos valores.

    Ventajas e inconvenientes

    Ventajas: - se utilizan en el clculo todos los valores de que se dispone en la distribucin - est perfectamente determinada de forma objetiva y es nica - es calculable - es el centro de gravedad de la distribucin

    Inconvenientes: - los valores extremos muy dispares influyen de manera notable en su valor, por este motivo

    puede perder valor representativo

    No obstante, la media aritmtica, como medida de posicin es la forma ms adecuada para el resuman estadstico en el caso de distribuciones en escala de intervalos o de proporcin, con los cuales dicha medida alcanza su mximo sentido.

    2.- Media ponderada.

    Cuando es conocido que los valores de la variable no tienen todos la misma importancia con respecto al tratamiento que deben drseles, suele ser bastante til utilizar una variable de la media aritmtica denominada media ponderada.

    Para calcularla se le asocia a cada valor de la variable xi un peso wi que mide su grado de importancia en la distribucin. Dichos pesos wi son valores positivos y representan el nmero de veces que sus correspondientes valores xi son ms representativos que un valor que tuviese peso asociado a la unidad.

    Se define la media aritmtica ponderada de una distribucin de valores 1 2, , , kx x x , de pesos

    1 2, , , kw w w a

    1

    1

    k

    i ii

    p k

    ii

    x w

    x

    w

    =

    =

    =

    Notar que los pesos wi pueden ser nmeros reales positivos cualesquiera.

    3.- Media geomtrica.

    En muchas situaciones los valores de la distribucin no son de naturaleza propiamente aditiva, como en el caso de precios o salarios. En estos casos la media aritmtica deja de ser fcilmente interpretable. As, si tenemos una serie de ndices de precios durante un periodo de aos, el ndice medio anual de precios debe ser aquel que mantenindose constante durante todos esos aos, produzca la misma degradacin final de los precios en el ltimo ao con respecto del ao inicial que los ndices originales.

  • Estadstica unidimensional

    16

    En estas circunstancias, la medida de posicin central ms utilizada es la media geomtrica. Entonces, dada una distribucin de frecuencias (xi, ni), se define la Media Geomtrica y se representa por G a la raz n-sima del producto de los N valores de la distribucin:

    1 21 2

    1

    k ik

    n nn nN Nk ii

    G x x x x=

    = = Notar que

    1

    k

    ii

    n N=

    = . El clculo de G se facilita empleando logaritmos:

    1

    1log logk

    i ii

    G n xN

    =

    =

    Ventajas e inconvenientes Ventajas:

    - est definida de forma objetiva y es nica. - considera en su clculo todos los valores de la distribucin. - los valores extremos tiene menos influencia que en la media aritmtica.

    Inconvenientes: - clculo complicado - slo deba aplicarse cuando los valores de la distribucin sean todos positivos, ya que si

    alguno fuese cero anulara la media geomtrica y si hubiese valores negativos, se obtendran valores imaginarios.

    Su empleo ms frecuente es el de promediar datos de tipo multiplicativo tales como porcentajes, tasas, nmeros ndices, etc., es decir, en los casos en que se supone que la variable presenta variaciones acumulativas.

    4.- Media Armnica.

    Se define la media armnica de una distribucin de frecuencias (xi, ni) y se representa por H como:

    1 2

    11 2

    kk i

    ik i

    N NHnn n n

    x x x x=

    = =

    + + +

    Como puede verse, la inversa de la media armnica es la media aritmtica de los inversos de los valores de la variable. Se suele utilizar para promediar velocidades, tiempos, rendimientos.

    Ventajas e inconvenientes

    Ventajas: - en su clculo intervienen todos los valores de la distribucin. - clculo sencillo. - est definida de forma objetiva y es nica.

    Inconvenientes: - no debe usarse con valores prximos a cero pues sus inversos pueden crecer en demasa

    haciendo despreciables frente a ellos la informacin aportada por valores mayores. - no es posible su determinacin en distribuciones con algunos valores iguales a cero.

  • Estadstica unidimensional

    17

    5.- Mediana

    La Mediana es el valor de la distribucin, supuesta sta ordenada de menor a mayor, que deja a su izquierda y a su derecha el mismo nmero de frecuencias. Es decir, divide a la serie estadstica ordenada en dos partes iguales, habiendo tantos valores por encima como por debajo de ella. Tambin se puede definir como el valor de la distribucin cuya frecuencia acumulada es N/2 (o su frecuencia relativa acumulada es ).

    Si los datos no estn agrupados y estn numerados de 1 a N, es el valor que ocupa el lugar que

    ocupa el lugar 12

    N + si N es impar. Cuando N es par, la mediana no queda definida y se toma la

    media de los valores 2N

    y 12N

    + .

    Representando el polgono de frecuencias acumuladas, bastar con trazar la recta paralela al eje X de ordenadas N/2 y determinar la abcisa del punto en que lo corta. Puede suceder que la recta

    2Ny = tenga un segmento de puntos comunes, entonces se toma como mediana el punto medio del

    segmento.

    N

    N/2

    Mx1 x2 x3 x5 x6 x7

    N

    N/2

    Mx1 x2 x3 x5 x6 x7

    N

    N/2

    Mx1 x2 x3 x5 x6 x7x4

    N

    N/2

    Mx1 x2 x3 x5 x6 x7x4

    En el caso de distribuciones agrupadas en intervalos no es necesario distinguir si los intervalos tienen la misma amplitud. Aplicando el mtodo general de bsqueda del valor que ocupa el lugar N/2, en este caso nos encontramos con un intervalo mediano, en lugar de un valor mediano. Como queremos fijar la median en un valor, seleccionaremos un representante del intervalo mediano al que llamaremos mediana.

    Suponemos que todos los valores comprendidos dentro del intervalo mediano se encuentran distribuidos uniformemente a lo largo de l. A continuacin se considera la poligonal de frecuencias acumuladas correspondientes al intervalo mediano y a sus dos contiguos y determinamos grficamente la mediana.

    N/2

    Mai-1 ai

    A

    B

    B

    CC Ni

    Ni-1

    ci

    m

    N/2

    Mai-1 ai

    A

    B

    B

    CC Ni

    Ni-1

    ci

    m

  • Estadstica unidimensional

    18

    Vemos que 1iM a m= + . Determinamos m en base a la hiptesis fijada, que nos permite escribir

    ' '

    AC BCAC BC

    = , ya que los tringulos ABC y ABC son semejantes. Por tanto AC m= , ' iAC c= , 1( / 2) iBC N N = y 1' ' i i iB C N N n= = . Sustituyendo en la relacin anterior se tiene que: 1( / 2) i

    i i

    N Nmc n

    = ,

    y por tanto despejando tenemos 1( / 2) i ii

    N Nm c

    n

    = ,

    de modo que: 11( / 2) i

    i ii

    N NM a cn

    = +

    Ventajas e inconvenientes

    Ventajas: - es sencilla de calcular - no influyen en ella ms que los datos centrales de la distribucin. - se puede calcular an desconociendo los valores extremos de la distribucin siempre que

    contemos con suficiente informacin respecto de sus frecuencias.

    Inconvenientes: - no puede expresarse mediante una frmula matemtica sencilla a efectos de realizar con ella

    grandes desarrollos matemticos.

    A pesar de la frmula vista para el caso de distribuciones en escala por intervalos, la mediana tiene un mayor sentido en casos de distribuciones en escala ordinal (susceptibles de ser ordenados), de la cual es la medida ms representativa por describir la tendencia central de la misma.

    6.- Moda

    Se llama Moda de una distribucin de frecuencias al valor (o valores) de la variable al que corresponde mayor frecuencia. Una distribucin de frecuencias puede tener una o varias modas. Si tiene una se llama unimodal, si tiene dos, bimodal, etc.

    El clculo de la Moda resulta sencillo en el caso de datos simples y datos agrupados, pero cuando los datos estn agrupados en intervalos no obtendremos el valor exacto de la Moda, sino una aproximacin que depender de las hiptesis que realicemos sobre las observaciones de cada intervalo considerado. Las hiptesis de partida son: Hay una moda en cada intervalo cuya densidad de frecuencia no es superada por ningn otro. Dentro de los intervalos, la moda es aquel punto que equilibra las densidades de frecuencia de

    los intervalos adyacentes, suponiendo que los valores se reparten en el interior de los mismos de manera uniforme.

    Sea pues 1[ , )i ia a un intervalo cuya densidad de frecuencia no es superada por ningn otro. Estre intervalo recibe el nombre de intervalo modal o clase modal. La densidad de frecuencia hi de

    un intervalo i-simo es el cociente entre la frecuencia absoluta asociada ni y su amplitud ei: iii

    nhe

    = .

  • Estadstica unidimensional

    19

    M0ai-1 ai

    ei

    b

    ai+1ai-2

    hi

    hi+1

    hi-1

    a

    M0ai-1 ai

    ei

    b

    ai+1ai-2

    hi

    hi+1

    hi-1

    a

    En la representacin grfica el equilibrio debe darse en el sentido de ser 11

    i

    i

    hab h

    +

    =

    Como la moda M0 ser 0 1iM a b= + , tenemos 1 11 1

    ii i

    i i

    e bab h hh h+ +

    = = .

    Despejando 1 1 1i i i ib h e h b h + + = , y as 11 1

    ii

    i i

    hb eh h

    +

    +

    =

    +. Por tanto la expresin de M0 es

    10 1

    1 1

    ii i

    i i

    hM a eh h

    +

    +

    = + +

    Si las amplitudes de los intervalos fuesen constantes, la expresin de la moda ser

    10 1

    1 1

    ii i

    i i

    nM a en n

    +

    +

    = + +

    Ventajas e inconvenientes

    Ventajas: - fcil interpretacin - clculo sencillo

    Inconvenientes: - no tiene una expresin matemtica sencilla para el clculo algebraico. - no intervienen en su determinacin todos los valores de la distribucin. - los cambios en la distribucin que se produzcan ajenos al valor modal no son detectados.

    La obtencin de las modas de una distribucin tienen una importancia propia derivada del hecho de que sirve para detectar posibles fusiones de distintas poblaciones unidimensionales en la masa de datos. A veces avisa de la necesidad de dividir dicha masa de datos en partes distintas para que el fenmeno que estamos tratando se estudie mejor.

    7. - Medidas de posicin no centrales.

    Otros valores notables, pero que no reflejan ninguna tendencia central son los Cuantiles. Son valores de la distribucin que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo nmero de valores. Entre los Cuantiles de uso ms frecuente estn los Cuartiles, los Deciles y los Percentiles.

  • Estadstica unidimensional

    20

    Cuartiles: son tres valores de la distribucin que la dividen en cuatro partes iguales, es decir, en cuatro intervalos dentro de los cuales estn el 25% de los valores de la distr5ibucin. Se representan por Ci con i=1,2,3.

    Deciles: son los nueve valores de la distribucin que la dividen en 10 partes iguales. Cada parte contendr el 10% de la distribucin. Se representan por Di, con i=1,2,,9.

    Percentiles: son los 99 valores que dividen a la distribucin en 100 partes iguales. Se representan por Pi, con i=1,2,,99.

    Notar que P25=C1; P50=C2=M; P75=C3; P10=D1; P20=D2; ; P90=D9. Su clculo es anlogo al de la mediana y en general se aplica la expresin

    1

    / 1

    i

    r k i ii

    r N NkQ a c

    n

    = + donde

    1) para k = 4 y r = 1,2,3 obtenemos los cuarteles 2) para k = 10 y r = 1,2,,9 obtenemos los deciles 3) para k = 100 y r = 1,2,,99 obtenemos los percentiles

    3.4.2 - MEDIDAS DE DISPERSIN.

    Las medidas de dispersin tienen por objeto dar una idea de la mayor o menor concentracin de los valores de una distribucin alrededor de los valores centrales. Las medidas de tendencia central tienen como objetivo sintetizar toda la informacin de la que se dispone. Por tanto, medir la representatividad de estas medidas equivale a cuantificar la separacin de los valores de la distribucin con respecto de dicha media. La mayor o menor separacin de los valores entre si se llama Dispersin o Variabilidad. Por tanto las medidas de dispersin nos miden el grado de dispersin de la distribucin de la variable.

    1 - Recorrido

    Se llama recorrido a la diferencia entre el mayor y el menor de los valores de la variable y se representa por R: 1nR x x=

    Por su sencillez de clculo se utiliza sobre todo en el control de fabricacin industrial, aunque es muy sensible a los valores errneos.

    El recorrido intercuartlico es la diferencia entre los valores P75 y P25 y nos indica el intervalo de longitud RI donde estn comprendidos el 50% central de los valores.

    2 - Desviaciones

    Consideremos un valor central C y un valor de la variable xi. Al valor xi - C se llama desviacin de xi respecto de C. Al valor ix C , desviacin absoluta.

    Se define la desviacin media, D, de una distribucin de frecuencias con respecto al valor central C a

  • Estadstica unidimensional

    21

    1

    1 ki i

    iD x C n

    N=

    = (en caso de datos agrupados). Las desviaciones medias ms utilizadas son respecto a la media y a la mediana, que se obtienen

    sustituyendo C por x y M, respectivamente.

    Las desviaciones medias tienen un significado preciso como promedio de las desviaciones, aunque tienen el inconveniente de no ser adecuadas para el clculo algebraico.

    3 - Varianza y desviacin tpica

    La varianza de una distribucin de frecuencias es la media aritmtica de los cuadrados de las desviaciones respecto a la media. Es el ndice de dispersin ms usado y se designa por 2. Su expresin viene dada por:

    ( )221

    1 ki i

    ix x n

    N

    =

    =

    para datos agrupados y xi marcas de clase, siendo x la media aritmtica de la distribucin de frecuencias (xi, ni).

    A la raz cuadrada positiva de la varianza se llama desviacin tpica y se obtiene como

    ( )21

    1 ki i

    ix x n

    N

    =

    =

    Clculo abreviado de la varianza y la desviacin tpica

    Desarrollando la expresin anterior:

    ( ) ( ) 222 2 2 21 1 1 1 1

    2 2 2 2 2

    1 1

    1 1 1 22

    1 12

    k k k k k

    i i i i i i i i i ii i i i i

    k k

    i i i ii i

    x xx x n x x x x n x n n x n

    N N N N N

    x n x x x n xN N

    = = = = =

    = =

    = = + = + =

    = + =

    Disponiendo los clculos en forma de tabla:

    ix in i in x 2

    i in x

    1x 1n 1 1n x 2

    1 1n x

    ix in i in x 2

    i in x

    kx kn k kn x 2

    k kn x

    iN x= i in x 2i in x

    22 2

    1 1

    1 1k ki i i i

    i in x x n

    N N

    = =

    =

  • Estadstica unidimensional

    22

    La varianza medir la mayor o menor dispersin de los valores respecto a la media aritmtica. Si la dispersin es muy grande, la media no ser representativa.

    Propiedades de la desviacin tpica

    No tiene un sentido muy concreto en s misma y tiene significado para comparar dos distribuciones. Dividiendo las desviaciones tpicas de ambas se puede obtener cuntas veces una distribucin es ms dispersa que otra.

    Es ms sensible que la media a los valores errneos, puesto que intervienen al cuadrado. Su clculo puede resultar pesado, por lo que a veces se prefiere el recorrido.

    Es la menor de todas las desviaciones cuadrticas respecto a un promedio. Para distribuciones simtricas o moderadamente asimtricas se cumple de forma aproximada

    que: 1. Entre x y x + estn aproximadamente el 68% de las observaciones. 2. Entre 2x y 2x + estn aproximadamente el 95% de las observaciones. 3. Entre 3x y 3x + estn aproximadamente el 98% de las observaciones.

    Tambin podemos utilizar como medida de dispersin respecto a la media la denominada Cuasivarianza:

    *2 2

    1NS

    N=

    4 - Medidas de dispersin relativas.

    Supongamos que se tienen dos distribuciones de frecuencias cuyos promedios son P1 y P2 y queremos saber cul de los dos es ms representativa. Esta comparacin no la podemos efectuar por sus respectivas medidas de dispersin ya que las distribuciones , en general, no vendrn dadas en las mismas unidades de medida. Tampoco, aunque sus unidades de medida sean las mismas, si los promedios son numricamente diferentes. Por tanto es necesario construir medidas adimensionales. Estas medidas de dispersin, llamadas relativas, siempre vendrn dadas en forma de cociente. Entre ellas destacan:

    Coeficiente de apertura

    Es la relacin por cociente entre el mayor y el menor valor de una distribucin: 1n

    xAx

    = . Es

    muy fcil de calcular pero presenta inconvenientes: Mide la dispersin de la distribucin, pero no hace referencia a ningn promedio por lo que no

    resuelve el problema de comparacin entre estos. Slo tiene en cuenta dos valores de la distribucin (los extremos), lo que dar gran dispersin en

    el caso de que estn muy separados.

    Recorrido relativo.

    Es el cociente entre el recorrido y la media aritmtica r

    RRx

    = . Nos indica el nmero de veces

    que el recorrido contiene a la media aritmtica.

  • Estadstica unidimensional

    23

    Recorrido semiintercuartlico Es el cociente entre el recorrido intercuartlico y la suma del primer y tercer cuartil:

    3 1

    3 1s

    C CRC C

    =

    +

    Coeficiente de variacin de Pearson Con l podemos comparar las medias aritmticas de dos distribuciones que vengan dadas en

    unidades diferentes. Se define como el cociente entre la desviacin tpica y la media aritmtica:

    . .

    SC Vx x

    = =

    Es una medida adimensional y representa el nmero de veces que contiene a x . Cuanto mayor sea C.V., ms veces contendr a x , por lo que a mayor C.V., menor representatividad de x . El coeficiente se suele expresar en tanto por ciento.

    Como tanto en como en x han intervenido todos los valores de la distribucin, C.V. presenta la garanta de que utiliza toda la informacin.

    La cota inferior de es cero (el menor valor que puede tomar ) y es el valor de C.V. que indica la mxima representatividad de x .

    3.4.3 - MEDIDAS DE FORMA

    Se han visto hasta ahora las medidas de centralizacin o posicin y las medidas de dispersin, de modo que tenemos una idea de las forma que tiene la distribucin objeto de nuestro estudio. Pero es necesario definir otra serie de medidas que permitan cuantificar la forma de la distribucin en dos sentidos: la mayor o menor simetra y la concentracin ms o menos acusada de los valores centrales de la distribucin en torno a las medidas de posicin central que ya conocemos.

    Las medidas de forma de una distribucin se pueden clasificar en dos grandes grupos: medidas de asimetra y medidas de curtosis.

    1 - Medidas de asimetra

    Las medidas de asimetra se dirigen a elaborar un indicador que permita establecer el grado de simetra (o asimetra) que presenta una distribucin sin necesidad de llevar a cabo su representacin grfica. Diremos que una distribucin es simtrica si al representarla grficamente y trazada una vertical que pase por la media aritmtica, deja a ambos lados el mismo nmero de valores.

    Pearson define su ndice de simetra como 1x Mof

    = . As si se verifica que f1 = 0, entonces x Mo Me= = y la distribucin es simtrica. Si f1 > 0 se dice que es asimtrica a la derecha, pues Mo < x , y si f1 < 0, asimtrica a la izquierda, pues Mo> x .

  • Estadstica unidimensional

    24

    Otro ndice de simetra ms general es el de Fisher, que vale

    ( )31

    1 2

    1 ki i

    ix x n

    Ng

    =

    =

    Anlogamente como ocurra con el de Pearson, si g1 = 0 la distribucin es simtrica, si g1 > 0 presenta asimetra a la derecha y si g1 < 0, asimetra a la izquierda.

    2 - Medidas de apuntamiento o Curtosis

    Estas medidas se aplican a distribuciones acampanadas, es decir, unimodales, simtricas o con ligera asimetra. Tratan de estudiar la distribucin de frecuencias alrededor de la media y en la zona central de la distribucin dar lugar a una distribucin ms o menos apuntada.

    Para estudiar la curtosis de una distribucin es necesario definir previamente una distribucin tipo que se toma como modelo de referencia. Esta distribucin es la llamada distribucin normal, que corresponde a fenmenos muy corrientes en la naturaleza y cuya representacin grfica es una campana de Gauss dada por la frmula

    ( )22

    121( )

    2

    x x

    f x e pi

    =

    Se trata de ver la deformacin existente entre una distribucin, en sentido vertical y la normal. As diremos que una distribucin puede ser ms apuntada que la normal si es ms alta, y recibe el nombre de Leptocrtica. En caso contrario se la llama Platocrtica. La propia distribucin normal recibe el nombre de Mesocrtica.

    Se define el coeficiente de apuntamiento o curtosis como ( )4

    12 4

    1

    3

    k

    i ii

    x x nNg

    =

    =

    .

    Entonces si g2 = 0 tenemos una distribucin mesocrtica, o asimilable a la distribucin normal de Gauss.

    Si g2 > 0 tenemos una distribucin Leptocrtica, ms puntiaguda. Y si g2 < 0, la distribucin se llama Platocrtica y es ms aplanada.

    g2 = 0 g2 > 0 g2 < 0

  • Estadstica unidimensional

    25

    4 - MTODOS BSICOS DE LA ESTADSTICA INFERENCIAL

    La estadstica inferencial establece previsiones y conclusiones sobre la poblacin a partir de los datos obtenidos de una muestra, siguiendo un mtodo basado fundamentalmente en el clculo de probabilidades. Dicho clculo busca crear modelos estadsticos tericos que se ajusten lo ms posible a la realidad y cuya funcin es generalizar los resultados de la muestra para estimar caractersticas de la poblacin. Los mtodos en los que se basa la Estadstica inferencial para poder establecer sus conclusiones son:

    - Muestreo. - Estimacin estadstica. - Contraste de hiptesis.

    4.1. Muestreo

    Como ya se ha indicado, en estadstica se llama Poblacin o Universo, a cualquier conjunto o coleccin de individuos o elementos que tienen una caracterstica comn. As son ejemplos de Poblacin los habitantes de una provincia, los rboles de un bosque o los establecimientos comerciales de una ciudad. Lo que interesa en la Poblacin es medir o contar uno o varios caracteres cuantitativos. Por tanto se hace necesario que la Poblacin est definida para saber qu elementos la componen.

    Cuando se pueden observar todos los elementos de la Poblacin, diremos que se est realizando un censo. En este caso la tarea a realizar es describir las caractersticas y regularidades de la Poblacin con los mtodos de la Estadstica Descriptiva y construir el modelo de Distribucin de Probabilidad para que pueda ser utilizado en posteriores investigaciones

    Pero no siempre es posible analizar cada elemento de la Poblacin debido a diferentes razones como: - que sea inviable econmicamente estudiar la poblacin, - que el estudio implique la destruccin del elemento (ensayos destructivos) - que la poblacin sea muy difcil de controlar - que se desea conocer rpidamente ciertos datos de la Poblacin (p.e. encuestas de intencin de

    voto) por lo que las caractersticas de la Poblacin deben ser estudiadas a partir de un subconjunto de esta.

    Hemos definido muestra de una Poblacin como un subconjunto de elementos de dicha Poblacin. El nmero de elementos que la componen se llama tamao de la muestra y el proceso de escoger una muestra de una poblacin, muestreo. Como ya se ha indicado, si la investigacin se dirige a toda la poblacin se estar haciendo un censo u observacin exhaustiva. Si lo que se recoge es la informacin de una muestra, una encuesta.

    Al efectuar una observacin exhaustiva se conoce el valor que toma una caracterstica X en cada uno de los individuos de la Poblacin, por lo que se conoce la distribucin de la variable hacindose innecesarios los mtodos de Inferencia estadstica. Si la caracterstica X se observa en una muestra de la Poblacin, para poder utilizar adecuadamente la Inferencia estadstica hay que prescindir de las muestras seleccionadas segn un criterio u opinin personal. De este modo surge de forma natural la necesidad de cuantificar los errores de muestreo y de conocer los aspectos fundamentales para que una muestra sea representativa de la Poblacin.

  • Estadstica unidimensional

    26

    Para obtener conclusiones razonables a partir de una muestra, esta debe estar bien elegida, debe ser representativa de la Poblacin. Esta cualidad depende de dos aspectos fundamentales: el tamao de la muestra y de cmo se realiza la seleccin de los individuos que la componen.

    Por lo que respecta al tamao, si la muestra es demasiado pequea, no se obtendran conclusiones relevantes y precisas salvo en el caso de poblaciones homogneas, en las que cualquier subconjunto tiene caractersticas anlogas al conjunto (p.e. una muestra de sangre). Por otra parte, un aumento del tamao de la muestra no supone un aumento significativo de la representatividad.

    Considerando la seleccin de los elementos, al sustituir el estudio de la poblacin por el estudio de una muestra se comenten errores. Si la muestra est seleccionada al azar stos se pueden controlar, pero si est mal elegida, no es representativa y aparecen errores imprevistos e incontrolados. Un ejemplo de estos errores se pueden ver en los estudios de intencin de voto en las elecciones a la presidencia de los EEUU en 1936: una revista realiz la encuesta a ms de 4 millones de sus lectores obteniendo el resultado de fracaso electoral de Roosevelt. Por otro lado, otra encuesta a 4500 personas adelant el xito del Roosevelt con bastante exactitud. La explicacin es que el segundo estudio contaba con una muestra ms homognea de la sociedad americana de entonces.

    Los integrantes de una muestra han de ser elegidos al azar, eliminando criterios personales. En este caso estamos ante un muestreo probabilstico al que se pueden aplicar mtodos de inferencia estadstica. Obtenemos as muestras representativas. En caso contrario estamos ante el muestreo opintico o no probabilstico (p.e. encuestas de Internet).

    Hay dos tipos de errores en la seleccin de la muestra.

    1. Errores muestrales, que se encuentran latentes en toda muestra representativa pues no proporciona una medida exacta de las caractersticas de la poblacin, aun siendo representativa.

    2. Sesgos, ocasionados por la falta de representatividad de la muestra, o a errores de observacin debidos a definiciones defectuosas, medidas mal efectuadas, etc.

    Por este motivo es importante conocer los tipos de muestreo as como la garanta de su representatividad. Para aumentar la representatividad sin necesidad de aumentar el tamao de la muestra se recurre al muestreo o tcnicas de muestreo. En la prctica resuelven el problema de la representatividad. Pero antes de pasar a estudiar los diferentes tipos de muestreo, se presentarn algunos conceptos bsicos en el muestreo.

    Distribucin poblacional

    Supongamos que en una Poblacin dada nos interesa estudiar la caracterstica numrica x, y tenemos para cada uno de sus elementos los valores x1, x2,, xN. Su distribucin queda definida principalmente por los parmetros poblacionales que son:

    N : tamao de la Poblacin;

    Media poblacional: 1

    N

    ii

    x

    N ==

    ;

  • Estadstica unidimensional

    27

    Varianza poblacional:

    2

    2 21 1( )

    N N

    i ii i

    x x

    N N

    = =

    = =

    ;

    Desviacin tpica poblacional: 2 = +

    Proporcin poblacional: AApN

    = ,

    con A= n de elementos de la poblacin con la caracterstica A. Destacar que estos parmetros son valores numricos

    Distribucin de la muestra

    Medimos en la muestra la caracterstica numrica x que nos interesa. Ahora x es una variable estadstica, y se estudia la distribucin de sus frecuencias con los mtodos de la Estadstica Descriptiva. Si x1, x2,, xn son los valores obtenidos, a partir de estos se calculan los parmetros estadsticos o muestrales:

    n : tamao de la muestra;

    Media muestral: 1

    n

    ii

    x

    xn

    =

    =

    ;

    Varianza muestral:

    2

    2 21 1( )

    n n

    i ii i

    x x x

    S xn n

    = =

    = =

    ;

    Desviacin tpica muestral: 2S S= + ;

    Proporcin poblacional: pn

    = ,

    con = n de individuos de la muestra con la caracterstica A. Destacar que ahora estos parmetros son funciones, pues dependen de la muestra escogida.

    Nuestro objetivo es obtener informacin sobre la Ley de Probabilidad que rige la caracterstica x de la Poblacin a partir de las observaciones de la misma elegidas para formar la muestra, es decir, queremos estimar los parmetros poblacionales a partir de los datos muestrales. As, se define como estadstico a cualquier funcin que depende slo de los valores de la muestra x1, x2,, xn, y estimador a aquel estadstico que se utiliza para estimar el valor de un parmetro desconocido de la Poblacin.

    Como para cada muestra considerada el estimador toma un valor, este es una variable aleatoria, y por tanto, cada estimador tendr una distribucin que llamaremos Distribucin muestral del estimador considerado. Los estadsticos ms utilizados son 2, ,x S S y un parmetro muestral que se llama Cuasivarianza muestral, definido como:

    2

    2 1( )

    1

    n

    ii

    C

    x x

    Sn

    =

    =

    . (Notar que 2 21 C

    nS Sn

    = , y 2 21C

    nS Sn

    =

    ) El muestreo probabilstico se caracteriza porque puede calcularse de antemano la probabilidad

    de obtener cada una de las posibles muestras, para lo cual es necesario que la seleccin de la muestra pueda considerarse como un experimento aleatorio. As cada observacin xi es una variable aleatoria que tiene la distribucin de probabilidad de la Poblacin: E[xi]=, V[xi]=2, para todo i = 1,2,0.

  • Estadstica unidimensional

    28

    Este tipo de muestreo es el nico que tiene rigor cientfico y el nico que puede darnos el error que cometemos en la inferencia. Dentro del muestreo aleatorio hay varios tipos que se vern a continuacin.

    I) Muestreo aleatorio simple

    Se realiza en poblaciones en las que los datos son homogneos, es decir, no existen factores que produzcan variabilidad sistemtica. En este tipo de muestreos los elementos de la poblacin homognea se eligen al azar. La representatividad de una muestra obtenida por el muestreo aleatorio simple (MAS) viene garantizada por tener cada elemento la misma probabilidad de ser elegido. As, si un 40% de la poblacin tiene la caracterstica xi, se obtendr, por trmino medio, un 40% de elementos de la muestra con esa caracterstica.

    Se distinguen a su vez dos casos de MAS, dependiendo de que los elementos de la poblacin se selecciones con o sin reemplazamiento.

    I.1 - MAS sin reemplazamiento

    Cuando las sucesivas extracciones de elementos se realizan sin reemplazamiento tenemos un nmero de muestras posibles dado por N combinaciones tomadas de n en n, por lo que la

    probabilidad de seleccionar una de ellas es ( ) 1/iN

    P Xn

    =

    , con Xi muestra cualquiera de n

    elementos de las Nn

    posibles. De este modo, la probabilidad de que la unidad ui pertenezca a la

    muestra es1( ) /1i

    N N nP un n N

    = =

    .

    La distribucin que sigue la media muestral x , tiene por esperanza y varianza:

    Esperanza: 1 1

    1 1 1[ ] [ ]n n

    i ii i

    E x E x E x nn n n

    = =

    = = = =

    Varianza: [ ]( ) 22[ ] 1N nV x E x E xN n

    = =

    , donde 1N nN

    se llama factor de correccin

    para poblaciones finitas.

    I.2 - MAS con reemplazamiento

    Cuando las sucesivas extracciones de elementos se realiza con reemplazamiento, entonces tenemos un n-upla x1, x2,, xn de variables aleatorias independientes e idnticamente distribuidas segn la distribucin de la poblacin.

    Como tenemos Nn muestras posibles, la probabilidad de seleccionar una de ellas es por tanto 1/Nn. En este caso la distribucin de la media muestral es:

    1 1

    1 1 1[ ] [ ]n n

    i ii i

    E x E x E x nn n n

    = =

    = = = =

    22 2

    2 2 21 1 1

    1 1 1 1[ ] [ ]n n n

    i ii i i

    V x V x V x nn n n n n

    = = =

    = = = = =

    , (notar que xi son v.a.i.)

    La distribucin de la varianza muestral es:

  • Estadstica unidimensional

    29

    2 2 2

    1

    1 1( )n

    ii

    nE S E x xn n

    =

    = =

    En consecuencia, el valor medio de S2 es menor que 2 , aunque la diferencia tiende a cero al aumentar el tamao de la muestra. Por eso se define la Cuasivarianza muestral Sc2, que verifica E[Sc2]=2, lo que se demuestra sencillamente.

    Notar que en el caso de ser la poblacin infinita, o el tamao N muy grande, es prcticamente igual hacer el muestreo con o sin reemplazamiento pues:

    2 2

    [ ] [ ]1

    nN nV x V xN n n

    = =

    22 2 2( 1) ( 1)[ ] [ ]

    1nN n nE S E S

    N n n

    = =

    Como regla prctica se suele adoptar que si la fraccin de muestreo n/N es menor que 5/100, entonces se hace el muestreo aleatorio simple con reemplazamiento, que es el que se utiliza con mayor frecuencia, y al ser variables aleatorias e independientes e idnticamente distribuidas, el estudio de las distribuciones de x y S2 queda mucho ms sencillo.

    En el estudio de la distribucin de la proporcin muestral, definimos en la Poblacin la variable aleatoria Y de Bernouilli: Y B(1, pA). Sabemos que E[Y] = pA, V[Y] = pAqA, donde qA=1-pA. Si tomamos una muestra aleatoria simple de tamao n, Y1,Y2,,Yn, la proporcin

    muestral de A es:1

    1 ni

    ip Y

    n=

    = . Entonces su esperanza y varianza sern:

    1 1

    1 1 1[ ] [ ]n n

    i i A Ai i

    E p E Y E Y n p pn n n

    = =

    = = = =

    2 21 1

    1 1 1[ ] [ ]n n

    A Ai i A A

    i i

    p qV p V Y V Y n p qn n n n

    = =

    = = = =

    , por ser v.a.i.

    Distribuciones de probabilidad en el muestreo

    Conocer las distribuciones de probabilidad en el muestreo de los estadsticos estudiados es clave en la Inferencia Estadstica. A partir de estos resultados, suponiendo una muestra aleatoria simple con reemplazamiento se tiene que:

    A) Caso de poblaciones normales XN(,) 1) Si es conocido, ,x N

    n

    2) Si es desconocido, 1/ ncx

    tS n

    3) 22

    2 21 12 2

    ( 1) cn n

    n Sn S

    , y adems es independiente de x .

    B) Caso de poblaciones no normales 1) Cuando no se sabe la distribucin de la poblacin y n30, podemos aplicar el teorema

    central del Lmite y tenemos que

  • Estadstica unidimensional

    30

    Si es conocida, ,x Nn

    , y si es desconocida, , cS

    x Nn

    2) Si YB(1,p) y n30, tambin por el teorema central del Lmite,

    ,A A

    Ap qp N p

    n

    II - Muestreo aleatorio estratificado

    Si en la poblacin existe variabilidad, entonces se divide en grupos homogneos denominados estratos y posteriormente se extrae una MAS de cada estrato. Se deben coger como estratos aquellos factores que producen variabilidad de los datos. Si N es el tamao de la poblacin y denominamos N1 ,N2,,Nk el tamao de cada estrato, tenemos que N=N1++Nk. El nmero de elementos de cada estrato a seleccionar ser nj, proporcional al nmero de elementos de cada estrato, es decir

    jj

    Nn n

    N= , donde n es el nmero de elementos que queremos que tenga la muestra. Por ejemplo, si

    se tiene una poblacin en el que el 60% son mujeres y el 40% hombres, para escoger una muestra de 2.000 personas se divide la poblacin en dos estratos, hombres y mujeres, y se escoge al azar una muestra proporcional de cada estrato, que en este caso son 1.200 mujeres y 800 hombres.

    La representatividad de una muestra obtenida por muestreo aleatorio estratificado viene garantizada por el hecho de que

    el nmero de elementos de cada estrato es proporcional al tamao del estrato el nmero de elementos seleccionados de cada estrato es proporcional a la variabilidad de

    cada estrato. Una vez determinado el nmero de individuos que deben pertenecer a cada estrato se procede a

    la seleccin de individuos de cada estrato por MAS.

    III - Muestreo aleatorio sistemtico

    Se emplea cuando los elementos de la poblacin estn ordenados en listas. Si k es el entero ms prximo a N/n, la muestra sistemtica se toma eligiendo al azar un elemento entre los k primeros. Sea n1 el orden del elegido. A continuacin se toman los elementos n1+k, n1+2k,, a intervalos fijos de k hasta completar la muestra.

    Si el orden de los elementos de la lista es al azar, este procedimiento es equivalente al MAS, aunque resulta ms fcil llevarlo a cabo sin errores. La representatividad de una muestra aleatoria sistemtica es la misma que la de un MAS. Si el orden es tal que los individuos prximos tienden a ser ms semejantes que los alejados, el muestreo sistemtico tiende a ser ms preciso que el MAS, al cubrir ms homogneamente toda la Poblacin. El muestreo sistemtico puede utilizarse con el muestreo estratificado para seleccionar la muestra dentro de cada estrato.

    IV - Muestreo aleatorio polietpico, por reas o conglomerados

    Si a Poblacin presenta heterogeneidad, se utiliza este tipo de muestreo. Para llevarlo a cabo de divide a la Poblacin en diferentes secciones o conglomerados y se eligen al azar unas cuantas secciones para formar la muestra. En un primer paso se descompone al a Poblacin en clases llamadas conglomerados, de forma que dentro de cada conglomerado haya la misma dispersin o heterogeneidad, de tal forma que todos los conglomerados se parezcan entre si. El segundo paso

  • Estadstica unidimensional

    31

    consiste en elegir la muestra realizando un muestreo aleatorio de conglomerados. Cuando se elige un conglomerado, todos los elementos del mismo pasan a formar parte de la muestra.

    La representatividad de una muestra por reas viene garantizada por el hecho de haber elegido los conglomerados por un mtodo aleatorio.

    V - Muestreo secuencial o muestreo sobre calidad

    Este tipo de muestreo se utiliza sobre todo para realizar controles de calidad en los que debe estudiar una caracterstica de una Poblacin cuyo estudio implica la destruccin del elemento que se selecciona. Las unidades de muestreo son examinadas progresivamente hasta llegar al punto en que se tiene suficiente informacin como para dar el resultado con las probabilidades de error previamente establecidas. Por tanto, primeramente se establecen unas propiedades que debe de cumplir el elemento que se seleccione y se toma la decisin de rechazarlo o aceptarlo y de continuar o no la inspeccin.

    Con este tipo de muestreo se requiere una muestra de menor tamao que en los muestreos estudiados anteriormente, aunque puede haber una ligera prdida de representatividad respecto a ellos.

    VI - Mtodos indirectos de muestreo

    Si podemos estimar una recta de regresin entre dos variables de una Poblacin con una muestra de una variable (independiente,.que obtendremos por mtodos directos ya vistos), podemos estimar los valores de otra variable (dependiente). La representatividad de la muestra depender del coeficiente de correlacin entre las dos variables que se estudien y de la representatividad de la muestra de la variable independiente.

    Tamao de la muestra

    Hasta ahora se ha respondido a la pregunta cmo se debe seleccionar una muestra para que sea representativa? Queda por contestar la otra cuestin planteada qu tamao debe de tener la muestra?

    En el diseo del estudio estadstico, antes de realizar el muestreo, se ha de fijar el tamao de la muestra con el fin de que los gastos econmicos para su realizacin estn dentro del presupuesto fijado, que el tiempo necesario para realizar el muestreo sea corto y que los resultados sean fiables.

    En primer lugar se establecer el tamao de la muestra dependiendo del grado de precisin que se quiera alcanzar, pues en funcin del tamao de la muestra se obtienen los gastos que requiere y el tiempo necesario. Destacar que el coste y el tiempo hace que muchos estudios no se realicen con la precisin determinada inicialmente.

    Se partir, por tanto, de un determinado error e y de un nivel de confianza para obtener el tamao adecuado. Se define el nivel de confianza como la probabilidad de que la diferencia entre el estimador y el parmetro que se quiere estimar sea menor que la cota de error. Podemos enunciarlo como ( ) 1P x e < = , y para que esta probabilidad sea elevada, tiene que ser muy pequeo. Si se considera adems el error de la forma e k

    n

    = , queda

  • Estadstica unidimensional

    32

    1P x kn

    < =

    .

    Suponiendo una Poblacin normal con desconocida, pero conocida , tipificando queda

    ( ) 1/

    xz P z k

    n

    = < = , y por tanto /2k z= , por lo que el error vendr dado por

    /2e zn

    = . A partir de aqu se despeja n, resultando

    2/2zne

    =

    .

    Esta expresin se aplica directamente porque conocemos /2z y e lo fijamos. Observamos que el tamao de la muestra ser mayor cuanto mayor sea /2z , es decir, mayor el nivel de confianza 1-, y ser mayor tambin cuanto menor sea e2, pues la estimacin es ms precisa en el intervalo.

    La frmula anterior slo sirve para muestreos sobre poblaciones infinitas o finitas con

    reemplazamiento. Para las poblaciones finitas se tomar /2 1NN n

    e zN n

    =

    , es decir aadindole

    el factor de correccin.

    Despejando queda 11N

    nn

    n

    N

    =

    +, con

    2/2zne

    =

    .

    En el caso de no tener informacin sobre la poblacin se utilizar la desigualdad de Markov, que dice que dad una funcin no negativa g de la variable aleatoria x, para todo >0 se verifica:

    [ ] [ ]( )( ) E g xP g x > . Tomando ( ) [ ] ( ) [ ]

    22 2( ) 0 ( )g x x E g x E x V x

    n

    = > = = = , y fijando

    2 0 = > ,

    ( )2 2

    2 22 2P x P x

    n n

    > >

    lo que permite determinar el tamao de la muestra necesario para asegurar con determinada probabilidad que la media muestral no se alejar ms de una determinada cantidad de la media poblacional.

    4.2 - Estimacin estadstica

    La estimacin estadstica, que se basa fundamentalmente en el clculo de probabilidades, tiene por objeto inferir el valor de un parmetro desconocido de una distribucin en base a los datos de una muestra.

    La estimacin de parmetros se realiza mediante:

    Estimacin puntual En la que se aproxima el valor del parmetro a partir de un estadstico calculado en

    la muestra. No hay un nico criterio para determinar el mejor estimador puntual pero

  • Estadstica unidimensional

    33

    para ser un buen estimador se desea que sea insesgado (cuando su distribucin est centrada en el parmetro a estimar), consistente (si la probabilidad de que la estimacin y el parmetro estn prximos aumenta y tiende a 1 al aumentar el tamao de la muestra) y eficiente (un parmetro es ms eficiente que otro si tiene menor varianza).

    Estimacin por intervalos de confianza En la que en lugar de un solo punto se da un intervalo para estimar el valor de un

    parmetro. Los extremos del intervalo se calculan en base a los datos de la muestra y la probabilidad de que el verdadero valor del parmetro desconocido est en el intervalo debe ser alta. Para ello, primeramente se debe fijar la probabilidad con la que se pretende que el intervalo contenga al parmetro. Esta probabilidad, 1-a, se denomina nivel de confianza y al valor a se le llama nivel de significacin.

    4.3 - Contraste de hiptesis

    El contraste de hiptesis, tambin llamado test de hiptesis, es un procedimiento que permite verificar si un conjunto de afirmaciones sobre la poblacin son o no ciertas y si los datos nos ofrecen evidencia estadstica para poder aceptar o rechazar una hiptesis que se plantea.

    El contraste de hiptesis es, por tanto, un mtodo numrico para comprobar una teora o hiptesis sobre una poblacin. Dicho mtodo consta de los siguientes pasos:

    1. Enunciar la hiptesis H0. Consiste en darle un valor a un parmetro de cierta poblacin.

    2. Construir la zona de aceptacin en funcin del nivel de significacin. Si la hiptesis es cierta, el parmetro de la muestra se distribuir de forma conocida. En

    primer lugar se considera un nivel de significacin siendo los ms comunes = 0,10; = 0,05; = 0,01. A continuacin se construye la zona de aceptacin que es el intervalo fuera del cual slo se encuentran el 100 % de los casos "ms raros".

    3. Verificar la hiptesis Obtener el correspondiente parmetro en una muestra cuyo tamao es el que se ha decidido

    en el paso 2.

    4. Decidir si se acepta la hiptesis Se decide si se acepta la hiptesis con un nivel de significacin a dependiendo de que el

    valor del parmetro est dentro de la zona de aceptacin. Si no lo est, se rechaza la hiptesis.

    Veamos un ejemplo concreto: Podemos suponer que es correcta una moneda que, al arrojarla 100 veces, da 25 caras?

    1. Enunciamos la hiptesis: "la moneda es correcta"

    5,021][:0 === caraPpH

    2. Construimos la zona de aceptacin: si la hiptesis fuera cierta, entonces las proporciones de caras en una muestra de tamao 100 seguiran una distribucin normal, esto es:

  • Estadstica unidimensional

    34

    ( )05,0;5,0100

    5,05,0;5,0, NN

    n

    pqpN =

    =

    3. Elegimos un nivel de significacin = 0,05; por tanto el 95% de las proporciones muestrales de caras estaran en el intervalo caracterstico:

    (0,5 - 1,96 . 0,05; 0,5 + 1,96 . 0,05) = (0,402; 0,598) denominada zona de aceptacin.

    4. Decidimos si aceptamos o no la hiptesis: puesto que la proporcin obtenida en la muestra es 0,25 que no est en la zona de aceptacin se rechaza la hiptesis y consideramos que la moneda no es correcta.

  • Estadstica unidimensional

    35

    5 - APLICACIONES DE LA ESTADSTICA.

    La estadstica es una ciencia de aplicacin prctica casi universal en todos los campos cientficos. En este apartado vamos a ver algunas aplicaciones en campos concretos tanto de la Estadstica Descriptiva como de la Estadstica Inferencial

    Aplicacin en las Ciencias Sociales

    El papel de la estadstica en el proceso de investigacin sociolgica est claramente determinado: las consideraciones estadsticas se introducen tan slo en la fase analtica del proceso de investigacin, despus de haber obtenido los datos, frecuentemente a partir de una muestra. La estadstica es, pues, un instrumento auxiliar en el proceso de investigacin.

    1.- El anlisis comparativo en sociologa

    El anlisis comparativo es una de las parcelas estudiadas por la Estadstica Descriptiva. La Sociologa hace constantemente uso de las comparaciones para avanzar el pensamiento sociolgico (ejemplo: comparacin sobre las actitudes de colectivos, comparacin de tasas brutas de natalidad para analizar la tendencia general del censo, comparacin de la situacin econmica de una zona determinada en diferentes aos).

    Para una correcta comparacin es preciso formular e identificar claramente los objetos o fenmenos que se van a medir, para que se puedan contrastar consistentemente grupos comparables. Son tres los tipos de comparacin que se pueden realizar:

    Comparacin entre grupos. El modelo de comparacin ser el realizado entre un grupo experimental al que se le ha

    sometido a un tratamiento conocido, como podra ser un grupo de alumnos al que se le ensea un programa educativo especial, y un grupo de control no sometido a dicho tratamiento (grupo de alumnos que contina con el programa tradicional). Se trata, pues, de una comparacin entre un grupo experimental y un grupo de control en dos momentos en el tiempo, es decir, antes y despus de someter al grupo experimental al tratamiento. Los grupos que se comparan pueden estar constituidos por individuos o por cosas u objetos no personales, tales como grupos de organizaciones o instituciones sociales.

    Comparaciones entre un grupo y un caso individual de dicho grupo. As, se pueden comparar los resultados escolares de un estudiante con los

    correspondientes a la media de su clase. Lo importante ser siempre delimitar y definir las caractersticas del grupo que se compara con las correspondientes al individuo.

    Comparaciones entre los resultados de un estudio y unos resultados estandarizados que bien han sido establecidos a partir de investigaciones previas o provienen de un modelo terico formulado por el investigador.

    Un ejemplo sera contrastar determinadas caractersticas demogrficas de un grupo social objeto de estudio con las correspondientes tasas que ofrecen los resultados del censo general de la poblacin. Otras veces el estndar es simplemente un estudio anterior que sirve de referencia a una nueva investigacin (ejemplo: un antroplogo que estudia una

  • Estadstica unidimensional

    36

    comunidad rural ya estudiada anteriormente). Tambin las comparaciones se podrn realizar a partir de teoras conocidas. Un ejemplo sera el siguiente: la teora de la transicin demogrfica de las sociedades que pasan del estado preindustrial al industrial predice un cambio en las tasas de natalidad y mortalidad, de forma que los valores altos de tales tasas se reducen significativamente.

    2.- Recogida de datos estadsticos

    La descripcin estadstica de un fenmeno sociolgico se hace mediante datos numricos. La recogida de datos puede realizarse utilizando fuentes internas (ejemplo: datos intrnsecos a la propia actividad de la empresa y que son facilitados por ella misma) y externas (ejemplo: informacin ajena a la propia empresa y que es facilitada por otros organismos o individuos).

    Existen muchas entidades pblicas y privadas (ministerios, cmaras de comercio, entidades bancarias, revistas especializadas, el Instituto Nacional de Estadstica, etc.) que publican peridicamente datos e informes estadsticos de tipo general o especializados: finanzas, asuntos sociales y econmicos, educacin, etc. Dichas publicaciones son importantes fuentes externas.

    La recogida de datos es una tarea delicada pues un error en esta fase falsea todo el tratamiento posterior, de ah que, una vez concluida, haya de hacerse un detenido escrutinio de los nmeros conseguidos, a fin de revisar datos sospechosos o rechazar los claramente inadmisibles.

    3.- Aplicaciones en la estimacin del tamao o caractersticas de una poblacin

    La estimacin del tamao o caractersticas de una poblacin se realiza en base a:

    Censos y recuentos Cuando tanto el tamao de la poblacin a estudiar y los recursos necesarios para el

    estudio no sean excesivos se puede someter a anlisis la poblacin total dada la exactitud que se obtendr. Los censos de poblacin tienen gran tradicin y fueron las primeras manifestaciones estadsticas.

    Estudios actuales que implican la utilizacin de censos y recuentos son: los estudios sobre caractersticas demogrficas, los de fecundidad comparativa en diferentes grupos socio-econmicos y tnicos, los de actitudes y opiniones, los del efecto de la movilidad fsica y social, de la sanidad, del empleo y desempleo, analfabetismo y educacin.

    Aplicaciones del muestreo En muchos casos se recurre a la utilizacin de la inferencia estadstica para inferir a

    toda una poblacin las conclusiones sacadas a travs del estudio de una muestra de la misma. Ejemplos que actualmente han adquirido gran importancia son:

    Investigaciones de mercado El sondeo o medicin de la opinin pblica, tradicionalmente importante por su relacin

    con objetivos no slo sociales, sino tambin econmicos o polticos, ha adquirido actualmente una gran relevancia. Investigadores del mercado, trabajadores sociales, doxlogos, pseflogos y analizadores de la opinin pblica constituyen parte de un nuevo colectivo que utiliza el muestreo de opinin pblica como herramienta de trabajo. Es

  • Estadstica unidimensional

    37

    interesante, as mismo, el empleo del material recogido en las encuestas para el anlisis y simulacin de votaciones y otras reacciones polticas y sociales.