tema 9. estadistica inferencial completo (18!03!2015) y (23!03!15)-1

20
1 GRUPO 34 18/03/2015 TEMA 9. ESTADISTICA INFERENCIAL Para saber cual es la probabilidad de que una persona tenga una determinada enfermedad debemos investigar la población de la que procede. En principio, estas poblaciones son bastante desconocidas para nosotros, por lo que primero tendremos que investigar y analizarlas, para así poder sacar conclusiones. Esto, nos ayuda también en el tratamiento, por ejemplo, para saber cual es la probabilidad que tengo de curar a una persona, hacemos un estudio de la población enferma de esa enfermedad y vemos en cuantos individuos se consigue una remisión completa o parcial de la enfermedad, de tal manera que podamos estimar cual es la probabilidad que tiene el paciente de curarse, o qué riesgo tiene de sufrir una complicación en el tratamiento. Por ello, para atender al paciente es necesario conocer la población a la que pertenece el mismo. Estas se pueden conocer mediante las técnicas de inferencia estadística. La estadística inferencial engloba los términos muestra y población: - una población es un conjunto de individuos que en general no podemos abarcar, por distintas razones: la población es muy amplia, está muy dispersa, o es difícil encontrar personas que pertenezcan a esa población. Es difícil acceder a toda la población nosotros sólo podemos acceder a muestras. - una muestra es un subconjunto de individuos extraído de la población de interés . Dado que es difícil acceder a toda la población, empleamos las muestras, mediante las cuales tenemos que conseguir representar a toda la población, es decir, que sean representativas de la población que quiero estudiar. Esto significa que todos los individuos de la población de interés tienen que tener una probabilidad diferente de cero de ser incluidos en la muestra (no la misma, pero sí diferente de 0). De otra manera, si hay una parte de esa población que tiene una probabilidad cero de ser incluido diremos que el muestreo está sesgado o no es representativo de la población que quiero estudiar. Distinguimos diferentes tipos de muestreo: -Muestreo aleatorio simple mediante tablas. Este se puede hacer con o sin reemplazamiento

Upload: antonio-paquito

Post on 13-Jan-2016

18 views

Category:

Documents


0 download

DESCRIPTION

Comi

TRANSCRIPT

Page 1: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

1

GRUPO 34 18/03/2015

TEMA 9. ESTADISTICA INFERENCIAL

Para saber cual es la probabilidad de que una persona tenga una determinada enfermedad debemos investigar la población de la que procede. En principio, estas poblaciones son bastante desconocidas para nosotros, por lo que primero tendremos que investigar y analizarlas, para así poder sacar conclusiones. Esto, nos ayuda también en el tratamiento, por ejemplo, para saber cual es la probabilidad que tengo de curar a una persona, hacemos un estudio de la población enferma de esa enfermedad y vemos en cuantos individuos se consigue una remisión completa o parcial de la enfermedad, de tal manera que podamos estimar cual es la probabilidad que tiene el paciente de curarse, o qué riesgo tiene de sufrir una complicación en el tratamiento. Por ello, para atender al paciente es necesario conocer la población a la que pertenece el mismo. Estas se pueden conocer mediante las técnicas de inferencia estadística. La estadística inferencial engloba los términos muestra y población:

- una población es un conjunto de individuos que en general no podemos abarcar, por distintas razones: la población es muy amplia, está muy dispersa, o es difícil encontrar personas que pertenezcan a esa población. Es difícil acceder a toda la población nosotros sólo podemos acceder a muestras.

- una muestra es un subconjunto de individuos extraído de la población de interés . Dado que es difícil acceder a toda la población, empleamos las muestras, mediante las cuales tenemos que conseguir representar a toda la población, es decir, que sean representativas de la población que quiero estudiar. Esto significa que todos los individuos de la población de interés tienen que tener una probabilidad diferente de cero de ser incluidos en la muestra (no la misma, pero sí diferente de 0). De otra manera, si hay una parte de esa población que tiene una probabilidad cero de ser incluido diremos que el muestreo está sesgado o no es representativo de la población que quiero estudiar. Distinguimos diferentes tipos de muestreo:

-Muestreo aleatorio simple mediante tablas. Este se puede hacer con o sin reemplazamiento

Page 2: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

2

-Muestreo sistemático, estratificado y por conglomerados

Como vemos, hay distintas maneras de extraer una muestra de la población, y cada una de esas maneras implica un análisis diferente. Todos estos métodos de muestreo se emplean para conseguir muestras representativas de la población objetivo. También vamos a tener que estudiar cuál es la distribución muestral de un estadístico. Para ello, vamos a tener que conocer el limite central (teorema de limite central, para saber cual es la media) y el error estándar de un estadístico. Lo que en primer lugar queremos conocer, es lo que pasa en la población objetivo, basándonos exclusivamente en los datos de nuestra muestra. De esa población tan grande se podría extraer otra muestra de la que se obtendrían diferentes resultados (media y desviación estándar), por lo que nuestros resultados variaran dependiendo de la muestra, es decir, no serán totalmente ciertos. De esta manera, la media muestral se va a convertir en una variable. Al generalizar los resultados de la muestra sobre la población se le llama inferencia, es decir, dar un salto de la muestra a la población, tomando los resultados de la primera. Ese salto va a implicar siempre el error aleatorio. Por otro lado, los errores sistemáticos o sesgos se producen en el muestreo a la hora de diseñar el estudio (ejemplo: no todos hemos contestado al cuestionario de actividad física). Población objetivo conjunto de individuos o unidades de estudio de los que pretendemos conocer alguna característica o parámetro constante de interés. La definimos nosotros: todos los individuos nacidos en 1980, todos los pacientes con leucemia linfocítica crónica. Son poblaciones muy dispersas, por lo que es preciso delimitarlas (pacientes con leucemia en Europa). Aún así, suelen ser muy amplias e inabarcables por dificultad de tiempo, espacio, economía… por lo que es necesario conseguir métodos de estudio que permitan una aproximación al conocimiento de la población midiendo los posibles errores que pudiéramos cometer en dicha aproximación Una muestra es una selección de individuos de la población, en nuestro caso, en la medicina, serán personas. Deben ser representativas de la población objetivo, como se ha dicho anteriormente esto quiere decir que cada individuo tenga una probabilidad no nula de ser incluido en la muestra. Sesgo de selección = error sistemático Dos tipos de sesgos:

-Sesgos o errores sistemáticos si hay P= 0 de ser incluido. No es representativa, hay un sesgo de selección -Sesgo de información si no recogemos la información de forma idéntica en todos los individuos podemos estar cometiendo un sesgo de información

¿Como se pueden arreglar los sesgos de selección y de información? Sólo se pueden arreglar con un buen diseño, haciendo una recogida de la muestra y dando probabilidad a todos los individuos de la población de ser incluidos en mi muestra. Además, hay que establecer un protocolo de recogida de la información de manera que recojamos la información de la misma manera en todos los individuos. Los errores sistemáticos o sesgos de selección o de información no se pueden arreglar en el análisis estadístico, solo se pueden arreglar haciendo un buen diseño.

Page 3: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

3

El muestreo es un procedimiento de selección de una muestra. Este tiene ventajas (menor coste, mayor rapidez, mayor facilidad y mayor exactitud), pero tiene también algunos inconvenientes, se pueden cometer errores sistemáticos. Como se ha dicho antes, siempre que se coja una muestra va a haber error aleatorio. El análisis estadístico controla el error aleatorio lo que no controla es el error sistemático o sesgo, este hay que controlarlo en el diseño. REPRESENTATIVIDAD DE LA MUESTRA

Yo tengo una población objetivo que atiende el hospital de Cruces, ésta tiene un numero de individuos muy grande N, y tenemos una serie de variables (concentración de hemoglobina, colesterol etc…). También podemos tener variables como una proporción de individuos que tiene una enfermedad. Cada una de estas variables en la población tiene una distribución distinta. En

esta población existen una serie de parámetros, si quiero estudiar la edad de los pacientes,

(variable x) esta edad va a tener una media que es , así que los parámetros de las poblaciones son constantes, la media de X , la desviación estándar de X en la población objetivo son parámetros y son constantes. ¿Cómo puedo saber cual es la media de la edad?

Cogiendo a todos y preguntándoles la edad obtendríamos , pero no voy a poder ir preguntando a cada uno. Entonces escogemos una muestra de esa población y en esta muestra obtenemos n individuos (menos que en la población objetivo). Nos fijamos en la variable x que era la edad y a cada uno de esos individuos le voy a medir su edad dentro de la muestra. Una muestra es representativa si proporciona estimadores no sesgados, esta situación se produce si se realizan extracciones aleatorias. Para ello es necesario utilizar tablas de números aleatorios a partir de los listados de los individuos. Concretamente en las tablas estadísticas tenemos una que se llama tabla de números aleatorios. El procedimiento de construcción de esta tabla es el siguiente: en una bolsa metemos bolas con números desde el cero hasta el nueve. Cada bola tiene un número y empezamos a sacar, haciendo un muestreo con reemplazamiento. Sale el 3 apuntamos el 3 en la tabla y lo metemos en la bolsa, sacamos otro 3 y así hasta que llenamos miles y miles de paginas (3,3,4,5,2,8,0,1,2,7,8,…). ¿Para qué se utiliza la tabla de números aleatorios? Imagínate que quieres escoger una muestra aleatoria de una población objetivo que es los pacientes que atiende el hospital A. Imaginaros que tenemos en la población aproximadamente 30000 personas, tendremos números desde el cero hasta el 30000. En la tabla cogeré números de 5 en 5 ya que 30000 tiene 5 cifras. Entonces voy a coger números en la tabla de 5 en 5 y aquel individuo que su numero de orden (número formado por los cinco

Page 4: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

4

números seguidos cogidos en la tabla, cada número de la tabla constituye una cifra del número de orden) coincida con el numero que leo en la tabla le escojo. Esta es una selección aleatoria basada en tablas de números aleatorios. Repetimos: Construimos la tabla-> 2,4,3,5,2,6,7,5,6,7,8,9,5,2,3,4,5,6,7…. Tengo un listado de los 30000 individuos ellos están numerados ¿Cómo escojo una muestra de 100 personas? Tengo personas desde el 1 hasta el 30000 voy a coger números de la tabla Voy a escoger números de 5 en cinco (haciendo referencia a los de arriba) 24352 – 67567 – 89523 … el individuo 24352 será el primer individuo de mi muestra. No tenemos el individuo 67567 ni el 89523 (hasta 30000) así que no los escogemos y seguimos leyendo en la tabla hasta que tenemos los 100 individuos Primero les escoges y luego le preguntas la edad, solo estamos seleccionando la muestra. No hay sesgo ni error sistemático estudio válido. Validez= ausencia de errores sistemáticos Se denomina población en estudio al conjunto de unidades de estudio entre los que se selecciona la muestra. Si coincide con la población objetivo decimos que no hay sesgo o error sistemático , si no coincide decimos que si hay. Hemos seleccionado la muestra pero resulta que esta selección no la hemos hecho de la población objetivo (ej: la mayor parte son mujeres), por lo que estamos haciendo un estudio sesgado Decimos que esta muestra no procede de la población objetivo, procede de otra población, la población en estudio. Esta muestra estaría sesgada, ya que hay error sistemático, el estudio no es válido. La población objetivo que se pretendía estudiar con la muestra no se ha conseguido muestrear, se ha muestreado otra población que es la que denominamos población en estudio Para quitar los errores sistemáticos o sesgos es mejor utilizar muestreos probabilísticos. Diferenciamos diferentes tipos de muestreo probabilístico:

-Aleatorio simple se necesita un listado de individuos, es el que hemos hecho antes con la tabla de números aleatorios. Tiene la dificultad de que necesitas un listado de todos los individuos que tiene esa población, si no lo tienes no puedes hacer esta selección. -Muestreo sin reemplazamiento los más utilizados. MAS(Muestra Aleatoria Simple) es aquella que se construye a partir de números aleatorios y suele ser sin reemplazamiento , podemos estar haciéndolo sobre poblaciones muy grandes. -Muestreo con reemplazamiento también útil, pero en poblaciones grandes se utiliza menos. -Muestreo sistemático tienes una serie de unidades y las vas a muestrear cada X individuos. Por ejemplo, en una fábrica de esterilización de huevos, para saber cuantos tienen salmonella tras el tratamiento, realizamos un muestreo sistemático, analizamos un huevo de cada X. -Muestreo pseudoaleatorio se realiza siguiendo itinerarios. Sube al tercer piso, abre una puerta, sino abre la siguiente etc.. -Muestreo estratificado se muestrean individuos dentro de estratos. Ej: prevalencia de gripe en colegios de Bizkaia, primero muestreo de los colegios y dentro de cada colegio un muestreo de los niños. Primero se muestrean los estratos que serian los colegio y dentro de cada estrado se muestrean a los niños. -Muestreo por conglomerados muestreamos el colegio, luego el curso, luego las clases y por último los individuos.

Page 5: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

5

Todo esto con el objetivo de seleccionar la muestra de manera que sea representativa de la población objetivo que queremos estudiar. INFERENCIA Concepto de inferencia : es el proceso por el que pretendemos conocer las características de una determinada población objetivo (parámetros como media, desviación estándar). Queremos controlar el error sistemático debido a la utilización de muestras extraídas de dicha población mediante métodos de muestreo adecuados, que no introduzcan sesgos y produzcan muestras representativas de la población objetivo. Hacemos inferencia cuando hacemos un muestreo probabilístico que va a evitar que haya sesgos. Además, vamos a tratar de evitar el error aleatorio que es el que se produce cuando tratamos de saber algo de la población grande basándonos en el resultado de la población pequeña (muestra). Vamos a conocer los errores aleatorios mediante dos métodos de análisis. Los métodos de inferencia en estadística clásica son: -intervalos de confianza -test de hipótesis Los errores aleatorios los vamos a denominar como ε y se evalúan mediante probabilidades α y β. Vamos a ver como podemos evaluar estos errores aleatorios. El esquema general de inferencia (importante) Tenemos una población objetivo con un número de individuos N inabarcable, también tenemos las variables (x,y). Cada variable va a tener una distribución: X puede ser normal, Bernoulli o desconocida. En esas distribuciones vamos a tener una seria de parámetros (μ: media de una variable continua; Σ :la desviación estándar de una variable continua ; λ: tasa de incidencia de cualquier suceso; P: probabilidad, prevalencia ..) Nosotros fijamos la variable que vamos a estudiar. Puedo tener una idea aproximada de las distribuciones pero puede ser desconocida, al igual que los parámetros. Lo primero es el muestreo, tenemos que conseguir que este sea representativo, es decir, que no tenga sesgos (que sea valido). Este sesgo, es fundamentalmente el sesgo de selección, porque el sesgo de información es cuando medimos la variable.

Page 6: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

6

Podemos utilizar distintos tipos de muestreo, en este caso utilizamos un muestreo aleatorio simple que nos va a permitir escoger un conjunto mas pequeño de individuos n (tamaño muestral). En esta muestra también vamos a tener una serie de variables y designamos a los individuos de manera que cada uno este representado en cada variable (x1, x2.. xn). Ejemplo: Imaginamos que x1 es la edad del individuo 1, la distribución será la misma que tenga x en la población objetivo. Es decir, todas estas variables x1 x2 x3 van a tener la misma distribución y además son independientes, decimos que a partir de estos datos individuo 1= colesterol 220 mg/dl =x1 2= colesterol 180 mg/dl =x2 Si mido estos valores mal, surge el sesgo de información, por lo que hay que establecer un protocolo de medida para evitarlo. Ejemplo: la tensión arterial, cuando vamos a medirla? En ayunas, por la mañana, tumbado, de pie. Todos esos factores están influyendo sobre la medida, por lo que en todos los individuos hay que medirla en las mismas condiciones. A partir de estos valores puedo calcular estadísticos muestrales. Dado que dependiendo de la muestra el resultado de la media variará, decimos que la media es una variable, por lo que será necesario saber que distribución tiene la media muestral. Puedo calcular la proporción muestral, que era la suma de todas las variables. Imaginemos que son todas variables de Bernoulli con valores 0/1 (ejemplo, 0 no tiene HTA , 1 si tiene HTA). La suma de todas será igual al número de individuos que tiene una determinada característica, y si a ese número lo dividimos entre n, obtendremos la proporción de individuos con esa característica determinada, en nuestro ejemplo, la proporción que si tiene HTA. Todo este esquema nos sirve para estimar medias de variables continuas, proporciones de individuos, prevalencia de enfermedades, etc.. Recordamos: La inferencia es dar el salto esa muestra a la población objetivo. Hacemos inferencia mediante intervalos de confianza y test de hipótesis controlando los errores aleatorios , que es el error que cometeré al saltar desde los valores de mi muestra a los que tiene la población objetivo.

Page 7: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

7

Grupo 38: Amaia Longo, Natalia Montero y Yanire Rojo. Fecha: 23-03-15

TEMA 9- ESQUEMA GENERAL DE INFERENCIA

ESTADÍSTICA. (En esta clase trataremos de los conceptos de inferencia estadística en adelante).

Como ya dijimos en la clase anterior estábamos tratando de saber algo de la población

objetivo en base a una muestra.

EJEMPLO:

La población objetivo la definimos, en este caso como: la población que atiende el hospital de

cruces, la población general es inabarcable, es decir, tiene un numero de individuos (N) muy

grande, pero tiene una serie de variables que son de interés. Estas variables de interés afectan

a nuestros pacientes y a nosotros mismos. Conocerlos es importante por lo tanto.

Imaginad que esta variable (la variable X) es la concentración de hemoglobina en sangre o (la

variable Y) es la presión arterial sistólica. Cada una de esas variables dentro de la población

objetivo tienen una distribución (una función de distribución, una función de densidad, todo

eso) y todos los métodos que hemos utilizado para describirlas y para acercarnos a ellas, el

histograma, el polígono de frecuencias, la ojiva…

Cada una de esas distribuciones y de esas variables van a tener unos parámetros de interés,

por ejemplo:

Si X es la concentración hemoglobina en sangre puede seguir una distribución normal u otra

que desconocemos, pero sabemos que tiene una media μ (la llamamos μ porque muchas veces

no la conocemos pero otras si), una desviación estándar σ (sigma) y puedo conocerla o

desconocerla en la población objetivo.

Page 8: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

8

Lo más habitual es que no lo conozcamos, sino que nos tenemos que aproximar a conocerlo,

para ello llevaremos a cabo un muestreo. Esa muestra tiene que ser representativa y sin error

sistemático o sesgo.

En la muestra vamos a tener n individuos y las mismas variables que en la población (X, Y…).

Estas variables seguirán la misma distribución en la población y en la muestra. Por ejemplo, si

la distribución de X en la población objetivo es normal, en la muestra también seguirá una

distribución normal.

La población objetivo la definimos nosotros o se te da definida por el problema.

Vimos los distintos tipos de sesgo que podían existir y también de muestreos que podíamos

hacer para escoger una muestra. Escogemos esa muestra con un tamaño muestral (n) que si

que va a ser abarcable. Con las mismas variables. Una vez que hacemos eso vamos a tener un

conjunto de individuos representativos de la población objetivo.

Representatividad: Todos los individuos de la población objetivo tienen una proporción

distinta de 0 de ser escogidos en la muestra.

Entonces tenemos el individuo 1, el 2… hasta el individuo n, para cada uno de ellos existe una

variable (x1) (concentración de Hb en el individuo), (x2) así hasta n.

Ahora cambiamos la situación y X puede no ser esa variable, sino que puede ser la variable 0-1

(debido a que se trata de una variable cualitativa, es decir, en este caso fuma o no). Entonces

estas variables ahora van a tomar valores (0-1), 0 si no fuma y 1 si fuma. Cada uno de estos

individuos tendrá un resultado y una medida de esa variable. Da igual que trabajes con

variables continua o discretas.

La concentración de Hb en el individuo 1 no es constante, sino que puede variar a lo largo del

tiempo, por lo tanto es una variable se puede tener una observación o varias sobre el mismo

individuo.

El caso que vamos a ver es cuando tenemos una sola observación de la variable, la x1

minúscula es el valor de la concentración de Hb en el individuo 1, es el valor del laboratorio, en

este caso 13,5. Si le vuelvo a hacer la concentración de Hb en una semana esas ya no son

medidas independientes, habría que demostrar que hay independencia entre esas medidas.

Hay que tener en cuenta que cuando se hacen varias medidas dentro de un mismo paciente

esas medidas podrían encontrarse correlacionadas, es decir, relacionadas.

Esos estudios en los que se hace una medida y luego otra medida sobre el mismo paciente se

dice que son estudios apareados. (En principio no vamos a dedicarnos a estos estudios

apareados, más adelante si).

Este estudio no es apareado porque de cada individuo yo voy a obtener una única observación,

luego ya lo complicaremos.

Page 9: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

9

NOTA: Si solo se obtiene una única observación no es un estudio apareado.

Planteamiento

Cada una de las variables va a tener la misma distribución que X en la población objetivo, es

decir si X en la distribución objetiva es normal también lo será en la muestra.

Tienen todas la misma distribución que la variable que le corresponda en la población objetivo

y además consideramos que son independientes (porque tengo una sola observación de cada

individuo). Si tuviese varias observaciones sobre el mismo individuo ya no serían

independientes sino que sería correlación.

De todos los valores de la muestra puedo calcular los ESTADÍSTICOS MUESTRALES

(Estimadores):

- Media muestral �̅�: media calculada en nuestra muestra. (Coger todas las

observaciones de la variable sumar y dividir entre n, es la media de siempre pero como

se calcula sobre la muestra, se le llama así).

- P muestral �̂� (proporción muestral): proporción de individuos que tienen la

enfermedad en esa muestra. Se calcula igual que la media, (sumamos todas estas

variables y dividimos entre n), estas variables ahora en una distribución de Bernouilli

que es en la que nos encontramos toman valores 0-1, la suma de todas esas variables

sería el numerador, es decir, el número de individuos que tienen una característica en

la muestra y dividido entre n me da la proporción de individuos que tienen esa

característica en la muestra.

- Varianza.

- Desviación estándar.

- Tasa de incidencia (la utilizaremos el próximo año en introducción a la

investigación): El número de sucesos que ocurren por unidad de población y tiempo.

- El Riesgo relativo: Es el riesgo de padecer una enfermedad con distintas

características.

�̅� = ∑ 𝑥𝑖

𝑛

�̂� = ∑ 𝑥𝑖

𝑛

𝑆𝑥2 =

(𝑥𝑖 − �̅�)2

𝑛 − 1

Page 10: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

10

Lo que os he hecho es un planteamiento para una variable continua, por ejemplo el nivel de

concentración de Hb en sangre y para una variable que fuera ser fumador o no, si la variable es

ser fumador o no estos valores de las variables son 0-1 si yo los sumo voy a sumar todos

aquellos que tengan valor 1 y al sumarlo voy a tener el número de individuos que en la

muestra tienen la característica de interés que se lo divido entre el tamaño de la muestra n

entonces vas a obtener la proporción de individuos que tienen dicha característica en la

muestra. A esto se le denomina como ya hemos dicho proporción muestral (�̂� ).

Se dice que son variables porque este estadístico viene de una determinada muestra de

individuos, pero si cojo otra muestra de esta misma población objetivo no me van a salir los

mismos datos (la misma media muestral, la misma proporción muestral, la misma varianza

muestral…), por eso todos los estadísticos mencionados anteriormente son variables.

Nos vamos a centrar solamente en dos de los estadísticos que son:

Las medias.

Las proporciones.

Con ellos vamos a hacer intervalos de confianza y test de hipótesis (se pueden crear no solo

con los dos mencionados sino con todos los estadísticos).

EJEMPLO PRÁCTICO

Cuando mi paciente entra en la consulta se que tiene una determinada probabilidad de

padecer la enfermedad, pero no la conozco, sino que tengo que ir a la población objetivo de la

que viene ese paciente y calcular en ella cual es la proporción de individuos que padecen dicha

enfermedad. La prevalencia de la enfermedad y para ello necesito hacer un muestreo,

trabajar sobre la muestra de la población objetivo. Sumado todas estas variables (en este caso

los que tienen la enfermedad, es decir, los SI) y dividiendo entre n obtendré así la proporción

muestral de enfermos en la muestra. Pero a mí lo que me interesa es que puede estar pasando

en la población objetivo. p es la proporción de enfermos en la población objetivo y yo la

desconozco, lo que sí que conozco es cuál es la proporción de individuos que tienen la

enfermedad en mi muestra, por eso a todos estos estadísticos se les denomina estimadores

puntuales, ya que son estimadores puntuales de los valores de la población objetiva.

Page 11: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

11

La media muestral será un estimador puntual de la media en la población objetivo μ, pero es

un estimador un poco pobre ya que es un valor solamente. Lo que se utiliza habitualmente son

intervalos de confianza, los cuales son lo mismo que las horquillas que nos dan.

EJEMPLO DE HORQUILLAS: ¿Cuál es la proporción de votos esperados para el PNV? Pues es

una proporción de votos que va entre el 25 y el 40%, son intervalos de confianza (20-40%).

Ellos han calculado una proporción de voto una estimación puntual y en torno a ésta le dan un

margen de error aleatorio.

Nosotros haremos lo mismo no nos quedaremos con la estimación puntual, sino que vamos a

hacer un intervalo de confianza. Este es uno de los métodos de inferencia estadística.

La inferencia estadística se trata de a partir de muestras pequeñas dar el salto a ver que

podemos saber de la población objetivo.

EJEMPLO: Tengo una variable de interés que es X y calculo la media muestral, con ella miro

que puedo saber de la media de la población objetivo μ, ¿Qué puedo saber de la distribución

de X es normal o no en la población objetivo?, es decir, estoy tratando de pegar ese salto.

El pegar ese salto, es decir, descubrir algo de la población de la muestra lo vamos a realizar

mediante dos métodos:

Los intervalos de confianza: Para los parámetros, para μ, para σ, para λ, para p…

Test de hipótesis.

En este salto tenemos que tener en cuanto el error aleatorio ε, el cual vamos a cometer. Se

trata de controlar este error aleatorio. Además existen otras probabilidades de error que son α

y ß que ya veremos más adelante.

Vamos a tener una muestra en la cual calculamos un estadístico. Esta muestra va a poseer una

media (μ de X), una varianza sigma cuadrado de X y la proporción de individuos que tienen esa

característica (p). Todos estos son denominados parámetros o constantes y yo quiero

acercarme a sus conocimientos mediante muestras.

En las muestras yo voy a tener:

Tamaño muestra (n), más pequeño que el de la población objetivo.

Media muestral.

Varianza muestral.

Proporción muestral.

Haré sucesivas muestras hasta tener k muestras diferentes con diversos valores, que pueden

tener tamaños muestrales distintos o iguales.

La conclusión es que todos los estadísticos son variables, si son variables vamos a ver qué

distribución tienen. Para cada uno de los parámetros vamos a coger un estimador, un

estadístico. Ese estadístico se escoge de forma que tenga una serie de características:

Page 12: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

12

Insesgado para el parámetro que estima, es decir si yo quiero calcular la media de X en

la población objetivo y me voy a basar en la media muestral, la media de la media

muestral, es decir, la esperanza matemática de la media muestral tiene que ser la

misma media de X en la población objetivo (μ de X).

o La esperanza del estadístico debe ser el parámetro que se pretende estimar.

Mínima varianza, cuanto menor más se van a aproximar al verdadero valor del

parámetro.

Distribución conocida.

Al valor de cada estadístico en cada muestra se le denomina estimación puntual, no hemos

dado con el verdadero valor del parámetro en la población objetivo, pero a partir de ahí vamos

a empezar a construir intervalos de confianza y test de hipótesis.

Estadístico: Toda función de los valores obtenidos en la muestra para una variable X que

puede tener una media (mu de X) en la población y una varianza sigma cuadrado de X. La

media muestral, la varianza, la desviación típica muestral, la incidencia de la enfermedad en la

muestral… todo eso son estadísticos.

DISTRIBUCIÓN DE LA MEDIA MUESTRAL

La media muestral �̅� sale de coger todas esas variables de los individuos, sumarlas y dividirlo

entre n. Se demuestra matemáticamente (no hay que aprenderla de memoria).

La media o esperanza matemática de la media muestral es la misma media de X en la

población objetivo. Se trata de un estimador insesgado, ya que la media muestral �̅� es el

propio parámetro que quiero estimar, es decir, que la media de X en la población objetivo.

Hay que quedarse con que la media de la media muestral es igual a la media de la población

objetivo, el parámetro que quiero estimar.

Por otro lado la varianza de la media muestral es la varianza de X en la población objetivo

partido por n.

La desviación estándar de la media muestral sería al raíz cuadrada de la varianza, si hacemos

esto nos queda la desviación estándar de X en la población objetivo (σ de X), dividido entre la

raíz cuadrada de n, a este valor se le denomina error estándar de la media muestral.

Page 13: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

13

Todos y cada uno de los estadísticos van a tener una esperanza matemática (que suele ser el

parámetro que queremos estimar en la población objetivo), y además tendrán una desviación

estándar, a la desviación estándar del estadístico se le denomina error estándar.

Ojo: El error estándar no tiene nada que ver con los errores sistemáticos o sesgos. Por el

contrario se encuentra relacionado con el error aleatorio pero no es lo mismo.

Distribución de la media muestral:

La variable en la población objetivo (X) y la

variable de la media muestral ( 𝑋)̅̅ ̅̅ cada una

tiene su media y su desviación estándar.

Aquí la media muestral sigue una distribución

normal con esperanza matemática (μ de X),

siendo μ de X la media de X en la población

objetivo y tiene de desviación estándar o error

estándar de la media muestral σ de X dividido

entre la raíz de n (n es el tamaño muestral).

Lo más típico es que desconozcamos cual es μ

de X, σ de X, es decir, los parámetros de la

población objetivo.

EJEMPLO

Vamos a plantearlo conociendo los datos de la población objetivo, en ésta X que es el nivel de

Hb en sangre sigue una distribución normal de media 8 y de desviación estándar 2. No

necesito una muestra para saber cuál es la media, debido a que ya la conozco de antemano.

Datos:

Población: 9000 personas.

Distribución normal de media 8 y desviación estándar 2 N(8,2).

No necesito hacer muestras, pero las voy a hacer para ver cómo se comportan a la hora de

estimar los parámetros de la población objetivo.

Escojo muestras de 64 individuos al azar mediante una muestra aleatoria simple y voy a

calcular la media de la variable entre esos 64.

Page 14: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

14

Muestra 1: media= 7,99 y desviación estándar= 2,08.

Muestra 2: media= 7,62 y desviación estándar= 2,08.

Todos los muestreos son con reemplazamiento.

Voy creando distintas muestras calculando sus medias y desviaciones estándar hasta hacer

10000 muestras de 64 individuos.

Hacemos el histograma y sale lo que está en amarillo, esto se aproxima a una distribución

normal o es normal de media 8, la misma de antes y de desviación estándar la misma de X en

la población objetivo pero dividida entre la raíz de 64 que era el tamaño muestral. Si X en la

población objetivo sigue una distribución normal x raya en la muestra sigue una distribución

normal.

X y X raya tienen la misma media por eso basándome en la media muestral puedo acercarme

a la media de X en la población objetiva, porque es la misma.

En la muestra la dispersión es mucho menor, ya que la desviación estandar de X está dividido

entre el tamaño muestral, lo que pasa es que esta es la distribución de la media muestral y la

otra la de x. Las dos con la misma media. A medida que incrementamos el tamaño muestral la

desviación estándar de X se va a dividir entre un valor mayor.

Tamaños muestrales grandes hacen que el error estándar de la media muestral sea menor.

Si el error estándar de la media muestral disminuye entonces significa que nos acercamos mas

al parámetro que queremos estimar (el verdadero que es la media de (X)).

En el mismo caso imaginaros que tengo una variable en la población objetivo con un

histograma que es plano seguiría una distribución uniforme da igual el valor que cojas de la

variable, que tiene la misma probabilidad, no es normal. A pesar de que esta variable no es

normal si yo cojo muestras de esta variable me sigue dando una media muestral la cual sigue

siendo aproximadamente normal, con

media 16 que es la media de la variable

en la población objetivo.

IMPORTANTE: Esto quiere decir que

aunque la variable X no siga una

distribución normal en la población

objetivo, sino que siga otra diferente o

desconocida, la media muestral de esa

variable sigue siendo al menos

aproximadamente normal, y tiene el

error estándar de la media muestral que

es 4,61 partido por la raíz del tamaño

muestral, en este caso 75. Esto es lo que dice el TEOREMA DEL LIMITE CENTRAL.

Page 15: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

15

El TEOREMA DEL LIMITE CENTRAL dice que sea cual sea la distribución de la variable en la

población objetiva, si yo cojo un tamaño muestral bastante amplio la distribución de la media

muestral será aproximadamente normal, con la misma media que la población objetivo y con

una desviación estándar de la variable en la población objetivo partido por la raíz cuadrada del

tamaño muestral. Igual que antes cuando la variable era directamente normal en la población

objetiva.

La conclusión es que sea cual sea la distribución de la población objetivo yo me puedo acercar

a ella mediante la distribución normal de la muestra.

DISTRIBUCIÓN DE LA PROPORCIÓN MUESTRAL

Se saca de la suma de las variables que me va a dar el número de individuos que tienen una

determinada característica en la población y dividido entre n me da la proporción de

individuos que tienen la característica en la muestra. Esta proporción muestral tiene una

esperanza matemática, que es el parámetro p (proporción de individuos que tienen la

característica que estoy estudiando en la población objetivo) y tiene un error estándar que es

la raíz cuadrada de p*q partido por n (la raíz cuadrada de la varianza).

Distribución de la proporción muestral:

La distribución binomial se aproxima a la normal, pues aquí vamos a utilizar la aproximación de

la binomial a la normal. Si yo sumo todas las variables lo que tengo arriba es el número de

éxitos en n pruebas dividido entre n (esto es un cambio de escala solamente), n es una

constante. Es el cambio de escala del número de éxitos en n pruebas a tener la proporción de

éxitos en n pruebas.

La distribución binomial se aproxima a la normal cuando:

El tamaño de la muestra multiplicado por la proporción de individuos que tienen la

característica es mayor que 5

El tamaño de la muestra multiplicado por 1- la proporción de individuos que tienen la

característica en la población muestral es mayor que 5

n*p es mayor que 5 y n*q es mayor que 5.

Es lo que vamos a utilizar aquí, la proporción muestral es aproximadamente normal de media

p que es el parámetro que quiero estimar. La proporción de individuos que tienen la

característica en la población objetivo y de desviación estándar raíz cuadrada de p*q partido

por n.

Page 16: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

16

Ejemplo:

Tenemos una población de 9000 individuos, y sabemos que 6001 no son fumadores y 2999 si

son fumadores ¿Cuál es la proporción de fumadores entre ellos?

Sería 2999 dividido entre 9000, que da 0,3332, esa es la proporción de fumadores en la

población. Normalmente esto no lo conocemos pero ahora partimos de que si.

Vamos a escoger muestras para ver que nos sale:

Muestra 1: 76 individuos en la que me sale 0,3289.

Muestra 2: Me da 0,4211.

Muestra 3: 0,3954.

Esa proporción muestral se va aproximando al verdadero valor que es 0,3332.

Todos estos resultados siguen una distribución aproximadamente normal de media 0,33 y de

desviación estándar raíz cuadrada de 0,33*0,67 partido por 76 que es el tamaño muestral.

CONCLUSIÓN: Tanto si estimamos medias como proporciones siempre acabaremos en la

distribución normal.

Distribuciones de la media muestral y de la proporción muestral:

Resulta que nosotros teníamos una población muy grande e inabarcable. Lo que hacíamos era

escoger una muestra (n). Esta muestra era un conjunto de individuos, y cada uno de esos

individuos tenía una variable de interés, siendo esta la misma que a mí me interesaba de la

población objetivo. Cada variable iba a tener la misma distribución que en la población

objetivo.

Vimos cuales eran las distribuciones de �̅� y de la �̂�, que eran la media muestral y la

proporción muestral respectivamente.

Page 17: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

17

- La media muestral tiene una distribución que, fuera la que fuera la distribución que

tenía X en la población objetivo o que fuera desconocida, siempre iba a seguir una

distribución aproximadamente normal. Esta distribución normal tiene: de media μ de

X (siendo X la variable de interés en la población objetivo) y de desviación estándar (lo

que se denomina el error estándar de la media) sigma de X partido por la raíz cuadrada

de n.

Recordatorio: A la desviación estándar del estadístico se le denomina error estándar,

el cual no tiene nada que ver con los errores sistemáticos o sesgos. Por el contrario se

encuentra relacionado con el error aleatorio pero no es lo mismo.

Si a �̅� le resto su media y lo divido entre su deviación estándar (σ) estaremos frente a

una variable estandarizada. La media de la variable estandarizada es siempre cero, y

su desviación estándar siempre uno. Así que a partir de una distribución, es decir, de la

distribución de la media muestral que es aproximadamente normal N (μ de X, σ de X

partido por la raíz cuadrada de n) vamos a conseguir una distribución que es al menos

aproximadamente normal N (0, 1). Se aproxima de una normal a una normal estándar.

- Lo mismo va a pasar con la distribución de la proporción muestral. Esta proporción

muestral tenía una distribución que era aproximadamente normal porque

aproximábamos de la binomial a la normal. Al hacer esta aproximación de la binomial

a la normal la proporción muestral sigue una distribución aproximadamente normal,

de media p y de error estándar (desviación estándar) de la proporción muestral raíz

cuadrada de p por q (1-p) partido por n.

Si a p le resto su media y le divido entre su desviación estándar esto va a ser

aproximadamente normal de media 0 y de desviación estándar 1

Este es el TEOREMA DEL LÍMITE CENTRAL: dada una variable X en la población objetivo, de

media μ y de desviación estándar σ, si tomamos

muestras de tamaños lo suficientemente

grandes (siendo grande 30 individuos o más) la

distribución de la media muestral de x es al

menos aproximadamente normal, con la misma

media μ pero con desviación estándar σ dividida entre la raíz cuadrada del tamaño muestral, lo

que implica que si tú tienes esta variable con esta distribución al menos aproximadamente

normal, y le restas su media y lo divides entre su desviación estándar vas a obtener una

distribución aproximadamente normal de media 0 y desviación estándar 1.

Las ventajas del teorema del límite central:

Permite conocer la distribución de la media muestral sea cual sea, la distribución de la variable

en la población objetivo. Siempre será al menos aproximadamente normal.

A medida que se incrementa n (tamaño muestral), el error estándar va a disminuir. Cuanto

mayor sea la muestra más me voy a acercar al verdadero valor de la media μ de x y de la

proporción en la población objetivo.

Page 18: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

18

Sin embargo presenta dos problemas:

1) Son necesarias muestras grandes, cuanto más grandes mejor.

2) Necesitamos conocer el valor de σ. Si no conocemos su valor, necesitaríamos conocer

el valor de esta p, que es precisamente lo que estamos intentando estimar.

Para una variable continua:

Con distribución normal o aproximada:

o Si sigma es conocido:

Si sigma es desconocido la puedo estimar por la quasivarianza en la muestra, es decir, calculo

en la muestra este valor.

n-1 se denomina los grados de libertad de una muestra, así que

en la desviación estándar o en la quasivarianza, en lugar de

dividir entre n dividimos entre n-1 . ¿Y qué es lo que va a pasar?

Pues si el tamaño de la muestra que yo tengo es mayor de

treinta entonces sustituyo este valor que lo he estimado en la

muestra, por el valor de sigma (σ) en lugar de este que lo

desconozco, y esta variable seguirá una distribución que es la T

de student, por n – 1 grados de libertad que es igual a una

normal de media 0 y de desviación estándar 1. En el caso de que

el tamaño muestral sea menor de 30 también sustituyo en la

fórmula sigma por el valor estimado en la muestra y esta variable seguirá una distribución T de

student por n-1 grados de libertad.

NOTA: La T de student es otra distribución para variables continuas. Su nombre se debe a que

la descubrió un estudiante.

El grado de libertad indica: (ejemplo):

Imagina que tú tienes tres individuos y que hemos medido X1, X2, X3, cada uno de ellos siendo

un valor. Y tú sabes que la media de estos tres valores, X raya, es igual a cuatro. ¿Cuantos

valores de mi muestra podría fijar libremente para que se mantenga la misma media que

tienen los datos? Eso serían los grados de libertad. Entonces, los grados de libertad son n-1 si

yo quiero que se mantenga la media.

La T de student como ya hemos mencionado anteriormente no es más que otra distribución

para variables continuas, se parece muchísimo a la normal estándar. Tiene forma de campana,

es simétrica respecto al cero, y un poquito más dispersa, con dispersa nos referimos a que la

campana se abre un poquito más que la de la normal.

Si el tamaño de la muestra es mayor de 30, la t de student es exactamente igual a una

distribución N (0, 1). Asique con tamaños muestrales grandes, si sigma es desconocido yo

Page 19: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

19

calculo la desviación estándar de la variable en la muestra la pongo y opero exactamente igual.

Aunque sigma sea desconocida yo cojo la estimación de la muestra.

Cuando los tamaños de muestra no son tan grandes, menores de 30, esta variable en la que yo

me voy a basar para hacer inferencia y hacer los intervalos de confianza, sigue una

distribución t de student con n-1 grados de libertad.

De este tema hay que quedarse con:

- Cuál es la distribución de la media muestral (cuál es su media, y su desviación

estándar, y a esa desviación se le denomina el error estándar de la media muestral)

- Si sigma es desconocido, (ya que la mayoría de parámetros en la población objetivo

suelen ser desconocidos), lo que hay que hacer es estimar ese valor en la muestra,

estimamos la quasivarianza en la muestra y calculamos la raíz cuadrada de la

quasivarianza y lo sustituimos aquí, sigma de x pasa a ser ahora S de x.

o cuando hacemos esto, con un tamaño de muestra mayor que 30, resulta que

la t de student es exactamente igual a la normal (daría igual utilizar una

distribución u otra para hacer los intervalos de confianza).

o Si el tamaño de muestra es menor de 30 hay que utilizar esta otra distribución,

que es directamente la T de student. Vamos a tener tablas de la t de student

en eGela y en STATA se puede buscar la probabilidad, igual que se busca la

probabilidad de la normal buscáis la probabilidad de la T de student, ya nos

dirán los comandos.

- La distribución de la variable en la población objetivo no es normal o es desconocida:

esta variable con sigma conocido seria aproximadamente normal. Si sigma es

desconocido, hay que utilizar otros métodos que son los métodos no paramétricos

(que de momento no vamos a ver). Y si x es discreta es decir, toma solamente valores

0-1 en la población objetivo, entonces lo que hacemos es una aproximación a la

normal n*p y n*q son mayores que 5, entonces se puede hacer una aproximación de la

binomial a la normal, y utilizamos esto que tenéis aquí, esta sería la distribución de la

proporción muestral menos el parámetro en la población objetivo dividido entre el

error estándar. Eso es aproximadamente N (0,1).

En el fondo de todo esto, cuando nosotros hagamos intervalos de confianza con STATA no

habrá que saber nada más que el comando para sacar el intervalo de confianza, pero al menos

una vez en la vida sí que os conviene saber de dónde salen las cosas asique ahora vamos a ver

como construiríamos un intervalo de confianza.

Fijaros que lo que tenemos aquí lo que está en este numerador y lo que está en este

numerador eso es lo que se denomina el error aleatorio. El error aleatorio es entonces la

diferencia entre lo que yo mido en mi muestra (mi estimación puntual), es decir, la media

muestral y el verdadero valor de la media de X

en la población objetivo (mu de X). El error

aleatorio también es denominado épsilon. (Eso

sería en caso de que estuviésemos trabajando

Page 20: Tema 9. Estadistica Inferencial COMPLETO (18!03!2015) y (23!03!15)-1

20

con variables continuas)

Para variables discretas tendríamos que el error aleatorio sería la diferencia entre la

proporción muestral y el parámetro que yo quiero estimar en mi población objetivo.

Lo que pasa es que no conocemos ni la media de la población objetivo (mu), ni la proporción

de la población objetivo (p), por eso creamos los intervalos de confianza para llegar hasta su

valor.