mg hugo fernando ayanstica y...contenidos: pruebas no paramétricas. test de rachas. test de...
TRANSCRIPT
x ,2
1)(
2
2
1 x
exf
Mg Hugo Fernando Ayan
2
Contenidos
Programa Analítico ....................................................................................................... 7 Guía de Trabajos Prácticos ............................................................................................ 9
Programa de Examen Final ......................................................................................... 11 Estadística y Biometría ................................................................................................... 13
Organización de Datos ................................................................................................ 15 Variables cualitativas o categóricas ............................................................................. 15
Variables cuantitativas ................................................................................................ 16 Otras formas de clasificación....................................................................................... 16
Modalidad - Clases...................................................................................................... 17 Tablas estadísticas ....................................................................................................... 17
Distribución de frecuencias ......................................................................................... 18 Elección de intervalos para variables continuas ........................................................... 20
Representaciones Gráficas........................................................................................... 22 Gráficos para variables cualitativas ............................................................................. 24
Diagramas de sectores ................................................................................................. 25 Pictogramas ................................................................................................................ 25 Gráficos para variables cuantitativas ........................................................................... 25
Diagramas diferenciales .............................................................................................. 26 Diagramas integrales ................................................................................................... 26
Gráficos para variables discretas ................................................................................. 26 Gráficos para variables continuas ................................................................................ 27
Histogramas ................................................................................................................ 27 Polígonos de frecuencias ............................................................................................. 27
Diagrama de barras de error ........................................................................................ 29 Diagramas de dispersión ............................................................................................. 30
Funciones matemáticas lineales y cuadradas................................................................ 31 Función lineal y ecuación de la recta ........................................................................... 31
Función lineal como propiedad de los sistemas generales ............................................ 32 Interpretación geométrica ............................................................................................ 32
Función cuadrática ...................................................................................................... 34 Estudio de la función ................................................................................................... 35
Medidas descriptivas estadísticas ................................................................................ 41 Estadísticos de tendencia central ................................................................................. 41
Mediana ...................................................................................................................... 42 Moda .......................................................................................................................... 43
Estadísticos de posición: Cuartiles (Ql) ........................................................................ 45 Estadísticos de posición: Percentiles ............................................................................ 45
Deciles ........................................................................................................................ 46 Medidas de dispersión ................................................................................................. 47
Amplitud (A) o Rango................................................................................................. 47 Varianza ...................................................................................................................... 49
Desviación estándar .................................................................................................... 49 Grados de libertad ....................................................................................................... 49
Propiedades del desvío standard .................................................................................. 50 Coeficiente de Variación ............................................................................................. 50
Asimetría o sesgo ........................................................................................................ 51 Apuntamiento (Curtosis) ............................................................................................. 52
Cálculo de Probabilidades ........................................................................................... 55 Experimentos y Sucesos Aleatorios (condiciones) ....................................................... 55
3
Nociones de Probabilidad ............................................................................................ 57
Probabilidad Clásica.................................................................................................... 57 Probabilidad Frecuencial ............................................................................................. 58
Axiomas...................................................................................................................... 58 Probabilidad Condicional ............................................................................................ 59
Independencia Estadística ........................................................................................... 60 Modelos discretos ....................................................................................................... 60
Experimentos de Bernoulli .......................................................................................... 60 Modelo Matemático .................................................................................................... 60
Modelo Probabilístico Binomial .................................................................................. 61 Variable Aleatoria ....................................................................................................... 62
Función de Probabilidad .............................................................................................. 63 Función de densidad v.a. discreta ................................................................................ 65
Esperanza Matemática................................................................................................. 65 Varianza Poblacional .................................................................................................. 66
Distribución Normal.................................................................................................... 67 Distribución Normal estandarizada .............................................................................. 69
Tabla ........................................................................................................................... 70 Distribución de Estadísticos Muestrales ...................................................................... 72
Distribución muestral de un estadístico ....................................................................... 72 Distribución del Estadístico media muestral ................................................................ 73
Teorema Central del Límite ......................................................................................... 76 Distribución ―T de Student‖ ........................................................................................ 76
Muestreo ..................................................................................................................... 78 Muestreo probabilístico ............................................................................................... 78
Distribución ―Chi-cuadrado‖ ....................................................................................... 80 Distribución de Probabilidad de Variables Discretas.................................................... 81
q p(θ).................................................................................................................... 82 Los Modelos Simbólicos (Matemáticos) ...................................................................... 83
El Estimador ............................................................................................................... 85 Estimación: puntual y por intervalos ........................................................................... 85
Estimación puntual ...................................................................................................... 85 Estimación por intervalos ............................................................................................ 85
Propiedades deseables en los estimadores .................................................................... 85 Intervalos de confianza para los principales parámetros El caso de la media ................ 86
El Caso de Desconocer la Varianza Poblacional .......................................................... 89 Probabilidad normal presentada en una y dos colas ..................................................... 91 Intervalos de confianza para OTROS parámetros ........................................................ 91
Contrastes de Hipótesis ............................................................................................... 95 Ensayo de una cola ...................................................................................................... 97
Intervalo de Confianza y Contraste de Hipótesis.......................................................... 99 Contrastes para la media.............................................................................................. 99
Tests de una cola con varianza conocida.................................................................... 100 Test de dos colas con varianza desconocida ............................................................... 102
Contrastes para la varianza ........................................................................................ 106 Contraste bilateral ..................................................................................................... 106
Contrastes unilaterales............................................................................................... 107 Inferencia basada en dos muestras ............................................................................. 109
Análisis de la Varianza .............................................................................................. 117 Especificación del modelo ......................................................................................... 118
Algo de notación relativa al modelo .......................................................................... 121
4
Forma de efectuar el contraste ................................................................................... 121
Consideraciones a los supuestos del modelo .............................................................. 126 Normalidad ............................................................................................................... 126
Homogeneidad de varianza: prueba de Levene ......................................................... 127 Homogeneidad de varianza: gráfico de dispersión .................................................... 128
Independencia ........................................................................................................... 128 Ventajas y limitaciones del Análisis de la Varianza ................................................... 129
Comparaciones Múltiples .......................................................................................... 130 Regresión y Correlación ............................................................................................ 131
Relaciones entre variables y regresión ....................................................................... 131 Diagramas de dispersión o nube de puntos ................................................................ 132
Predicción de una variable en función de la otra. ....................................................... 133 Cómo reconocer relación directa e inversa. ............................................................... 133
Cómo reconocer buena o mala relación ..................................................................... 134 Covarianza de dos variables X e Y ............................................................................ 135
Coeficiente de correlación lineal de Pearson .............................................................. 135 Propiedades de r ........................................................................................................ 136
Otros coeficientes de correlación ............................................................................... 140 Regresión .................................................................................................................. 140
Modelo de regresión lineal simple ............................................................................. 141 ¿Cómo medir la bondad de una regresión? ................................................................ 143
Bondad de un ajuste .................................................................................................. 144 Otros modelos de regresión ....................................................................................... 145
Modelos de análisis de regresión ............................................................................... 146 Errores de Predicción ................................................................................................ 150
El coeficiente de regresión y la reducción del error en la estimación .......................... 152 Validación de los supuestos ....................................................................................... 155
Regresión múltiple .................................................................................................... 157 Series de Tiempo....................................................................................................... 159
Definición de serie de tiempo .................................................................................... 159 Descomposición de una serie de tiempo .................................................................... 160
Pruebas No Paramétricas ........................................................................................... 165 Aleatoriedad de una muestra: Test de rachas ............................................................. 165
Normalidad de una muestra: Test de D'Agostino ....................................................... 167 Contraste de Wilcoxon para muestras apareadas ........................................................ 167
Aproximación normal en el contraste de Wilcoxon.................................................... 168 Contraste de Kruskal-Wallis ...................................................................................... 168
Tablas de Contingencia ............................................................................................. 170 Diseño de Experimentos................................................................................................ 175
Concepto, Objetivo e Importancia ............................................................................. 175 Necesidad de realizar la Experimentación y la Investigación ..................................... 176
Etapas fundamentales de la Experimención Agropecuaria ......................................... 176 El Método Científico ................................................................................................. 177
Modelos .................................................................................................................... 178 Tipos de variabilidad. ................................................................................................ 180
Planificación de un experimento ................................................................................ 181 Resumen de los principales conceptos. ...................................................................... 188
Principios básicos en el diseño de experimentos. ....................................................... 188 Fuentes de Error ........................................................................................................ 190
Estructura de parcelas................................................................................................ 190 Diseño de la estructura de parcelas ............................................................................ 191
5
Algunos diseños clásicos ........................................................................................... 191
Completamente aleatorizado ..................................................................................... 191 Comparaciones múltiples .......................................................................................... 192
Prueba de Tukey ....................................................................................................... 192 Prueba de Fisher ........................................................................................................ 194
Bloques completos aleatorizados ............................................................................... 195 Cuadrado latino ......................................................................................................... 198
Estructura de tratamientos ......................................................................................... 200 Experimentos Factoriales .......................................................................................... 201
Glosario de términos estadísticos .................................................................................. 202 Glosario de términos estadísticos .................................................................................. 202
6
Condición de Regularidad
Promedio mínimo de 4 (cuatro)
80 % asistencia (teórica – práctica).
Aprobar 2 parciales con un mínimo de 4 (cuatro).
Se puede recuperar 1 (un) parcial.
Aprobar la parte práctica con un mínimo de 4 (cuatro).
Examen final para alumnos regulares
Aquellos alumnos que reúnan las condiciones de regularización, podrán rendir
examen final en forma oral, sobre los contenidos durante el dictado del presente
ciclo lectivo.
Examen final para alumnos libres
Aquellos alumnos que no alcancen las condiciones mínimas de regularidad, podrán
rendir la asignatura en condición de alumnos libres, con examen final escrito y oral
sobre todos los contenidos del programa
Bibliografía Básica
DI RIENZO, J. CASANOVES, F. GONZALEZ, L. TABLADA, M. DIAZ, M.P.
ROBLEDO, C. BALZARINI, M. (1999) Estadística para Ciencias Agropecuarias.
Screen Ed. 2da
CASANOVES, F. DI RIENNZO, J. ROBLEDO, C. (1998) Bases para Estadística
Experimental. Screen Ed.
AYAN H F. 2009. Estadística y Biometría. Sede Universitaria Chamical. Apunte
de la cátedra (en fotocopiadora)
Bibliografía sugerida
MONTGOMERY, DOUGLAS C. (1991) Diseño y Análisis de Experimentos. Ed.
Grupo Iberoamericana 589 p.
BERENSON, M.L. LEVINE, D.M. (1992) Estadística para Administración y
Economía. Interamericana. 720 p.
MENDENHALL, W. WACKRLY, D., SCHEAFFER, R. (1994) Estadística
Matemática con Aplicaciones. 2da. Ed. Grupo Iberoamericana. 464 p.
7
Programa Analítico
Unidad Nº 1: Estadística Descriptiva
Contenidos: Formulación del problema. Necesidad y finalidad de la Investigación. Población
y Muestra. Variables. Tipos de variables. Distribuciones de frecuencia de una variable
aleatoria. Representaciones gráficas de los resultados de estudios experimentales u
observacionales. Medidas de resumen de la distribución de frecuencias de una variable
aleatoria en una muestra. Funciones matemáticas lineales y cuadradas. Función lineal y
ecuación de la recta. Interpretación geométrica. Función Cuadrática. Interpretación
geométrica. Medidas descriptivas. Estadísticos de Tendencia central. Estadísticos de posición.
Medidas de dispersión.
Unidad Nº 2: Distribución de Variables Aleatorias
Contenidos: Espacio muestral. Eventos. Concepto de Probabilidad. Evento Aleatorio.
Concepto de variable aleatoria. Distribución de una variable aleatoria. Función de distribución
acumulada. Función de densidad para variables aleatorias discretas y continuas. Medidas
resumen de la distribución de una variable aleatoria. Esperanza y Varianza de variables
aleatorias. Propiedades. Cuantiles de una distribución.
Unidad Nº 3: Distribución en el muestreo
Contenidos: La función de densidad normal. Estandarización. Función de distribución
acumulada normal. Uso de la tabla para distribución normal. Distribución del Estadístico
media muestral. Teorema central de límite. Distribución "t de Student". Distribución de la
diferencia de dos medias muestrales (varianzas conocidas y desconocidas). Distribución de
la varianza muestral. Distribución "Chi-Cuadrado" (2).
Unidad Nº 4: Inferencia Estadística. Estimación de Parámetros.
Contenidos: Estimación puntual. Propiedades de los buenos estimadores. Estimación por
intervalo. Procedimiento general para encontrar un intervalo de confianza para un parámetro
distribucional. Interpretación del intervalo de confianza. Estimación por intervalo de la
esperanza de la distribución de una variable aleatoria normal. Cálculo del tamaño muestral
para obtener un intervalo de confianza para con una amplitud determinada.
Unidad Nº 5: Inferencia Estadística. Prueba de Hipótesis
Contenidos: Concepto de prueba de Hipótesis. Hipótesis Nula y Alternativa. Procedimiento de
la prueba de Hipótesis. Errores de Tipo I y Tipo II. Relación entre los intervalos de Confianza
y las Pruebas de Hipótesis. Prueba de Hipótesis acerca de la esperanza de una distribución
cuando se conoce 2. Estimación por intervalos para la esperanza de una distribución normal
cuando se conoce 2. Prueba de hipótesis acerca de la esperanza de una distribución normal
cuando 2 es desconocida.
8
Unidad Nº 6: Inferencia sobre la Esperanza y la Varianza de una y dos distribuciones normales.
Contenidos: Estimación por intervalos para la esperanza de una distribución normal cuando 2
es desconocida. Contraste de hipótesis referente a la varianza de una distribución normal.
Estimación por intervalo de la varianza de una distribución. Estimación por intervalo referente
a las varianzas de dos distribuciones. Distribución F. Prueba de hipótesis referente a las
esperanzas de dos distribuciones con varianzas conocidas y desconocidas. Observaciones
apareadas: prueba de hipótesis y estimación por intervalo.
Unidad Nº 7: Análisis de Regresión y Correlación Lineal Contenidos: Análisis de Regresión Lineal. Estimación de la Recta de Regresión. Método de
los Mínimos Cuadrados. Estimaciones y Predicciones. Los supuestos del Análisis de
Regresión. Análisis de los Residuales. Análisis de la variación en la variable dependiente Y.
Prueba de Hipótesis. Análisis de Correlación Lineal. Los supuestos del Análisis de
correlación. Coeficiente de Correlación Lineal. Prueba de Hipótesis. Regresión Múltiple.
Series de Tiempo. Definición. Descomposición de una serie de tiempo.
Unidad Nº 8: Pruebas No Paramétricas. Análisis de Datos Categorizados Contenidos: Pruebas No Paramétricas. Test de Rachas. Test de D‘Agostino. Contraste de
Wilcoxon para muestras apareadas. Contraste de Kruskal-Wallis. Tablas de Contingencia.
Medidas de Asociación. Pruebas de hipótesis de homogeneidad de proporciones. Pruebas de
hipótesis de independencia. Pruebas de bondad de ajuste.
Unidad Nº 9: Análisis de la varianza
Contenidos: Definiciones preliminares. Diseño completamente aleatorizado. El análisis de la
varianza de efectos fijos a un criterio de clasificación. El ANAVA y los cuadrados medios. La
partición de la suma de cuadrados y la tabla de ANAVA. Supuestos del ANAVA. Análisis de
los residuales. Pruebas a posteriori "el test de Tukey" y el de ―Fisher‖.
9
Guía de Trabajos Prácticos
Práctico °1: Estadística Descriptiva
Contenidos: Tablas de frecuencia de una variable aleatoria. Representaciones gráficas de los
resultados. Medidas de resumen de la distribución de frecuencias de una variable aleatoria en
una muestra. Funciones lineal y cuadrática
Práctico Nº 2: Variables Aleatorias
Contenidos: Eventos. Probabilidad. Variable aleatoria. Función de densidad para variables
aleatorias discretas y continuas. Medidas resumen de la distribución de una variable aleatoria.
Esperanza y Varianza de variables aleatorias.
Práctico Nº 3: Distribución en el muestreo
Contenidos: La función de densidad normal. Estandarización. Función de distribución
acumulada normal. Uso de la tabla para distribución normal. Distribución del Estadístico
media muestral. Uso de la tabla "t de Student". Distribución de la diferencia de dos medias
muestrales (varianzas conocidas y desconocidas). Distribución de la varianza muestral. Uso
de la tabla "Chi-Cuadrado" (2).
Práctico Nº 4: Estimación de Parámetros
Contenidos: Estimación puntual. Estimación por intervalo. Interpretación del intervalo de
confianza. Cálculo del tamaño muestral.
Práctico Nº 5: Prueba de Hipótesis
Contenidos: Prueba de Hipótesis. Hipótesis Nula y Alternativa. Errores de Tipo I y Tipo II.
Estimación por intervalos para la esperanza de una distribución normal con y sin σ2 conocida.
Práctico Nº 6: Inferencia sobre la esperanza y varianza de una y dos distribuciones normales
Contenidos: Prueba de Hipótesis acerca de la esperanza de una distribución cuando se conoce 2
y cuando la misma es desconocida. Contraste de hipótesis referente a la esperanza y
varianza de una distribución normal. Estimación por intervalo referente a las varianzas de
dos distribuciones. Uso de la tabla para la distribución ―F‖.
10
Práctico Nº 7: Regresión Lineal Contenidos: Estimación de la Recta de Regresión. Los supuestos del Análisis de Regresión.
Análisis de los Residuales. Prueba de Hipótesis. Análisis de Correlación Lineal. Análisis de
Regresión Lineal Múltiple. Series de Tiempo.
Práctico Nº 8: Pruebas No Paramétricas. Análisis de Datos Categorizados
Contenidos: Pruebas no paramétricas. Test de Rachas. Test de D‘Agostino. Contraste de
Wilcoxon. Contraste de Kruskal-Wallis.Inferencia en tablas de contingencia. Interpretación.
Medidas de asociación para tablas de contingencia. Pruebas de Hipótesis de homogeneidad de
proporciones.
Práctico Nº 9: Análisis de la varianza Contenidos: La tabla de ANAVA. Supuestos del ANAVA. Análisis de los residuales.
Preuebas a Posteriori. Test de Tukey y Fisher.
11
Programa de Examen Final
(COMBINADO)
Bolilla Nº 1 1.1 Necesidad y finalidad de la Investigación. Población y Muestra.
1.2 Espacio muestral. Eventos. Concepto de Probabilidad.
1.3 La función de densidad normal. Estandarización.
1.4 Estimación puntual. Propiedades de los buenos estimadores.
1.5 Concepto de prueba de Hipótesis.
1.6 Prueba de Hipótesis acerca de la esperanza de una distribución cuando se conoce 2.
Estimación por intervalos para la esperanza de una distribución normal cuando se conoce 2.
1.7 Análisis de Regresión Lineal.
1.8 Pruebas No Paramétricas. Tablas de Contingencia.
1.9 ANAVA: Definiciones preliminares.
Bolilla Nº 2
2.1 Variables. Tipos de variables.
2.2 Evento Aleatorio. Concepto de variable aleatoria.
2.3 Función de distribución acumulada normal. Uso de la tabla para distribución normal.
2.4 Estimación por intervalo. Procedimiento general para encontrar un intervalo de confianza
para un parámetro distribucional.
2.5 Hipótesis Nula y Alternativa.
2.6 Prueba de hipótesis acerca de la esperanza de una distribución normal cuando 2
es
desconocida. Estimación por intervalos para la esperanza de una distribución normal
cuando 2
es desconocida.
2.7 Estimación de la Recta de Regresión.
2.8 Test de Rachas. Medidas de Asociación para tablas de contingencia.
2.9 Diseño completamente aleatorizado
Bolilla Nº 3
3.1 Distribuciones de frecuencia de una variable aleatoria.
3.2 Distribución de una variable aleatoria. Función de distribución acumulada.
3.3 Distribución del Estadístico media muestral.
3.4 Interpretación del intervalo de confianza.
3.5 Procedimiento de la prueba de Hipótesis.
3.6 Contraste de hipótesis referente a la varianza de una distribución normal.
3.7 Regresión: Método de los Mínimos Cuadrados.
3.8 Test de D‘Agostino. Hipótesis de homogeneidad de proporciones para tablas de
contingencia.
3.9 El análisis de la varianza de efectos fijos a un criterio de clasificación.
Bolilla Nº 4
4.1 Representaciones gráficas de los resultados de estudios experimentales u observacionales.
4.2 Función de densidad para variables aleatorias discretas y continuas.
4.3 Teorema central de límite.
4.4 Estimación por intervalo de la esperanza de la distribución de una variable aleatoria
normal.
4.5 Errores de Tipo I y Tipo II.
4.6 Estimación por intervalo de la varianza de una distribución.
12
4.7 Los supuestos del Análisis de Regresión. Análisis de los Residuales.
4.8 Contraste de Wilcoxon. Pruebas de hipótesis de independencia para tablas de
contingencia.
4.9 El ANAVA y los cuadrados medios.
Bolilla Nº 5 5.1 Medidas de resumen de la distribución de frecuencias de una variable aleatoria en una
muestra. Función lineal.
5.2 Medidas resumen de la distribución de una variable aleatoria.
5.3 Distribución "t de Student". Distribución de la diferencia de dos medias muestrales
(varianzas conocidas y desconocidas).
5.4 Cálculo del tamaño muestral para obtener un intervalo de confianza para con una
amplitud determinada.
5.5 Relación entre los intervalos de Confianza y las Pruebas de Hipótesis.
5.6 Estimación por intervalo referente a las varianzas de dos distribuciones. Distribución ―F‖.
5.7 Análisis de la variación en la variable dependiente Y. Prueba de Hipótesis.
5.8 Pruebas de bondad de ajuste para tablas de contingencia.
5.9 La partición de la suma de cuadrados y la tabla de ANAVA.
Bolilla Nº 6 6.1 Medidas descriptivas. Estadísticos de Tendencia central. Estadísticos de posición.
Medidas de dispersión. Función cuadrática.
6.2 Esperanza y Varianza de variables aleatorias. Propiedades. Cuantiles de una distribución.
6.3 Distribución de la varianza muestral. Distribución "Chi-Cuadrado" (2).
6.4 Prueba de hipótesis referente a las esperanzas de dos distribuciones con varianzas
conocidas y desconocidas. Observaciones apareadas: prueba de hipótesis y estimación por
intervalo.
6.5 Análisis de Correlación Lineal. Los supuestos del Análisis de correlación. Coeficiente de
Correlación Lineal. Prueba de Hipótesis. Regresión Múltiple. Serie de Tiempo
6.6 Contraste de KrusKal-Wallis.
6.7 Supuestos del ANAVA. Análisis de los residuales. Una Prueba a posteriori "el test de
Tukey y Fisher‖.
13
Estadística y Biometría Estadística:
¿relación de datos numéricos presentada de forma ordenada y sistemática?
Es algo más: permite dar luz y obtener resultados, y por tanto beneficios, en
cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad
intrínseca, no puedan ser abordadas desde la perspectiva de las leyes
determinísticas.
Ciencia auxiliar para todas las ramas del saber; su utilidad se entiende mejor si
tenemos en cuenta que los quehaceres y decisiones diarias embargan cierto grado
de incertidumbre... y la Estadística ayuda en la incertidumbre, trabaja con ella y nos
orienta para tomar las decisiones con un determinado grado de confianza.
Definición 1:
Ciencia que estudia cómo debe emplearse la información y cómo dar una guía de
acción en situaciones prácticas que entrañan incertidumbre.
Usos y Abusos
Los críticos de la estadística afirman que a través de ella es posible probar
cualquier cosa, lo cual es un concepto profano que se deriva de la ignorancia en
este campo y de lo polifacético de los métodos estadísticos.
Muchos "investigadores" tendenciosos han cometido abusos con la estadística,
elaborando "investigaciones" de intención, teniendo previamente los resultados que
les interesan mostrar a personas ingenuas y desconocedoras de los hechos.
Otros, por ignorancia o negligencia, abusan de la estadística utilizando modelos
inapropiados o razonamientos ilógicos y erróneos que conducen al rotundo fracaso
de sus investigaciones.
Lincoln L. Chao (Estadística para Ciencias Administrativas, en Biblioteca), hace
referencia a uno de los más estruendosos fracasos, debido a los abusos en la toma de una
muestra
Se trata del error cometido por la Digest que, en sus pronósticos para las elecciones
presidenciales en EE.UU. para 1936, afirmó que Franklin D. Roosvelt obtendría
161 votos electorales y Alfred Landon, 370. La realidad mostró a Roosvelt con 523
votos y a Landon con 8 solamente.
El error se debió a que la muestra fue tomada telefónicamente a partir de la lista de
suscriptores de la Digest y, en 1936, las personas que se daban el lujo de tener
teléfonos y suscripciones a revistas no configuraban una muestra representativa de
los votantes de EE.UU. y, por ende, no podía hacerse un pronóstico confiable con
tan sesgada información.
División
La estadística se divide en dos grandes ramas de estudio que son:
Estadística descriptiva
Estadística matemática o inferencial
14
Estadística Descriptiva o Deductiva
Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos
que resumen y presentan la información contenida en ellos.
Estadística Inferencial o Inductiva
Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa
estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor
de datos.
Desarrolla modelos teóricos que se ajusten a una determinada realidad con cierto grado de
confianza.
Cuando se realiza un estudio de investigación, se pretende generalmente inferir o
generalizar resultados de una muestra a una población.
Este proceso de inferencia se efectúa por medio de métodos estadísticos basados en la
probabilidad.
Individuos, Población y Muestra
Individuos o elementos: personas u objetos que contienen cierta información que se
desea estudiar.
Población: representa el conjunto grande de individuos que deseamos estudiar y
generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogéneo que
reúne unas características determinadas.
Muestra: La muestra es el conjunto menor de individuos (subconjunto de la
población accesible y limitado sobre el que realizamos las mediciones o el
experimento con la idea de obtener conclusiones generalizables a la población )
La muestra debe ser representativa de la población y con ello queremos decir que
cualquier individuo de la población en estudio debe haber tenido la misma
probabilidad de ser elegido.
¿Por qué estudiar muestras?
Ahorra tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.
Como consecuencia del punto anterior ahorraremos costos.
Estudiar la totalidad de los elementos o personas con una característica
determinada en muchas ocasiones puede ser una tarea inaccesible o imposible de
realizar.
Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las
observaciones y mediciones realizadas a un reducido número de individuos pueden
ser más exactas y plurales que si las tuviésemos que realizar a una población.
La selección de muestras específicas nos permitirá reducir la heterogeneidad de una
población al indicar los criterios de inclusión y/o exclusión.
En Resumen
Individuos o elementos: personas u objetos que contienen cierta información que
se desea estudiar.
Población: conjunto de individuos o elementos que cumplen ciertas propiedades
comunes.
Muestra: subconjunto representativo de una población.
15
Parámetro: función definida sobre los valores numéricos de características
medibles de una población.
Estadístico: función definida sobre los valores numéricos de una muestra.
Ejemplo
Consideremos la población formada por todos los estudiantes de la UNLaR. La
altura media de todos los estudiantes es el parámetro μ. El conjunto formado por
los alumnos de la Sede Chamical es una muestra de dicha población y la altura
media de esta muestra, , es un estadístico.
Organización de Datos
VARIABLES
Toda magnitud cuya medida puede cambiar de valor recibe el nombre de variable.
Algunas de ellas son absolutamente predecibles con exactitud: son las variables
determinísticas.
Por ejemplo el área de un cuadrado (figura geométrica) de 20 cm de lado es 400
cm2
A = L2
En la realidad, el problema no es tan sencillo, la medición del área de una baldosa
aproximadamente cuadrada, de aproximadamente 20 cm de lado, puede dar como
resultado: 399, 400 ó 401 cm2. Incluso en mediciones repetidas de la misma
baldosa. Esto puede deberse a varias causas : irregularidad de la baldosa ,
dilatación o contracción debida a la temperatura, errores humanos o instrumentales
en la medición u otras absolutamente desconocidas. Este fenómeno genera las
variables llamadas aleatorias ( probabilísticas o estocásticas)
A = L2 + ε
donde épsilon es el desvío no explicado respecto al valor esperado L2
Variables Estadísticas
Es una característica o propiedad determinada del individuo o elemento, sea
medible o no. Esta propiedad hace que los elementos de un grupo puedan diferir de
las de otro grupo en la muestra o población de estudio.
Cuando hablemos de variable haremos referencia a un símbolo (X, Y, A, B,...) que
puede tomar cualquier modalidad (valor) de un conjunto determinado, que
llamaremos dominio de la variable o rango. En función del tipo de dominio, las
variables las clasificamos del siguiente modo:
Variables cualitativas o categóricas
Este tipo de variables representan una cualidad o atributo que clasifica a cada caso
en una de varias categorías. La situación más sencilla es aquella en la que se
clasifica cada caso en uno de dos grupos (hombre/mujer). Son datos dicotómicos o
binarios.
Como resulta obvio, en muchas ocasiones este tipo de clasificación no es
suficiente y se requiere de un mayor número de categorías (color de los ojos, grupo
sanguíneo, profesión, etcétera).
Dos Escalas
Escalas Nominales
Escalas Ordinales
X
16
Nominal
ésta es una forma de observar o medir en la que los datos se ajustan por categorías
que no mantienen una relación de orden entre sí
Ordinal
son aquellas en la que es posible establecer un orden entre ellas.
Ej: si estudiamos la llegada a la meta de un corredor en una competición de 20
participantes, su clasificación C es tal que:
Variables cuantitativas
son las que tienen por modalidades cantidades numéricas con las que podemos
hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir
dos grupos:
Discretas cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de
sus modalidades. Suelen tomar solamente valores enteros (número de hijos,
número de partos, número de hermanos, etc). Es obvio que cada valor de la
variable es un número natural.
Continuas
cuando admiten una modalidad intermedia entre dos cualesquiera de sus
modalidades.
Ej. el peso X de un niño al nacer. En este caso los valores de las variables son números
reales, es decir:
Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como
discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisión
del aparato de medida de esa variable.
Ej. si medimos la altura en metros de plantas con dos decimales de precisión, podemos
obtener:
En realidad lo que ocurre es que con cada una de esas mediciones expresamos que
el verdadero valor de la misma se encuentra en un intervalo de radio 5.10-3
. Por lo
tanto, cada una de las observaciones de X representa más bien un intervalo que un
valor concreto.
Otras formas de clasificación
Variable Dependiente: es la v. motivo de nuestro interés, cuyos valores dependen
de otras variables que pueden influir en ella. También se la llama v. de respuesta.
Por ejemplo la sobrevida, respuesta al tratamiento, evolución, etc.
Variable Independiente: es la que modifica de una u otra manera a la v.
dependiente, llamándose también según el caso factor de riesgo, factor predictivo,
etc.
agrio"",amargo"",dulce""
,...,10,4,3,21C
.53,....51,1.52,1...,1.50,1
17
Variable Asociada: se denomina así a aquella v. independiente que no modifica
por su sola presencia a la v. dependiente, pero que al combinarse con otra variable,
si influye notoriamente a la anterior.
Modalidad - Clases
Las modalidades son las diferentes situaciones posibles que puede presentar la
variable. (p. Ej. cuando una variable es continua) y conviene reducir su número,
agrupándolas en una cantidad inferior de clases.
Estas clases deben ser construidas, tal como hemos citado anteriormente, de modo
que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a
una y sólo una de las clases.
Resumen Variable cualitativa nominal: Aquella cuyas modalidades son de tipo nominal.
Variable cualitativa ordinal: Modalidades de tipo nominal, en las que existe un
orden.
Variable cuantitativa discreta: Sus modalidades son valores enteros.
Variable cuantitativa continua: Sus modalidades son valores reales.
Tablas estadísticas
Consideremos una población estadística de n individuos, descrita según un carácter o
variable C cuyas modalidades han sido agrupadas en un número k de clases, que
denotamos mediante c1,c2,c3,...ck. Para cada una de las clases ci, i = 1,2,...,k, introducimos
las siguientes magnitudes:
Frecuencia absoluta (de un determinado valor ni ) al número de veces que se repite dicho valor .
Frecuencia relativa
Es el cociente fi, entre las frecuencias absolutas de dicha clase y el número total de
observaciones, es decir:
Frecuencia absoluta acumulada
( de un determinado valor ni ) a su frecuencia absoluta más la suma de las
frecuencias absolutas de todos los valores anteriores
Frecuencia relativa acumulada Fi, se calcula sobre variables cuantitativas, siendo el tanto por uno de los elementos
de la población que están en alguna de las clases y que presentan una modalidad
inferior o igual a la ci, es decir:
Como todas las modalidades son exhaustivas e incompatibles ha de ocurrir que
n
nfi i
i
j
jii nnnnnN1
321 ...
18
o lo que es lo mismo
Si las frecuencias relativas las multiplicamos por 100 obtenemos los %
Distribución de frecuencias
Llamaremos distribución de frecuencias al conjunto de clases junto a las
frecuencias correspondientes a cada una de ellas. Una tabla estadística sirve para
presentar de forma ordenada las distribuciones de frecuencias. Su forma general es
la siguiente:
1n
Fk = 1Nk = nnkck
...............
njcj
...............
N1 = n1n1c1
FiNifiniC
Frec. Rel. Acumulada
Frec. Abs. Acumulada
Frecuencia Relativa
Frecuencia Absoluta
Variable
1n
Fk = 1Nk = nnkck
...............
njcj
...............
N1 = n1n1c1
FiNifiniC
Frec. Rel. Acumulada
Frec. Abs. Acumulada
Frecuencia Relativa
Frecuencia Absoluta
Variable
n
nf 11
n
nf
j
j
n
nf k
k
jj nnnN ...21
jfn
NF 1
1
j
j
j ffn
NF ...1
Ejemplo – completar tabla
li-1 -- li ni fi Ni
0 -- 10 60 f1 60
10 -- 20 n2 0,4 N2
k
i
ki nnnnn1
21 ...
k
i
k
i
k
i ii
n
n
n
n
n
nfi
1 1
1 1
19
20 -- 30 30 f3 170
30 -- 100 n4 0,1 N4
100 -- 200 n5 f5 200
n
Sabemos que la última frecuencia acumulada es igual al total de observaciones, luego n =
200. Como N3=170 y n3=30, entonces:
N2 = N3-n3=170-30=140
Además al ser n1=60, tenemos que:
n2 = N2-n1=140-60=80
Por otro lado podemos calcular n4 teniendo en cuenta que conocemos la frecuencia
relativa correspondiente:
Así:
N4= n4+N3=20+170 =190
Este último cálculo nos permite obtener:
n5= N5-N4=200-190=10
Al haber calculado todas las frecuencias absolutas, obtenemos las relativas:
li-1 -- li ni fi Ni
0 -- 10 60 0,3 60
10 -- 20 80 0,4 140
20 -- 30 30 0,15 170
202001,0*44
4
4 xnfnn
nf
05,0200
10
15,0200
30
3,0200
60
55
33
11
n
nf
n
nf
n
nf
20
30 -- 100 20 0,1 190
100 -- 200 10 0,05 200
200
Elección de las clases
En cuanto a la elección de las clases, deben seguirse los siguientes criterios en
función del tipo de variable que estudiemos:
Cuando se trate de variables cualitativas, las clases ci serán de tipo nominal
En el caso de variables cuantitativas, existen dos posibilidades:
Si la variable es discreta, las clases serán valores numéricos x1,...xK
Si la variable es continua las clases vendrán definidas mediante lo que denominamos
intervalos. En este caso, las modalidades que contiene una clase son todos los valores
numéricos posibles contenidos en el intervalo, el cual viene normalmente definido de la
forma:
o En estos casos llamaremos amplitud del intervalo a las cantidades:
ai = li-li-1
o y marca de clase ci, a un punto representativo del intervalo. Si éste es acotado,
tomamos como marca de clase al punto más representativo:
Elección de intervalos para variables continuas
Número de intervalos a elegir y sus tamaños respectivos.
La notación más común que usaremos para un intervalo es:
El primer intervalo, l0 -- l1, podemos cerrarlo en el extremo inferior para no excluir
la observación más pequeña, l0:
El número de intervalos, k, a utilizar no está determinado de forma fija y por tanto
tomaremos un k que nos permita trabajar cómodamente y ver bien la estructura de
los datos:
iiii lxlxll 11 :,
2
1iii
llc
jjjj llll ,11
1010 , llll
caso otroen n log22,31
grandemuy es non si intervalos
nkN
21
Ejemplo
Si el número de observaciones que tenemos es n = 100, un buen criterio es agrupar las
observaciones en intervalos. Sin embargo si tenemos n = 1.000.000, será
mas razonable elegir intervalos, que
La amplitud de cada intervalo: ai = li -li-1 suele tomarse constante, considerando la
observación más pequeña y más grande de la población ( )
para calcular la amplitud total, A, de la población:
A = lk - l0
de forma que la amplitud de cada intervalo sea:
k
Aaa ii a dondek ,...,2,1
Observación
Podría ocurrir que la cantidad ―a” fuese un número muy desagradable a la hora de
escribir los intervalos a = 10,325467). En este caso, es recomendable variar
simétricamente los extremos, l0 < xmin < xmax < lk, de forma que se tenga que a es
un número más simple (Ej. a = 10).
Ejemplo
Sobre un grupo de n = 21 terneros se realizan las siguientes observaciones de sus pesos,
expresados en kilos:
X~x1,x2,…,x21
58 42 51 54 40 39 49
56 58 57 59 63 58 66
70 72 71 69 70 68 64
En primer lugar hay que observar que si denominamos X a la variable ―peso de
cada ternero‖ esta es una variable de tipo cuantitativa y continua. Por tanto a la
hora de ser ordenados los resultados en una tabla estadística, esto se ha de hacer
agrupándolos en intervalos de longitud conveniente. Esto nos lleva a perder cierto
grado de precisión. Para que la perdida de información no sea muy relevante
seguimos el criterio de utilizar
En este punto podemos tomar bien k = 4 o bien k = 5. Arbitrariamente se elige una
de estas dos posibilidades. Por ejemplo, vamos a tomar k = 5.
Lo siguiente es determinar la longitud de cada intervalo, ai . Lo más
cómodo es tomar la misma longitud en todos los intervalos, ai = a (aunque esto no
tiene por qué ser necesariamente así), donde:
10100k
20n log22,31k 000.1000.000.1k
maxkmin0 xly xl
21nk
5,...,2,1i
22
72
39
333972
6,65
33
5
max5
min0
05
xl
xl
llA
Aa
Entonces tomaremos k = 5 intervalos de longitud a = 6,6 comenzando por l1 = xmin
= 39 y terminando en l5=72:
Intervalos M. clase f.a. f.r. f.a.a. f.r.a.
li-1 -- li ci ni fi Ni Fi
i=1 39 -- 45,6 42,3 3 0,1428 3 0,1428
i=2 45,6 -- 52,2 48,9 2 0,0952 5 0,2381
i=3 52,2 -- 58,8 55,5 6 0,2857 11 0,5238
i=4 58,8 -- 65,4 62,1 3 0,1428 14 0,6667
i=5 65,4 -- 72 68,7 7 0,3333 21 ≈ 1
21 ≈ 1
Representaciones Gráficas
A pesar de la gran ayuda que prestan las tablas y cuadros con información
organizada, no todos los públicos alcanzan a comprenderla o no disponen del
tiempo suficiente para analizarla.
Es por ello que la mayoría de los investigadores acostumbran a reforzar la
descripción a través de dibujos, generalmente con formas geométricas, que ayudan
a visualizar el comportamiento de las variables tratadas.
Definición
Un gráfico o diagrama es un dibujo complementario a una tabla o cuadro, que permite
observar las tendencias de un fenómeno en estudio y facilita el análisis estadístico de las
variables allí relacionadas.
Componentes Título adecuado: El cual debe ser claro y conciso, que responda a las preguntas:
Qué relaciona, cuándo y dónde se hicieron las observaciones.
El cuerpo: o gráfico en sí, cuya elección debe considerar el o los tipos variables a
relacionar, el público a quien va dirigido y el diseño artístico del gráfico.
Notas de pie de gráfico: Donde se presentan aclaraciones respecto al gráfico, las
escalas de los ejes, o se otorgan los créditos a las fuentes respectivas.
Es de anotar que por medio de gráficos tendenciosos se pueden deformar o resaltar
situaciones o estados, que presentados en un gráfico apropiado, mostrarían un
comportamiento normal.
23
Generalmente una información es distorsionada por algunas de las siguientes
causas: ejemplo
La relación entre los ejes no es la más apropiada
Variación de La Inflación en Argentina
1995-2000
Como se puede observar, el gráfico No.2 ―realza‖ el decrecimiento de la variable inflación,
El No.1 intenta mostrar una estabilización o decrecimiento parsimonioso. Los dos gráficos
son incorrectos debido a que no conservan una proporción adecuada entre sus ejes.
Este gráfico tiene una buena proporción entre los ejes.
24
Pero, la distorsión se debe a la mala numeración en el eje ―Y‖ pues, el punto de origen O
ha sido eliminado y asignado un valor arbitrario, la escala es inadecuada para resaltar el
decrecimiento inflacionario de los dos últimos periodos
Las situaciones observadas son erróneas o tendenciosas y se deben corregir asignando
escalas apropiadas a los ejes y utilizando la siguiente regla:
Donde: Lx: Longitud del eje horizontal
Ly: Longitud del eje vertical
―La longitud del eje vertical es igual a tres cuartos de la longitud del eje horizontal‖.
Gráficos para variables cualitativas
Diagramas de barras: representamos en el eje de las abscisas modalidades y en
ordenadas las frecuencias absolutas o bien, las frecuencias relativas.
0
5
10
15
20
25
30
35
40
1er trim. 2do trim. 3er trim. 4to trim.
Para comparar varias poblaciones entre sí, existen otras modalidades. Cuando los
tamaños de las dos poblaciones son diferentes, es conveniente utilizar las
frecuencias relativas.
0
10
20
30
40
50
60
70
80
90
1er trim. 2do trim. 3er trim. 4to trim.
Este
Oeste
Norte
25
Diagramas de sectores
También llamados tortas. Se divide un círculo en tantas porciones como clases
existan, de modo que a cada clase le corresponde un arco de círculo proporcional a
su frecuencia absolutas o relativas.
1er trim. 2do trim. 3er trim. 4to trim.
El arco de cada porción se calcula usando la regla de tres:
n
nxn
n
iii
.360
360
Pictogramas
Expresan con dibujos alusivo al tema de estudio las frecuencias de las modalidades
de la variable. Estos gráficos se hacen representado a diferentes escalas un mismo
dibujo.
Gráficos para variables cuantitativas
Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de
que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias
acumuladas.
26
Diagramas diferenciales
Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se
representa el número o porcentaje de elementos que presenta una modalidad dada.
Diagramas integrales
Son aquellos en los que se representan el número de elementos que presentan una
modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias
acumuladas .
Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas.
Vemos a continuación las diferentes representaciones gráficas que pueden realizarse para
cada una de ellas así como los nombres específicos que reciben.
Gráficos para variables discretas
Cuando representamos una variable discreta, usamos el diagrama de barras
cuando pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas
para representar el que los valores que toma la variable son discretos. El diagrama
integral o acumulado tiene, por la naturaleza de la variable, forma de escalera.
Ejemplo Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras,
X, obteniéndose los siguientes resultados X ~ 2, 1, 0, 1,3, 2, 1, 2.
Solución
En primer lugar observamos que la variable X es cuantitativa discreta, presentando
las modalidades:
X = 0, 1, 2, 3.
xi ni fi Ni Fi
0 1 1/8 1 1/8
1 3 3/8 4 4/8
2 3 3/8 7 7/8
3 1 1/8 8 8/8
n = 8 1
27
Gráficos para variables continuas
Cuando las variables son continuas, utilizamos como diagramas diferenciales los
histogramas y los polígonos de frecuencias.
Histogramas
Se construyen a partir de la tabla estadística, representando sobre cada intervalo, un
rectángulo que tiene a este segmento como base.
Polígonos de frecuencias
Se construyen fácilmente si tenemos representado previamente el histograma.
Consiste en unir mediante líneas rectas los puntos del histograma que corresponden
a las marcas de clase.
Polígono de frecuencias acumulado
El diagrama integral para una variable continua se denomina también polígono de
frecuencias acumulado, y se obtiene como la poligonal definida en abscisas a
partir de los extremos de los intervalos en los que hemos organizado la tabla de la
variable, y en ordenadas por alturas que son proporcionales a las frecuencias
acumuladas. Dicho de otro modo, el polígono de frecuencias absolutas es una
primitiva del histograma.
0.0022 0.0030 0.0037 0.0045 0.0053 PS
0.00
0.17
0.33
0.50
0.66
frecuencia relativa
0.0022 0.0030 0.0037 0.0045 0.0053 PS
0.00
0.17
0.33
0.50
0.66
frecuencia relativa
28
Ejemplo
Intervalos ci ni Ni
0 -- 2 1 2 2
2 -- 4 3 1 3
4 -- 6 5 4 7
6 -- 8 7 3 10
8 – 10 9 2 12
12
Gráfico de Líneas
Usado básicamente para mostrar el comportamiento de una variable cuantitativa a
través del tiempo. Consiste en segmentos rectilíneos unidos entre sí, los cuales
resaltan las variaciones de la variable por unidad de tiempo.
Para su construcción ha de procederse de la siguiente manera: en el eje de las
ordenadas se marcan los puntos de acuerdo con la escala que se esté utilizando. En
el caso de una escala aritmética, distancias iguales en el eje, representan distancias
iguales en la variable.
Variación de La Inflación en Argentina
1995-2000
29
El eje de la variable X se divide en unidades de tiempo iguales, teniendo presente el
número de ítems que ha de presentarse, así como la longitud del eje. Es de anotar la
conveniencia de mostrar la interrupción y acercamiento del eje a su origen
cuando esto haya ocurrido.
Gráfico de Líneas Compuesto
Cuando se tienen varias variables a representar, con el fin de establecer
comparaciones entre ellas (siempre que su unidad de medida sea la misma); se
utiliza plasmarlos en un sólo gráfico, el cual es el resultado de representar varias
variables en un mismo plano.
Variación de la Inflación y el Salario
Diagrama de barras de error
Para comparar dos o más grupos se realiza habitualmente en términos de su valor
medio, En el gráfico se compara el índice de masa corporal en una muestra de
hombres y mujeres. Para cada grupo, se representa su valor medio, junto con su
95% intervalo de confianza. El hecho de que dichos intervalos no se solapen, no
implica necesariamente que la diferencia entre ambos grupos pueda ser
estadísticamente significativa, pero sí nos puede servir para valorar la magnitud de
la misma.
30
Diagramas de dispersión
Se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el
valor de la otra. Un ejemplo sencillo de variables altamente correlacionados es la
relación entre el peso y la talla de un sujeto. En él gráfico puede observarse
claramente como existe una relación directa entre ambas variables, y valorar hasta
qué punto dicha relación puede modelizarse por la ecuación de una recta. Este tipo
de gráficos son, por lo tanto, especialmente útiles en la etapa de selección de
variables cuando se ajusta un modelo de regresión lineal.
31
Funciones matemáticas lineales y cuadradas
En matemáticas, muchos problemas comprenden conjuntos de pares ordenados de
números. Un conjunto de pares ordenados de números reales recibe el nombre de relación
binaria. El conjunto de los primeros elementos de una relación binaria se llama dominio de
la relación. El conjunto de los segundos elementos es el codominio o imagen de la
relación. Para el conjunto (x, y) las cantidades de x e y suelen llamarse variables. El
conjunto de valores para la variable x es el dominio, y x suele llamarse variable
independiente, el conjunto de valores que toma la variable y es el codominio, y a y se le
denomina por lo general, variable dependiente. Cuando A partir del contexto, resulta claro
el número de variables, una relación binaria puede llamarse sencillamente, relación.
Si una relación es tal que en ella a cada elemento del dominio le corresponde uno y sólo un
elemento del codominio, se dice que esta en relación de una función.
La función es una regla matemática que asigna a cada valor de entrada uno y sólo un valor
de salida.
Función lineal y ecuación de la recta
La construcción y lectura de gráficos son necesidades imprescindibles en el mundo actual.
No es posible comprender un diario si no se tiene idea de cómo interpretar un gráfico.
Como primer acercamiento observemos el siguiente gráfico que contiene información
simple de leer.
En las empresas ferroviarias se utilizan diagramas similares a estos para programar la
señalización a lo largo de la vía férrea.
En el eje vertical se han marcado los puntos O, A, B, C, D, y E que son estaciones
ferroviarias. En el eje horizontal se ha representado el tiempo medido en horas. Cada línea
quebrada indica la posición del tren, cuyo número está marcado sobre la misma, en
función del tiempo. Observemos que algunos trenes no llegan a la última estación y
algunos no paran en ciertas estaciones.
Veamos algunas preguntas que podemos hacer para interpretar el gráfico:
1) ¿A qué hora sale el tren nº 2?
32
2) ¿A qué hora llega a la estación E el tren nº 4?
3) ¿Cuánto tiempo transcurre entre la salida del tren nº 3 y el nº 4?
4) ¿Cuánto tarda el tren nº 1 en ir de la estación O a la estación B?
5) ¿Cuánto tiempo el tren nº 1 está detenido en la estación B?
6) ¿Cuánto tiempo transcurre en la estación D desde la partida del tren nº 1 hasta que pasa
el tren nº 6?
7) ¿Hasta donde llega el tren nº 3?
8) ¿A qué hora y en qué lugar se cruzan los trenes nº 1 y nº 2?
9) Si un pasajero llega a la estación O a las 12:30 hs. y quiere llegar a la estación E, ¿qué
opciones tiene?
10) Si un pasajero llega a la estación O a las 10 hs. y toma el tren nº 3, ¿cómo hace para
llegar a la estación E?. ¿A qué hora llega?. ¿Qué le hubiera convenido hacer para llegar
antes?
11) ¿Es siempre la misma la velocidad del tren nº 2?. ¿Y la del tren nº 1?. ¿En qué lugar es
mayor?
Como habíamos mencionado antes, una función es una regla que permite asignar a cada
uno de los elementos ―x‖ de un conjunto ―A‖ un único elemento ―y‖ de otro conjunto ―B‖.
A diario tenemos ejemplos de estas asignaciones: el médico dosifica un antibiótico en
función del peso del bebé, nos cobran el pasaje en función de la distancia recorrida, la
distancia recorrida es función de la velocidad alcanzada, etc.
Función lineal como propiedad de los sistemas generales
Una función es lineal cuando cumple todas estas propiedades:
o Si aplicamos una entrada u1(x) obtenemos una salida particular y1(x)
o Si aplicamos una entrada u2(x) obtenemos una salida particular y2(x)
o Entonces si aplicamos u3(x)=c1u1(x)+c2u2(x) obtenemos una salida
y3(x)=c1y1(x)+c2y2(x) para todos los pares de entradas u1(x) y u2(x) y para todos
los pares de constantes c1 y c2.
Esto incluye también a las funciones lineales diferenciales.
Interpretación geométrica
33
En el análisis matemático y en la geometría, una función lineal de una variable real es una
función matemática de la forma:
Donde m y b son constantes.
Una función lineal de una única variable independiente x suele escribirse en la forma
siguiente
Que se conoce como ecuación de la recta en el plano xy.
o m es denominada la pendiente de la recta.
o b es la ordenada en el origen, el valor de y para x= 0, es el punto (0,b).
Ejemplo en el plano xy
En la figura se ven tres rectas, que corresponden a las ecuaciones lineales siguientes:
En esta recta el parámetro m= 1/2, esto es el crecimiento de la recta es 1/2, cuando
aumentamos x en una unidad, y aumenta en 1/2 unidad, el valor de b es 1, luego la recta
corta el eje y en el punto y= 1
La ecuación:
Tiene el valor de la pendiente m= 1/2, igual que en el caso anterior, por eso estas dos
rectas son paralelas, como el valor de b= -1, esta recta corta el eje de las y en el punto y= -
1.
La tercera ecuación, es:
34
la pendiente de la recta, el parámetro m= 2, indica que cuando el valor de x aumenta en
una unidad, el valor de y la hace en dos unidades, el corte con el eje y, lo tiene en y= 1,
dado que el valor de b= 1.
En el caso de una recta el valor de m se corresponde al ángulo de inclinación de la recta
con el eje de las x a través de la expresión:
Función cuadrática
De vital importancia en matemáticas y física es la función cuadrática o de segundo grado.
Las funciones cuadráticas son las que responden a la forma y=ax2+bx+c. Su gráfica es una
parábola. Las parábolas son gráficas simétricas respecto de un eje que pasa por el vértice.
En su estudio es conveniente conocer la orientación de la parábola, los puntos de cortes
con los ejes, tanto con el eje OX como con el eje OY y el vértice de la parábola.
Gráficas de funciones cuadráticas.
Donde a, b y c son constantes y a es distinto de 0.
La representación gráfica en el plano XY haciendo:
Esto es:
Es una parábola vertical, orientada hacia arriba o hacia abajo según el signo de a.
35
Estudio de la función
Corte con el eje y
La función corta el eje y en el punto y = f(0), es decir, la parábola corta el eje y cuando x
vale cero (0):
lo que resulta:
La función corta el eje y en el punto (0, c), siendo c el termino independiente de la función.
Corte con el eje x
La función corta al eje x cuando y vale 0:
las distintas soluciones de esta ecuación de segundo grado, son los casos de corte con el
eje x, que se obtienen por la expresión:
Donde:
se le llama discriminante, Δ:
36
Según el signo del discriminante podemos distinguir:
Δ > 0, la ecuación tiene dos soluciones, por tanto la parábola cortara al eje x en dos
puntos: x1 y x2.
B2 – 4ac > 0 2 intersecciones
Ejemplo:
Ecuación de la parábola:
y = 2 x 2 – 5 x + 1
Δ = 0, la ecuación tiene una única solución en x1, la parábola solo tiene un punto en común
con el eje x, el cual es el vértice de la función donde las dos ramas de la parábola
confluyen.
b2 – 4ac = 0 1 intersección
Ejemplo:
Ecuación de la parábola:
y = x 2 + 6 x + 9
Δ < 0, la ecuación no tiene solución real, y la parábola no corta al eje x.
b2 - 4ac < 0 No hay intersección
Ejemplo:
Ecuación de la parábola:
y = – x 2 + 2 x – 3
x
y
-12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12
0
2
4
6
8
10
12
14
x
y
-12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12
-4
-2
0
2
4
6
8
10
37
Intersección con el eje X
Para determinar las coordenadas de cada punto de intersección, si ésta existe, de la
parábola con el eje X, debe resolverse la siguiente ecuación cuadrática:
a x 2 + b x + c = 0
La parábola tiene un y sólo un punto de intersección con el eje Y. Las coordenadas de ese
punto son: ( 0 , c )
Eje de simetría
Cada parábola tiene un eje de simetría cuya ecuación es:
a
bx
2
Ejemplo: Determina la ecuación del eje de simetría de la parábola de ecuación:
y = 3 x 2 – 12 x + 7.
Respuesta: La ecuación del eje de simetría es:
23.2
12x
x
y
-12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12
-6
-4
-2
0
2
4
6
8
10
x
y
-12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12
-10
-8
-6
-4
-2
0
2
4
38
Vértice ( V )
Toda parábola tiene un y sólo un vértice ( V ) de coordenadas:
a
bca
a
bv
.4
..4,
.2
2
Ejemplo: Determina las coordenadas del vértice ( V ) de la parábola de ecuación:
y = x 2 + 2 x – 8
Respuesta: Las coordenadas del vértice son:
9,11.4
28.1.4,
1.2
2 2
v
Dominio de la función ( Dom f )
El dominio de la función cuadrática es R .
Dom f = R
Recorrido de la función ( Rec f )
El recorrido de la función cuadrática está determinado por:
x
y
-14 -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12 14
-10
-8
-6
-4
-2
0
2
4
6
39
a > 0 Rec f =
a < 0 Rec f =
Un ejemplo de un fenómeno que se puede describir a través de una función cuadrática, es
el siguiente: se lanza una pelota, desde el suelo, hacia arriba. Se quiere conocer la altura
alcanzada por la pelota en cada segundo contado a partir del momento en que fue lanzada.
La función que permite obtener la altura de la pelota en cada segundo, es una función
cuadrática que depende de la inclinación con la cual se lanzó y de la fuerza que se le
imprimió al lanzamiento, de acuerdo a ciertas leyes de la Física.
Si se obtiene, en un caso específico, la función
f(x)=-2x2+8x
entonces, en el instante inicial (0 segundos transcurridos) la pelota está en el suelo, es
decir, tiene altura igual a cero:
f(0)=-2(0)2+8(0)=0
Para saber cuál es la altura (en metros, por ejemplo, en este caso) de la pelota en el instante
en que ha transcurrido 1 segundo, se hace x=1 y se calcula
f(1)=-2(1)2+8(1)=-2+8=6
y cuando han transcurrido 2 segundos:
f(2)=-2(2)2+8(2)=-8+16=8
Puede hacerse una tabla como la que se muestra a continuación:
0 0
1 6
2 8
3 6
4 0
1) La pelota vuelve a caer al suelo a los 4 segundos de haber sido lanzada.
2) La altura máxima la alcanza al haber transcurrido 2 segundos a partir de su
lanzamiento.
3) La velocidad de la pelota va disminuyendo desde que es lanzada hasta que llega a 8
metros de altura (a los 2 segundos de su lanzamiento). Esto se puede ver al calcular la
cantidad de metros que subió desde el segundo 0 hasta el segundo 1, que es
f(1)-f(0)=6-0=6 metros,
y compararla con la cantidad de metros que subió entre los segundos 1 y 2:
f(2)-f(1)=8-6=2
Luego ocurre algo curioso, entre los segundos 2 y 3, la pelota comienza a descender y
recorre exactamente 2 metros:
,4
–4 2
a
bca
a
bca
4
–4,–
2
40
f(2)-f(3)=8-6=2
Y entre los segundos 3 y 4 vuelve a recorrer la distancia que recorrió en el primer segundo:
f(3)-f(4)=6-0=6
esto se refleja gráficamente en la simetría de la curva con respecto a la recta vertical x=2.
Decir que esta curva es simétrica respecto a la recta x = 2, significa que si se rotara el
plano tomando la recta como eje, de manera que todo lo que está a la izquierda de la recta
pase a la derecha y viceversa, se obtendría una curva idéntica a la original.
En otras palabras, si un observador imaginario, diminuto, se situara en algún punto de la
recta, lo que vería de la curva al mirar hacia la izquierda, sería idéntico a lo que vería a su
derecha.
En términos algebraicos, se tiene que la imagen, por medio de la función f (x)= -2x2+8x ,
de dos números que estén a la derecha y a la izquierda de 2 y a la misma distancia de 2,
debe ser la misma.
Por ejemplo, los números 1/2 y 7/2 son equidistantes de 2, pues
Y sus imágenes son iguales:
41
Medidas descriptivas estadísticas
• Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que
junto a una medida que indique el valor alrededor del cual se agrupan los datos, se
asocie una medida que haga referencia a la variabilidad que refleje dicha
fluctuación.
• La tendencia central de los datos.
• La dispersión o variación con respecto a este centro.
• Los datos que ocupan ciertas posiciones.
• La simetría de los datos.
• La forma en la que los datos se agrupan.
Medidas representativas de un conjunto de datos estadísticos
Estadísticos de tendencia central
• la media
• la mediana
• la moda
En ciertas ocasiones estos tres estadísticos suelen coincidir, aunque generalmente no es así.
Cada uno de ellos presenta ventajas e inconvenientes.
La Media
• Es la medida mas popular.
• Es decir, tenemos una muestra de n observaciones: x1, x2,…,xn. Su media
muestral es:
• De forma compacta:
Suma de las observaciones Número de observaciones
Media =
n
)x...xx( n21x
n
1i
ixn
1x
42
Propiedades de la media
• La suma de los desvíos de los valores de la variable, calculado con respecto de la
media aritmética es = 0
• La media aritmética del producto de una constante por una variable es = a la
constante por la media aritmética de la variable:
• La media aritmética de la suma de dos variables es = a la suma de sus respectivas
medias aritméticas:
Mediana
• Es el valor de la serie de datos que se sitúa justamente en el centro de la muestra
(un 50% de valores son inferiores y otro 50% son superiores).
• Los datos deben ordenarse de menor a mayor
• No presentan el problema de estar influido por los valores extremos, pero en
cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera
cada valor por el número de veces que se ha repetido).
Ejemplo:
Los salarios de siete empleados fueron los siguientes (en miles de $) :
28, 60, 26, 32, 30, 26, 29.
¿Cuál es la mediana?
Nro. de observaciones es impar
Primero, ordenar los salarios.
Luego, localizar el valor en el medio.
26,26,28,29,30,32,60
Supongamos que se agrega al grupo el Salario de un empleado más ($31.000).
¿Cuál es la mediana?
Nro. de observaciones es par Primero, ordenar los salarios.
Luego, localizar el valor en el medio.
Hay dos valores en el medio!
26,26,28,29, 29.5, 30,31,32,60
43
Moda
• Es el valor de la variable que más se repite en la muestra.
El gerente de una tienda de ropa posee la siguiente información sobre el talle de los
pantalones que se vendieron ayer:
31, 34, 36, 33, 28, 34, 30, 34, 32, 40.
La Moda es 34
En muchos casos, la moda nos da información mas valiosa que la mediana: 33.2.
Ejemplo
• Vamos a utilizar la distribución de frecuencias con datos de la estatura (altura a la
cruz) de los terneros de un lote a remate.
Variable Frecuencias
absolutas
Frecuencias
relativas
(Valor) Simple Acumulada Simple Acumulada
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
Media aritmética:
• Luego:
• Por lo tanto, la estatura media de este grupo de es de 1,253 cm.
Mediana: La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de
los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de
frecuencias relativas acumuladas.
44
Variable Frecuencias
absolutas
Frecuencias
relativas
(Valor) Simple Acumulada Simple Acumulada
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
Como el valor 1,26 se repite en 3 ocasiones, la media se situaría exactamente entre el
primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la
división entre el 50% inferior y el 50% superior.
Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto
esta seria cuenta con 3 modas.
Variable Frecuencias
absolutas
Frecuencias
relativas
(Valor) Simple Acumulada Simple Acumulada
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
Media y Mediana
• La media es sensible a observaciones extremas y a outliers.
• La mediana solo es sensible a cambios en su entorno que la cruzan. Por ello, se
dice que la mediana es un estimador robusto de la tendencia central.
• La media y la mediana de una distribución simétrica se encuentran muy cerca. Si
la distribución es exactamente simétrica, la media y la mediana coinciden.
45
Distribuciones simétricas y asimétricas
• Una distribución es simétrica si el lado derecho e izquierdo del histograma con
respecto a la mediana son aproximadamente iguales.
• Un distribución es asimétrica hacia la derecha si el lado derecho del histograma se
extiende sobre un mayor número de valores (intervalos) que el lado izquierdo.
• Una distribución es asimétrica hacia la izquierda si el lado izquierdo del
histograma se extiende sobre un mayor número de valores (intervalos) que el lado
derecho.
Aspecto general de una distribución • La figura muestra la distribución de ventas de libros por individuo en la feria del
libro. Esta distribución es asimétrica hacia la derecha. Es decir hay muchas ventas
de 3 o 4 libros y pocas ventas de 10 libros.
0
5
10
15
20
25
1 2 3 4 5 6 7 8 9 10 11 12
Estadísticos de posición: Cuartiles (Ql)
• Son un caso particular de los percentiles. Hay 3, y se definen como:
Estadísticos de posición: Percentiles
• Los percentiles son otro conjunto de medidas de tendencia no central de una
distribución.
• Dividen los datos ordenados en 100 partes iguales.
• El percentil 25 es el primer cuartil ...
• Ejemplo
– Supongamos que el 78% de los resultados es menor o igual a 600 puntos.
Entonces, 600 es el percentil 78 de la distribución.
46
– Percentiles frecuentemente utilizados
• Primer decil = percentil 10
• Primer cuartil, Q1, = percentil 25
• Segundo cuartil,Q2, = percentil 50
• Tercer cuartil, Q3, = percentil 75
• Noveno decil = percentil 90
• En el caso de una variable continua, el intervalo donde se encuentra iik llP 1
se calcula buscando el que deja debajo de si al k% de las observaciones. Dentro de
él, Pk se obtiene según la relación:
Deciles
• Se definen como los valores de la variable que dividen a las observaciones en 10
grupos de igual tamaño.
• Más precisamente, definimos D1,D2, ..., D9 como:
Ejemplo
• Dada la siguiente distribución en el número de crías de cien perras, calcular sus
cuartiles
xi ni Ni
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n = 100
47
Solución
Medidas de dispersión
• En el análisis estadístico no basta el cálculo e interpretación de las medidas de
tendencia central o de posición, ya que, por ejemplo, cuando pretendemos
representar toda una información con la media aritmética, no estamos siendo
absolutamente fieles a la realidad, pues suelen existir datos extremos inferiores y
superiores a la media aritmética.
Amplitud (A) o Rango
Rango
• Una manera de medir la dispersión es calcular el recorrido de la distribución
empírica, es decir, la diferencia entre las observaciones máxima y mínima.
• Su mayor ventaja es que se puede calcular facilmente, sin embargo, no brinda
información sobre la dispersión existente entre ambos valores extremos.
• El rango depende sólo de las observaciones máxima y mínima, que podrían ser
observaciones atípicas.
• Podríamos mejorar nuestra descripción de la dispersión fijándonos, por ejemplo,
también en la dispersión del 50% de los valores centrales de nuestros datos.
• Un conjunto de estadísticos de utilidad son los cuartiles de una distribución.
Ejemplo :
muestra:
4, 4, 5, 7, 8, 9
Solución:
• dato mayor H = 9
• dato menor L = 4
• A = 9 — 4 = 5
• La amplitud señala que los 6 datos se encuentran dentro de una distancia de 5
unidades en la recta numérica.
48
Rango intercuartílico
Es la diferencia entre el percentil 75% y el percentil 25%
Diagrama de caja
• Los cinco números resumen de una distribución son representados gráficamente
por un diagrama de caja.
• L - Observación máxima
• Q3 - Tercer cuartil
• Q2 - Mediana
• Q1 - Primer cuartil
• S - Observación mínima
• Los lados inferior y superior de la caja van del primer al tercer cuartil. Por tanto, la
altura de la caja es la amplitud del 50% de los datos centrales.
• El segmento del interior de la caja indica la mediana. Los extremos de los
segmentos perpendiculares a los lados superior e inferior indican, respectivamente,
los valores máximo y mínimo de la distribución.
S Q1 Q2
2 Q3
3 L
0
50
100
150
200
250
300
350 Facturacion_sucursales_zona_norte
0 40 80
120 160 200 240
Facturacion_sucursales_zona_sur
49
Varianza
• La varianza, S2, se define como la media de las diferencias cuadráticas de n
puntuaciones con respecto a su media aritmética, es decir:
Para datos agrupados en tablas, usando las notaciones establecidas anteriormente, la
varianza se puede escribir como
Desviación estándar
• La varianza no tiene la misma magnitud que las observaciones (ej. si las
observaciones se miden en metros, la varianza lo hace en m2). Si queremos que la
medida de dispersión sea de la misma dimensionalidad que las observaciones
bastará con tomar su raíz cuadrada. Por ello se define la desviación estándar, S,
como
Grados de libertad
• ¿Por qué calculamos la varianza dividiendo por n - 1, en lugar de dividir por n?
• Como la suma de las desviaciones es 0, la última desviación es una combinación
lineal de las n - 1 desviaciones restantes.
• Por lo tanto, no estamos calculando el promedio de n números independientes (los
desvíos). Solo n -1 de las desviaciones al cuadrado pueden variar libremente y por
ello, promediamos la suma de los desvíos al cuadrado dividiendo por n -1.
• Al numero n -1 se lo denomina grados de libertad de la varianza o de la
desviación típica.
Ejemplo
• Calcular la varianza y desviación estándar de las siguientes cantidades medidas en
metros:
3,3,4,4,5
Solución
• Para calcular dichas medidas de dispersión es necesario calcular previamente el
valor con respecto al cual vamos a medir las diferencias. Ésta es la media:
1n
)xx(...)xx()xx(s
2
n
2
2
2
12
2
i
2 )xx(1n
1s
1
n i
1
2
2
n
xx
S
n
i
i
50
La varianza es:
siendo la desviación estándar su raíz cuadrada:
“La desviación estándar y la varianza son las medidas de separación con respecto a la
media‖
Propiedades del desvío standard
• S mide la dispersión respecto a la media. Debe emplearse solo cuando se escoge la
media como medida central de la distribución.
• S = 0 solo ocurre cuando no hay dispersión: todas las observaciones toman el
mismo valor. De lo contrario S > 0.
• Cuanto más dispersión hay entre las observaciones, mayor es s.
• S, al igual que la media, se encuentra fuertemente influenciado por las
observaciones extremas.
Descripción de una distribución asimétrica
• Una distribución asimétrica con unas pocas observaciones en la cola larga de la
distribución tendrá un desvío standard grande. En tal caso, s no proporciona
información útil sobre la dispersión de la distribución.
• Como en una distribución muy asimétrica la dispersión de cada una de las colas es
muy distinta, es imposible describir bien la dispersión con un solo número.
• Los cinco números resumen proporcionan mejor información sobre la dispersión de
la distribución.
• Es preferible utilizar los cinco números resumen en lugar de la media y el desvío
standard para describir una distribución asimétrica
Coeficiente de Variación
• El coeficiente de variación es una medida de dispersión relativa.
• Muestra la dispersión de una distribución en relación a su media.
• Se utiliza para comparar distintas distribuciones.
• Su fórmula es:
x
σCV
51
• Por ejemplo, un desvio standard de 10, puede ser grande si la media es 100, pero no
lo es si la media es 500.
Ejemplo
• Comparamos pesos de elefantes y ratas:
Asimetría o sesgo
• Asimetría: El concepto de asimetría se refiere a si la curva que forman los valores
de la serie presenta la misma forma a izquierda y derecha de un valor central
(media aritmética)
Coeficiente de asimetría de Pearson
S
MxS ed
KP
3
• SKP = 0 Distribución simétrica; existe la misma concentración de valores a la
derecha y a la izquierda de la media.
• SKP > 0 Distribución a simétrica positiva; existe mayor concentración de valores
a la derecha de la media que a su izquierda.
52
• SKP < 0 Distribución a simétrica negativa; existe mayor concentración de valores
a la izquierda de la media que a su derecha.
Apuntamiento (Curtosis)
• El Coeficiente de Curtosis analiza el grado de concentración que presentan los
valores alrededor de la zona central de la distribución.
Distribución Mesocúrtica
• Presenta un grado de concentración medio alrededor de los valores centrales de la
variable (el mismo que presenta una distribución normal).
Distribución Leptocúrtica
• Presenta un elevado grado de concentración alrededor de los valores centrales de la
variable.
53
Distribución Platicúrtica
• Presenta un reducido grado de concentración alrededor de los valores centrales de
la variable.
Coeficiente de Curtosis
31
1
22
4
2
ii
ii
nxxn
nxxn
g
• g2 = 0 (distribución mesocúrtica).
• g2 > 0 (distribución leptocúrtica).
• g2 < 0 (distribución platicúrtica).
Ejemplo
Vamos a calcular el Coeficiente de Curtosis de la serie de datos referidos a la estatura
(altura a la cruz) de los terneros de un lote a remate visto anteriormente.
Variable Frecuencias
absolutas
Frecuencias
relativas
(Valor) Simple Acum Simple Acum
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
Recordemos que la media de esta muestra es 1,253
54
39,13
03046667,030
1
00004967,030
1
22g
• El Coeficiente de Curtosis de esta muestra es -1,39. Se trata de una distribución
Platicúrtica, es decir, con una reducida concentración alrededor de los valores
centrales de la distribución.
55
Cálculo de Probabilidades
Introducción
Si el único propósito del investigador es describir los resultados de un experimento
concreto, los métodos analizados anteriormente pueden considerarse suficientes.
Si lo que se pretende es utilizar la información obtenida para extraer conclusiones
generales sobre todos aquellos objetos del tipo de los que han sido estudiados,
entonces estos métodos constituyen sólo el principio del análisis, y debe recurrirse
a métodos de inferencia estadística, los cuales implican el uso inteligente de la
teoría de la probabilidad.
El cálculo de probabilidades nos suministra las reglas para el estudio de los
experimentos aleatorios o de azar, constituyendo la base para la estadística
inferencial.
Para trabajar con el cálculo de probabilidades es necesario fijar previamente cierta
terminología.
Experimentos y Sucesos Aleatorios (condiciones)
Se puede repetir indefinidamente, siempre en las mismas condiciones
Antes de realizarlo, no se puede predecir el resultado que se va a obtener
El resultado que se obtenga, e, pertenece a un conjunto conocido previamente de
resultados posibles
A este conjunto, de resultados posibles, lo denominaremos espacio muestral y lo
denotaremos normalmente mediante la letra E , S u Ω
Los elementos del espacio muestral se denominan sucesos elementales
selementale sucesosson ,, 2121 eeEee
Cualquier subconjunto de E será denominado suceso aleatorio, y se denotará
normalmente con las letras A, B,...
aleatorios sucesosson ,, BAEBA
Sucesos aleatorios que aparecen con gran frecuencia en el cálculo de probabilidades son
los siguientes:
Suceso seguro:
Es aquel que siempre se verifica después del experimento aleatorio, es
decir, el mismo E
seguro suceso el es E EE
56
Suceso imposible:
Es aquel que nunca se verifica como resultado del experimento aleatorio.
Como debe ser un subconjunto de E, la única posibilidad es que el suceso imposible sea el
conjunto vacío (Ø)
Suceso contrario a un suceso A:
También se denomina complementario de A y es el suceso que se verifica
si, como resultado del experimento aleatorio, no se verifica A. Se acostumbra a denotar con
el símbolo
Ejemplo 1
Si realizamos el experimento aleatorio de lanzar un dado al aire, tenemos:
A
57
Nociones de Probabilidad
Los eventos aleatorios no son predecibles con absoluta certeza, no obstante
podemos medir el grado de confianza con que se hace un pronóstico, sobre la
ocurrencia o no de un determinado suceso.
Probabilidad Clásica
Si un evento puede ocurrir de n maneras, equiprobables y mutuamente excluyentes,
de las cuales m maneras son favorables al suceso A; se define probabilidad del
suceso A como:
Ejemplo
Lanzamos un dado de seis caras una vez, y queremos saber,
A1: (suma igual a 2):
A2: (suma igual a 3): A3: (suma igual a 4): A4: (suma igual a 5): A5: (suma igual a 6): A6: (suma igual a 7): A7: (suma igual a 8): A8: (suma igual a 9): A9: (suma igual a 10): A10: (suma igual a 11): A11: (suma igual a 12):
58
Probabilidad Frecuencial
Si un experimento se repite n veces ( ), de las cuales m veces se presenta el suceso
A, entonces es de esperarse que:
La proporción de veces que se presenta el suceso A tiende a estabilizarse en un número
entre 0 y 1 llamado probabilidad de A.
Ejemplo
Si por ejemplo, lanzamos un dado cien veces y observamos la presencia del
número ―2‖ en 16 veces, en tal caso
Axiomas
La probabilidad sólo puede tomar valores comprendidos entre 0 y 1(no puede haber
sucesos cuya probabilidad de ocurrir sea del 200% ni del –5%.
La probabilidad del suceso seguro es 1, es decir, el 100%.
La probabilidad del suceso imposible debe ser 0.
La probabilidad de la intersección de dos sucesos debe ser menor o igual que la
probabilidad de cada uno de los sucesos por separado, es decir:
La probabilidad de la unión de sucesos debe ser mayor que la de cada uno de los
sucesos por separado:
n
59
La probabilidad del suceso contrario de A, debe valer:
Probabilidad Condicional
Si tenemos los sucesos A, B en un experimento aleatorio, con p(B)>0, se llama
probabilidad condicional a: p(A/B) La probabilidad de ocurrencia del evento ―A”
dado que ya se ha presentado el suceso “B”.
Ejemplo
A un grupo de personas se le pregunta sobre la intención de voto para las próximas
elecciones.
P (vote dado que es masculino)=
P (vote dado que es femenino)=
60
Independencia Estadística
Por ejemplo la probabilidad de obtener un número impar en el segundo lanzamiento de un
dado, no depende de si en el primer lanzamiento se obtuvo un número impar.
Modelos discretos
Experimentos de Bernoulli
Consideremos un experimento aleatorio con las siguientes características.
El experimento sólo tiene dos posibles resultados, uno llamado
éxito y el otro llamado fracaso.
La probabilidad de éxito es p, y la de fracaso (1-p).
Ejemplo
Lanzamiento de una moneda.
Observar el 1 al lanzar el dado.
Encuestar a una persona y preguntar estado civil.
Medir un árbol y ver si cumple o no con una característica específica.
Modelo Matemático
Sea
fracasohaysi
éxitohaysiX
0
1
61
Función de Probabilidad de X
p(x) = px(1-p)1-x si x =0 ó x=1
Notación
X Ber(p)
Significa que X sigue un modelo probabilístico Bernoulli con probabilidad de éxito
p.
Definición
Nos referiremos a una sucesión de experimentos de Bernoulli, cuando
Cada realización del experimento tenga sólo dos posibles resultados,
éxito o fracaso.
La probabilidad de éxito es siempre la misma en cada realización ,
digamos, p.
Cada realización del experimento de Bernoulli es independiente de
las demás.
Modelo Probabilístico Binomial
Consideremos una sucesión de experimentos de Bernoulli, donde la probabilidad
de éxito es p.
Definamos la v.a.
X = número de éxitos en n realizaciones de una sucesión de experimentos de
Bernoulli.
Notación
X Bin(n,p)
Diremos que X sigue un modelo probabilístico Binomial con parámetros n y p.
Propiedades
La función de probabilidades asociada a esta v.a. es
Propiedades
El valor esperado de esta variable es
E(X) = n*p
La varianza de X es
V(X) = n*p*(1-p)
nxppx
nxXPxp xnx ,....,2,1,)1()()(
62
Ejemplo
Suponga que el 5% de la población de pinos presenta alguna alteración que
impide su talación.
Si para desarrollar determinado estudio se tomó una m.a. de 30 pinos
a)¿Cuál es la probabilidad que 1 presente alguna alteración?
b) ¿Cuál es el número esperado de pinos de la muestra con alguna alteración?
c) ¿Cuál es la probabilidad que entre 2 y 3 pinos estén con alguna alteración?
Variable Aleatoria
Definición
Una variable aleatoria es una función definida sobre un espacio muestral a los números
reales. Si ese espacio muestral especificado como dominio es numerable, decimos que la
variable es de tipo discreto, en caso contrario diremos que es de tipo continuo.
Toda magnitud cuya medida puede cambiar de valor recibe el nombre de variable.
Si su valor puede predecirse = variables determinísticas.
Por ejemplo el área de un cuadrado
(figura geométrica) A = L2
Si su valor SOLO puede conocerse al observarlo = variables aleatorias.
Al querer medir el área de una baldosa aproximadamente cuadrada, puede dar diferentes
resultados. Incluso en mediciones repetidas de la misma baldosa . Esto puede deberse a
varias causas : irregularidad de la baldosa , cambios debida a la temperatura, errores
humanos o instrumentales en la medición u otras absolutamente desconocidas. Este
fenómeno genera las variables llamadas aleatorias, probabilísticas o estocásticas
En Biología, en general, el gran número de factores que intervienen en el valor de una
variable y las características del sistema hombre-instrumento de medición, hacen que las
variables que manejemos sean variables aleatorias
El valor observado X entonces puede descomponerse en
X = m + e
Ejemplo
Consideremos el experimento que consiste en elegir al azar 50 perros y medir su peso. La
ley que asocia a cada perro con su peso es una variable aleatoria (continua).
E R 15.
18
• 20
• 23
• 26 28.... etc
63
Esta correspondencia es una función del espacio muestral E en el conjunto de los números
reales R.
A esta función la llamaremos variable aleatoria y la denotaremos por X.
• En el experimento de lanzar una moneda, una vez, definimos la variable aleatoria
X: el número de sellos obtenido:
X (c) = 0
X (s) = 1
• En la tirada de dos dados si X es la suma obtenida:
Función de Probabilidad
Las variables aleatorias, transforman eventos del espacio muestral en eventos numéricos,
los cuales desde luego, tienen asociada una probabilidad de ocurrencia.
Función de Probabilidad
f (x) = p (X = x) • Es una función definida sobre una variable aleatoria a los reales en el intervalo
[0,1] que cumple con los axiomas de la teoría de la probabilidad.
64
Función de Distribución
F (x) = p (X = x)
• Es la acumulada de una función de probabilidad
-∞ : Limite inferior de la variable X
Ejemplo
• En el Lanzamiento de una Moneda,
X: Número de Sellos
X es la Suma Obtenida en el Lanzamiento de dos Dados:
65
Función de densidad v.a. discreta
• Esta función se representa gráficamente del mismo modo que la distribución de
frecuencias relativas acumuladas
Función de densidad v.a. continua
Esperanza Matemática
Media Aritmética Poblacional
66
• En el tratamiento de las medidas de tendencia central, resaltamos la importancia de
la media aritmética de una variable, como parámetro representativo de una muestra
• En el análisis poblacional, la media aritmética de una variable aleatoria, se define
como el promedio ponderado de los diferentes valores que puede asumir la variable
X, usando como ponderaciones las probabilidades respectivas de ocurrencia.
Si X es discreta
Si X es continua
Esta integral no siempre existe y en ese caso, se dirá que la variable no tiene esperanza
Ejemplo
X es la Suma Obtenida en el Lanzamiento de Dos Dados
En promedio la suma obtenida en N tiradas es de ―7‖. Si pagáramos en pesos la suma
obtenida en cada lanzamiento, deberíamos cobrar más de 7 pesos para obtener utilidad en
el juego.
Varianza Poblacional
Similarmente a la definición de la media aritmética poblacional, la varianza se define
como:
67
Distribución Normal
Curva de densidad
Una curva de densidad describe el aspecto general de una distribución.
El área por debajo de la curva, entre cualquier intervalo de valores, es la proporción
de todas las observaciones que están situadas en dicho intervalo.
El área total bajo una curva de densidad es 1.
Dentro de las distribuciones continuas de probabilidad la más importante, por la
frecuencia con que se encuentra y por sus aplicaciones teóricas, es la DISTRIBUCIÓN
NORMAL o de Laplace-Gauss
La curva normal adopta un número infinito de formas, determinadas por sus
parámetros, expresada por la función: f(x) =
x ,2
1)(
2
2
1 x
exf
donde:
(media) y (desviación estándar) son parámetros de la distribución
x = valores observados de la variable en estudio
e = 2.718 (base de Ln)
Características de la distribución Normal
• Tiene forma de campana, es asintótica al eje de las abscisas (para x = )
• Simétrica con respecto a la media ( ) donde coinciden la mediana (Me) y la moda
(Mo )
• Los puntos de inflexión tienen como abscisas los valores
Distribuciones normales
Todas las distribuciones normales tienen la misma forma general.
La curva de densidad de una distribución normal se describe por su media y su
desvío standard .
La media se sitúa en el centro de la curva simétrica, en el mismo lugar que la
mediana.
Si se cambia sin cambiar se provoca un desplazamiento de la curva de
densidad a lo largo del eje de las abscisas sin que cambie su dispersión.
La desviación típica controla la dispersión de la curva normal.
µ indica la posición de la campana (parámetro de centralización)
68
2(o equivalentemente, ) será el parámetro de dispersión.
Cuanto menor sea, mayor cantidad de masa de probabilidad habrá concentrada
alrededor de la media (grafo de f muy apuntado cerca de µ ) y cuanto mayor sea
―más aplastado‖ será.
La curva con mayor desvío standard es la curva que presenta mayor dispersión.
La desviación típica es la medida natural de la dispersión de una distribución
normal. La forma de una curva normal no solo queda completamente determinada
por y , sino que además es posible situar a simple vista en la curva.
Cuando nos alejamos de , en cualquier dirección, la curva pasa de descender
rápidamente a descender suavemente.
Estos puntos de inflexión están situados a una distancia de .
69
En Distribuciones normales:
El 68 % de las observaciones se encuentra entre .
El 95 % de las observaciones se encuentra entre 2 .
El 99.7 % de las observaciones se encuentra entre 3 .
Distribución Normal estandarizada
¿Cómo calcular probabilidades asociadas a una curva normal específica?
Dado que tanto como pueden asumir infinitos valores lo que hace impracticable
tabular las probabilidades para todas las posibles distribuciones normales, se utiliza la
distribución normal reducida o estandarizada
Se define una variable z =
2
xZ
Ejemplo
una variable aleatoria sigue el modelo de una distribución normal con media 10 y
varianza 4:
X ~ N (10, 4)
2
xZ
Z ~ N (0, 1)
2
10xZ
68% de los datos
95% de los datos
99.7% de los datos
70
Tabla
La columna de la izquierda indica el valor cuya probabilidad acumulada queremos
conocer.
La primera fila nos indica el segundo decimal del valor que estamos consultando.
Queremos conocer la probabilidad acumulada en el valor 2,75.Buscamos en la columna de
la izquierda el valor 2,7 y en la primera fila el valor 0,05. La casilla en la que se
interseccionan es su probabilidad acumulada (0,99702, es decir 99.7%).
La tabla nos da la probabilidad acumulada, es decir, la que va desde el inicio de la
curva por la izquierda hasta dicho valor.
No nos da la probabilidad concreta en ese punto.
En una distribución continua en el que la variable puede tomar infinitos valores, la
probabilidad en un punto concreto es prácticamente despreciable.
Probabilidad acumulada en el valor 0,67: la respuesta es 0,7486
Probabilidad acumulada en el valor 1,35: la respuesta es 0,9115
Probabilidad acumulada en el valor 2,19: la respuesta es 0,98574
X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5723
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7090 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7813 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8416 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
71
el salario medio de los empleados de una empresa se distribuye según una
distribución normal, con media 5. y desviación típica 1. Calcular el porcentaje de
empleados con un sueldo inferior a 7.
Lo primero que haremos es transformar esa distribución en una normal
estandarizada, para ello se crea una nueva variable (Z) que será igual a la anterior
(X) menos su media y dividida por la desviación estándar
2
xZ
1
5xZ
21
57Z
La probabilidad acumulada para el valor 2 (equivalente a la probabilidad de
sueldos inferiores a 7). Es 0,97725
El porcentaje de empleados con salarios inferiores a 7, es del 97,725%.
¿Cuál es la probabilidad de que un valor de z esté entre -2.03 y 2.03 ?
En un ejemplo , vimos que la probabilidad de que z estuviera entre 0 y 2.03= 0.47882
La misma área hay entre 0 y -2.03 , por lo tanto
P ( -2.03< z< 2.03) = 0.95764
¿Cuál es la probabilidad de que un valor de z sea mayor a 1.25 ?
1.- La probabilidad de 0 < z < + = 0.500
2.- La probabilidad de 0 < z < 1.25 = 0.39435
3.- La probabilidad de z > 1.25 =
0.500 - 0.39435= 0.10565
Hallar P( -0.34 < z < )
P(0 < z <0.34) = 0.13307 = P(-0.34 < z < 0)
P (0 < z < ) = 0.50000
P( -0.34 < z < ) = 0.13307 + 0.50000 = 0.63307
Hallar P( 0.34 < z < 2.30)
P(0< z <0.34) = 0.13307
P( 0 < z < 2.30) = 0.4893
P (0.34 < z < 2.30) = 0.48930 - 0.13307 = 0.35623
Ejercicio :
La vida media de los habitantes de un país es de 68 años, con una varianza de 25.
Se hace un estudio en una pequeña ciudad de 10.000 habitantes:
– a) ¿Cuántas personas superarán previsiblemente los 75 años?
– b) ¿Cuántos vivirán menos de 60 años?
a) Personas que vivirán (previsiblemente) más de 75 años
72
P (X > 75) = (Z > 1,4) = 1 - P (Z < 1,4) = 1 - 0,9192 = 0,0808
Luego, el 8,08% de la población (808 habitantes) vivirán más de 75 años.
b) Personas que vivirán (previsiblemente) menos de 60 años
P (X < 60) = (Z < -1,6) = 1 - P (Z < 1,6) = 0,0548
Luego, el 5,48% de la población (548 habitantes) no llegarán probablemente a esta edad.
Distribución de Estadísticos Muestrales
Introducción
El estudio de determinadas características de una población se efectúa a través de
diversas muestras que pueden extraerse de ella.
Consideremos todas las posibles muestras de tamaño n en una población. Para cada
muestra podemos calcular un estadístico (media, desviación estándar,
proporción,...) que variará de una a otra. Así obtenemos una distribución del
estadístico que se llama distribución muestral.
Supongamos que tenemos una variable aleatoria, cuya distribución es f (x)
Supongamos, por simplicidad, que obtenemos una muestra aleatoria simple con
tamaño n
X1, X2, ... Xn
Entonces, un estadístico es cualquier función h definida sobre X1, X2, ... Xn y que
no incluye parámetro desconocido alguno:
Y = h (X1, X2, ... Xn)
La distribución de dicho estadístico Y la vamos a denominar g (y)
Distribución muestral de un estadístico
F (x) es la distribución de la v. a. bajo estudio
G (y) es la distribución del estadístico que tenemos
Es vital conocer la distribución muestral del estadístico de interés para poder
efectuar inferencias sobre el parámetro correspondiente.
Esto es, para efectuar inferencias sobre la media poblacional µ, necesitamos
conocer la distribución muestral de X
Las dos medidas fundamentales de esta distribución son la media y la desviación
estándar, también denominada error estándar.
6,15
6860Z
4,15
6875Z
73
Distribución del Estadístico media muestral
Cada muestra de tamaño n que podemos extraer de una población proporciona una
media. Si consideramos cada una de estas medias como valores de una variable
aleatoria podemos estudiar su distribución que llamaremos distribución muestral
de medias.
Si tenemos una población normal N(µ, ) y extraemos de ella muestras de tamaño
n, la distribución muestral de medias sigue también una distribución normal
Error estándar o Desviación estándar de la distribución muestral
Si la población no sigue una distribución normal pero n>30, aplicando el llamado
Teorema central del límite la distribución muestral de medias se aproxima
también a la normal anterior.
Veremos primero el caso de que la distribución sea normal, con media µ y varianza 2
La media de la distribución muestral de medias es µ
La varianza de la distribución muestral de medias es 2/n
recordemos: La desviación estándar de la distribución muestral suele ser denominada:
error estándar de tal estadístico (ej:., ―error estándar de la media‖, etc.)
Ejemplo
Una población se compone de 5 números: 2,3,6,8 y 11 considerar todas las
muestras posibles de tamaño 2 que puedan extraerse con reemplazamiento de esta
población. Se pide encontrar:
– la media de la población
65
30
5
118632x
– La desviación típica de la población
2.3
8.105
54
5
2540916
5
)611()68()66()63()62()( 2222222
n
x
la media de la distribución de medias
– (2,2) (2,3) (2,6) (2,8) (2,11)
– (3,2) (3,3) (3,6) (3,8) (3,11)
– (6,2) (6,3) (6,6) (6,8) (6,11)
– (8,2) (8,3) (8,6) (8,8) (8,11)
– (11,2) (11,3) (11,6) (11,8) (11,11)
– 2 2.5 4 5 6.5
– 2.5 3 4.5 5.5 7
– 4 4.5 6 7 8.5
– 5 5.5 7 8 9.5
74
– 6.5 7 8.5 9.5 11
= 20 22.5 30 35 42.5
150 / 25 = 6
Desviación estándar de la distribución muestral de medias (error estándar de medias).
32.2
4.525
135
25
2525.1225.6125.025.1241
25.0125.61625.24125.025.2925.1225.01425.1216
25
)611(
)65.9()65.8()67()65.6()65.9()68()67()65.5(
)65()65.8()67()66()65.4()64()67()65.5(
)65.4()63()65.2()65.6()65()64()65.2()62(
2
22222222
22222222
22222222
Distribución muestral de la media. Ejemplo 1
Distribución poblacional (dist. Normal):
Media =100
(Varianza =225)
Desv. Estándar =15
Distribución muestral de la media:
Tamaño muestral =10
Media =100
(Varianza =225/10=22.5)
N10
116.
0
114.
0
112.
0
110.
0
108.
0
106.
0
104.
0
102.
0
100.
0
98
.0 96
.0 94
.0 92
.0 90
.0 88
.0 86
.0 84
.0 82
.0
400
300
200
100
0
Desv. est. = 4.75 Media = 99.9
N = 3600.00
75
Desv. Estándar = 22.5 4.74
Distribución muestral de la media. Ejemplo 2
Distribución poblacional (dist. Normal):
Media =100
Desv. Estándar =15
Distribución muestral de la media:
Tamaño muestral =20
Media =100
(Varianza =225/20=11.3)
Desv. Estándar =3.35
Distribución muestral de la media. Ejemplo 3
Distribución poblacional subyacente (dist. Normal):
Media=100
Desv.Estándar=15
Distribución muestral de la media:
Tamaño muestral =50
76
Media =100
(Varianza =225/50=4.5)
Desv. Estándar=2.12
Ejemplo
Las notas de cierto examen se distribuyen según una normal de media 5,8 y
desviación estándar 2,4. Hallar la probabilidad de que la media de una muestra
tomada al azar de 16 estudiantes esté comprendida entre 5 y 7
La población es N(5,8;2,4), con n =16 la distribución muestral de medias se
distribuye N(5,8;0,6)
Si X es la media de la muestra hemos de calcular la probabilidad
P(5 < X < 7)= P(-1.33 < z < 2)=
= P (z < 2)-[1-P (z < 1.33)] = 0,8854
La forma de la distribución muestral de la media tiende a ser normal. En concreto, la
distribución muestral se acercará más y más a la distribución normal (media µ y varianza 2/n) a medida que se aumente el tamaño de cada muestra.
Teorema Central del Límite
S tenemos un grupo numeroso de variables independientes y todas ellas siguen el
mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se
distribuye según una distribución normal.
Sea X una v. a. con esperanza µ y varianza finita 2. Sea X la media muestral de
una muestra aleatoria de tamaño n y z la variable aleatoria definida como:
n
XZ
Entonces, la distribución z se aproxima a la distribución normal estándar cuando n se
aproxima a infinito
Distribución “T de Student”
Cuando la distribución de la que obtenemos las medias muestrales es gaussiana
(―distr.normal‖), la expresión anterior se distribuye según la distribución t de Student con
tn-1 grados de libertad.
Esta distribución es básica para efectuar inferencias entre dos medias.
n
S
XT
77
En la practica la 2 es desconocida. Se podría estimar a partir de una muestra. Lo cual se
logra sustituyendo por el desvío estándar muestral S
Función de densidad de una t de Student
La distribución de Student tiene propiedades parecidas a N (0,1) :
– Es de media cero, y simétrica con respecto a la misma;
– Es algo más dispersa que la normal, pero la varianza decrece hasta 1 cuando
el número de grados de libertad aumenta;
Comparación entre las funciones de densidad de t1 y N (0,1)
Para un número alto de grados de libertad se puede aproximar la distribución de
Student por la normal, es decir:
1,0Nt n
n
Cuando aumentan los grados de libertad, la distribución de Student se aproxima a
la distribución normal estandarizada. (ver tabla de distribución)
78
Ver Tabla de cuantiles
Muestreo
Definición:
Proceso que nos permite la extracción de una muestra a partir de una población
Hay dos tipos básicos de muestreo:
Muestreo probabilístico. En este tipo de muestreo, la probabilidad de aparición en
una muestra de cualquier elemento de la población es conocida (o calculable). Es el
único científicamente válido, y es sobre el que nos extenderemos especialmente.
Muestreo no probabilístico. Es aquel en el que la selección de los elementos de la
muestra no se hacen al azar.
Muestreo probabilístico
Este muestreo garantiza que, a la larga, las muestras que se van obteniendo de la población
sean representativas de la misma. Vamos a ver varios tipos de muestreo probabilístico.
Muestreo aleatorio simple
Muestreo estratificado
Muestreo por conglomerados
Muestreo por etapas (o polietápico)
Muestreo sistemático (?)
1. Muestreo aleatorio simple Es aquel en el que, a priori, todos los elementos de la muestra tienen la misma
probabilidad de aparición.
Supongamos que tengamos una población de 50.000 individuos, y que tenemos un
listado con sus nombres. Si queremos elegir 100 personas, lo que necesitamos es
elegir al azar a 100 individuos de esos 50.000.
2. Muestreo estratificado En el muestreo estratificado, los investigadores han de dividir a los sujetos en
diferentes subpoblaciones (o estratos), en función de cierta característica relevante,
y después lo que hacen es un muestro aleatorio simple de cada estrato.
Evidentemente, cada individuo debe pertenecer a un estrato (y solo uno), y cada
individuo del estrato habrá de tener la misma probabilidad de ser escogido como
parte de la muestra.
Ejemplo:
Supongamos que, en Chamical, 70% de los niños de primaria van a escuela pública y el
30% a privada. Si queremos 1000 niños, lo que haremos es dividir los alumnos en 2
79
estratos (pública y privada) y se eligen aleatoriamente 700 niños de la pública y
aleatoriamente 300 de la concertada.
3. Muestreo por conglomerados En el muestreo por conglomerados, en lugar de considerar cada elemento de la
población, lo que consideramos son ―conglomerados de elementos‖. El proceso es
elegir aleatoriamente uno o varios conglomerados y la muestra estará formada por
TODOS los elementos de los conglomerados.
Ejemplos:
-En las encuestas durante las elecciones, los conglomerados pueden ser las mesas
electorales, y lo que se hace es escoger algunas mesas al azar (y de ahí se toman
todos los votos de las mesas seleccionadas).
-En otros ejemplos, los conglomerados pueden ser los bloques de viviendas, los
municipios, etc.
4. Muestreo por etapas En este caso se combina el muestreo aleatorio simple con el muestreo por
conglomerados:
Primero se realiza un muestreo por conglomerados (ej., si los conglomerados son
colegios en Chamical, se seleccionan aleatoriamente varios de ellos).
Segundo, no se eligen todos los alumnos (como ocurriría en un muestro por
conglomerados), sino que se elige una muestra aleatoria. (Dicha muestra puede ser
obtenida por muestreo aleatorio simple o puede ser estratificado.)
Es decir, hemos tenido 2 etapas de muestreo. Y claro está, es posible tener más de 2
etapas...
5. Muestreo aleatorio sistemático Supongamos que tengamos una lista de N elementos (ej., estudiantes de secundaria)
y necesitamos una muestra de tamaño ―n‖. En este caso, lo que se hace es
ordenarlos (ej., en función de los apellidos) y después se elige aleatoriamente un
elemento entre los N/n=k primeros, y luego se elige de manera sistemática el que
esté k lugares después del primer elemento, y así sucesivamente.
Ejemplo:
Tenemos 10000 estudiantes (en una lista) y queremos obtener una muestra de 100
estudiantes. Primero elegimos al azar un estudiante entre los 10000/100=100 primeros
(supongamos que salga el 26), el segundo elemento será el estudiante 100+26 (126), el
siguiente será el 226, luego el 326, etc.
Muestreo no probabilístico
1. Muestreo sin norma (o de conveniencia) Se elige a una muestra por ser conveniente, fácil, económica. Pero no se hace en
base a un criterio de aleatoridad.
Ejemplo: las encuestas en los periódicos electrónico.
2. Muestreo intencional En este caso, si bien el muestreo no es probabilístico, los investigadores procuran
que se garantice la representatividad de la muestra
80
Distribución “Chi-cuadrado”
La función Chi-cuadrado es igual a la función normal elevada al cuadrado.
Esto es, el producto de dos distribuciones de Gauss es una distribución de Chi-
cuadrado.
Si de una población normal, o aproximadamente normal, se extraen muestras
aleatorias e independientes, y se le calcula el estadístico χ2 usando el valor muestral
de la varianza y el poblacional con:
2
22 1 Sn
Al igual que la T-Student, el valor total del área bajo la curva es igual a la unidad,
pero la diferencia principal es que esta no es simétrica respecto al origen, sino que
se extiende desde 0 hasta + ∞ porque no puede ser negativa.
A medida que los grados de libertad aumentan, la curva cambia de forma y sus
valores se han tabulado (ver tabla)
La distribución de χ2 se usa principalmente para analizar dispersiones. Se compara
la dispersión muestral expresada a través de sus cuadrados medios (CM) contra la
dispersión poblacional cuantificada a través de la varianza (σ2).
Ejemplo 1
Un bioquímico sospecha que su microcentrífuga no mantiene constante su
velocidad mientras trabaja, lo cual le da una variabilidad indeseada en sus
determinaciones. Para controlarla, consigue un tacómetro regulado y mide cada
minuto la velocidad durante 10 minutos. Los resultados fueron:
– una velocidad promedio en las 10 mediciones de 3098 rpm
– Desvío de 100,4 rpm.
– Testear para un error relativo máximo del 2% o menos, si la centrífuga es
estable.
El desvío estándar aceptable es: σmáx = 2% de 3098 rpm = 62 rpm. Luego:
σmáx ≤ 62 rpm: la micro centrífuga es estable
81
σmáx > 62 rpm: la micro centrífuga no es estable
2
22 1 Sn
6,2362
4,1001102
2
2
De la Tabla de valores críticos surge:
877,27
666,21
2
9;991,0
2
9;99,0
Distribución de Probabilidad de Variables Discretas
DISTRIBUCION DE PROBABILIDAD
Es una regla de correspondencia que asocia cada valor (x)de una variable aleatoria X con
su respectiva probabilidad p(x =X) o con alguna función de ésta
Las distribuciones de probabilidad son necesarias para realizar INFERENCIA (extrer
conclusiones respecto a una población a partir de una muestra)
Previamente es necesario conocer el comportamiento de las muestras tomadas de una
población
M P
82
Es decir conocer la distribución en el muestreo de la característica en estudio
En la mayoría de los casos, para conocer p(θ) es necesario conocer la
distribución de la variable y el tipo de muestreo
tipo de muestreo
tanto p(x) como p(θ) son DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCION DE PROBABILIDAD
FORMAS DE REPRESENTACION
tablas
Con cualquier tipo de variable
graficos
Modelos simbólicos = Solamente con variables numéricas
¿QUÉ SE REPRESENTA?
M
1
P
M
2
M
3
q p(θ)
x p(x)
q p(θ)
83
VARIABLES
CATEGORICAS
VARIABLES
NUMERICAS
DISCRETAS
VARIABLES
NUMERICAS
CONTINUAS
)( xXp
FUNCIÓN DE
PROBABILIDAD
0
0.1
0.2
0.3
0.4
1 2 3 4 5
)()( xXpXF
FUNCIÓN DE
DISTRIBUCIÓN
p(x)
x
dx
xdFxf
)()(
FUNCIÓN DE
DENSIDAD
F(x)
f(x)
x
VARIABLES
CATEGORICAS
VARIABLES
NUMERICAS
DISCRETAS
VARIABLES
NUMERICAS
CONTINUAS
)( xXp
FUNCIÓN DE
PROBABILIDAD
0
0.1
0.2
0.3
0.4
1 2 3 4 5
)()( xXpXF
FUNCIÓN DE
DISTRIBUCIÓN
p(x)
x
dx
xdFxf
)()(
FUNCIÓN DE
DENSIDAD
F(x)
f(x)
x
OTRA FORMA DE VER LA FUNCION DE DISTRIBUCIÓN
VARIABLES DISCRETAS VARIABLES CONTINUAS
ax
xpaF )()(a
dxxfaF ).()(
)()( axPaF
F(x)
x
a
F(x)
xa
Los Modelos Simbólicos (Matemáticos)
Constan de una forma (formula) en la cual intervienen algunos valores constantes
(parametros) para cada población, pero diferentes de una a otra
EJEMPLOS
En la distribución binomial
x Variable en estudio
n y p parámetros
En la distribución Poisson
x Variable en estudio
l parámetro
e Base de ln = 2,718...
xnp
xp
nxCxp )1()(
!)(
.
xxp
ex
84
Definiciones de Media y Varianza en una Distribución de Probabilidad
x
xpx )(.MEDIA
x
xpx )(.)( 2
VARIANZA
85
Estimación de Parámetros
En una población cuya distribución es conocida pero desconocemos algún
parámetro, podemos estimar dicho parámetro a partir de una muestra
representativa.
El Estimador
Es un valor que puede calcularse a partir de los datos muestrales y que proporciona
información sobre el valor del parámetro.
Por ejemplo la media muestral es un estimador de la media poblacional.
La proporción observada en la muestra es un estimador de la proporción en
la población.
Estimación: puntual y por intervalos
Veremos 2 tipos de estimadores:
Estimación puntual: Aquí obtendremos un punto, un valor, como estimación del
parámetro.
Estimación por intervalos: Aquí obtendremos un intervalo dentro del cual
estimamos (bajo cierta probabilidad) estará el parámetro.
Estimación puntual
Una estimación es puntual cuando se obtiene un sólo valor para el parámetro.
Los estimadores más probables en este caso son los estadísticos obtenidos en la
muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos.
Las dos medidas fundamentales son la media que indica el valor promedio del
estimador y la desviación estándar, también denominada error estándar de
estimación, que indica la desviación promedio que podemos esperar entre el
estimador y el valor del parámetro.
Estimación por intervalos
En la estimación por intervalos calculamos dos valores entre los que se encontrará
el parámetro, con un nivel de confianza fijado de antemano.
Llamamos Intervalo de confianza al intervalo que con un cierto nivel de
confianza, contiene al parámetro que se está estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al
verdadero valor del parámetro.
Se indica por 1- y habitualmente se da en porcentaje (1- )100%. Hablamos de
nivel de confianza y no de probabilidad ya que una vez extraída la muestra, el
intervalo de confianza contendrá al verdadero valor del parámetro o no, lo que
sabemos es que si repitiésemos el proceso con muchas muestras podríamos afirmar
que el (1- )% de los intervalos así construidos contendría al verdadero valor del
parámetro.
Propiedades deseables en los estimadores
Veremos CUATRO propiedades:
Ausencia de sesgo
Consistencia
Eficiencia
86
Suficiencia
1. Ser insesgado. Diremos que θ es un estimador insesgado de θ si la esperanza de θ
es θ . Es decir, ( )E
La media muestral es un estimador insesgado de la media poblacional.
2. Consistencia. Se dice que un estimador es consistente si se cumple que
0 -P lim
n 1 -P lim
n
Esta expresión indica que a medida que se incrementa el tamaño muestral, la
diferencia entre el estimador y el parámetro será menor que cualquier número (e).
A diferencia de la ―ausencia de sesgo‖ que se define para valores finitos de n, la
―consistencia‖ es una propiedad asintótica.
Nota: la varianza muestral es un estimador consistente de la varianza poblacional,
dado que a medida que el tamaño muestral se incrementa, el sesgo disminuye.
3. Eficiencia. Se emplea para COMPARAR estimadores.
Si tenemos dos estimadores 1 y 2 de un mismo parámetro , diremos que 1 es
más eficiente que 2 si tenemos que var( 1 )<var( 2 )
4. Suficiencia. Diremos que θ
es un estimador suficiente del parámetro si dicho
estimador basta por sí solo para estimar
Intervalos de confianza para los principales parámetros
El caso de la media
En este caso, en lugar de indicar simplemente un único valor como estimación del
parámetro, lo que haremos es ofrecer un intervalo de valores que sea asumible con
cierta probabilidad por el parámetro que queremos estimar.
Intervalo de confianza: Es el intervalo de las estimaciones (probables) sobre el
parámetro.
Límites de los intervalos de confianza: Son los dos valores extremos del intervalo
de confianza
¿cuán grande habrá de ser el intervalo de confianza?
Evidentemente, si decimos que el intervalo de confianza va de menos infinito a
más infinito, seguro que acertamos...pero eso no es muy útil. Por su parte, el
87
extremo es la estimación puntual, en la que lo usual es que no demos con el valor
del parámetro...
La idea es crear unos intervalos de confianza de manera que sepamos en qué
porcentaje de casos el parámetro estará dentro del intervalo crítico.
¿Y cómo fijamos tal porcentaje de casos? Usualmente se asume un porcentaje del
95%. Al calcular un intervalo de confianza sobre la media al 95%, quiere decir que
el 95% de las veces que repitamos el proceso de muestreo (y calculemos la media
muestral), la media poblacional estará dentro de tal intervalo.
Pero, ¿cómo calculamos estos dos límites?
Sabemos que la distribución subyacente es normal, lo cual nos ayuda
enormemente.
En una distribución normal estandarizada, es muy fácil saber qué valor
estandarizado (z) deja a la izquierda el 2.5% de los datos (yendo a las tablas es -
1.96) y cuál deja a la izquierda el 97.5% de los datos (o a la derecha el 2.5% de los
datos: 1.96).
Ahora habrá que pasar esos datos a puntuaciones directas....
Conocemos 2
Nuestra distribución es normal, pero con cierta media y cierta desviación estándar,
las cuales sabemos por el tema anterior:
La media de la distribución muestral de medias es la media poblacional µ
La varianza de la distribución muestral de medias es 2/n
O lo que es lo mismo, la desviación estándar de la dist. muestral de medias es
n/
88
Sabemos que
Para estandarizar
Pasamos de términos
0.025X zn
0.975X zn
En Punt. directas
En definitiva
0.025 0.975 0.95P X z X zn n
Xn
ZX
n
XXZ
ii
ii
X es deEstimador
En Punt.típicas
Aplicando la lógica de pasar
los valores estandarizados
89
El Caso de Desconocer la Varianza Poblacional
Para la media (cuando conocemos la varianza poblacional), tenemos la expresión
0.025 0.975 0.95P X z X zn n
Pero si no conocemos la varianza poblacional, no podemos emplear n
2
En su lugar hemos de emplear n
S 2
Ahora la distribución ya no es exactamente una distribución normal...
Por el tema anterior sabemos que la distribución muestral de nS
X
/
no es una distribución normal, sino una distribución t de Student con n-1 grados de
libertad.
En definitiva, para la media (cuando conocemos la varianza poblacional), tenemos la
expresión
0.025 0.975 0.95P X z X zn n
Pero si no conocemos la varianza poblacional (el caso realista), tenemos la expresión:
0.025 1 0.975 1 0.95n n
s sP X t X t
n n En todo caso, hay que recordar que si "n" es grande, la distribución t de Student será
virtualmente una distribución normal N(0,1). En otras palabras, si "n" es grande, ambas
fórmulas dan unos intervalos virtualmente idéntico, y emplear la distribución normal es
correcto.
¿Qué quiere decir la expresión siguiente?
0.025 0.975 0.95P X z X zn n
Quiere decir que cada vez que extraigamos una muestra y hallemos la media, el parámetro
desconocido m estará entre los límites de dicho intervalo el 95% de las veces. (O el 99% si
hubiéramos elegido un intervalo al 99%, etc.)
90
Tamaño muestral y la amplitud del intervalo de confianza
Para el caso de la media hemos visto que
0.025 0.975 0.95P X z X zn n
Es claro que a medida que el tamaño muestral aumente, la amplitud del intervalo
disminuye. (Evidentemente, esto es general, no sólo para la media.) Veamos un ejemplo:
Caso A1. Media muestral =10, varianza pobl =4, tamaño muestral =12
2 210 ( 1.96) 10 1.96 8.87 11.13 0.95
12 12P P
Caso A2. Media muestral =10, varianza pobl =4, tamaño muestral =20
2 210 ( 1.96) 10 1.96 9.12 10.88 0.95
20 20P P
Amplitud del intervalo de confianza y el valor del índice de confianza
El caso "usual" (por defecto) es emplear intervalos al 95%.
0.025 0.975 0.95P X z X zn n
Pero evidentemente es posible emplear intervalos a, digamos, el 99%. En tal caso,
tendremos más seguridad de que el parámetro de interés se halle en los límites del
intervalo. El problema es que incrementar tal índice aumenta así mismo la amplitud del
intervalo.
Caso A1. Media muestral =10, varianza pobl.=4, tamaño muestral =12. Intervalo al 95%
2 210 ( 1.96) 10 1.96 8.87 11.13 0.95
12 12P P
Caso A2. Media muestral =10, varianza pobl =4, tamaño muestral =12. Intervalo al 99%
2 210 ( 2.57) 10 2.57 8.52 11.48 0.99
12 12P P
91
Probabilidad normal presentada en una y dos colas
Coeficientes de confianza más usados Z α
Intervalos de confianza para OTROS parámetros
Intervalos de confianza para las proporciones
.025 .975
(1 ) (1 )0.95
P P P PP P z P z
n n
Intervalos de confianza para la varianza
2 22
2 2
.975 1 .025 1
0.95n n
n S n SP
92
Ejemplo 1
Suponiendo que a un paciente se le extrae una muestra de sangre y al suero
obtenido se lo fracciona en 50 alícuotas, luego a cada una se le determina la
creatinina, y con los valores medidos se obtienen un promedio de 10 mg/dl y un
desvío de 2,2 mg/dl. El verdadero valor de la creatinina en el paciente se puede
estimar con un nivel de confianza del 95 % (Ζα = 1,96) con:
μ = ( 10 ± 1,96 . 2,2 / 50 ) mg/dl
= (10,0 ± 0,6) mg/dl
IC 95% (9,4 ; 10,6)
Eso significa que se tiene una probabilidad del 95 % de encontrar la creatinina real del
paciente entre 9,4 y 10,6 mg/dl.
Si se quiere aumentar la confianza al 99% el nuevo intervalo tendrá una mayor
indeterminación, o sea, el intervalo será más ancho: entre 9,2 y 10,8 mg/dl.
μ = ( 10 ± 2,58 . 2,2 / 50 ) mg/dl
= (10,0 ± 0,8) mg/dl
IC 99% (9,2 ; 10,8)
Y si todavía se aumenta un poco más al 99,9%:
μ = ( 10 ± 3,29 . 2,2 / 50 ) mg/dl
= (10 ± 1) mg/dl
IC 99,9%(9 ; 11)
Ejemplo 2
Se tomaron 200 muestras aleatorias de presión sistólica a niños cuyos padres son
hipertensos, obteniéndose una media de 107 y un desvío de 7. Luego se tomaron
100 muestras de niños cuyos padres tienen la presión sanguínea normal, y se
obtuvo una media de 98 con un desvío de 6. Obtener los límites de confianza del 95
% a la diferencia de medias.
En este caso se trata de una diferencia de medias, pero con varianzas diferentes
estimadas con las muestras de la manera siguiente:
778,0100
36
200
49
998107
2
2
2
1
2
121
21
nnS
xx
µ1-2 = ( 9 ± 1,96 . 0,778 ) = ( 9,0 ± 1,5 ).
IC 95% (7,5 ; 10,5)
Estimación del tamaño muestral
93
Antes de realizar un estudio de inferencia estadística sobre una variable, lo primero
es decidir el número de elementos, N, a elegir en la muestra aleatoria. Para ello
consideremos que el estudio se basara en una variable de distribución normal, y nos
interesa obtener para un nivel de significación dado, una precisión (error) d.
Para ello, recordemos que un intervalo de confianza para una media en el caso
general se escribe como:
Si N es suficientemente grande, la distribución t de Student se aproxima a la
distribución normal. Luego una manera de obtener la precisión buscada consiste en
elegir N con el siguiente criterio:
Donde S2 es una estimación puntual a priori de la varianza de la muestra. Para
obtenerla nos podemos basar en una cota superior conocida por nuestra experiencia
previa, o simplemente, tomando una muestra piloto que sirve para dar una idea
previa de los parámetros que describen una población.
Ejemplo
se ha estudiado la variable altura de los individuos de una población, considerando
que ésta es una variable que se distribuye de modo gaussiana.
se tomó una muestra de 25 individuos (que podemos considerar piloto), que ofreció
los siguientes resultados:
Calcular el tamaño que debería tener una muestra para que se obtuviese un
intervalo de confianza para la media poblacional con un nivel de significación =
0,01 (99 %) y con una precisión de d=1 cm.
Nota: el error cometido al estimar el intervalo al 95 % es de aproximadamente de
4,2 cm por lo que si buscamos un intervalo de confianza tan preciso, el tamaño de
la muestra, N, deberá ser bastante mayor. En este caso se obtiene:
94
Si queremos realizar un estudio con toda la precisión requerida en el enunciado se
debería tomar una muestra de 694 individuos. Esto es una indicación de gran
utilidad antes de comenzar el estudio.
Una vez que el muestreo haya sido realizado, debemos confirmar que el error para
el nivel de significación dado es inferior o igual a 1 cm, utilizando la muestra
obtenida.
95
Contrastes de Hipótesis
Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que
puede ser cierta o no. Las hipótesis estadísticas se pueden contrastar con la
información extraída de las muestras y tanto si se aceptan como si se rechazan se
puede cometer un error.
La hipótesis formulada con intención de rechazarla se llama hipótesis nula y se
representa por H0.
Rechazar H0 implica aceptar una hipótesis alternativa (H1).
Decisión H0 Verdadera H0 Falsa
Mantengo H0 Decisión correcta Decisión Incorrecta
Error de Tipo II
Rechazo H0 Decisión Incorrecta
Error de Tipo I
Decisión correcta
= p (rechazar H0|H0 cierta)
= p(aceptar H0|H0 falsa)
Potencia =1- = p(rechazar H0|H0 falsa)
La probabilidad de cometer un error de tipo I es el nivel de significación , la
probabilidad de cometer un error de tipo II depende del verdadero valor de µ y del
tamaño de la muestra.
Detalles a tener en cuenta
y están inversamente relacionadas.
Sólo pueden disminuirse las dos, aumentando n.
Los pasos necesarios para realizar un contraste relativo a un parámetro son:
1 - Establecer la hipótesis nula en términos de igualdad
2 - Establecer la hipótesis alternativa, que puede hacerse de tres maneras, dependiendo
del interés del investigador
en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos
de lateral (derecho en el 2º caso, o izquierdo en el 3º) o una cola.
3. Elegir un nivel de significación: nivel crítico para
4. Elegir un estadístico de contraste: estadístico cuya distribución muestral se conozca
en H0 y que esté relacionado con y establecer, en base a dicha distribución, la región
96
crítica: región en la que el estadístico tiene una probabilidad menor que si H0 fuera
cierta y, en consecuencia, si el estadístico cayera en la misma, se rechazaría H0.
La región de rechazo de la hipótesis nula es la sombreada. Se rechaza H0 cuando el
estadístico zcalc toma un valor comprendido en la zona sombreada de la gráfica
pequeña, N (0,1), o equivalentemente, cuando el estadístico toma un valor
en la zona sombreada de la gráfica grande, N (μ0,σ2).
Ensayo de dos colas
Ho : μ = a H1 : μ ≠ a
97
Ensayo de una cola
Ejemplo
Estamos estudiando el efecto del estrés sobre la presión arterial. Nuestra hipótesis es que la
presión sistólica media en varones jóvenes estresados es mayor que 18 cm de Hg.
Estudiamos una muestra de 36 sujetos y encontramos
1. Se trata de un contraste sobre medias. La hipótesis nula (lo que queremos rechazar) es:
2. la hipótesis alternativa
es un contraste lateral derecho
3. Fijamos "a priori" el nivel de significación en 0,05 .
4. El estadístico para el contraste es
y la región crítica T>t
Si el contraste hubiera sido lateral izquierdo, la región crítica sería T< t1-
y si hubiera sido bilateral T<t1- /2 o T>t /2
98
En este ejemplo t(35)0,05=1,69.
5. Calculamos el valor de t en la muestra
no está en la región crítica (no es mayor que 1,69), por tanto no rechazamos H0.
Como no se rechaza H0, se puede cometer un error tipo II. ¿Cuál es ?. De hecho,
sería la información relevante a comunicar en este estudio (la probabilidad del error
que se pude cometer en él).
Habitualmente, sin embargo, no se da porque los paquetes estadísticos no la
calculan.
Para calcularla se debe concretar H1,
ej. µ = 20 (el criterio para este valor no es estadístico)
= p (aceptar H0| H1 cierta)
Supongamos que el tamaño muestral sea suficientemente grande para poder
aproximar t a z.
¿Cuándo se acepta H0? si z 1,69
es decir, se acepta H0 si
Qué probabilidad hay de encontrar
si µ = 20 (zona verde del gráfico)? En esta hipótesis lo que se distribuye como una
z es
99
Intervalo de Confianza y Contraste de Hipótesis
Ambos se basan en el mismo grupo de conceptos pero se utilizan con fines
diferentes
Los Intervalos de Confianza se plantean para estimar parámetros
Los Contrastes de Hipótesis son para tomar decisiones en relación a los
valores postulados
Contrastes para la media
Conviene remarcar el hecho siguiente:
que una hipótesis nula sea aceptada, no quiere decir que se tenga prueba científica
de su validez. Puede haber otro modelo científico más sensible que el de Gauss que
detecte diferencias cuando este no lo haga.
Solo cuando una hipótesis no es aceptada se puede decir: se ha encontrado
evidencia científica para rechazar la hipótesis.
Es decir, que se valida el rechazo, pero no la aceptación. Por ello muchos
investigadores prefieren plantear hipótesis para ser rechazadas. Aprovechando el
hecho de que son ellos quienes deciden cual es la nula y cual es la alternativa.
La sensibilidad de un modelo para detectar diferencias en los ensayos es la robustez
del mismo. Cuando se pueda se debe elegir el modelo más robusto.
Test de dos colas con varianza conocida
Suponemos que X ~ 2,N donde
2 es conocido y queremos contrastar si es
posible que μ (desconocida) sea en realidad cierto valor μ0 fijado.
El test se escribe entonces como:
H0: μ=μ0
H1: μ≠μ0
la técnica para hacer el contraste consiste en suponer que H0 es cierta, y averiguar
con esta hipótesis cual es la distribución del estadístico del contraste que este caso
es lógico que deba estar muy relacionado con X
Si al obtener una muestra concreta se tiene que xX es un valor muy alejado de
μ0, se debe rechazar H0. Veamos esto con más detalle
Para poder acceder a las probabilidades de la normal, hemos tipificado (ya que los
valores para hacer la tipificación son conocidos). Si H0 es cierta, entonces
esperamos que el valor zcalc obtenido sobre la muestra esté cercano a cero con una
gran probabilidad.
100
n
xzcalc
0
Esto se expresa fijando un nivel de significación , y tomando como región crítica
C, a los valores que son muy extremados y con probabilidad en total, o sea:
2
1
2
2/1
2/12/12/12/
2/
zZP
zZzPzz
zZP
calc
calc
calc
Entonces la región crítica consiste en:
2/1
calc/2-1/2-1calc
:
zz que tal,-zz que tal,
zzz
zzC
calccalc
calccalc
Luego rechazaremos la hipótesis nula si
2/1zzcalc
aceptando en consecuencia la hipótesis alternativa
La región de rechazo de la hipótesis nula es la sombreada. Se rechaza H0 cuando el
estadístico zcalc toma un valor comprendido en la zona sombreada de la gráfica
pequeña, N (0,1), o equivalentemente, cuando el estadístico X toma un valor en
la zona sombreada de la gráfica grande, N (μ0,σ2).
Tests de una cola con varianza conocida
Consideremos un contraste de hipótesis donde ahora la hipótesis alternativa es
compuesta:
H0:μ = μ0
H1:μ<μ0 O también se escribe
101
H0:μ≥μ0
H1:μ<μ0
Bajo la hipótesis nula la distribución de la media muestral es:
como región crítica consideraremos aquella formada por los valores
extremadamente bajos de Zcalc, con probabilidad .
Entonces la región de aceptación, o de modo más correcto, de no rechazo de la
hipótesis nula es
si en el contraste de significación anterior, hubiésemos tomado como hipótesis
alternativa su contraria, es decir
H0:μ = μ0
H1: μ>μ0
O también se escribe
H0:μ≤μ0
H1:μ>μ0
Por simetría con respecto al caso anterior, la región donde no se rechaza la hipótesis nula
es
102
Test de dos colas con varianza desconocida
Sea X ~ N (µ,2) donde ni μ ni
2 son conocidos y queremos realizar el contraste
H0:μ = μ0
H1:μ≠μ0
Al no conocer 2 va a ser necesario estimarlo a partir de su estimador insesgado.
Por ello la distribución del estimador del contraste será una t de Student, que ha
perdido un grado de libertad.
n
S
XH
ˆT cierta 0
calc0
Consideramos como región crítica C, a las observaciones de Tcalc extremas
2
1
2
2/1,1
2/1,12/1,12/1,12/,1
2/,1
ncalc
ncalcnnn
ncalc
tTP
tTtPtt
tTP
Para dar una forma homogénea a todos los contrastes de hipótesis es costumbre
denominar al valor del estadístico del contraste calculado sobre la muestra como
valor experimental y a los extremos de la región crítica, como valores teóricos.
Definiendo entonces
2/1,1
0
ˆ
nteo
calc
tT
n
S
XT
103
Región crítica para el contraste bilateral de una media
Si |Tcalc|≤Tteo , no rechazamos H0;
Si |Tcalc|>Tteo , rechazamos H0 y aceptamos H1
Tests de una cola con varianza desconocido Si realizamos el contraste
H0:μ = μ0
H1:μ<μ0
O también se escribe
H0:μ≥μ0
H1:μ<μ0 por analogía con el contraste bilateral, definiremos
2/1,1
0
ˆ
nteo
calc
tT
n
S
XT
Región crítica para uno de los contrastes unilaterales de una media
Si |Tcalc|≥-Tteo , no rechazamos H0;
Si |Tcalc|≤-Tteo , rechazamos H0 y aceptamos H1
Para el contraste contrario:
H0:μ = μ0
104
H1:μ>μ0
O también se escribe
H0:μ≤μ0
H1:μ>μ0
Región crítica para el contrastes unilateral de una media contrario al anterior
Si |Tcalc|≤Tteo , no rechazamos H0;
Si |Tcalc|>Tteo , rechazamos H0 y aceptamos H1
Ejemplo
Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de
modo normal. Deseamos contrastar con un nivel de significación de =0,05 si la
altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que
con una muestra de n = 25 personas se obtuvo:
cm 10S
cm 170x
El contraste que se plantea es:
H0: μ = 174 cm
H1: μ ≠ 174 cm
La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el
estadístico
n
S
xTcalc ˆ
174
~ tn-1 = t24
es ―razonable‖o no bajo esta hipótesis, para el nivel de significación dado.
Aceptaremos la hipótesis alternativa (y en consecuencia se rechazará la hipótesis
nula) si no lo es, es decir, si
06,2975,0,242/1,24 ttTcalc
Para ello procedemos al cálculo de Tcalc:
105
06,22
25
10
174170975,0,24tTcalc
Luego, aunque podamos pensar que ciertamente el verdadero valor de μ no es 174,
no hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza
del 95%. Es decir, no se rechaza H0.
El valor de Tcalc no está en la región crítica (aunque ha quedado muy cerca), por tanto al no
ser la evidencia en contra de H0 suficientemente significativa, ésta hipótesis no se rechaza.
Ejemplo 2
Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la
altura media de la población sea igual a 174 cm, deseamos realizar el contraste sobre si la
altura media es menor de 174 cm.
Ahora el contraste es
H0 : μ ≥ 174 cm
H1 : μ < 174 cm
Consideremos el caso límite y observemos si la hipótesis nula debe ser rechazada o
no. Este es:
H0’ : μ = 174 cm
H1 : μ < 174 cm
De nuevo la técnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que
toma el estadístico
n
S
xTcalc ˆ
174
~ tn-1 = t24
es aceptable bajo esta hipótesis, con un nivel de confianza del 95%. Se aceptará la
hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si
71,195,0,241,24,24 tttTcalc
Recordamos que el valor de Tcalc obtenido fue de
106
Tcalc=-2< t24 ;0,05= -t24 ;0,95 = -1,71
Por ello hemos de aceptar la hipótesis alternativa
El valor te Tcalc está en la región crítica, por tanto existe una evidencia significativa
en contra de H0, y a favor de H1.
Mientras que en el ejemplo anterior no existía una evidencia significativa para decir que μ
≠ 174 cm, el ―simple hecho‖ de plantearnos un contraste que parece el mismo pero en
versión unilateral nos conduce a rechazar de modo significativo que μ= 174 cm y
aceptamos que μ < 174 cm. Es por ello que podemos decir que no sólo H0' es rechazada,
sino también H0.
Contrastes para la varianza
Consideremos que el carácter que estudiamos sobre la población sea una v.a.
normal cuya media y varianza son desconocidas. Vamos a contrastar la hipótesis
prefijadoun valor es donde ,: 2
0
2
0
2
0H
Contraste bilateral
Cuando el contraste a realizar es
2
0
2
1
2
0
2
0
:
:
H
H
107
definimos
2
2/1,1
2
2/,1
2
0
22
ˆ1
nteo
nteo
calc
b
a
Sn
y el criterio que suministra el contraste es el expresado en la siguiente figura:
Si ateo 2 calc bteo no rechazamos la H0
Si 2 calc < ateo ó
2 calc > bteo rechazamos H0 y aceptamos H1
Contrastes unilaterales
Para un contraste de significación al nivel del tipo
H0: 2 =
20
H1: 2 <
20
O también se escribe
H0: 2 ≥
20
H1: 2 <
20
se tiene que el resultado del mismo es el que refleja en la siguiente figura
Contraste unilateral del tipo H0 2 ≥
20.
108
si teoa ≤ H rechazamos no 0
2
calc
si2
calc < teoa 10 H aceptamosy H rechazamos
Para el contraste contrario tenemos la formulación análoga
H0: 2 = 2
0
H1: 2 >
20
O también se escribe
H0: 2
20
H1: 2 >
20
calculamos el extremo inferior de la región crítica en una tabla de la distribución 2
n-1
2
1,1nteob
si 2
calc ≤ H rechazamos no 0teob
si teob < 2
calc 10 H aceptamosy H rechazamos
109
Inferencia basada en dos muestras
Ejemplos:
Comparación del contenido de ácidos grasos en semillas de dos variedades
distintas.
Comparación de la hipertrofia del ventrículo izquierdo en animales alimentados
con y sin condiciones estresantes.
Comparar el efecto de dos drogas en pacientes con hipertensión arterial.
Comparación de los niveles de monóxido de carbono en aire entre la mañana y la
tarde en una ciudad.
Comparación de los porcentajes de preñez bajo dos protocolos de inseminación
artificial.
Comparación de los porcentajes de lecturas positivas para una virosis en pruebas
Elisa estándar y DAS-Elisa.
Dadas las muestras:
m1=X11, X21,…, Xn1 y
m2=X12, X22,…, Xn2
El objetivo de la inferencia puede ser:
Estimar la diferencia entre las medias de las poblaciones de las cuales proceden
(μ1-μ2)
y
Contrastar hipótesis sobre esta diferencia
Si el contraste es bilateral:
Versus
Si el contraste es unilateral derecho:
Si el contraste es unilateral izquierdo:
0 1 2: = 0 H
1 1 2 : 0 H
0 1 2 1 1 2: vs. : H H
0 1 2 1 1 2: vs. : H H
110
Caso Normal
Se pueden distinguir cuatro situaciones:
m1 y m2 son muestras independientes
Poblaciones con varianzas conocidas
Poblaciones con varianzas desconocidas pero iguales
Poblaciones con varianzas desconocidas pero diferentes
m1 y m2 son muestras dependientes (valores apareados)
Caso Normal-Muestras independientes Varianzas conocidas
La inferencia se basa en el siguiente estadístico:
Es una situación de interés teórico porque usualmente las varianzas son desconocidas.
Caso Normal-Muestras independientes Varianzas desconocidas pero iguales
La inferencia se basa en el siguiente estadístico:
La prueba de hipótesis para la diferencia de medias basada en este estadístico se conoce
como prueba T para muestras independientes cuando las varianzas son homogéneas.
Caso Normal-Muestras independientes Varianzas desconocidas pero iguales
1 2 1 2
2 2
1 2
1 2
~ (0,1)X X
Z N
n n
1 2
1 2 1 2
2
2
1 2
~1 1
n n
p
X XT T
Sn n
2 22 1 1 2 2
1 2
( 1) ( 1)
2p
n S n SS
n n
111
Intervalo de confianza bilateral para la diferencia de medias está dado por:
Ejemplo
Se desea comparar dos variedades de maní, en cuanto al contenido de aceites de las
semillas. Las hipótesis de esta prueba son H0: 1= 2 vs H1: 1 2. Para probar las
hipótesis anteriores se diseña un ensayo en el que, para cada variedad, se obtienen los
contenidos de aceite de 10 bolsas de 1 kg de semillas de maní, extraídas aleatoriamente,
de distintos productores de semillas.
Los resultados del ensayo son los siguientes:
Variedad n X S2
1 10 160.4 65.3
2 10 165.6 67.9
¿Cómo saber si las varianzas son iguales o diferentes?
Suponiendo normalidad para las observaciones de las muestras m1 y m2, una prueba de
homogeneidad de varianzas se basa en el siguiente estadístico:
Hipótesis de la prueba:
1 2
2
1 2 (1 / 2) ; 2
1 2
1 1n n px x t s
n n
1 2
2
1
( 1, 1)2
2
~ n n
sF F
s
2 2
0 1 2: H
2 2
1 1 2 :H
112
65.30.96
67.9F
Bajo H0 se distribuye como una F con 9 y 9 grados de libertad
Prueba F:
La región de aceptación para un nivel de significación del 5% está delimitada por 0,248 y
4,03, correspondientes a los cuantiles /2 y (1 - /2) respectivamente.
9 0.001 0.025 0.050 0.075 0.100 0.125 0.150 0.850 0.875 0.900 0.925 0.950 0.975 0.990
1 0.043 0.138 0.195 0.246 0.297 0.349 0.403 26.3967 38.1751 59.8575 106.70 240.543 963.279 6022.40
2 0.061 0.175 0.234 0.285 0.332 0.378 0.423 6.0427 7.3783 9.3805 12.716 19.3847 39.3866 99.3896
3 0.071 0.196 0.258 0.309 0.355 0.399 0.441 3.7945 4.3971 5.2400 6.5269 8.8123 14.4730 27.3449
4 0.079 0.212 0.275 0.326 0.371 0.413 0.454 3.0153 3.4070 3.9357 4.7077 5.9988 8.9046 14.6592
5 0.085 0.223 0.287 0.338 0.383 0.424 0.464 2.6268 2.9239 3.3163 3.8738 4.7725 6.6810 10.1577
6 0.089 0.231 0.296 0.347 0.392 0.433 0.472 2.3949 2.6396 2.9577 3.4015 4.0990 5.5234 7.9760
7 0.093 0.238 0.303 0.354 0.399 0.440 0.478 2.2411 2.4526 2.7247 3.0989 3.6767 4.8232 6.7188
8 0.096 0.243 0.309 0.360 0.405 0.445 0.483 2.1316 2.3204 2.5612 2.8891 3.3881 4.3572 5.9106
9 0.099 0.248 0.314 0.365 0.409 0.450 0.487 2.0496 2.2220 2.4403 2.7351 3.1789 4.0260 5.3511
10 0.101 0.252 0.318 0.369 0.413 0.453 0.491 1.9860 2.1459 2.3473 2.6174 3.0204 3.7790 4.9424
0.0 1.5 3.0 4.5 6.00.248 4.03
Distribución F de Snedecor
113
Como F=0,96 está en el intervalo (0,248; 4,03) se acepta H0: 12= 2
2
Se concluye que no hay diferencias entre las varianzas poblacionales, lo que indica el
cumplimiento del supuesto de homogeneidad de varianzas.
Prueba T
La región de aceptación para un nivel de significación del 5% está delimitada por -2,101 y
2,101, correspondientes a los cuantiles /2 y (1 - /2) respectivamente y 18 grados de
libertad.
Como T=-1,42 está en el intervalo (-2,101; 2,101) se acepta H0: 1= 2
Se concluye que no hay diferencias entre las dos variedades de maní considerando el
contenido de aceites en la semilla.
-4.0 -2.7 -1.3 0.0 1.3 2.7 4.0-2.101 2.101
Distribución T de Student
1 2
1 2 1 2
2
2
1 2
~1 1
n n
p
X XT T
Sn n
Grados de
Libertad
2 (9) 65.3 (9) 67.966.6
10 10 2pS
160.4 165.6 01.42
1 166.6
10 10
T
114
Caso Normal-Muestras independientes Varianzas desconocidas y diferentes
La inferencia se basa en el siguiente estadístico:
La prueba de hipótesis para la diferencia de medias basada en este estadístico se conoce
como prueba T para muestras independientes cuando las varianzas no son homogéneas
Intervalo de confianza bilateral 1- para la diferencia de medias está dado por:
Ejemplo
Comparar el efecto de dos drogas en pacientes con hipertensión arterial.
La prueba T es aplicable, en este caso, bajo la suposición que las observaciones de
animales con y sin estrés son independientes, distribuidas normalmente con
varianzas desconocidas y supuestamente diferentes.
Caso Normal-Muestras dependientes (apareadas)
Los datos se obtienen de muestras que están relacionadas, es decir, los resultados del
primer grupo no son independientes de los del segundo. Por ejemplo, esto ocurre cuando
se mide la presión arterial en cada uno de los individuos de un grupo experimental antes y
después de la administración de una droga.
El objetivo es comprobar si la droga produce efectos en la presión sanguínea. Los pares de
observaciones (antes y después) obtenidas en cada individuo no son independientes ya que
la presión arterial posterior a la administración de la droga depende de la presión arterial
inicial.
Dadas las muestras m1 y m2 consideremos la muestra de las diferencias
md=X11- X12, X21 - X22 ,…,Xn1- Xn2= D1, D2 ,…,Dn
(observar que n1=n2=n)
La inferencia se basa en el siguiente estadístico, que depende de la media y la varianza de
las diferencias y del valor hipotetizado para el promedio poblacional de las diferencias ( )
1 2 1 2
2 2
1 2
1 2
' ~X X
T TS S
n n
22 2
1 2
1 2
2 22 2
1 2
1 2
1 2
2
1 1
S Sn n
S Sn n
n n
2 2
1 21 2 (1 / 2) ;
1 2
s sx x t
n n
12
~ n
D
DT t
S
n
115
La prueba de hipótesis para la diferencia de medias basada en este estadístico se conoce
como prueba T para muestras apareadas.
Intervalo de confianza bilateral 1- para la diferencia de medias ( ) está dado por:
Ejemplo:
Comparación de los niveles de monóxido de carbono en aire entre la mañana y la
tarde en una ciudad.
La prueba T para muestras apareadas es aplicable en este caso cuando las observaciones de
m1 y m2 se obtienen de a pares, como por ejemplo mediciones de monóxido a la mañana y
tarde de un mismo día.
Se quiere comparar el efecto de dos virus sobre plantas de tabaco. Para ello se
seleccionaron al azar 8 plantas y en cada una de ellas se tomaron 2 hojas apicales.
Sobre cada una de ellas se aplicaron los preparados conteniendo los virus cuyos efectos
se querían evaluar.
La variable de respuesta fue la superficie en mm2 de las lesiones locales que aparecían
como pequeñas manchas oscuras en las hojas.
Los resultados fueron:
Preparado 1 Preparado 2 di
31 18 13
20 17 3
18 14 4
17 11 6
9 10 -1
8 7 1
10 5 5
7 6 1
1= 15 2 = 11 = 4
2
(1 / 2); 1D
n
SD t
n
0 1 2: = 0 H
1 1 2 : 0 H
0 : = 0 H
1 : 0 H
2
4 02.63
4.30
8D
DT
S
n
116
Fijando = 0.05, se determina la región de aceptación como el
intervalo (t /2= -2,365 , t1- /2 = 2,365), con 7 grados de libertad
Se concluye que las diferencias observadas entre las áreas dañadas por uno u otro virus son
estadísticamente significativas.
117
Análisis de la Varianza
ANAVA
Es necesario definir un nuevo contraste de hipótesis que sea aplicable en aquellas
situaciones en las que el número de medias que queremos comparar sea superior a
dos.
Es por ello por lo que el análisis de la varianza (ANAVA, ANDEVA, ANOVA)
surge como una generalización del contraste para dos medias de la t de Student,
cuando el número de muestras a contrastar es mayor que dos.
Definiciones preliminares
Unidad experimental
Se llama unidad o parcela experimental a la mínima porción del material
experimental sobre el cual un tratamiento puede ser realizado.
Tratamiento
Se denomina tratamiento al conjunto de acciones que se aplican a las unidades
experimentales con la finalidad de observar como responden a éstas. Tratamiento
Variable aleatoria observada o respuesta
Se llama variable aleatoria observada o respuesta a la medida u observación que
se obtiene de cada una de las unidades experimentales.
Repetición
Se llama repetición a cada realización de un tratamiento
Modelo lineal
La técnica de análisis de la varianza presupone un modelo para la variable
respuesta. Este modelo recibe el nombre genérico de modelo lineal.
modelo lineal de ANAVA (a una vía de clasificación) para la observación Yij:
Yij =μ + τi + εij , con i=1,...,a y j=1,..,n
Yij= es la j-ésima observación del i-ésimo tratamiento
μ es la media general de las observaciones
τi= es el efecto del i-ésimo tratamiento
εij= es una variable aleatoria normal independientemente distribuida con esperanza 0 y
varianza ∀i,j.
En la Figura se esquematizan a=3 distribuciones centradas en sus esperanzas,
denotadas por μi, y se representan parámetros del modelo lineal.
118
Representación de 3 funciones de densidad, mostrando el punto de equilibrio de todas
ellas ( μ), las esperanzas de cada una de ellas ( μi) y los corrimientos de las esperanzas
respecto del punto de equilibrio representando o efectos de tratamiento ( τi).
La media general (μ) es el centro de equilibrio de todas las distribuciones y se trata de un
parámetro fijo. El efecto del tratamiento (τi) se presenta como un corrimiento respecto de
la media general y en el modelo conocido como de ANAVA de efectos fijos se asume
constante.
El efecto del tratamiento 1 (τ1) es la diferencia que hay entre la media del
tratamiento 1 y la media general. La hipótesis nula del ANAVA postula la igualdad
de medias de todos los tratamientos comparados. Si la hipótesis nula del ANAVA
fuera verdadera las a distribuciones estarían centradas sobre la misma esperanza, es
decir, en μ. Los valores de la variable aleatoria εij representan las diferencias entre
observaciones individuales y las esperanzas de la distribución de la cual proviene la
observación.
Observación
De ahora en adelante asumiremos que las siguientes condiciones son verificadas
por las t muestras:
Las observaciones proceden de poblaciones normales;
Las t muestras son aleatorias e independientes. Además, dentro de cada nivel las
observaciones son independientes entre sí.
En el modelo de un factor suponemos que las observaciones del nivel i, xij,
provienen de una variable Xij de forma que todas tienen la misma varianza --
hipótesis de homocedasticidad:
ijX ~ i
2 n,1,j , iN
O lo que es lo mismo
ij donde ,ijijX ~2,0N
De este modo µi es el valor esperado para las observaciones del nivel i, y los
errores ij son variables aleatorias independientes, con valor esperado nulo, y con
el mismo grado de dispersión para todas las observaciones.
Especificación del modelo
Con todo lo anterior, el modelo ANAVA de un factor puede escribirse como:
119
ij donde ,ijiijX ~2,0N
µ = es una constante común a todos los tratamientos;
i = es el efecto producido por el i-ésimo tratamiento. Al sumarlos todos deben
compensarse los efectos negativos con los positivos para que la media común a
todos los tratamientos sea realmente µ. Esto implica en particular que los efectos, i
, de los tratamientos no son independientes;
ij = es la parte de la variable Xij no explicada por µ ni i, y que se distribuye del
mismo modo (aunque independientemente) para cada observación, según la ley
gaussiana:
ij ~2,0N
Ésta es la condición de homocedasticidad, y es fundamental en el análisis de la
varianza.
Obsérvese que ahora podemos escribir el contraste de que los diferentes
tratamientos no tienen influencia sobre la observación de la variable como:
igualesson no dos menos al :
:
1
210
H
H t
o
0un menos al :
0:
i1
210
H
H t
Observación
Se utiliza el nombre de análisis de la varianza ya que el elemento básico del
análisis estadístico será precisamente el estudio de la variabilidad. Teóricamente es
posible dividir la variabilidad de la variable que se estudia en dos partes:
La originada por el factor en cuestión
La producida por los restantes factores que entran en juego, conocidos o no,
controlables o no, que se conocen con el nombre de error experimental.
Si mediante los contrastes estadísticos adecuados la variación producida por cierto
factor es significativamente mayor que la producida por el error experimental
podemos aceptar la hipótesis de que los distintos tratamientos del factor actúan de
forma distinta.
Ejemplo Consideremos dos muestras tomadas en diferentes tratamientos de una variable, de
forma que ambas tengan la misma varianza muestral (lo que indica que no se puede
rechazar la igualdad de varianzas poblacionales) y medias muestrales bastante
diferentes:
120
55,5
7
6
1
12
3
13,12,11
1
2
3
3,2,1
2
21
2
2
22 otratamient
2
1
11 otratamient
S
x
nnn
S
x
n
S
x
n
La dispersión calculada al medir la de los dos tratamientos conjuntamente es
mucho mayor que la de cada uno de ellos por separado. Por tanto puede deducirse
que ambos tratamiento no tienen el mismo valor esperado.
El objetivo del ANAVA de efectos fijos es contrastar la hipótesis de que los efectos
de tratamientos son nulos versus que al menos uno no lo es. En términos
estadísticos:
H0: τ1=...=τa= 0
vs.
H1: Al menos un tratamiento tiene efecto no nulo.
Otra forma de enunciar estas hipótesis es que las medias de los tratamientos que se
comparan son idénticas vs. que no lo son. La técnica de ANAVA es sensible a las
propiedades estadísticas de los errores del modelo lineal y supone que los datos
observados son independientes unos de otros y que las observaciones bajo cada
tratamiento tienen distribución normal centrada en su esperanza (μ+τi) y varianza
σ2, idéntica para toda observación (homogeneidad de varianzas).
El no cumplimiento de estas propiedades, conocidas como supuestos, pueden
invalidar la inferencia que se pueda realizar a partir de esta técnica.
121
Algo de notación relativa al modelo
Introduciremos alguna notación para escribir los términos que serán más importantes a
la hora de realizar un contraste por el método ANAVA. En primer lugar tenemos:
nesobservacio las todas de muestral media
nesobservacio las todas de suma x
i nivel del muestral media
i nivel del nesobservacio las de suma x
niveles) los todos (entre nesobservacio de total número
i
N
xx
xnx
n
xx
x
nN
t
i
ii
n
j
ij
t
i
i
ii
n
j
ij
t
i
i
i
i
111
1
1
Usando estos términos vamos a desglosar la variación total de la muestra en
variación total dentro de cada nivel (intravariación) más la variación entre los
distintos niveles (intervariación).
Entonces:
SCT = SCD + SCE donde
niveles los entre cuadrados de suma nSCE
nivel cada de dentro cuadrados de suma SCD
totales cuadrados de suma
t
1i
i
2
2
2
11
11
xx
xx
xxSCT
i
in
j
ij
t
i
in
j
ij
t
i
Observación
En el cálculo del estadístico SCT intervienen N cantidades, ligadas por una
relación:
1
11
n
j
ij
t
i
xx
de este modo el número de grados de libertad de este estadístico es N-1 (recuérdese
la noción de grados de libertad de un estadístico). Por razones análogas tenemos
que el número de grados de libertad de SCD es N-t y el de SCE es t-1.
Forma de efectuar el contraste
Consideramos el contraste
122
0algún :
0:
i1
210
H
H t
Suponemos que estamos en las condiciones del modelo factorial de un factor.
Si H0 es cierta se puede demostrar que el siguiente estadístico se distribuye como
una F de Fisher:
2
2
D
Ecalc
S
SF ~ tNtF ,1
Distribución F de Fisher (en algunos libros ―F de Snedecor‖)
Nunca adopta valores menores de 0
Es asimétrica positiva
Es en realidad una familia de curvas, en función de los llamados ―grados de
libertad‖ del numerador y del denominador. Es decir, hay una F de Fisher con 1 gl
en el numerador y 10 gl en el denominador, etc.
Se puede demostrar que la distribución F equivale a una razón entre dos chi-
cuadrados; de ahí que hablemos en el caso de F de grados de libertad en el
numerador y en el denominador.
Luego si al calcular Fcalc obtenemos que calcF > 1,,1 tNtF
donde es un nivel de significación dado, deberemos de rechazar la hipótesis nula
(ya que si H0 fuese cierta, era de esperar que2
ES fuese pequeño en relación con
2
DS ).
Método reducido para el análisis de un factor
Vamos a resumir lo más importante de lo visto hasta ahora, indicando la forma más
sencilla de realizar el contraste. En primer lugar calculamos los siguientes
estadísticos a partir de la tabla de las observaciones en cada nivel:
N
xC
n
xB
xA
t
i i
i
n
j
ij
t
i
i
2
1
2
1
2
1
123
ABN
ntxtntxt2xt1Nivel t
............
n2x2n2x22x21Nivel 2
n1x1n1x12x11Nivel 1
Cálculos al margenObservaciones de XNiveles
ABN
ntxtntxt2xt1Nivel t
............
n2x2n2x22x21Nivel 2
n1x1n1x12x11Nivel 1
Cálculos al margenObservaciones de XNiveles
1x1
2
1
n
x 1
1
2
1
n
j
jx
2x2
2
2
n
x 2
1
2
2
n
j
jx
txt
t
n
x2 tn
j
tjx1
2
x
Entonces las siguientes cantidades admiten una expresión muy sencilla:
1
1
2
2
N
SCDSBASCD
CASCT
t
SCESCBSCE
D
E
Calculamos:
2
2
D
Ecalc
S
SF
y dado el nivel de significación buscamos en una tabla de la distribución F de
Snedecor el valor
1,,1 tNtteo FF
rechazando H0 si Fcalc>Fteo, como se aprecia en la Figura
124
Ejemplo
Se aplican 4 tratamientos distintos a 4 grupos de 5 cultivos, obteniéndose los
resultados de la tabla siguiente. Queremos saber si se puede concluir que todos los
tratamientos tienen el mismo efecto. Para ello vamos a suponer que estamos en
condiciones de aplicar el modelo de un factor.
A = 265N = 20
126484/522583641Tratamiento 4
2264/5-85-1-4-2-10Tratamiento 3
110484/5-225-7-4-5-4-2Tratamiento 2
71/515-1021-1Tratamiento 1
niObservacionesTrata
mientos
A = 265N = 20
126484/522583641Tratamiento 4
2264/5-85-1-4-2-10Tratamiento 3
110484/5-225-7-4-5-4-2Tratamiento 2
71/515-1021-1Tratamiento 1
niObservacionesTrata
mientos ixi
i
n
x2 in
j
ijx1
2
7x
5
1033B
20
49C
N
xC
n
xB
xA
t
i i
i
n
j
ij
t
i
i
2
1
2
1
2
1
N
xC
n
xB
xA
t
i i
i
n
j
ij
t
i
i
2
1
2
1
2
1
125
Se rechaza la hipótesis de que los tratamientos tienen el mismo efecto en los tres grupos.
En conclusión, Fcalc>Fteo, como se observa arriba, por tanto se ha de rechazar la
igualdad de efectos de los tratamientos.
En la figura se representan las observaciones de cada nivel de tratamiento mediante
una curva normal cuyos parámetros se han estimado puntualmente a partir de las
observaciones. Obsérvese que las diferencias más importantes se encuentran entre
Los tratamientos 2 y 4. Esto motiva los contrastes de comparaciones múltiples (dos
a dos), para que, en el caso en que la igualdad de medias sea rechazada, se pueda
establecer qué niveles tuvieron mayor influencia en esta decisión.
126
Consideraciones a los supuestos del modelo
El análisis de varianza es sensible a las propiedades estadísticas de los
términos de error aleatorio del modelo lineal.
Los supuestos tradicionales del ANAVA implican errores independientes,
normalmente distribuidos y con varianzas homogéneas para todas las
observaciones.
La verificación de los supuestos subyacentes se realiza en la práctica a través
de los predictores de los términos de error aleatorio que son los residuos
aleatorios asociados a cada observación.
El residuo asociado a la observación ij-ésima (simbolizados como ij) es la
diferencia entre el valor observado y el valor predicho por el modelo para
la respuesta en la unidad experimental ij-ésima.
A partir de los residuos y sus transformaciones se puede verificar el
cumplimiento de los supuestos de normalidad y homogeneidad de varianzas
mediante pruebas gráficas y/o formales (pruebas de adecuación del modelo)
Por lo general, en la práctica, los supuestos del ANAVA no se cumplen con exactitud. En
caso de que haya evidencia de faltas graves de cumplimiento de los supuestos, el modelo
y/o la estrategia de análisis podría no ser adecuado.
Normalidad
Q – Q plot:
seleccionando los residuos como variable de análisis, una de las técnicas más
usadas es construir un Q-Q plot normal. Mediante esta técnica se obtiene un
diagrama de dispersión de los residuos obtenidos versus los cuantiles teóricos
de una distribución normal. Si los residuos son normales y no hay otros defectos
del modelo, se alinearán sobre una recta a 45°.
Habiendo corrido un ANAVA y guardando los residuos, se debe seleccionar
del Menú GRÁFICOS de la barra de herramientas de InfoStat para realizar
un gráfico Q-Q plot (normal) usando como variable a los residuos del modelo.
Otro método de análisis y más formal es el de Shapiro-Wilks Modificado, seleccionando
los residuos como variable de análisis para obtener el estadístico W* de Shapiro-Wilks
modificado por Mahibbur y Govindarajulu (1997).
-252.40 -124.10 4.20 132.50 260.80 Cuantiles de una Normal(1.4211E-14,16301)
-252.40
-124.10
4.20
132.50
260.80 n= 20 r= 0.984 (RDUO_Rendimiento)
Cuantiles observados(RDUO_Rendimiento)
127
Variable n Media D.E. W* p (una cola)
RDUO_Rendimiento 20 0.00 127.67 0.96 0.7824
Las hipótesis que se someten a prueba son:
H0: los residuos tienen distribución normal versus
H1: los residuos no tienen distribución normal
En este caso no hay evidencias para rechazar el supuesto de distribución normal
(p=0.7900).
Homogeneidad de varianza:
prueba de Levene
Se utiliza la prueba de Levene. Si bien esta prueba fue desarrollada para diseños
completamente aleatorizados, se puede extender su uso a modelos más complejos.
La prueba consiste en realizar un análisis de la varianza usando como variable
dependiente el valor absoluto de los residuos.
Este análisis se debe realizar con un modelo a una vía de clasificación.
Las hipótesis que se someten a prueba son:
H0: 12 = 2
2 = …= n
2
H1: Al menos dos varianzas son distintas donde i2 es la varianza del tratamiento i,
i=1,...,n.
Si el valor p del factor tratamiento de este ANAVA es menor al valor de
significación nominal se rechaza la hipótesis de varianzas homogéneas, caso
contrario el supuesto de igualdad de varianzas puede ser sostenido. InfoStat no
tiene implementada esta prueba como tal en la sección de las pruebas de hipótesis,
pero se puede construir fácilmente ya que se pueden guardar automáticamente los
valores absolutos de los residuos.
Análisis de la varianza (Levene)
Variable N R² R² Aj CV
RABS_Rendimiento 20 0.44 0.11 71.10
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 47492.34 7 6784.62 1.33 0.3150
Bloque 12265.80 3 4088.60 0.80 0.5154
Tratamiento 35226.54 4 8806.64 1.73 0.2076
Error 61022.36 12 5085.20
Total 108514.70 19
128
Homogeneidad de varianza:
gráfico de dispersión
Cuando los errores son homocedásticos, haciendo un gráfico de dispersión de
residuos versus valores predichos se debe observar una nube de puntos sin patrón
alguno (patrón aleatorio).
Si el gráfico muestra estructura habrá indicios para sospechar sobre el
cumplimiento del supuesto.
Un patrón típico que indica falta de homogeneidad en las varianzas, se muestra
en la Figura 8 .
En este otro gráfico no se observa tendencia que indique falta de
cumplimiento del supuesto de homogeneidad de varianzas.
Independencia
Para verificar el supuesto de errores independientes, se realiza un gráfico de
dispersión de los residuos en función de la variable que se presume puede generar
dependencias sobre las observaciones.
1791.8 2211.3 2630.8 3050.2 3469.7
PRED_Rendimiento
-278.1
-136.9
4.2
145.3
286.5
RDUO_Rendimiento
129
Una tendencia a tener agrupados residuos positivos y/o negativos indica la
presencia de correlación o falta de independencia.
En general, un buen proceso de aleatorización asegura el cumplimiento del
supuesto de independencia.
Ventajas y limitaciones del Análisis de la Varianza
El análisis de la varianza es una técnica estadística de contraste de hipótesis.
Tradicionalmente estas técnicas, conjuntamente con las técnicas de regresión lineal
múltiple, de las que prácticamente son una extensión natural, marcan el comienzo
de las técnicas multivariadas.
Con estas técnicas se manejan simultáneamente más de dos variables, y la
complejidad se incrementa proporcionalmente con el número de variables en juego.
El análisis de la varianza unifactorial es el modelo más simple:
una única variable nominal independiente, con tres o más niveles, explica
una variable dependiente continua.
Otra alternativa, que aparentemente es más lógica e intuitiva, consiste en comparar,
en todas las posibles combinaciones de dos en dos, las medias de todos los
subgrupos formados. Esto trae aparejado, dos tipos de problemas:
Se incrementa el riesgo de dar un resultado falso positivo, al realizar más de un
análisis sobre un mismo conjunto de datos.
Es difícil interpretar la verdadera influencia de la variable que actúa como factor de
clasificación, porque genera diferentes niveles de significación (p), resultantes de
las comparaciones entre sus subgrupos.
Mediante el ANAVA se eliminan estos inconvenientes. Con estas técnicas se
analiza globalmente la influencia de cada variable independiente, generándose un
único nivel de significación.
Con el ANAVA se puede analizar simultáneamente la influencia de dos o más
factores de clasificación (variables independientes) sobre una variable respuesta
continua. Esto se conoce como análisis factorial de la varianza.
El efecto de un factor puede añadirse al de otro factor (modelo aditivo) o bien
puede potenciarse (modelo multiplicativo).
En este último caso, aparece y se analiza un nuevo factor de interacción sobre la
variable respuesta, como resultado de la acción conjunta de dos o más factores.
Este posible efecto es detectado en el análisis de la varianza por la significación de
su estadístico de contraste correspondiente.
0.8 1.9 3.0 4.1 5.2 Tratamiento
-278.1
-136.9
4.2
145.3
286.5
RDUO_Rendimiento
130
Las técnicas del ANAVA, basadas en la partición de la variabilidad (suma de
cuadrados) de la respuesta estudiada, sirven de base para el análisis de
distribuciones de datos generados, en diseños más complejos, como es el análisis
de covarianza.
En este último tipo de análisis se combinan variables explicativas discretas y
continuas. La variabilidad de la respuesta es analizada como en el análisis factorial
de la varianza, una vez que se ha eliminado la posible influencia de la o las
variables continuas explicativas.
Sería un análisis análogo al de la varianza de los residuales; esto es, se analizan los
residuos de la regresión en lugar de los datos iniciales.
Otros modelos más complejos son:
El análisis de medidas repetidas sobre las mismas unidades experimentales
El análisis de diseños cruzados
Análisis anidados
El análisis de la varianza factorial con información incompleta
otros
En el ANAVA se comparan medias, no varianzas: medias de los subgrupos o
estratos originados por los factores de clasificación estudiados.
En esta técnica, la hipótesis alternativa es múltiple, puesto que engloba diferentes
hipótesis, todas ellas referidas al hecho de que alguna de las medias de los estratos
sea diferente de las demás.
Cuando se alcanza la significación en alguno de los factores estudiados, es lógico
preguntarse cuál de las hipótesis alternativas es la que origina la significación. Esto
es equivalente a preguntarse qué media o medias son diferentes entre sí.
Estos enigmas se resuelven mediante procedimientos "a posteriori" para comparar
más de dos medias. Funcionan eficientemente, si previamente el factor en estudio
ha resultado significativo.
Comparaciones Múltiples
Pruebas a posteriori
Los diferentes métodos de hacer comparaciones múltiples se emplean sólo cuando
el resultado del ANAVA resulta significativo. En tal caso, se sabe que existen
diferencias entre las muestras, pero sin poder especificar entre cuales de ellas. Se
necesita, entonces, alguna forma de poder compararlas entre sí, y alcanzar así el
objetivo final del ANAVA.
Para analizar las diferencias de a pares. entre las medias de las distribuciones que
se comparan, es posible realizar una gran variedad de pruebas a posteriori o
pruebas de comparación múltiple
Comparaciones “a posteriori“: Son aquellas comparaciones no planificadas de
antemano. Surgen a partir de los datos experimentales, cuando el investigador
descubre diferencias inesperadas y quiere testearlas.
Para cualquier procedimiento elegido, el software permite definir el nivel de
significación nominal usado para la prueba seleccionada.
131
Regresión y Correlación
Relaciones entre variables y regresión
• El término regresión fue introducido por Galton en su libro ―Natural inheritance‖
(1889) refiriéndose a la ―ley de la regresión universal‖:
– ―Cada peculiaridad en un hombre es compartida por sus descendientes, pero
en media, en un grado menor.‖
• Regresión a la media
– Su trabajo se centraba en la descripción de los rasgos físicos de los
descendientes (una variable) a partir de los de sus padres (otra variable).
– Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de
grupos familiares observando una relación del tipo:
• Altura del hijo = 85cm + 0,5 altura del padre (aprox.)
• Conclusión: los padres muy altos tienen tendencia a tener hijos que
heredan parte de esta altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de los padres muy
bajos.
• Hoy en día el sentido de regresión es el de predicción de una medida basándonos
en el conocimiento de otra.
Qué vamos a estudiar
• Vamos a tratar diferentes formas de describir la relación entre dos variables cuando
estas son numéricas.
– Estudiar si hay relación entre la altura y el peso.
• Haremos mención de pasada a otros casos:
– Alguna de las variables es ordinal.
• Estudiar la relación entre el sobrepeso y el dolor de espalda (ordinal)
– Hay más de dos variables relacionadas.
• ¿Conocer el peso de una persona conociendo su altura y contorno de
cintura?
Estudio conjunto de dos variables
• En la tabla tenemos una posible manera de recoger los datos obtenido observando
dos variables en varios individuos de una muestra.
– En cada fila tenemos los datos de un individuo
– Cada columna representa los valores que toma una variable sobre los
mismos.
132
– Las individuos no se muestran en ningún orden particular.
• Dichas observaciones pueden ser representadas en un diagrama de dispersión
(‗scatterplot‘). En ellos, cada individuos es un punto cuyas coordenadas son los
valores de las variables.
• Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las
variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de
la otra.
Altura
en cm.
Peso en
Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
Diagramas de dispersión o nube de puntos
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersión.
Relación entre variables
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersión.
133
Predicción de una variable en función de la otra.
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea, el peso aumenta
en una unidad por cada unidad de altura.
Cómo reconocer relación directa e inversa.
Para valores de X por encima de la media tenemos valores de Y por encima y por debajo
en proporciones similares. Incorrelación.
Incorrelaciónn
30 80
130 180 230 280 330
140 150 160 170 180 190 200
134
• Para los valores de X mayores que la media le corresponden valores de Y mayores
también.
• Para los valores de X menores que la media le corresponden valores de Y menores
también.
• Esto se llama relación directa o creciente entre X e Y.
Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es
relación inversa o decreciente.
Cómo reconocer buena o mala relación
Dado un valor de X no podemos decir gran cosa sobre Y. Mala relación. Independencia.
Poca relación
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Cierta relación
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Fuerte relación
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
135
• Conocido X sabemos que Y se mueve por una horquilla estrecha. Buena relación.
• Lo de ―horquilla estrecha‖ hay que entenderlo con respecto a la dispersión que
tiene la variable Y por si sola, cuando no se considera X.
Covarianza de dos variables X e Y
• La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos
variables es directa o inversa.
– Directa: Sxy >0
– Inversa: Sxy <0
– Incorreladas: Sxy =0
• El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o
no, pero no nos dice nada sobre el grado de relación entre las variables.
))((1
yyxxn
S i
i
ixy
Coeficiente de correlación lineal de Pearson
• El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los
puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas
horizontales y verticales).
Cierta relación
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Fuerte relación
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
136
• tiene el mismo signo que Sxy por lo tanto de su signo obtenemos el que la posible
relación sea directa o inversa.
• r es útil para determinar si hay relación lineal entre dos variables, pero no servirá
para otro tipo de relaciones (cuadrática, logarítmica,...)
yx
xy
SS
Sr
Propiedades de r
• Es adimensional
• Sólo toma valores en [-1,1]
• Las variables son incorreladas r=0
• Relación lineal perfecta entre dos variables r=+1 o r=-1
– Excluimos los casos de puntos alineados horiz. o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.
– Siempre que no existan observaciones anómalas.
Entrenando el ojo: correlaciones positivas
137
r=0,1
30
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0,4
30
40
50
60
70
80
90
100
110
120
130
140 150 160 170 180 190 200
r=0,6
30
40
50
60
70
80
90
100
110
140 150 160 170 180 190 200
r=0,8
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Casi perfectas y positivas
138
r=0,930
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=1
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,99
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Correlaciones negativas
139
r=-0,50
10
20
30
40
50
60
70
80
90
140 150 160 170 180 190 200
r=-0,70
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,95
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,999
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Preguntas frecuentes
• ¿Si r=0 eso quiere decir que no las variables son independientes?
– En la práctica, casi siempre sí, pero no tiene
por qué ser cierto en todos los casos.
140
– Lo contrario si es cierto: Independencia
implica incorrelación.
• Me ha salido r=1.2 ¿la relación es “superlineal”[sic]?
– ¿Superqué? Eso es un error de cálculo. Siempre debe tomar un valor entre -
1 y +1.
• ¿A partir de qué valores se considera que hay “buena relación lineal”?
– Es difícil dar un valor concreto (mirar los gráficos anteriores). Para este
curso digamos que si |r|>0,7 hay buena relación lineal y que si |r|>0,4 hay
cierta relación (por decir algo... la cosa es un poco más complicada:
observaciones anómalas,...)
Otros coeficientes de correlación
• Cuando las variables en vez de ser numéricas son ordinales, es posible preguntarse
sobre si hay algún tipo de correlación entre ellas.
• Disponemos para estos casos de dos estadísticos, aunque no los usaremos en clase:
– ρ (‗ro‘) de Spearman
– τ (‗tau‘) de Kendall
• No hay que estudiar nada sobre ellos en este curso. Recordar sólo que son
estadísticos análogos a r y que los encontraran en publicaciones donde las variables
no puedan considerarse numéricas.
Regresión
• El análisis de regresión sirve para predecir una medida en función de otra medida
(o varias).
– Y = Variable dependiente
• predicha
• explicada
– X = Variable independiente
141
• predictora
• explicativa
– ¿Es posible descubrir una relación?
• Y = f(X) + error
– f es una función de un tipo determinado
– el error es aleatorio, pequeño, y no depende de X
• El ejemplo del estudio de la altura en grupos familiares de Pearson es del tipo que
desarrollaremos en el resto del tema.
– Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)
• Si el padre mide 200cm ¿cuánto mide el hijo?
– Se espera (predice) 85 + 0,5x200=185 cm.
» Alto, pero no tanto como el padre. Regresa a la
media.
• Si el padre mide 120cm ¿cuánto mide el hijo?
– Se espera (predice) 85 + 0,5x120=145 cm.
» Bajo, pero no tanto como el padre. Regresa a la
media.
• Es decir, nos interesaremos por modelos de regresión lineal simple.
Modelo de regresión lineal simple
• En el modelo de regresión lineal simple, dado dos variables
– Y (dependiente)
– X (independiente, explicativa)
• buscamos encontrar una función de X muy simple (lineal) que nos permita
aproximar Y mediante
– Ŷ = A + BX
• A (ordenada en el origen, constante)
• B (pendiente de la recta)
• Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la
cantidad
– e=Y-Ŷ se le denomina residuo o error residual.
• En el ejemplo de Pearson y las alturas, él encontró:
– Ŷ = A + BX
• A=85 cm (No interpretar como altura de un hijo cuyo padre mide 0
cm ¡Extrapolación salvaje!
• B=0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)
142
• La relación entre las variables no es exacta. Es natural preguntarse entonces:
– Cuál es la mejor recta que sirve para predecir los valores de Y en función
de los de X
– Qué error cometemos con dicha aproximación (residual).
• El modelo lineal de regresión se construye utilizando la técnica de estimación
mínimo cuadrática:
– Buscar A, B de tal manera que se minimice la cantidad
• Σi ei2
• Se comprueba que para lograr dicho resultado basta con elegir:
• Se obtiene además unas ventajas ―de regalo‖
– El error residual medio es nulo
– La varianza del error residual es mínima para dicha estimación.
xByAxn
yxnxyB
x22
• Traducido: En término medio no nos equivocamos. Cualquier otra
estimación que no cometa error en término medio, si es de tipo
lineal, será peor por presentar mayor variabilidad con respecto al
error medio (que es cero).
• Que el error medio de las predicciones sea nulo no quiere decir que las
predicciones sean buenas.
• Hay que encontrar un medio de expresar la bondad del ajuste (bondad de la
predicción)
143
¿Cómo medir la bondad de una regresión?
Imaginemos un diagrama de dispersión, y vamos a tratar de comprender en primer lugar
qué es el error residual, su relación con la varianza de Y, y de ahí, cómo medir la bondad
de un ajuste.
Interpretación de la variabilidad en Y
En primer lugar olvidemos que existe la variable X. Veamos cuál es la variabilidad en el
eje Y.
La franja sombreada indica la zona donde varían los valores de Y. Proyección sobre el eje
Y = olvidar X
Interpretación del residuo
Fijémonos ahora en los errores de predicción (líneas verticales). Los proyectamos sobre el
eje Y.
Se observa que los errores de predicción, residuos, están menos dispersos que la variable Y
original.
Cuantos menos dispersos sean los residuos, mejor será la bondad del ajuste.
144
Bondad de un ajuste
Resumiendo:
• La dispersión del error residual será una fracción de la dispersión original
de Y
• Cuanto menor sea la dispersión del error residual
mejor será el ajuste de regresión.
Eso hace que definamos como medida de bondad de un ajuste de regresión, o coeficiente
de regresión a:
2
22 1
Y
e
S
SR
22
Ye S S
• La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de
determinación R2
• R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]
– Para el alumno astuto: ¿por qué?
• Cuando un ajuste es bueno, R2 será cercano a uno.
– ¿por qué?
• Cuando un ajuste es malo R2 será cercano a cero.
– ¿por qué?
145
Otros modelos de regresión
• Se pueden considerar otros tipos de modelos, en función del aspecto que presente
el diagrama de dispersión (regresión no lineal)
• Incluso se puede considerar el que una variable dependa de varias (regresión
múltiple).
¿recta o parábola?
140 150 160 170 180 190 200
¿recta o cúbica?
140 150 160 170 180 190 200
146
Modelos de análisis de regresión
1 variable explicativa 2+ variables
explicativas
No ajustaremos modelos a mano. Usaremos para ello un software Estadístico (ej. InfoStat).
Repaso
• Estos métodos se emplean para conocer las relaciones y significación entre series
de datos.
• Cuando, simultáneamente, contemplamos dos variables continuas, aunque por
extensión se pueden emplear para variables discretas cuantitativas, surgen
preguntas y problemas específicos.
Regresión Lineal
• El establecimiento de una correlación entre dos variables es importante, pero esto
se considera un primer paso para predecir una variable a partir de la otra. (U otras,
en el caso de la regresión múltiple)
• Claro está, si sabemos que la variable X está muy relacionada con Y, ello quiere
decir que podemos predecir Y a partir de X. Estamos ya en el terreno de la
predicción. (Evidentemente si, X no está relacionada con Y, X no sirve como
predictor de Y)
El tema básico en regresión (con 2 variables) es ajustar los puntos del diagrama de
dispersión de las variables X e Y. Para simplificar, nos centraremos especialmente (por
simplicidad) en el caso de que la relación entre X e Y sea lineal.
Modelos de
regresión
Simple Múltiple
Lineal No lineal Lineal No lineal
147
Claro está, el tema ahora es cómo conseguir cuál es la ―mejor‖ línea que parece unir los
puntos. Necesitamos para ello un criterio. Si bien hay otros criterios, el más empleado
comúnmente, y el que veremos aquí, es el criterio de mínimos cuadrados.
Recordar: Que el criterio de mínimos cuadrados, es aquel que minimiza las distancias
cuadráticas de los puntos con la línea.
Repaso de la ecuación de una recta
Y=A+BX
A es la ordenada en el origen (es donde la recta corta el eje Y)
B es la pendiente (observad que en el caso de las relaciones positivas, B será positivo; en
el caso de las relación negativas, B será negativo; si no hay relación, B será
aproximadamente 0)
Si queremos predecir Y a partir de X, necesitamos calcular (en el caso de relación lineal) la
recta de regresión de Y sobre (a partir de) X.
El criterio de mínimos cuadrados nos proporciona un valor de A y uno de B, tal que
rendimiento
inteligencia
rendimiento
inteligencia
148
2
'
1
n
i i
i
Y Y
sea mínimo
CI (X) Rendim (Y)
120 10
100 9
90 4
110 6
La recta por mínimos cuadrados es:
Y‘=-8,5+0,15X
2
'
1
n
i i
i
Y Y
es mínimo
Esa expresión vale 11,5 en nuestro caso
Rendimiento (Y)
Inteligencia (X)
Y’
149
Observar....
-Cada unidad de CI hace aumentar 0,15 la nota.
-Aunque en este caso, lo siguiente no tiene sentido, una persona con CI de 0, sacaría un -
8,5
Ordenada origen
A Y BX
Pendiente
2 2
XY nXYB
X nX
Nota: Tanto A como B se pueden obtener fácilmente en cualquier calculadora con opción
“LR” (Linear Regression)
X Y XY X2
suj1 120 10 1200 14400
suj2 100 9 900 10000
suj3 90 4 360 8100
suj4 110 6 660 12100
4 SUMA SUMA
3120 44600
PROMEDIO PROMEDIO
105 7.25
N
4
150
2
3120 4 105 7 '250 '15
44600 4 105B
7'25 0'15 105 8'5A
Luego
Y‘=-8,5+0,15X
Errores de Predicción
Los errores de predicción en la recta de regresión de Y sobre X
Puntuaciones observadas iY
Puntuaciones predichas iY
Error de predicción
con la recta de
regresión de Y sobre X i i
Y Y
La cuestión ahora en cuánto se reduce la varianza al emplear la recta de regresión de Y
sobre X (es decir, teniendo X como predictor) en comparación con el caso en que no
tuviéramos la recta de regresión
Si no tuviéramos el predictor X, ¿qué puntuación prediríamos para las puntuaciones de Y?
En tal caso, dado el criterio de mínimos cuadrados, si tenemos datos en Y y
carecemos de datos en X, nuestra mejor estimación de Y será su media
Recordemos que la media minimiza el sumatorio de las diferencias
Cuadráticas
2( )Y Yes mínimo
Si empleamos la media como predictor, la varianza de las predicciones será
2
2( )
y
Y Ys
n
151
Pero si tenemos un predictor X, la varianza será
2
2
.
( )i i
y x
Y Ys
n Esta es la varianza de Y no explicada por X
Se puede demostrar que
2 2 2
. (1 )y x y xys s r
Que despejando sale
2
.2
21
y x
xy
y
sr
s
¿Cuán buena es la predicción de la recta de regresión? El coeficiente de regresión como
índice de la bondad de ajuste de nuestro modelo (la recta de regresión)
Acabamos de mostrar que
2
.2
21
y x
xy
y
sr
s
2
xyrEs el llamado coeficiente de regresión y permite conocer cuán bueno es el ajuste de
la recta de regresión (o en general del modelo lineal). Está acotado entre 0 y 1.
Si todos los puntos del diagrama de dispersión están sobre la recta (con pendiente diferente
de 0),
2
.y xsentonces será 0, y el coeficiente de determinación será 1
Cuanto más se alejen los puntos de la recta de regresión, mayor será el valor de
2
.y xs
el valor del coeficiente de regresión será menor y menor.
El coeficiente de regresión y la proporción de varianza
asociada/explicada/común
152
Empecemos con una tautología
( )i i i iY Y Y Y
Esta expresión indica que la puntuación observada por el sujeto i-ésimo es igual a la
puntuación predicha para dicho sujeto más un error de predicción.
Se puede demostrar que las puntuaciones predichas y los errores de predicción son
independientes, con lo que podemos señalar
2 2 2
' .y y y xs s s
2
ysVarianza total de Y
2
'ysVarianza de las puntuaciones de Y predichas por el predictor X
2
.y xsVarianza de los errores de predicción (varianza no explicada por X)
De lo dicho anteriormente, tenemos
2 2 2
' .y y y xs s s
Y sabíamos que 2
.2
21
y x
xy
y
sr
s
luego
2 2 2
. ´2
2 2
y y x y
xy
y y
s s sr
s s
En definitiva, el coeficiente de regresión mide la proporción de la varianza de Y que está
asociada/explicada por el predictor X
El coeficiente de regresión y la reducción del error en la estimación
Ya hemos dicho antes, que en caso de no tener el predictor X, la mejor predicción que
podemos dar de un dato cualquiera en Y será la propia media de Y. Por lo tanto el error
cuadrático promedio en la estimación será la varianza TOTAL de Y
153
Pero si tenemos el predictor X, predecimos con la recta de regresión Y‘ y ahora el error
cuadrático promedio en la estimación de los valores de Y será
2
ys
Como sabemos que
2
.y xs
2 2 2
' .y y y xs s s
Podemos despejar
2 2 2
' .y y y xs s s
Esto quiere decir que al emplear la recta de regresión para efectuar las estimaciones de Y
se reduce el error de estimación en una cantidad igual a
2
'ys
Puesto que sabemos que
2
´2
2
y
xy
y
sr
s
El coeficiente de regresión representa la proporción en que se reduce el error de estimación
que se hubiera cometido al emplear como estimador Y
Por ejemplo, un coeficiente de regresión de 0,16 quiere decir que el emplear la recta de
regresión reduce el error en los pronósticos un 16% respecto al caso de que hubiéramos
adjudicado la media aritmética de Y a cada dato de la variable predicha.
Ejemplo
• Para estudiar la relación entre la biomasa y el pH en un medio de cultivo, se midió
la biomasa (gr) para valores de pH entre 3 y 7 registrándose 45
mediciones.
• Los datos se encuentran en el archivo RegLin.
• Se tomó como Variable dependiente a la biomasa y como Variable regresora al
pH. El siguiente gráfico muestra el comportamiento de las variables.
154
El diagrama indicaría que hay una relación positiva entre la biomasa y el pH. Solicitando
el análisis de regresión se obtuvieron los siguientes resultados
• Como puede verse, en la tabla del análisis de la varianza, hay relación
lineal entre la biomasa y el pH (p<0.0001).
• También se observa que el modelo propuesto no presenta falta de ajuste
(p=0.4348).
• Tomando la información sobre los coeficientes de regresión se puede escribir la
ecuación del modelo ajustado:
Y= a+bx = 313.95 + 95.56x
• Esta recta permite estimar el valor de y (valor predicho) para un valor de
x. El modelo ajustado puede ser usado con fines predictivos; por ejemplo, para un
pH de 3.5 la biomasa esperada es:
Y= 313.95 + 95.56 (3.5)= 648.2 gr
2.80 3.90 5.00 6.10 7.20
pH
532.80
653.29
773.77
894.25
1014.74
Biomasa
155
Diagrama de dispersión con bandas de confianza y de predicción
En la figura anterior la línea central corresponde al modelo ajustado, las líneas
siguientes corresponden a las bandas de confianza y las líneas externas a las bandas de
predicción.
Validación de los supuestos
Normalidad:
Obsérvese que en el Q-Q plot fue realizado con los residuos del modelo de
regresión y usando como distribución teórica la Normal. Los puntos se disponen en una
recta a 45º indicando que el supuesto distribucional para los residuos se cumple.
Realizando la prueba se Shapiro-Wilks (modificada) en el menú INFERENCIA
BASADA EN UNA MUESTRA se concluye que los datos siguen una distribución
normal (p=0.8327).
2.80 3.90 5.00 6.10 7.20 pH
521.43
656.95
792.48
928.01
1063.53
-64.87 -31.48 1.92 35.31 68.70 Cuantiles de una Normal
-64.87
-31.48
1.92
35.31
68.70 n= 45 r= 0.993 (RDUO_Biomasa)
Cuantiles observados(RDUO_Biomasa)
Biomasa
156
Homocedasticidad:
puede verse que los puntos para los valores de pH más altos presentan menor dispersión
que el resto, razón por la cual una prueba formal de homogeneidad de varianzas sería
recomendable.
Correlación lineal
Es posible, que estudiando una variable bidimensional, no se desee establecer ninguna
relación de subordinación de una variable con respecto a la otra. En este supuesto, se
intenta cuantificar la asociación entre las dos características.
• Entramos en las técnicas de correlación lineal.
• Es posible definir otro estadístico muestral a partir del las dos pendientes teóricas
de las dos posibles rectas de regresión (y) sobre(x) y de (x) sobre (y).
• Este estadístico es el coeficiente de correlación r. Su cuadrado r2 es el coeficiente
de determinación y da una medida entre 0 y 1 de la cantidad de información
compartida por dos características o variables continuas en los datos muestrales.
• La magnitud de la asociación entre dos variables continuas está en relación con la
dispersión de la nube de puntos. Se puede establecer una relación matemática
perfecta entre la desviación típica de los residuos y el coeficiente de determinación.
• El hecho de que dos variables estén correlacionadas, e incluso que lo estén con
valores muy cercanos a 1, no implica que exista una relación de causalidad entre
ellas. Se pueden producir correlaciones espurias (causales) entre dos variables, por
estar ambas relacionadas con otra tercera variable continua y anterior en el tiempo.
• Los nuevos estadísticos generados en la regresión y correlación lineal se emplean
como estimadores de los correspondiente parámetros poblacionales.
• Para que los coeficientes de la regresión y correlación sean estimadores adecuados
(centrados y de mínima varianza) de sus correspondientes parámetros
581.52 686.63 791.74 896.86 1001.97 PRED_Biomasa
-2.49
-1.21
0.07
1.35
2.63
RE_Biomasa
157
poblacionales, es necesario que se asuman ciertas condiciones en la población de
origen, referidas fundamentalmente a las distribuciones de los residuos:
• Que la media de los residuos sea cero.
• Que su varianza sea similar (homogénea) a lo largo de la variable (x):
homocedasticidad.
• Que estén normalmente distribuidos
Ejemplo
• En un experimento sobre crecimiento de una maleza se utilizan 20 unidades
experimentales consistentes en bandejas sembradas con 40 semillas al
comienzo de la experiencia. Se registra el número de semillas germinadas y al
cabo de un cierto tiempo en todas se obtiene un indicador del área foliar y la
biomasa total. Se pretende estudiar las correlaciones de biomasa con área foliar y
número de semillas germinadas, en un sistema donde la biomasa es considerada
como variable dependiente. Los datos se encuentran en el archivo Sendero.
Coeficientes de Sendero (Path Analysis)
Variable dependiente: Biomasa
Efecto Via Coeficientes p-valor
SemGerm Directa 0.78168
SemGerm AreaFoliar -0.02020
r total 0.76148 0.00010
AreaFoliar Directa 0.03017
AreaFoliar SemGerm -0.52326
r total -0.49308 0.02717
La correlación entre biomasa y área foliar es significativa (r=-0.49, p=0.03) y está
fuertemente determinada (-0.52) por la correlación entre biomasa y semillas germinadas.
La correlación directa entre biomasa y semillas germinadas es alta y significativa
(r=0.78, p<0.0001).
Pearson
Correlación de Pearson: coeficientes\probabilidades
Biomasa SemGerm AreaFoliar
Biomasa 1.00000 0.00010 0.02717
SemGerm 0.76148 1.00000 0.00125
AreaFoliar -0.49308 -0.66940 1.00000
Regresión múltiple
Hemos visto el caso de un predictor (X) y una variable predicha (Y), y obtenido la recta de
regresión de Y sobre X por el procedimiento de mínimos cuadrados.
Dada la naturaleza del comportamiento humano, en el que cada conducta observada puede
ser influida por diferentes variables, resulta más ―ecológico‖ examinar no ya cuán bueno
es un predictor X para predecir Y, sino más bien tendremos varios predictores X1, X2, ....,
158
para predecir Y (o si se quiere, varios predictores, X2, X3,...., para predecir X1). Es el caso
de la regresión múltiple.
Hasta ahora teníamos:
Y= A + BX
Ahora tendremos k predictores:
kk XBXBXBAX ...33221
X1= ―criterio‖, variable a predecir, variable ―dependiente‖
X2, X3= variables predictoras
Es importante tener en cuenta que las ponderaciones B2, B3, ..., son análogas a las que
vimos en el caso de la recta de regresión simple.
Al igual que ocurría en la recta de regresión (fijarse que el caso de 1 predictor es un caso
particular de la regresión múltiple), A representa el lugar donde el hiperplano de regresión
múltiple corta el eje de la variable predicha.
En puntuaciones directas, la ecuación de regresión es la que sabemos
kk XBXBXBAX ...33221
En puntuaciones diferenciales, recordad que A valía 0 en la recta de regresión; lo mismo se
aplica en la ecuación de regresión.
kk xbxbxbx ...33221
Y aplicando la misma lógica, el valor de los pesos es el mismo que el que teníamos en
puntuaciones directas
b2=B2
b3=B3 etc
Resumen del modelo
.904a .817 .634 1.744
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), NEURO, ANSIEa.
Datos (N=5) Rendim Ansied Neurot 9 3 5 3 12 15 6 8 8 2 9 7 7 7 6
159
904,023.1R
Como en el caso de un predictor:
2
2
`2
23.1
1
1
x
x
S
SR
Series de Tiempo
Anteriormente se planteó el análisis de regresión como una herramienta para la
elaboración de modelos y predicción. Ahora se presentará un método cuantitativo de
elaboración de pronósticos, llamado método de series de tiempo. Los métodos de
elaboración de pronóstico básicamente se agrupan en métodos cualitativos y métodos
cuantitativos. Los métodos cualitativos son altamente subjetivos y de criterio, son
importantes cuando no se cuenta con información histórica como pro ejemplo en el caso en
que se quiere predecir las ventas de un producto nuevo. Los métodos cuantitativos por su
parte, se pueden subdividir en series de tiempo y causales. Los causales incluyen la
determinación de factores que se relacionan con la variable a predecir. En tanto los
métodos de series de tiempo incluyen las proyecciones de valores futuros de una variable,
basada completamente en observaciones pasadas.
La suposición básica que subyace en el análisis de series de tiempo es que los factores que
han ocasionado patrones de actividad en el pasado y en el presente continuarán haciéndolo,
más o menos de la misma forma, en el futuro. Por consiguiente, los principales objetivo
del análisis de series de tiempo consiste en identificar y aislar tales factores de influencia
con propósitos de hacer predicciones (pronósticos), así como para efectuar una planeación
y un control administrativo.(Berenson y Levine).
Definición de serie de tiempo
Una definición de serie de tiempo adecuada es la que proporciona el autor G.S. Maddala.,
quien define una serie de tiempo como una secuencia de datos numéricos cada uno de los
cuales se asocia con un instante específico de tiempo. Es decir, observaciones de una
misma variable en tiempos t1, t2, t3, ..., tT.
Se dice que una serie de tiempo observada es continua cuando las observaciones se toman
continuamente en el tiempo, y se denota, por ejemplo, Y(t), 0 ≤ t ≤ T. Se dice que una serie
Coeficientesa
11.288 2.221 5.082 .037
-1.139 .510 -1.293 -2.233 .155
.365 .421 .502 .868 .477
(Constante)
ANSIED
NEUROT
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig.
Variable dependiente: RENDIMa.
160
de tiempo observada es discreta cuando las observaciones se toman sólo en momentos
específicos, usualmente equiespaciados, y se denota a la serie, por ejemplo, por Yt, t = 0, 1,
2, 3, ..., T. Desde un punto de vista teórico una serie de tiempo es una colección de
variables aleatorias ordenadas con respecto al tiempo, que recibe el nombre de proceso
estocástico (proceso relativo al azar).
Como ejemplos de series de tiempo discretas y equiespaciadas se pueden mencionar,
precios de acciones en sucesivos días, totales de exportación en sucesivos meses, ventas
semanales, mensuales o anuales de un comercio particular, lluvias caídas diariamente,
temperatura del aire medida en sucesivas horas, días o meses, población de un país en
forma anual, índice de precio al consumidor, y el producto bruto interno (PBI).
Descomposición de una serie de tiempo
Se puede pensar que una serie de tiempo está formada por varias componentes que
obedecen a causas diferentes. Estas componentes son la componente de tendencia (T), la
componente estacional (S), la componente cíclica (C) y la componente irregular (I), más
un término aleatorio. En términos matemáticos esto se puede expresar como:
Se definen a cada una de las componentes como
Tendencia:
Movimiento suave, de ―largo plazo‖, generalmente asociado a causas estructurales del
fenómeno en estudio; como aumento o disminución de la población, cambios en las
condiciones económicas, mejora en la organización económica, política y social, efectos
de cambios en cuestiones de salud, educación, seguridad social, entre otros. Los efectos de
la tendencia se notan en lapsos largos con relación al período de observación. Una
dificultad que se plantea, es decir qué se entiende por largo plazo. Por ejemplo, variables
climáticas algunas veces exhiben variaciones cíclicas sobre un período de tiempo muy
largo, tal como 50 años. Si solo se tiene 20 años de datos, esta oscilación a largo plazo
podría parecer parte de una tendencia, pero si se dispusiera de cientos de años, la
oscilación a largo plazo sería visible. Sin embargo en un período corto podría ser más útil
pensar en una oscilación a largo plazo como una tendencia. Así al hablar de tendencia
debemos tener en cuenta el número de observaciones disponibles y hacer una evaluación
subjetiva del término largo plazo.
Ciclo:
Oscilación casi periódica que dura 3, 5, 11, 13, etc. años originada por diversas causas.
Algunas series de tiempo exhiben variaciones con períodos fijos debidas a causas físicas,
como el caso de las variaciones diarias de temperatura. Otras exhiben oscilaciones que no
tienen un período fijo, pero que pueden ser predecibles, frecuentemente observado en
series económicas.
Estacionalidad:
Movimientos recurrentes, intra anuales, periódicos o aproximadamente periódicos debido a
causas como sucesión de estaciones, presencia de temporadas o festividades anuales. Se
puede decir entonces, que las fluctuaciones estacionales son aquellas que aparecen de una
manera recurrente y con periodicidad anual.
161
Irregular:
Movimientos recurrentes que responden a una acumulación de causas, o que no tienen una
causa específica.
Para fijar ideas se presenta el siguiente ejemplo, extraído del libro de series de tiempo de
Box y Jenkins.
Ejemplo:
la serie a considerar es ―Cantidad de pasajeros en las líneas aéreas internacionales‖,
durante el período comprendido entre enero de 1949 y diciembre de 1961, son totales
mensuales, representados en miles de pasajeros. Estos datos fueron procesados con el
programa X- 11 ARIMA del ―Bureau of the Census‖, y los gráficos que se muestran a
continuación son los resultados de las estimaciones obtenidas por este programa En la
Figura 1 se representa la serie originaria. Se puede ver que esta serie tiene una marcada
tendencia ascendente, y además existen oscilaciones dentro de los años, que si bien tienen
aproximadamente la misma forma, la amplitud de las mismas se hace más grande a través
de los años. Esto lleva a pensar en que la serie tiene además de una componente de
tendencia una componente estacional. Al observar este gráfico hay que tener presente que
no se pueden hacer comparaciones de la cantidad de pasajeros de las líneas aéreas
internacionales, en pares de meses arbitrarios, por ejemplo, julio de 1960 con junio o
marzo del mismo año y concluir que hay mayor cantidad de personas que viajan en julio
que en marzo, ya que este aumento se puede haber debido al efecto estacional y no a la
realidad. Por lo tanto es importante hacer un estudio de cada una de las componentes y de
la serie sin estacionalidad
1 .Cantidad de pasajeros en las líneas aéreas internacionales. Serie ordinaria mensual
El gráfico 2 muestra las estimaciones de la componente tendencia-ciclo en donde se ve un
marcado aumento de la tendencia. Este aumento puede deberse entre otras cosas, por
ejemplo, al aumento de consumo per cápita, a una baja en los precios de los boletos de
avión, al aumento de la población.
A partir de este gráfico se pueden comparar los niveles de pasajeros de dos meses, por
ejemplo julio de 1950 con julio de 1949, y decir que la cantidad de pasajeros en las líneas
aéreas internacionales en julio de 1950 era mayor que en julio de 1949, no se conoce la
cantidad pero si se puede ver que hay un aumento de un año a otro.
162
2. Cantidad de pasajeros en las líneas aéreas internacionales. Tendencia ciclo final.
El gráfico 3 de período completo y la Figura 4 (se grafica una porción del período)
representan las oscilaciones dentro de los años o intraanuales, o sea los factores
estacionales estimados. Se puede observar que hay picos para todos los años en los meses
de junio, julio y agosto, que coincide con las vacaciones de verano, y que es la época de
temporada alta para las líneas aéreas internacionales europeas. Se puede observar también,
un valle en los meses de enero y febrero, época considerada como temporada baja. Es
decir, estas fluctuaciones pueden deberse a la presencia de temporada alta y baja en los
datos. Otro pico se produce, todos los años, para los meses de marzo y abril, que puede
deberse al efecto Pascua.
Es importante entonces, eliminar estos efectos de los datos para poder observar el
verdadero comportamiento de los mismos.
3. Cantidad de pasajeros en las líneas aéreas internacionales.
Factores estacionales finales. Período completo
163
4 .Cantidad de pasajeros en las líneas aéreas internacionales.
Factores estacionales finales. Período Enero de 1949 a Diciembre de 1951
La Figura 5 representa la serie ajustada por estacionalidad, donde no está presente la
componente estacional pero si la componente de tendencia. Con esta serie se pueden hacer
comparaciones de la cantidad de pasajeros que han viajado en cualquier par de meses, y no
tan solo conocer por ejemplo que en julio de 1950 viajan mas que en julio de 1949 sino
también conocer la cantidad.
5. Cantidad de pasajeros en las líneas aéreas internacionales. Serie
ajustada estacionalmente.
Esta serie es la que hay que tener en cuenta para hacer comparaciones entre meses. Muy a
menudo se encuentra en periódicos que se compara el valor de una serie en un mes con el
o los meses precedentes sin tener mayor cuidado, y esto es de mayor riesgo, ya que un mes
de temporada alta es en general, mayor que un mes de temporada baja.
164
En resumen se espera:
o Poder conocer las componentes de una serie de tiempo para analizar la
estructura de cada una de ellas por separado.
o Poder hacer comparaciones de un mismo mes en distintos años (niveles de
tendencia).
o Poder hacer comparaciones de cualquier par de meses (serie estimada por
estacionalidad).
o Usar las estimaciones de las componentes para predecir el comportamiento
futuro de la serie.
165
Pruebas No Paramétricas
Hasta ahora todas las técnicas utilizadas para realizar algún tipo de inferencia exigían:
bien asumir de ciertas hipótesis como la aleatoriedad en las observaciones que
componen la muestra, o la normalidad de la población, o la igualdad de varianzas
de dos poblaciones, etc;
o bien, la estimación de cualquier parámetro como la media, varianza, proporción,
etc, de la población.
El conjunto de estas técnicas de inferencia se denominan técnicas paramétricas. Existen sin
embargo otros métodos paralelos cuyos procedimientos no precisan la estimación de
parámetros ni suponer conocida ninguna ley de probabilidad subyacente en la población de
la que se extrae la muestra. Estas son las denominadas técnicas no paramétricas o
contrastes de distribuciones libres, algunos de los cuales desarrollamos a continuación. Sus
mayores atractivos residen en que:
Son más fáciles de aplicar que las alternativas paramétricas;
Al no exigir ninguna condición suplementaria a la muestra sobre su proveniencia
de una población con cierto tipo de distribución, son más generales que las
paramétricas, pudiéndose aplicar en los mismos casos en que estas son válidas.
Por otro lado, esta liberación en los supuestos sobre la población tiene inconvenientes. El
principal es la falta de sensibilidad que poseen para detectar efectos importantes. En las
técnicas no paramétricas juega un papel fundamental la ordenación de los datos, hasta el
punto de que en gran cantidad de casos ni siquiera es necesario hacer intervenir en los
cálculos las magnitudes observadas, más que para establecer una relación de menor a
mayor entre las mismas, denominadas rangos.
Aleatoriedad de una muestra: Test de rachas
A veces al realizar un muestreo, puede llegar a influir el orden temporal o espacial en que
las muestras han sido elegidas, con lo cual no estamos en las condiciones de un muestreo
aleatorio simple, ya que la ley de probabilidad varía de una observación a otra. Como
ilustración obsérvese la figura adjunta. También podemos denominar a este contraste como
test de independencia de las observaciones de una muestra.
166
Consideremos una muestra de tamaño n que ha sido dividida en dos categorías y con
n1 y n2 observaciones cada una. Se denomina racha a una sucesión de valores de la misma
categoría. Por ejemplo si estudiamos una población de personas podemos considerar como
categoría el sexo
En función de las cantidades n1 y n2 se espera que el número de rachas no sea ni muy
pequeño ni muy grande.
Si las observaciones son cantidades numéricas estas pueden ser divididas en dos categorías
que poseen aproximadamente el mismo tamaño ( n1 = n2 ±1), si consideramos la mediana
de las observaciones como el valor que sirve para dividir a la muestra:
Se define la v.a. R como el número de rachas. Su distribución está tabulada para los casos
y (tabla 7 de Downie). La aleatoriedad en la extracción de la muestra se
rechaza cuando ó
Aproximación normal del test de rachas
Si el tamaño de cualquiera de las dos muestras es mayor que 30, la distribución de R se
aproxima a una normal de media:
Y varianza:
Y se considera el estadístico:
Se rechaza la hipótesis nula (aleatoriedad) si
167
Normalidad de una muestra: Test de D'Agostino
Consideremos n observaciones, las cuales ordenamos de menor a mayor y les asignamos
su rango en función de este orden
Se calculan sobre la muestra la media, la desviación típica un estadístico T y por último el
estadístico del contraste D cuya distribución está tabulada
En la tabla de la distribución del estadístico de D'Agostino, D, para un nivel de
significación , se busca un intervalo de modo que si se
rechaza la normalidad y en otro caso se asume. Para realizar este test es necesario que al
menos .
Contraste de Wilcoxon para muestras apareadas
El contraste de Wilcoxon es la técnica no paramétrica paralela a el de la T de Student para
muestras apareadas. Igualmente dispondríamos de n parejas de valores (xi,yi) que podemos
considerar como una variable medida en cada sujeto en dos momentos diferentes.
El test de Wilcoxon, al igual que los otros contrastes no paramétricos puede realizarse
siempre que lo sea su homólogo paramétrico, con el inconveniente de que este último
detecta diferencias significativas en un de casos que el de la de Student.
Sin embargo a veces las hipótesis necesarias para el test paramétrico (normalidad de las
diferencias apareadas, di) no se verifican y es estrictamente necesario realizar el contraste
que presentamos aquí. Un caso muy claro de no normalidad es cuando los datos pertenecen
a una escala ordinal.
El procedimiento consiste en:
1. Ordenar las cantidades de menor a mayor y obtener sus rangos.
2. Consideramos las diferencias di cuyo signo (positivo o negativo) tiene menor frecuencia
(no consideramos las cantidades di=0) y calculamos su suma, T
168
Del mismo modo es necesario calcular la cantidad T', suma de los rangos de las
observaciones con signo de di de mayor frecuencia, pero si hemos ya calculado T la
siguiente expresión de T' es más sencilla de usar
T' = m(n+1)-T
donde m es el número de rangos con signo de di de menor frecuencia.
3. Si T ó T' es menor o igual que las cantidades que aparecen en la tabla de Wilcoxon, se
rechaza la hipótesis nula del contraste
Aproximación normal en el contraste de Wilcoxon
Si la distribución de T admite una aproximación normal
donde
por lo que el estadístico
da como criterio el rechazar H0 si .
Contraste de Kruskal-Wallis
El contraste de Kruskall-Wallis es la alternativa no paramétrica del método ANOVA, es
decir, sirve para contrastar la hipótesis de que k muestras cuantitativas han sido obtenidas
de la misma población. La única exigencia versa sobre la aleatoriedad en la extracción de
las muestras, no haciendo referencia a ninguna de las otras condiciones adicionales de
homocedasticidad y normalidad necesarias para la aplicación del test paramétrico
ANOVA.
De este modo, este contraste es el que debemos aplicar necesariamente cuando no se
cumple algunas de las condiciones que se necesitan para aplicar dicho método.
Al igual que las demás técnicas no paramétricas, ésta se apoya en el uso de los rangos
asignados a las observaciones.
Para la exposición de este contraste, supongamos que tenemos k muestras representadas en
una tabla como sigue:
169
Niveles Observaciones de X
Nivel x11 x12 x1n1
Nivel x21 x22 x2n2
... ...
Nivel xk1 xk2 xknk
El número total de elementos en todas las muestras es:
La hipótesis a contrastar es:
El modo de realizar el contraste es el siguiente:
Se ordenan las observaciones de menor a mayor, asignando a cada una de ellas su
rango (1 para la menor, 2 para la siguiente, ..., N para la mayor).
Para cada una de las muestras, se calcula Ri, , como la suma de los
rangos de las observaciones que les corresponden. Si H0 es falsa, cabe esperar que
esas cantidades sean muy diferentes.
Se calcula el estadístico:
La regla para decidir si se ha de rechazar o no la hipótesis nula es la siguiente:
Si el número de muestras es k=3 y el número de observaciones en cada una de ellas
no pasa de 5 se rechaza H0 si el valor de H supera el valor teórico que encontramos
en la tabla de Kruskall-Wallis.
En cualquier otro caso, se compara el valor de H con el de la tabla de la con
k-1 grados de libertad. Se rechaza H0 si el valor del estadístico supera el valor
teórico .
170
Tablas de Contingencia
Las tablas de contingencia (formas tabulares de presentar datos
categorizados) son útiles para el análisis simultáneo de dos o más variables
categorizadas.
Una variable categorizada es aquella en la cual la escala de medida consiste en un conjunto
de categorías, por ejemplo la variable tipo de vivienda puede ser categorizada de acuerdo a
las siguientes dos categorías rural y urbana.
Para analizar e interpretar apropiadamente tablas de contingencia es necesario
tener en cuenta la escala de medida de las variables involucradas y el tipo
de estudio (aleatorización) usado para obtener los datos. Comúnmente, las hipótesis
de interés en tablas de contingencia se refieren a la asociación entre las variables
que definen las filas y las columnas de la tabla.
Las variables categorizadas con niveles que no tienen un ordenamiento
natural se denominan nominales (por ejemplo, afiliación política con
categorías liberal y conservador). Un caso particular es aquel de las variables
binarias las cuales involucran 2 categorías de variables nominales, por ejemplo, si y
no, respuesta y no respuesta.
Si los niveles se encuentran ordenados la variable se denomina ordinal; por
ejemplo, grado de infección categorizada como leve, moderada y severa. Si
bien las categorías pueden ser ordenadas, a diferencia de las variables
cuantitativas las distancias absolutas entre categorías son desconocidas.
En algunas situaciones las tablas pueden ser construidas con variables medidas en
una escala de intervalos, esta escala implica que se conoce la distancia
numérica entre dos niveles cualesquiera de la escala (por ejemplo, intervalos de la
variable edad).
Las variables que constituyen la tabla pueden ser consideradas como variables de
respuesta o como variables de clasificación.
Las primeras, también llamadas variables dependientes, son aleatorias y
describen lo que fue observado en las unidades muestrales.
Las segundas, también llamadas variables independientes o factores, son
fijas por condicionamiento y las combinaciones de sus niveles definen
estratos, poblaciones o subpoblaciones a las cuales las unidades muestrales
pertenecen.
Cuando todas las variables de la tabla son de respuesta generalmente se
analiza la asociación entre ellas.
Cuando algunas son respuesta y otras de clasificación, en general se estudian los
efectos de las variables de clasificación sobre la distribución de las variables
de respuesta.
Si denotamos por X a una variable categorizada con I categorías o niveles y por Y a
otra variable con J niveles, para clasificar sujetos sobre ambas variables existirán
I×J combinaciones de clasificación.
Los pares (X,Y) asociados a cada sujeto seleccionados aleatoriamente desde una
población tienen una distribución de probabilidad. La distribución se presenta en
una tabla con I filas y J columnas.
La probabilidad asociada al evento IJ, en general denotada por ij representa la
probabilidad de que la variable X asuma la categoría I y la variable Y asuma la
categoría J.
171
El conjunto de los valores ij forman la distribución conjunta de ambas
variables.
El conjunto de los valores ij (total de las probabilidades conjuntas de la fila i) para
i=1, ..., I, forma la distribución marginal de las filas de la tabla.
Equivalentemente se puede obtener la distribución marginal de las columnas.
Cuando una variable (digamos, Y) es considerada como variable respuesta y la
otra (digamos, X) como variables explicativa, es informativo identificar las
distribuciones de probabilidad de la respuesta para cada nivel de X, entiéndase la
distribución condicional de Y dado X.
La noción de independencia es comúnmente utilizada en tablas de
contingencia.
Dos variables (X e Y) son estadísticamente independientes si las distribuciones
condicionales de Y son idénticas para todos los niveles de X.
Cuando ambas variables son consideradas como variables respuesta es indistinto
observar la distribución condicional de Y dado X o la distribución
condicional de X dado Y.
Las tablas de contingencia pueden ser utilizadas para visualizar resultados
obtenidos de distintos tipos de estudios:
1) estudios experimentales, aquellos donde el investigador tiene control
sobre el grupo de sujetos; es decir, decide bajo que condiciones va a ser
observado cada sujeto. Estos estudios son de tipo prospectivo y en el
campo biomédico se conocen como ensayos clínicos (clinical trials);
2) estudios observacionales, los cuales pueden ser retrospectivos (caso-
control) o prospectivos (cohortes, cross-sectional o transversales).
En el tipo caso-control se investiga el pasado seleccionando arbitrariamente un
grupo de sujetos que tienen la característica en estudio (casos) y otro grupo de
sujetos que no la tienen para ser usados como referencia (control).
Esta selección arbitraria impide realizar ciertas inferencias sobre Y. La
distribución marginal de Y está determinada por el muestreo y no
necesariamente responde a las características de la población.
En el tipo cohorte o transversales se parte de una muestra aleatoria de sujetos los
cuales son clasificados en una de las celdas ij de la tabla, simultáneamente, según
corresponda. Los totales marginales son de tal manera aleatorios (no fijados por el
experimentador).
Así, el diseño del estudio implica un tipo de muestreo particular el cual deberá ser
tenido en cuenta a la hora de interpretar los estadísticos obtenidos de la tabla
de contingencia.
Típicamente para tablas 2×2, entiéndase I=2 J=2, se identifican los siguientes
muestreos:
1) muestreo Poisson, cada celda es una variable Poisson independiente, derivado de
estudios transversales donde el muestreo es aleatorio y el número total de
individuos (n) no es fijo;
2) muestreo binomial, cada fila de la tabla define diferentes grupos y los tamaños
muestrales de la fila son fijados por el diseño (existe condicionamiento),
comúnmente se necesita analizar las distribuciones condicionales a las filas
las cuales se modelan con una distribución binomial para tablas 2×2 (en
caso de tablas con J>2 se utiliza el modelo multinomial para cada fila);
3) muestreo multinomial, los conteos de las celdas son multinomiales, el
tamaño muestral total es fijo pero no se fijan los totales de filas ni de
columnas;
172
4) con n y marginales fijos la distribución de valores por celda puede
aproximarse a una distribución hipergeométrica.
Ejemplo 1
la siguiente tabla corresponde a un ensayo experimental donde se estudia la
respuesta “severidad de la infección” producida por una plaga en 3
subpoblaciones del cultivo de maní, cada una correspondiente a distintos
sistemas de manejo (distintas rotaciones de cultivos). Archivo Severidad.
Para declarar las variables de este ejemplo se deberán indicar como Criterios
de clasificación a las columnas ―Severidad‖ y ―Rotación‖.
La variable ―Frec‖ debe ingresarse en la subventana Frecuencias.
Al Aceptar, en la solapa Selección de filas y columnas se deberá indicar que
―Rotación‖ define las filas y ―Severidad‖ las columnas de la tabla.
Tablas de contingencia
Frecuencias: Frec
Frecuencias absolutas
En columnas:Severidad
Rotación alta baja moderada Total
mani/maiz 118 199 184 501
mani/mani 227 152 167 546
mani/sorgo 138 205 174 517
Total 483 556 525 1564
Estadístico Valor gl p
Chi Cuadrado Pearson 48.84 4 <0.0001
Chi Cuadrado MV-G2 48.33 4 <0.0001
Coef.Conting.Cramer 0.10
Coef.Conting.Pearson 0.17
Ejemplo 2
vamos a plantear otro ejemplo con 3 dimensiones, en la que se estudia la
proporción de mujeres admitidas en una determinada Universidad frente a la
proporción de hombres:
Datos tomados del libro de Powers y Xie, correspondientes a un estudio realizado
en la Universidad de California-Berkeley (Bickel et al. 1975; Freedman, Pisani,
and Purves 1978)
En base a estos datos se plantea una demanda a la citada Universidad acusándola
de sexista en las pruebas de admisión, que parecen favorecer claramente a los
hombres. Sin embargo los responsables de la Universidad presentaron los datos
distribuidos por facultades (vamos a denominar a las diferentes facultades de forma
genérica con las letras A hasta F):
173
Se puede ver que apenas hay diferencias en las tasas de admisión, salvo en la
facultad A ¡donde el porcentaje de hombres admitidos es del 62% y el de mujeres
es del 82%!
Tenemos aquí un ejemplo claro de cómo la asociación entre dos variables
cualitativas resulta ser espuria cuando se considera los valores de una tercera
variable, situación que se conoce como Paradoja de Simpson y que también se
puede dar en variables cuantitativas.
Ejemplo 3
En la siguiente figura se presenta un ejemplo de tabla de contigencia para dos
variables: en las filas se encuentra la variable ESTUDIOS, clasificada según tres
categorías, y en las columnas representamos la variable HTA, según la clasificación
propuesta en el documento The VI Report of the JNC on Prevention, Detection,
Evaluation and Treatement of High Blood Pressure. Los datos corresponden a un
conjunto de pacientes diabéticos.
Los niveles de HTA II a IV se han agrupado en una sola categoría.
Como se mencionó anteriormente, en este tipo de tablas habitualmente se desea
conocer si existe asociación entre las dos variables, o si por el contrario se pueden
considerar independientes.
Dicho de otra forma: queremos saber si la proporción de casos para cada categoría
de una de las variables es independiente del valor que toma la otra variable.
En la tabla del ejemplo nos interesa saber si la proporción de sujetos en cada una de
las categorías de la variable HTA es diferente según el nivel de estudios o si, por el
contrario, se pueden considerar independientes.
174
El razonamiento para contrastar si existe o no asociación entre dos variables
cualitativas se basa en calcular cuál serían los valores de frecuencia esperados para
cada una de las celdas en el caso de que efectivamente las variables fuesen
independientes, y compararlos con los valores realmente observados.
Si no existe mucha diferencia entre ambos, no hay razones para dudar de que las
variables sean independientes.
En el ejemplo, la proporción de pacientes con HTA nivel I en nuestra muestra es
275 / 821 = 33.5%
Si las variables son independientes esta proporción debiera mantenerse (al menos
de forma aproximada) en cada nivel de estudios. Así como tenemos 167 pacientes
con estudios de 2º o 3º grado, el número de casos esperado con HTA nivel I es
167 x 0.335 = 55.9
mientras que el valor observado es sólo 35.
Si se calcula el valor del chi² obtenemos 35.6, que con 8 grados de libertad
corresponde a un valor de probabilidad de 0.00002, lo que indica que los datos
obtenidos están en clara contradicción con la hipótesis de independencia y debemos
por lo tanto concluir, a partir de la evidencia de nuestros datos, que existe
asociación entre el grado de HTA y el nivel de estudios de los pacientes.
El contraste estadístico más utilizado para evaluar si las diferencias entre las
frecuencias observadas y las esperadas pueden atribuirse al azar, bajo la hipótesis
de independencia, es el denominado chi² de Pearson:
donde Fij representa la frecuencia esperada para la celda situada en la fila i columna
j, y fij representa la frecuencia efectivamente observada para esa celda. En la
hipótesis de independencia este estadístico se distribuye de forma aproximada
según una chi² con grados de libertad (I-1)(J-1), siendo I el número de filas y J el
número de columnas.
175
Diseño de Experimentos Este parte del documento trata de dar una visión muy simplificada de la utilidad y la
utilización del Diseño de Experimentos. En él se explican los conceptos clave de esta
herramienta como aleatorización, ruido o error experimental, análisis de varianza, etc., y se
detalla el proceso de diseño, realización y análisis de Experimentos que contemplan una
única variable independiente.
Concepto, Objetivo e Importancia
La investigación científica consiste en la búsqueda permanente de la verdad mediante
métodos objetivos, adecuados y precisos. La experimentación es un método científico de
investigación que consiste en hacer operaciones y prácticas destinadas a demostrar,
comprobar o descubrir fenómenos o principios básicos.
La experimentación en el área de las ciencias agropecuarias, en particular, comprende las
pruebas, ensayos, observaciones, análisis o estudio práctico de todo aquello que interesa a
los fenómenos que ocurren en la naturaleza. Se considera un experimento probar con la
práctica una hipótesis formulada (por ejemplo ensayo de rendimiento de cuatro variedades
de Buffel grass). Se considera una investigación cuando se estudia la causa y el efecto (por
ejemplo, determinación del tamaño de la parcela más eficaz para ensayar variedades de
Buffel). En un experimento se observan únicamente los efectos y es de aplicación práctica
inmediata, ya sea para el científico o para la comunidad. Por su parte, una investigación es
de aplicación mediata y puede ser evolucionista, o sea, puede conducir a idear nuevas
técnicas o a modificar las existentes. Comúnmente ambos términos se confunden y son
inseparables.
La experimentación en el área de las ciencias agropecuarias se puede considerar como un
ARTE y como una CIENCIA.
COMO ARTE:
Por la habilidad necesaria para ingeniar, planear o aplicar un conjunto de técnicas a fin de
eliminar causas extrañas y realizar experimentos de campo y de laboratorio o de
invernadero.
COMO CIENCIA:
Por la aplicación del método científico y un conjunto de conocimientos científicos para el
desarrollo de tecnologías que permitan forman nuevos tipos de plantas o animales, nuevas
prácticas agropecuarias que conduzcan al incremento de mayor producción.
El método científico consiste en la búsqueda de hechos, la formulación de hipótesis y la
obtención de principios y leyes que rigen tales hechos. Comprende dos pasos importantes.
a) MÉTODO INDUCTIVO: Mediante éste, se buscan hechos a través de la
observación y la experimentación.
b) MÉTODO DEDUCTIVO: Consiste en clasificar y ordenar los hechos por medio de
una relación. Si ésta es contaste de manera que se pueda predecir un hecho y
confirmarlo mediante la experimentación, puede ser general y formarse un
postulado básico o una ley.
176
La aplicación del método científico ha conducido al descubrimiento de leyes que rigen el
proceso biológico; por ejemplo, Gregorio Mendel formuló sus hipótesis, relativas a la
herencia biológica, después de efectuar una serie de observaciones y experimentos; así
encontró las relaciones conocidas.
Los experimentos que se realizan frecuentemente en agronomía son:
a) Ensayos comparativos entre variedades, líneas, cruzamientos y descendencia.
b) Observaciones y pruebas con fertilizantes, raciones, insecticidas, fungicidas y
herbicidas.
c) Estudios de prácticas culturales, como rotación de cultivos, manejo de pastizales,
riegos, densidades de siembra, preparación del suelo, etc.
Lo anteriormente expuesto revela la importancia de la experimentación agropecuaria, la
cual se puede apreciar en los aspectos científico, social y económico.
Los países que desarrollan programas de investigación y experimentación han
incrementado la producción por unidad de superficie, lo cual ha originado un aumento en
la producción global, ya que una mayor producción unitaria estimula a sembrar mayor
superficie por mayor número de agricultores. Esto origina un desarrollo económico en
diversas actividades humanas y un mejor bienestar social.
Necesidad de realizar la Experimentación y la Investigación
El desarrollo agrícola de países avanzados se basa en la investigación de las diversas
ciencias de la agronomía, empleando como método la experimentación. Cualquier
variedad o nueva modalidad en las técnicas de cultivo, al introducirse a un nuevo país o
región, necesita de la experimentación para poderse adaptar y divulgar entre los
agricultores. Esto se debe a que las condiciones de clima y suelo varían de una región a
otra, de una estación a otra o de un año a otro.
Etapas fundamentales de la Experimentación Agropecuaria
Las etapas sucesivas en todo trabajo de investigación se pueden resumir en las siguientes:
1) Especificación del problema:
a. Antecedente
b. Importancia
c. Objetivos
d. Números de los tratamientos
2) Revisión de bibliografía respectiva
3) Planteamiento (o diseño) del experimento (material y métodos):
a. Lugar de la experiencia
b. Tamaño de la parcela experimental o unidad experimental
c. Número de repeticiones por tratamiento
d. Distribución de los tratamientos
e. Instrumentos, equipo, semillas, etc
f. Métodos de evaluación de resultados experimentales (pruebas de hipótesis,
niveles de significación)
4) Ejecución y desarrollo de las operaciones en el campo o en el laboratorio.
5) Recolección de datos y observaciones, muestreo, etc.
6) Ordenamiento de los resultados experimentales.
177
7) Interpretación y evaluación de resultados.
8) Discusión de los resultados en relación con los conocimientos vertidos
anteriormente, con los principios del razonamiento riguroso, o con resultados obtenidos
en otros experimentos similares realizados en diferente lugar y tiempo.
9) Análisis económico y su utilidad práctica como contribución a la comunidad.
10) Conclusiones.
El Método Científico
El método científico ha sido definido como una aplicación de la lógica y la objetividad
para el entendimiento de los fenómenos naturales. Para éste, es esencial el estudio de lo
que ya se conoce; a partir de este conocimiento se formulan las hipótesis, las cuales se
ponen a prueba partiendo por lo general de situaciones experimentales, siendo ésta la parte
crucial de todo el proceso ya que cualquier pregunta donde sus respuestas no pueden
obtenerse a partir de la investigación no puede aceptarse como parte del método científico.
El método científico no es estático, es de naturaleza circulante. De acuerdo con
Kempthorne (1952), la primera etapa es la observación del fenómeno en estudio, donde se
colectan los elementos básicos en términos abstractos a partir de los cuales, se establecen
las bases lógicas de una teoría, siendo ésta la segunda etapa del método. En la tercera
etapa, se lleva a cabo el desarrollo propiamente dicho de esta teoría, de tal forma que en la
cuarta etapa se puede llegar a la predicción de eventos futuros. Una vez termina este ciclo,
el proceso vuelve a repetirse, consolidando los fundamentos teóricos, buscando siempre
una mayor precisión en la etapa de la predicción. En este sentido, la estadística juega un
papel importante en la fundamentación del método científico, donde de acuerdo con
Cramer (1960), tiene tres funciones fundamentales que son la descripción, el análisis y la
predicción. En la investigación científica, es común la formulación de la hipótesis, la cual
para su aprobación o rechazo, debe estar sustentada por un conjunto de observaciones, las
cuales deben seleccionarse a través de un patrón bien definido. Este patrón se conoce como
diseño experimental.
Se deben destacar dos aspectos esenciales en el método científico:
i. Examen crítico de resultados experimentales previos basados en el
conocimiento corriente, con el fin de formular nuevas hipótesis para ser
probadas por medio de la experimentación, y
ii. Diseño de experimentos recomendados por el estudio experimental del
problema con el propósito de proveer mayor información para posibles
soluciones.
Estos dos aspectos implican una naturaleza interactiva para la experimentación práctica.
Box (1957) ha establecido cuatro etapas básicas, estas son:
1. Conjeturas, donde las investigaciones experimentales de resultados iniciales son
tenidas en cuenta para plantear nuevas hipótesis a ser probadas.
2. Diseño del experimento donde algunas formas para probar una nueva hipótesis son
desarrolladas.
3. Desarrollo del experimento y,
4. Análisis, donde los datos experimentales son cuidadosamente examinados para
determinar que evidencia tienen en relación con la hipótesis de estudio.
178
Una vez que se ha alcanzado la última etapa, el ciclo comienza nuevamente con la
formulación de nuevas hipótesis. De esta manera, conceptos originales son modificados y
un mejor entendimiento del problema y sus posibles soluciones lentamente van
evolucionando.
Las principales contribuciones estadísticas a este proceso iterativo ocurren en el diseño de
experimentos y en el análisis de los datos. Este es el propósito del análisis, proveer una
explicación razonable a la evidencia experimental, para determinar cuales hipótesis están
en contradicción con la evidencia, para proveer estimaciones de parámetros poblacionales,
para indicar el nivel de confianza que puede asignarse a cualquier conclusión alcanzada y
estimular el proceso de conjetura por parte del experimentador. Esto no podría ser
realizado a menos que un diseño de experimentos valido haya sido usado.
Es una función del diseño experimental estadístico, proveer los patrones de observación
para ser recolectados con el fin de obtener estimaciones más precisas y/o para tener la
capacidad de probar las distintas hipótesis con una potencia de discriminación máxima.
Modelos
Los modelos de ―Diseño de experimentos‖ son modelos estadísticos clásicos cuyo objetivo
es averiguar si unos determinados factores influyen en la variable de interés y, si existe
influencia de algún factor, cuantificarla. Ejemplos donde habría que utilizar estos modelos
son los siguientes:
En el rendimiento de un determinado tipo de máquinas (unidades producidas por
día) se desea estudiar la influencia del trabajador que la maneja y la marca de la máquina.
Se quiere estudiar la influencia del tipo de pila eléctrica y de la marca en la
duración de las pilas.
Una compañía telefónica está interesada en conocer la influencia de varios factores
en la variable de interés ―la duración de una llamada telefónica‖. Los factores que se
consideran son los siguientes: hora a la que se produce la llamada; día de la semana en que
se realiza la llamada; zona de la ciudad desde la que se hace la llamada; sexo del que
realiza la llamada; tipo de teléfono (público o privado) desde el que se realiza la llamada.
Una compañía de software está interesada en estudiar la variable ―porcentaje que se
comprime un fichero al utilizar un programa que comprime ficheros‖ teniendo en cuenta el
tipo de programa utilizado y el tipo de fichero que se comprime.
Se quiere estudiar el rendimiento de los alumnos en una asignatura y, para ello, se
desean controlar diferentes factores: profesor que imparte la asignatura; método de
enseñanza; sexo del alumno.
La metodología del diseño de experimentos se basa en la experimentación. Es conocido
que si se repite un experimento, en condiciones indistinguibles, los resultados presentan
variabilidad que puede ser grande o pequeña. Si la experimentación se realiza en un
laboratorio donde la mayoría de las causas de variabilidad están muy controladas, el error
experimental será pequeño y habrá poca variación en los resultados del experimento. Pero
si se experimenta en procesos industriales, administrativos, ... la variabilidad es grande en
la mayoría de los casos.
El objetivo del diseño de experimentos es estudiar si utilizar un determinado tratamiento
produce una mejora en el proceso o no. Para ello se debe experimentar utilizando el
tratamiento y no utilizándolo. Si la variabilidad experimental es grande, sólo se detectará la
influencia del uso del tratamiento cuando éste produzca grandes cambios en relación con el
error de observación.
179
La metodología del Diseño de Experimentos estudia cómo variar las condiciones
habituales de realización de un proceso empírico para aumentar la probabilidad de detectar
cambios significativos en la respuesta, de esta forma se obtiene un mayor conocimiento del
comportamiento del proceso de interés.
Para que la metodología de diseño de experimentos sea eficaz es fundamental que el
experimento esté bien diseñado.
Un experimento se realiza por alguno de los siguientes motivos:
Determinar las principales causas de variación en la respuesta.
Encontrar las condiciones experimentales con las que se consigue un valor extremo
en la variable de interés o respuesta.
Comparar las respuestas en diferentes niveles de observación de variables
controladas.
Obtener un modelo estadístico-matemático que permita hacer predicciones de
respuestas futuras.
La utilización de los modelos de diseño de experimentos se basa en la experimentación y
en el análisis de los resultados que se obtienen en un experimento bien planificado. En
muy pocas ocasiones es posible utilizar estos métodos a partir de datos disponibles o datos
históricos, aunque también se puede aprender de los estudios realizados a partir de datos
recogidos por observación, de forma aleatoria y no planificada. En el análisis estadístico de
datos históricos se pueden cometer diferentes errores, los más comunes son los siguientes:
o Inconsistencia de los datos. Los procesos cambian con el tiempo, se producen cambios
en el personal (cambios de personas, mejoras del personal por procesos de aprendizaje,
motivación...), cambios en las máquinas (reposiciones, reparaciones,
envejecimiento...). Estos cambios tienen influencia en los datos recogidos, lo que hace
que los datos históricos sean poco fiables, sobre todo si se han recogido en un amplio
espacio de tiempo.
o Variables con fuerte correlación. Puede ocurrir que en el proceso existan dos o más
variables altamente correlacionadas que pueden llevar a situaciones confusas. Por
ejemplo, en el proceso hay dos variables X1 y X2 fuertemente correlacionadas que
influyen en la respuesta, pero si en los datos que se tiene aumenta al mismo tiempo el
valor de las dos variables no es posible distinguir si la influencia es debida a una u otra
o a ambas variables (confusión de los efectos). Otra situación problemática se presenta
si solo se dispone de datos de una variable (por ejemplo de X1 y no de X2), lo que
puede llevar a pensar que la variable influyente es la X1 cuando, en realidad, la
variable influyente es la X2 (variable oculta).
o El rango de las variables controladas es limitado. Si el rango de una de las variables
importantes e influyentes en el proceso es pequeño, no se puede saber su influencia
fuera de ese rango y puede quedar oculta su relación con la variable de interés o lo
cambios que se producen en la relación fuera del rango observado. Esto suele ocurrir
cuando se utilizan los datos recogidos al trabajar el proceso en condiciones normales y
180
no se experimenta (cambiando las condiciones de funcionamiento) para observar el
comportamiento del proceso en situaciones nuevas.
Tipos de variabilidad.
Uno de los principales objetivos de los modelos estadísticos y, en particular, de los
modelos de diseño de experimentos, es controlar la variabilidad de un proceso estocástico
que puede tener diferente origen. De hecho, los resultados de cualquier experimento están
sometidos a tres tipos de variabilidad cuyas características son las siguientes:
Variabilidad sistemática y planificada.
Esta variabilidad viene originada por la posible dispersión de los resultados debida a
diferencias sistemáticas entre las distintas condiciones experimentales impuestas en el
diseño por expreso deseo del experimentador. Es el tipo de variabilidad que se intenta
identificar con el diseño estadístico.
Cuando este tipo de variabilidad está presente y tiene un tamaño importante, se espera que
las respuestas tiendan a agruparse formando grupos (clusters).
Es deseable que exista esta variabilidad y que sea identificada y cuantificada por el
modelo.
Variabilidad típica de la naturaleza del problema y del experimento.
Es la variabilidad debida al ruido aleatorio. Este término incluye, entre otros, a la
componente de variabilidad no planificada denominada error de medida. Es una
variabilidad impredecible e inevitable.
Esta variabilidad es la causante de que si en un laboratorio se toman medidas repetidas de
un mismo objeto ocurra que, en muchos casos, la segunda medida no sea igual a la
primera y, más aún, no se puede predecir sin error el valor de la tercera. Sin embargo, bajo
el aparente caos, existe un patrón regular de comportamiento en esas medidas: todas ellas
tenderán a fluctuar en torno a un valor central y siguiendo un modelo de probabilidad que
será importante estimar.
Esta variabilidad es inevitable pero, si el experimento ha sido bien planificado, es posible
estimar (medir) su valor, lo que es de gran importancia para obtener conclusiones y poder
hacer predicciones.
Es una variabilidad que va a estar siempre presente pero que es tolerable.
Variabilidad sistemática y no planificada.
Esta variabilidad produce una variación sistemática en los resultados y es debida a causas
desconocidas y no planificadas. En otras palabras, los resultados están siendo sesgados
sistemáticamente por causas desconocidas. La presencia de esta variabilidad supone la
principal causa de conclusiones erróneas y estudios incorrectos al ajustar un modelo
estadístico.
Como se estudiará posteriormente, existen dos estrategias básicas para tratar de evitar la
presencia de este tipo de variabilidad: la aleatorización y la técnica de bloques.
181
Este tipo de variabilidad debe de intentar evitarse y su presencia lleva a conclusiones
erróneas.
Planificación de un experimento
La experimentación forma parte natural de la mayoría de las investigaciones científicas e
industriales, en muchas de las cuales, los resultados del proceso de interés se ven afectados
por la presencia de distintos factores, cuya influencia puede estar oculta por la variabilidad
de los resultados muestrales. Es fundamental conocer los factores que influyen realmente y
estimar esta influencia. Para conseguir esto es necesario experimentar, variar las
condiciones que afectan a las unidades experimentales y observar la variable respuesta.
Del análisis y estudio de la información recogida se obtienen las conclusiones.
La forma tradicional que se utilizaba en la experimentación, para el estudio de estos
problemas, se basaba en estudiar los factores uno a uno, esto es, variar los niveles de un
factor permaneciendo fijos los demás. Esta metodología presenta grandes inconvenientes:
Es necesario un gran número de pruebas.
Las conclusiones obtenidas en el estudio de cada factor tiene un campo de validez
muy restringido.
No es posible estudiar la existencia de interacción entre los factores.
Es inviable, en muchos casos, por problemas de tiempo o costo.
Las técnicas de diseño de experimentos se basan en estudiar simultáneamente los efectos
de todos los factores de interés, son más eficaces y proporcionan mejores resultados con un
menor coste.
A continuación se enumeran las etapas que deben seguirse para una correcta planificación
de un diseño experimental, etapas que deben ser ejecutadas de forma secuencial. También
se introducen algunos conceptos básicos en el estudio de los modelos de diseño de
experimentos.
Las etapas a seguir en el desarrollo de un problema de diseño de experimentos son las
siguientes:
1) Definir los objetivos del experimento.
2) Identificar todas las posibles fuentes de variación, incluyendo:
a. factores tratamiento y sus niveles,
b. unidades experimentales,
c. factores nuisance (molestos): factores bloque, factores ruido y covariables.
3) Elegir una regla de asignación de las unidades experimentales a las condiciones de
estudio (tratamientos).
4) Especificar las medidas con que se trabajará (la respuesta), el procedimiento
experimental y anticiparse a las posibles dificultades.
182
5) Ejecutar un experimento piloto.
6) Especificar el modelo.
7) Esquematizar los pasos del análisis.
8) Determinar el tamaño muestral.
9) Revisar las decisiones anteriores. Modificarlas si se considera necesario.
Los pasos del listado anterior no son independientes y en un determinado momento puede
ser necesario volver atrás y modificar decisiones tomadas en algún paso previo.
A continuación se hace una breve descripción de las decisiones que hay que tomar en cada
uno de los pasos enumerados. Sólo después de haber tomado estas decisiones se procederá
a realizar el experimento.
1.- Definir los objetivos del experimento.
Se debe hacer una lista completa de las preguntas concretas a las que debe dar respuesta el
experimento. Es importante indicar solamente cuestiones fundamentales ya que tratar de
abordar problemas colaterales puede complicar innecesariamente el experimento.
Una vez elaborada la lista de objetivos, puede ser útil esquematizar el tipo de conclusiones
que se espera obtener en el posterior análisis de datos.
Normalmente la lista de objetivos es refinada a medida que se van ejecutando las etapas
del diseño de experimentos.
2.- Identificar todas las posibles fuentes de variación.
Una fuente de variación es cualquier ―cosa‖ que pueda generar variabilidad en la
respuesta. Es recomendable hacer una lista de todas las posibles fuentes de variación del
problema, distinguiendo aquellas que, a priori, generarán una mayor variabilidad. Se
distinguen dos tipos:
- Factores tratamiento: son aquellas fuentes cuyo efecto sobre la respuesta es de
particular interés para el experimentador.
- Factores ―nuisance‖: son aquellas fuentes que no son de interés directo pero que se
contemplan en el diseño para reducir la variabilidad no planificada.
A continuación se precisan más estos importantes conceptos.
1) Factores y sus niveles.
Se denomina factor tratamiento a cualquier variable de interés para el experimentador
cuyo posible efecto sobre la respuesta se quiere estudiar.
Los niveles de un factor tratamiento son los tipos o grados específicos del factor que se
tendrán en cuenta en la realización del experimento.
Los factores tratamiento pueden ser cualitativos o cuantitativos.
Ejemplos de factores cualitativos y sus niveles respectivos son los siguientes:
— proveedor (diferentes proveedores de una materia prima),
— tipo de máquina (diferentes tipos o marcas de máquinas),
— trabajador (los trabajadores encargados de hacer una tarea),
183
— tipo de procesador (los procesadores de los que se quiere comparar su velocidad de
ejecución),
— un aditivo químico (diferentes tipos de aditivos químicos),
— el sexo (hombre y mujer),
— un método de enseñanza (un número determinado de métodos de enseñanza cuyos
resultados se quieren comparar).
Ejemplos de factores cuantitativos son los siguientes:
— tamaño de memoria (diferentes tamaños de memoria de ordenadores),
— droga (distintas cantidades de la droga),
— la temperatura (conjuntos de temperaturas seleccionadas en unos rangos de interés).
Debe tenerse en cuenta que en el tratamiento matemático de los modelos de diseño de
experimento los factores cuantitativos son tratados como cualitativos y sus niveles son
elegidos equiespaciados o se codifican. Por lo general, un factor no suele tener más de
cuatro niveles.
Cuando en un experimento se trabaja con más de un factor, se denomina:
Tratamiento a cada una de las combinaciones de niveles de los distintos factores.
Observación es una medida en las condiciones determinadas por uno de los
tratamientos.
Experimento factorial es el diseño de experimentos en que existen observaciones de
todos los posibles tratamientos.
2) Unidades experimentales.
Son el material donde evaluar la variable respuesta y al que se le aplican los distintos
niveles de los factores tratamiento.
Ejemplos de unidades experimentales son:
— en informática, ordenadores, páginas web, buscadores de internet,
— en agricultura, parcelas de tierra,
— en medicina, individuos humanos u animales,
— en industria, lotes de material, trabajadores, máquinas.
184
Cuando un experimento se ejecuta sobre un período de tiempo de modo que las
observaciones se recogen secuencialmente en instantes de tiempo determinados, entonces
los propios instantes de tiempo pueden considerarse unidades experimentales.
Es muy importante que las unidades experimentales sean representativas de la población
sobre la que se han fijado los objetivos del estudio. Por ejemplo, si se utilizan los
estudiantes universitarios de un país como unidades experimentales, las conclusiones del
experimento no son extrapolables a toda la población adulta del país.
3) Factores “nuisance”: bloques, factores ruido y covariables.
En cualquier experimento, además de los factores tratamiento cuyo efecto sobre la
respuesta se quiere evaluar, también influyen otros factores, de escaso interés en el estudio,
pero cuya influencia sobre la respuesta puede aumentar significativamente la variabilidad
no planificada. Con el fin de controlar esta influencia pueden incluirse en el diseño nuevos
factores que, atendiendo a su naturaleza, pueden ser de diversos tipos.
Factor bloque. En algunos casos el factor nuisance puede ser fijado en distintos niveles,
de modo que es posible controlar su efecto a esos niveles. Entonces la forma de actuar es
mantener constante el nivel del factor para un grupo de unidades experimentales, se
cambia a otro nivel para otro grupo y así sucesivamente. Estos factores se denominan
factores de bloqueo (factores-bloque) y las unidades experimentales evaluadas en un
mismo nivel del bloqueo se dice que pertenecen al mismo bloque. Incluso cuando el factor
nuisance no es medible, a veces es posible agrupar las unidades experimentales en bloques
de unidades similares: parcelas de tierra contiguas o períodos de tiempo próximos
probablemente conduzcan a unidades experimentales más parecidas que parcelas o
períodos distantes.
Desde un punto de vista matemático el tratamiento que se hace de los factores-
bloque es el mismo que el de los factores-tratamiento en los que no hay interacción, pero
su concepto dentro del modelo de diseño de experimentos es diferente. Un factor-
tratamiento es un factor en el que se está interesado en conocer su influencia en la variable
respuesta y un factor-bloque es un factor en el que no se está interesado en conocer su
influencia pero se incorpora al diseño del experimento para disminuir la variabilidad
residuas del modelo.
Covariable. Si el factor nuisance es una propiedad cuantitativa de las unidades
experimentales que puede ser medida antes de realizar el experimento (el tamaño de un
fichero informático, la presión sanguínea de un paciente en un experimento médico o la
acidez de una parcela de tierra en un experimento agrícola). El factor se denomina
covariable y juega un papel importante en el análisis estadístico.
Ruido. Si el experimentador está interesado en la variabilidad de la respuesta cuando se
modifican las condiciones experimentales, entonces los factores nuisance son incluidos
deliberadamente en el experimento y no se aisla su efecto por medio de bloques. Se habla
entonces de factores ruido.
185
En resumen, las posibles fuentes de variación de un experimento son:
Fuente Tipo
Debida a las condiciones de interés
(Factores tratamiento)
Planificada y sistemática
Debida al resto de condiciones
controladas
(Factores ―nuisance‖)
Planificada y sistemática
Debida a condiciones no controladas
(error de medida, material
experimental, ... )
No planificada, pero ¿sistemática?
3.- Elegir una regla de asignación de las unidades experimentales a las condiciones de
estudio (―tratamientos‖).
La regla de asignación o diseño experimental especifica que unidades experimentales se
observarán bajo cada tratamiento. Hay diferentes posibilidades:
— diseño factorial o no,
— anidamiento,
— asignación al azar en determinados niveles de observación,
— el orden de asignación, etc.
En la práctica, existen una serie de diseños estándar que se utilizan en la mayoría de los
casos.
4.- Especificar las medidas que se realizarán (la ―respuesta‖), el procedimiento
experimental y anticiparse a las posibles dificultades.
Variable respuesta o variable de interés. Los datos que se recogen en un experimento son
medidas de una variable denominada variable respuesta o variable de interés.
Es importante precisar de antemano cuál es la variable respuesta y en qué unidades
se mide. Naturalmente, la respuesta está condicionada por los objetivos del experimento.
Por ejemplo, si se desea detectar una diferencia de 0,05 gramos en la respuesta de dos
tratamientos no es apropiado tomar medidas con una precisión próxima al gramo.
A menudo aparecen dificultades imprevistas en la toma de datos. Es conveniente
anticiparse a estos imprevistos pensando detenidamente en los problemas que se pueden
presentar o ejecutando un pequeño experimento piloto (etapa 5). Enumerar estos
problemas permite en ocasiones descubrir nuevas fuentes de variación o simplificar el
procedimiento experimental antes de comenzar.
También se debe especificar con claridad la forma en que se realizarán las
mediciones: instrumentos de medida, tiempo en el que se harán las mediciones, etc.
186
5.- Ejecutar un experimento piloto.
Un experimento piloto es un experimento que utiliza un número pequeño de
observaciones. El objetivo de su ejecución es ayudar a completar y chequear la lista de
acciones a realizar. Las ventajas que proporciona la realización de un pequeño
experimento piloto son las siguientes:
— permite practicar la técnica experimental elegida e identificar problemas no
esperados en el proceso de recogida de datos,
— si el experimento piloto tiene un tamaño suficientemente grande puede ayudar a
seleccionar un modelo adecuado al experimento principal,
— los errores experimentales observados en el experimento piloto pueden ayudar a
calcular el número de observaciones que se precisan en el experimento principal.
6.- Especificar el modelo.
El modelo matemático especificado debe indicar la relación que se supone que existe entre
la variable respuesta y las principales fuentes de variación identificadas en el paso 2. Es
fundamental que el modelo elegido se ajuste a la realidad con la mayor precisión posible.
El modelo más habitual es el modelo lineal:
ijijY
En este modelo la respuesta viene dada por una combinación lineal de términos que
representan las principales fuentes de variación planificada más un término residual debido
a las fuentes de variación no planificada. Los modelos que se estudian en este texto se
ajustan a esta forma general. El experimento piloto puede ayudar a comprobar si el modelo
se ajusta razonablemente bien a la realidad.
Los modelos de diseño de experimentos, según sean los factores incluidos en el
mismo, se pueden clasificar en: modelo de efectos fijos, modelo de efectos aleatorios y
modelos mixtos. A continuación se precisan estas definiciones.
Factor de efectos fijos es un factor en el que los niveles han sido seleccionados por el
experimentador. Es apropiado cuando el interés se centra en comparar el efecto sobre la
respuesta de esos niveles específicos.
Factor de efectos aleatorios es un factor del que sólo se incluyen en el experimento una
muestra aleatoria simple de todos los posibles niveles del mismo. Evidentemente se
utilizan estos factores cuando tienen un número muy grande de niveles y no es razonable o
posible trabajar con todos ellos. En este caso se está interesado en examinar la variabilidad
de la respuesta debida a la población entera de niveles del factor.
7.- Esquematizar los pasos del análisis estadístico.
El análisis estadístico a realizar depende de:
— los objetivos indicados en el paso 1,
187
— el diseño seleccionado en el paso 3,
— el modelo asociado que se especificó en el paso 5.
Se deben esquematizar los pasos del análisis a realizar que deben incluir:
— estimaciones que hay que calcular,
— contrastes a realizar,
— intervalos de confianza que se calcularán
— diagnosis y crítica del grado de ajuste del modelo a la realidad.
8.- Determinar el tamaño muestral.
Calcular el número de observaciones que se deben tomar para alcanzar los objetivos del
experimento.
Existen, dependiendo del modelo, algunas fórmulas para determinar este tamaño. Todas
ellas sin embargo requieren el conocimiento del tamaño de la variabilidad no planificada
(no sistemática y sistemática, si es el caso) y estimarlo a priori no es fácil, siendo
aconsejable sobreestimarla. Normalmente se estima a partir del experimento piloto y en
base a experiencias previas en trabajos con diseños experimentales semejantes.
9.- Revisar las decisiones anteriores. Modificar si es necesario.
De todas las etapas enumeradas, el proceso de recogida de datos suele ser la tarea que
mayor tiempo consume, pero es importante realizar una planificación previa, detallando
los pasos anteriores, lo que garantizará que los datos sean utilizados de la forma más
eficiente posible.
Es fundamental tener en cuenta que
―Ningún método de análisis estadístico, por sofisticado que sea, permite extraer
conclusiones correctas en un diseño de experimentos mal planificado‖.
Recíprocamente, debe quedar claro que el análisis estadístico es una etapa más que está
completamente integrado en el proceso de planificación.
―El análisis estadístico no es un segundo paso independiente de la tarea de planificación.
Es necesario comprender la totalidad de objetivos propuestos antes de comenzar con el
análisis. Si no se hace así, tratar que el experimento responda a otras cuestiones a
posteriori puede ser (lo será casi siempre) imposible‖.
Pero no sólo los objetivos están presentes al inicio del análisis sino también la
técnica experimental empleada. Una regla de oro en la experimentación y que debe
utilizarse es la siguiente:
―No invertir nunca todo el presupuesto en un primer conjunto de experimentos y
utilizar en su diseño toda la información previa disponible‖.
Finalmente indicar que todas las personas que trabajan en el experimento se deben
implicar en el mismo, esto es:
188
―Toda persona implicada en la ejecución del experimento y en la recolección de los
datos debe ser informada con precisión de la estrategia experimental diseñada‖.
Resumen de los principales conceptos.
Resumen de la terminología común utilizada en la teoría de los modelos de diseño de
experimentos:
Unidad experimental: son los objetos, individuos, intervalos de espacio o tiempo
sobre los que se experimenta.
Variable de interés o respuesta: es la variable que se desea estudiar y controlar su
variabilidad.
Factor: son las variables independientes que pueden influir en la variabilidad de la
variable de interés.
Factor tratamiento: es un factor del que interesa conocer su influencia en la
respuesta.
Factor bloque: es un factor en el que no se está interesado en conocer su influencia
en la respuesta pero se supone que ésta existe y se quiere controlar para disminuir
la variabilidad residual.
Niveles: cada uno de los resultados de un factor. Según sean elegidos por el
experimentador o elegidos al azar de una amplia población se denominan factores
de efectos fijos o factores de efectos aleatorios.
Tratamiento: es una combinación específica de los niveles de los factores en
estudio. Son, por tanto, las condiciones experimentales que se desean comparar en
el experimento. En un diseño con un único factor son los distintos niveles del factor
y en un diseño con varios factores son las distintas combinaciones de niveles de los
factores.
Observación experimental: es cada medición de la variable respuesta.
Tamaño del Experimento: es el número total de observaciones recogidas en el
diseño.
Interacción de factores: existe interacción entre dos factores FI y FJ si el efecto de
algún nivel de FI cambia al cambiar de nivel en FJ. Esta definición puede hacerse
de forma simétrica y se puede generalizar a interacciones de orden tres o superior.
Ortogonalidad de factores: dos factores FI y FJ con I y J niveles, respectivamente,
son ortogonales si en cada nivel i de FI el número de observaciones de los J niveles
de FJ están en las mismas proporciones. Esta propiedad permite separar los efectos
simples de los factores en estudio.
Diseño equilibrado o balanceado: es el diseño en el que todos los tratamientos son
asignados a un número igual de unidades experimentales.
Principios básicos en el diseño de experimentos.
Al planificar un experimento hay tres principios básicos que se deben tener siempre en
cuenta:
— El principio de aleatorización.
— El bloqueo.
— La factorización del diseño.
189
Los dos primeros (aleatorizar y bloquear) son estrategias eficientes para asignar los
tratamientos a las unidades experimentales sin preocuparse de qué tratamientos considerar.
Por el contrario, la factorización del diseño define una estrategia eficiente para elegir los
tratamientos sin considerar en absoluto como asignarlos después a las unidades
experimentales.
Aleatorizar
―Aleatorizar todos los factores no controlados por el experimentador en el diseño
experimental y que pueden influir en los resultados serán asignados al azar a las unidades
experimentales‖.
Ventajas de aleatorizar los factores no controlados:
• Transforma la variabilidad sistemática no planificada en variabilidad no planificada o
ruido aleatorio. Dicho de otra forma, aleatorizar previene contra la introducción de sesgos
en el experimento.
• Evita la dependencia entre observaciones al aleatorizar los instantes de recogida
muestral.
• Valida muchos de los procedimientos estadísticos más comunes.
Bloquear
―Se deben dividir o particionar las unidades experimentales en grupos llamados bloques de
modo que las observaciones realizadas en cada bloque se realicen bajo condiciones
experimentales lo más parecidas posibles.
A diferencia de lo que ocurre con los factores tratamiento, el experimentador no está
interesado en investigar las posibles diferencias de la respuesta entre los niveles de los
factores bloque‖.
Bloquear es una buena estrategia siempre y cuando sea posible dividir las unidades
experimentales en grupos de unidades similares.
La ventaja de bloquear un factor que se supone que tienen una clara influencia en la
respuesta pero en el que no se está interesado, es la siguiente:
• Convierte la variabilidad sistemática no planificada en variabilidad sistemática
planificada.
Con el siguiente ejemplo se trata de indicar la diferencia entre las estrategias de aleatorizar
y de bloquear en un experimento.
La factorización del diseño.
―Un diseño factorial es una estrategia experimental que consiste en cruzar los niveles de
todos los factores tratamiento en todas las combinaciones posibles‖.
Ventajas de utilizar los diseños factoriales:
190
• Permiten detectar la existencia de efectos interacción entre los diferentes factores
tratamiento.
• Es una estrategia más eficiente que la estrategia clásica de examinar la influencia de un
factor manteniendo constantes el resto de los factores.
Fuentes de Error
Las discrepancias entre los observado y lo esperado para un tratamiento surgen de dos
fuentes principales de variación cuya magnitud relativa depende del experimento que se
esté considerando. La primera es el error que se introduce cuando se quiere reproducir
(repetir) el experimento sobre cada una de las unidades experimentales; la otra es la
respuesta diferencial de cada unidad experimental al tratamiento que recibe y que depende
de propiedades inherentes a la unidad experimental. A la primer fuente
de error se la conoce como error de tratamiento y a la segunda como error de muestreo.
Una vez realizado un experimento, ambas fuentes de error son indistinguibles y conforman
un único error que se designa genéricamente como error experimental.
Existen dos recursos básicos para reducir el efecto no deseado de la presencia de los
errores. Estos recursos son la aleatorización y la repetición.
Para modelar es importante identificar DOS tipos de estructuras
Estructura de parcelas
Anteriormente se estableció que la aleatorización era un método de distribución equitativa
de parcelas sobre y sub respondedoras a los tratamientos y que el método se justificaba en
el hecho de que no era posible anticipar estas respuestas. A estos diseños en los que la
aleatorización no está restringida, se los llama completamente aleatorizados. En algunos
casos, sin embargo, es posible establecer que algunas parcelas o unidades experimentales
responderán de una manera y otras de otra. Un ejemplo simple se observa en los ensayos
de rendimiento cuando el terreno donde se realiza el experimento tiene una pendiente
marcada. En estos casos las parcelas de la parte elevada suelen tener rendimientos menores
que las de la parte baja y usar aleatorización (no restringida) como criterio de distribución
de las parcelas no es la mejor decisión a la hora de planificar el experimento. Por el
contrario, si a cada tratamiento se le asigna una repetición dentro de conjuntos de parcelas
ubicados por ejemplo en la parte superior, media e inferior del lote experimental y se
aplica aleatorización dentro de cada conjunto de esas parcelas, se habrá reconocido desde
el punto de vista del diseño, una fuente sistemática de variación debida a la pendiente del
Estructura de
PARCELAS
Estructura de
TRATAMIENTOS
191
terreno. Para ser consistentes con el diseño, el modelo del experimento deberá incorporar
los parámetros necesarios para dar cuenta de la estructura de parcelas. El resultado de esta
acción no es solo tener un modelo con mas parámetros sino un experimento mas preciso.
Diseño de la estructura de parcelas
Consiste en el agrupamiento de unidades experimentales homogéneas en grupos o bloques.
El reconocimiento de la estructura de parcelas y su incorporación al modelo de análisis de
la varianza tiene como consecuencia inmediata el aumento de precisión del diseño. Esto es
así siempre y cuando la estructura de parcela obedezca al reconocimiento de variaciones
reales entre las unidades experimentales ya que la imposición de una estructura de parcela
arbitraria e innecesaria lejos de aumentar la precisión la disminuirá.
Algunos diseños clásicos
A continuación se presentan tres diseños (estructura de parcelas) clásicos en la literatura de
diseño de experimentos. El segundo de ellos es uno de los más simples arreglos de
unidades experimentales no homogéneas y posiblemente el más popular entre los
experimentadores agrícolas.
Completamente aleatorizado
Cuando las parcelas experimentales son homogéneas o no se es capaz de anticipar
respuestas diferenciales de cada una de ellas, la mejor opción desde el punto de vista del
diseño de experimentos es asignar los tratamientos, de manera completamente al azar. El
modelo para este diseño y el análisis de la varianza discutidos cuando estudiamos el
Análisis de la Varianza corresponden al análisis de un experimento unifactorial sin
estructura de parcelas.
Ejemplo:
El porcentaje de humedad relativa (HR) es determinante para el ataque de hongos en
semillas. Para evaluar la susceptibilidad de las semillas de una forrajera al ataque de un
hongo se realizó un ensayo en cámaras de cría con tres porcentajes de HR: 70%, 80% y
90%. Se tomaron cinco observaciones para cada porcentaje de HR, registrándose el
número de semillas atacadas en un grupo de 100 semillas.
192
Si =0,05 luego el punto crítico que delimita la zona de aceptación y rechazo de H0 es
F(2,12; 0.95) = 3,88
Como F=21,91> Fcrítica se concluye, con un nivel de significación del 5%, que se rechaza
la hipótesis nula de igualdad de medias, por lo tanto al menos una de las HR produce un
grado de ataque de hongos diferente de los restantes.
Comparaciones múltiples
Si se rechaza la hipótesis nula del ANAVA, la pregunta que sigue es ¿cuál o cuáles de las
medias poblacionales en estudio son las diferentes?
Existe una gama muy amplia de alternativas para llevar adelante este tipo de pruebas, entre
las que se destacan las pruebas de Tukey (Tukey, 1949), Scheffé (Scheffé, 1953), Duncan
(Duncan, 1955), Dunnet (Dunnet, 1964) y la de Fisher (Fisher, 1966), entre otras.
Prueba de Tukey
Examina con un mismo estadístico todas las diferencias de medias muestrales en estudio.
Si hay a medias, luego habrá diferencias de medias posibles.
El estadístico de Tukey es el siguiente:
donde qa,gld; (1-) es el cuantil (1-) que se obtiene de la distribución de Rangos
Studentizados para a tratamientos y los grados de libertad dentro; es el nivel de
significación en base al cual se rechazó la H0 del ANAVA y n es el número de repeticiones
en base a las que se calculan las medias muestrales.
Si el valor de la diferencia entre un par de medias supera a DMSt, se dice que esta
diferencia es estadísticamente significativas. Se concluirá en consecuencia que las
esperanzas asociadas a esa diferencia son distintas con un nivel de significación .
En el Ejemplo recuérdese que se había concluido que los diferentes porcentajes HR
producían un diferente grado de ataque del hongo sobre la semilla de maní. La pregunta
que sigue es ¿cuál o cuáles de ellos producen ataques diferentes? Para dar respuesta a ello
se utilizará el test de Tukey.
193
El segundo paso consiste en calcular el estadístico de Tukey. Para el ejemplo, a = 3,
gld=12 y =0.05 (el mismo usado en el ANAVA), q a,gld;(1-α) = 3.77; CMD = 6.73 y n=5
(número de repeticiones). Así se tiene:
Para terminar con esta prueba basta controlar qué diferencias entre medias muestrales son
mayores que 4,37 para concluir que las esperanzas que estiman difieren entre sí con un
nivel de significación del 5%. Revisando la matriz de diferencias de medias se puede
verificar que :
194
Luego, el grado de ataque que se produce con un 80% de HR no difiere del que se produce
con 90% de HR, mientras que con 70% de HR se produce un ataque significativamente
menor que con 80 y 90%. Sintetizando se podría afirmar con un 95% de confianza que el
menor grado de ataque se produce con 70% de HR.
Prueba de Fisher
La prueba de Fisher es similar en su procedimiento a la prueba de Tukey, pero el
estadístico de la prueba es diferente. En vez de usar los cuantiles de la distribución de
rangos estudentizados utiliza los cuantiles de una t con los grados de libertad del cuadrado
medio dentro de tratamientos y es particular para cada comparación de medias ya que
depende del número de repeticiones por tratamiento. Luego, la diferencia mínima
significativa entre el tratamiento i-ésimo y el tratamiento j-ésimo está dada por:
Para el ejemplo que estamos tratando: t 12;(0.95)=1.782, CMD=6.73 y ni=nj=5 ∀ij, luego la
diferencia mínima significativa por Fisher es para todas las comparaciones
195
Es interesante mostrar que mientras para Fisher la diferencia mínima significativa es 2,92,
para Tukey es 4,37. Esto implica que con Fisher es más fácil rechazar la hipótesis de
igualdad de medias que con Tukey, por esta razón se dice que este último es más
conservador (menor error tipo I) y el primero más potente (menor error tipo II).
Bloques completos aleatorizados
Aunque la asignación aleatoria de tratamientos es una forma natural de distribuir
imparcialmente las pequeñas (o grandes) diferencias en las respuestas de las unidades
experimentales, esta asignación no siempre es la más conveniente. Cuando las diferencias
de respuestas de las unidades experimentales pueden ser anticipadas, lo conveniente es
agrupar aquellas unidades similares en bloques y asignar aleatoriamente los tratamientos
dentro de esos bloques. De esta manera, cada bloque representa una repetición completa de
todos los tratamientos. Este arreglo experimental se denomina diseño en bloques
completos aleatorizados. Se dice que son completos porque en cada bloque aparecen todos
los tratamientos, y aleatorizados porque dentro de cada bloque los tratamientos son
distribuidos aleatoriamente. Un caso particular de diseño en bloques es el que aparece
relacionado con la prueba T para muestras apareadas, aunque el número de tratamientos es
sólo dos.
Ejemplo:
Se realizó un ensayo para evaluar el rendimiento en kg de materia seca por hectárea de una
forrajera megatérmica con distintos aportes de N2 en forma de urea. Las dosis de urea
probadas fueron 0 (control), 75, 150, 225 y 300 kg/ha. El ensayo se realizó en distintas
zonas, en las que por razones edáficas y climáticas se podían prever rendimientos
diferentes. Las zonas en este caso actuaron como bloques. El diseño a campo se ilustra en
la siguiente figura y a continuación se presentan los resultados obtenidos ordenados por
tratamiento y por bloque.
196
El modelo lineal para un análisis de la varianza con un factor (en este caso fertilizante) en
un diseño en bloques completos, es el siguiente:
ijjiijY
Yij es la observación del i-ésimo tratamiento en el j-ésimo bloque
μ es la media general de las observaciones
τi es el efecto del i-ésimo tratamiento
βj es el efecto del j-ésimo bloque
determinista
aleatorio
197
εij es una variable aleatoria normal, independientemente distribuida con esperanza 0 y
varianza σ2
Fórmulas de trabajo de análisis de la varianza de un experimento unifactorial con diseño
en bloques completos aleatorizados:
Tabla de Análisis de la Varianza para un diseño en Bloques:
El procedimiento del test de hipótesis es similar al realizado para un diseño completamente
aleatorizado. Dado que F, 41.57, es mayor que el cuantil (1-) de una distribución F4,12 se
rechaza la hipótesis de igualdad de tratamientos. La aplicación del test a posteriori es
directa y el número de bloques (b) sustituye el número de repeticiones en el cálculo del
error estándar de la comparación.
La eficacia de este diseño depende de los efectos de los bloques. Si éstos son pequeños, es
más eficaz el diseño completamente aleatorio ya que el denominador en la comparación de
tratamientos tiene menos grados de libertad. Sin embargo si los bloques influyen es mucho
mejor y más eficaz este modelo, ya que disminuye la variabilidad no explicada. Por ello, es
mejor estudiar primero el modelo de bloques aleatorizados y, si los bloques no influyen, se
pasa fácilmente al modelo de un solo factor sumando en la tabla ANAVA la fila del factor
bloque con la de la variabilidad residual.
198
Cuadrado latino
Una extensión directa del concepto de bloques completos aleatorizado es la del cuadrado
latino, en el que se incorporan al diseño, el reconocimiento de dos fuentes sistemáticas de
variación entre parcelas.
Este diseño no es tan popular como el anterior ya que impone un número fijo de
repeticiones y cuando el número de tratamientos es grande, el experimento completo puede
ser inmanejable. De hecho, el número total de parcelas experimentales es igual al cuadrado
del número de tratamientos. No obstante estas dificultades, el cuadrado latino es un diseño
base de otros diseños como los llamados experimentos cross-over, populares en la
experimentación con animales.
El diseño en cuadrado latino clásico de la experimentación agrícola, en el que ensayan a
tratamientos, se obtiene ordenando a2 parcelas experimentales en un cuadrado de a.a
parcelas y asignando a parcelas a cada uno de los tratamientos de tal manera que en cada
fila y en cada columna haya sólo una repetición de cada tratamiento como muestra la
Figura
El modelo lineal de un experimento en diseño cuadrado latino es el siguiente:
ijkkjiijY
donde Yijk es la observación de la respuesta del i-ésimo tratamiento en la columna j-ésima
y fila k-ésima. εijk es el término de error correspondiente a la observación del i-ésimo
tratamiento en la columna j-ésima y fila k-ésima. En este modelo los parámetros χj y ρk
modelan los efectos de las columnas y las filas respectivamente.
Fórmulas de trabajo de análisis de la varianza de un experimento unifactorial con diseño
en Cuadrado Latino:
199
Ejemplo:
La siguiente tabla muestra los rendimientos de remolacha azucarera en toneladas por
hectárea bajo tres tipos de labores culturales:
Es importante notar que la suma de cuadrados debida a las columnas es
muy importante y si no hubiera sido removida de la suma de cuadrados del error la interpretación de estos resultados hubiera sido diferente.
200
Estructura de tratamientos
Anteriormente se presentó a los tratamientos como los distintos niveles de un único factor
o como combinación de niveles de varios factores.
En este último caso, el experimentador se pregunta si es posible identificar los efectos de
cada uno de los factores, estimarlos y eventualmente probar hipótesis sobre ellos.
Aunque la respuesta es afirmativa aún persiste una duda fundamental ¿para qué diseñar
experimentos en los que hay que usar herramientas analíticas especiales para separar los
efectos de los distintos factores si se pueden planificar experimentos más sencillos para
cada factor evitando complicaciones?.
La respuesta a este problema está relacionada con el concepto de eficiencia y que en
términos prácticos se relaciona con la cantidad de repeticiones que son necesarias en un
experimento para tener una precisión dada.
Por ejemplo si para evaluar los efectos de los factores A y B con tres niveles cada uno se
requieren tres repeticiones para cada nivel, se necesitarán 9 unidades experimentales para
el ensayo del factor A y otras 9 para el ensayo del factor B, haciendo un total de 18
unidades experimentales.
Si en vez de utilizar dos experimentos separados se planifica un experimento conjunto con
9 tratamientos (3 niveles de A x 3 niveles de B) y solo se repite una vez cada tratamiento,
solo se necesitarán 9 unidades experimentales para acomodar todo el experimento y aún se
tendrán tres unidades tratadas con cada uno de los niveles de cada uno de los factores.
Es decir que, aunque no se cuentan con repeticiones para las combinaciones de niveles de
factores, si las hay (tres) para cada uno de los niveles de los factores individuales. En
consecuencia, con la mitad de las unidades experimentales necesarias para acomodar los
experimentos separados, se puede montar un experimento conjunto que provee la misma
precisión para la evaluación de cada factor individual.
Si aún se quisieran invertir las 18 unidades experimentales de los dos experimentos
originales, se podría hacer una repetición completa de todo el experimento y se tendría el
doble de unidades experimentales para cada nivel de cada uno de los factores y en este
sentido, los EXPERIMENTOS FACTORIALES son más eficientes para evaluar los
efectos de los factores individuales.
Pero los experimentos factoriales, cuando están repetidos, permiten además, probar la
existencia y estimar la magnitud de respuestas diferenciales a la combinación de los
factores individuales, fenómeno que se conoce como interacción. Dado que la interacción
es común en los sistemas biológicos, los experimentos que son capaces de detectarla y
estimarla son siempre preferibles.
201
Experimentos Factoriales
En los modelos de los experimentos factoriales los parámetros Τi que hacen referencia a
los efectos de tratamientos se descompone en un conjunto de parámetros que dan cuenta de
cada uno de los factores intervinientes y se agrega según sea necesario, conveniente y
posible, los términos correspondientes a las interacciones.
MODELOS ADITIVOS
Los modelos factoriales aditivos son aquellos en los que los términos que modelan la
interacción están ausentes. Para ejemplificar este caso se presenta un experimento factorial
2x2 (dos factores con dos niveles cada uno) en el que la interacción se supone ausente y
montado en un diseño completamente aleatorizado.
Los Factores se han designado como A y B y sus niveles como A1,A2 y B1,B2. Como
existen 4 tratamientos (A1B1, A1B2, A2B1, A2B2) y estos no están repetidos, se necesitan
sólo cuatro parcelas experimentales. Dado que el diseño es completamente aleatorizado la
asignación de las parcelas a cada uno de los tratamientos es al azar. Un arreglo posible se
presenta en la siguiente figura.
202
Glosario de términos estadísticos A
AJUSTE DE BONFERRONI
Técnica estadística que ajusta el nivel de significación en relación al número de pruebas
estadísticas realizadas simultáneamente sobre un conjunto de datos. El nivel de
significación para cada prueba se calcula dividiendo el error global de tipo I entre el
número de pruebas a realizar. El ajuste de Bonferroni se considera conservador.
AMPLITUD O RANGO
La diferencia entre el valor máximo y mínimo de los valores de una variable. En la
amplitud de una variable se encuentran comprendidos el 100% de los valores muestrales
ANACOVA o ANCOVA
Análisis de la covarianza. Es una técnica estadística que combina ANOVA (pues compara
medias entre grupos) y análisis de regresión (ajusta las comparaciones de las medias entres
los grupos por variables continuas o covariables)
ANAVA o ANOVA
Análisis de la varianza. Es una técnica estadística que sirve para decidir/determinar si las
diferencias que existen entre las medias de tres o más grupos (niveles de clasificación) son
estadísticamente significativas. Las técnicas de ANOVA se basan en la partición de la
varianza para establecer si la varianza explicada por los grupos formados es
suficientemente mayor que la varianza residual o no explicada
ÁREA BAJO LA CURVA entre dos puntos
Si la curva viene dada por una función de densidad teórica, representa la probabilidad de
que la variable aleatoria tome un valor dentro del intervalo determinado por esos dos
puntos
B
BONFERRONI
Ver ajuste de bonferroni
C
CARACTERÍSTICAS
Propiedades de las unidades o elementos que componen las muestras. Se miden mediante
variables. Se asume que los individuos presentan diferentes características.
CAUSALIDAD
Relación entre causa y efecto. Generalmente identificadas como variables. No hay que
confundir causalidad con correlación. La correlación mide la similitud estructural
numérica entre dos variables. Normalmente la existencia de correlación es condición
necesaria para la causalidad.
COEFICIENTE DE CORRELACIÓN
Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y 1
203
COEFICIENTE DE DETERMINACIÓN
Es el cuadrado del coeficiente de correlación. Expresado en tanto por ciento mide el grado
de información compartida entre dos variables continuas
COEFICIENTES DE REGRESIÓN
En un modelo de regresión lineal son los valores de a y b que determinan la expresión de
la recta de regresión y=a + b·x
COEFICIENTE DE VARIACIÓN
Es una medida de dispersión relativa. No tiene unidades y se calcula dividiendo la cuasi-
desviación típica entre la media muestral. Se suele expresar en tanto por ciento
CONTRASTE BILATERAL
Contraste de hipótesis en la que la hipótesis alternativa da opción a igualdad o superioridad
CONTRASTE DE HIPÓTESIS
Es el proceso estadístico que se sigue para la toma de decisiones a partir de la información
de la muestra. Comparando el valor del estadístico experimental con le valor teórico
rechazamos o no la hipótesis nula
CONTRASTE UNILATERAL
Contraste de hipótesis en la que la hipótesis alternativa da opción a solo igualdad o a solo
superioridad
CORRELACIÓN
Expresa la concordancia entre dos variables según el sentido de la relación de estas en
términos de aumento ó disminución
COVARIABLES
Variables continuas independientes que junto a una o más variables grupo de tratamiento
sirven para explicar una variable respuesta continua. Supongamos que pretendemos
explicar las diferencias existentes en el nivel de cortisol en sangre por grupo de tratamiento
A/B, teniendo en cuenta el peso. La variable peso es una covariable
COVARIANZA
Representa la media del producto de las desviaciones de dos variables en relación a su
media.
CUARTILES
Existen tres cuartiles: Q!, Q2 y Q3. Estos números dividen a los valores muestrales , una
vez ordenados, en cuatro partes homogéneas en cuanto a número de observaciones. Así Q1
determina el valor que hace que haya un 25% de valores muestrales por debajo de éste, y
un 75% por encima de éste. Q2 es la mediana
CUASIVARIANZA
Característica de una muestra o población que cuantifica su dispersión o variabilidad. La
cuasi varianza se obtiene multiplicando la varianza por n / (n-1). La cuasivarianza muestral
es un estimador centrado (no sesgado) de la varianza poblacional.
D
DATOS CENSURADOS
204
En análisis de supervivencia son datos donde no se conoce el tiempo total hasta la
aparición del fracaso/éxito bien porque el individuo se retiró del estudio bien porque se
acabó el estudio (datos con censura administrativa) Existen datos censurados por la
izquierda y por la derecha.
DATOS PAREADOS
Datos de poblaciones dependientes, donde los datos de las variables van emparejados por
individuos, en contraposición con los datos independientes
DECILES
Corresponden a los percentiles 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% , 90% y
100%
DESCRIPTIVA
Parte de la estadística que resume la información de la muestra. La información recogida y
resumida en los estadísticos se usa para la estimación de parámetros poblacionales
DESVIACIÓN ESTANDAR (TÍPICA)
Característica de una muestra o población que cuantifica su dispersión o variabilidad.
Tiene las mismas unidades que la variable. la desviación típica es invariante con respecto
al origen de la distribución. Su cuadrado es la varianza
DIAGRAMA DE PUNTOS (scatter plot)
Es un gráfico bidimensional o tridimensional que muestra la variación de los valores
muestrales de dos o tres variables.
DIAGRAMAS DE BARRAS
Representación gráfica para las variables discretas
DIFERENCIAS ESTADISTICAMENTE SIGNIFICATIVAS
Las diferencias entre lo observado y lo supuesto en la hipótesis nula no puede ser
explicado por el azar
DIFERENCIAS RELEVANTES
Diferencia esperada o definida a priori con un valor conceptual intrínseco. No confundir
diferencias estadísticamente significativas que establece si una diferencia, cualquiera que
sea su valor
DIMENSIÓN
Si estudiamos una única variable la dimensión es uno, si estudiamos la información de dos
variables en forma conjunta la dimensión es dos,...
DISPERSIÓN
Ver estadísticos de dispersión
DISTRIBUCIÓN DE DATOS
En la realización de un experimento, corresponde a la recogida de los datos experimentales
para cada individuo y cada variable
DISTRIBUCIÓN NORMAL O DE GAUSS
205
Es una distribución teórica de probabilidad que se usa tanto en la estadística aplicada como
en la teórica. Aparece en la práctica con mucha frecuencia como consecuencia del
importante resultado que establece el teorema central del límite. Tiene una forma en forma
de campana, y viene caracterizada por únicamente dos valores: la media y la varianza.
DISTRIBUCIÓN T STUDENT
Distribución teórica de probabilidad. Se usa para la comparación de dos medias en
poblaciones independientes y normales
E
ECUACIÓN DE LA REGRESIÓN
Ver recta de regresión
ERROR ALFA
Es el error que se comete cuando se rechaza una hipótesis nula cuando ésta verdadera.
Error de tipo I
ERROR ALFA GLOBAL
Es el error alfa que se comete por hacer múltiples comparaciones
ERROR BETA
Es el error que se comete cuando no se rechaza una hipótesis nula siendo ésta falsa. Error
de tipo II
ERROR DE PRIMERA ESPECIE
Ver error alfa
ERROR DE SEGUNDA ESPECIE
Ver error beta
ERROR DE TIPO I
Ver error alfa
ERROR DE TIPO II
Ve error beta
ERROR ESTANDAR DE LA MEDIA
Es el cociente entre la cuasi varianza muestral y la raíz cuadrada del tamaño muestral
ERROR ESTANDAR DE LOS RESIDUOS
Estadístico de dispersión de los valores de los residuos después de la regresión.
ERROR FALSO NEGATIVO
Ver error beta
ERROR FALSO POSITIVO
Ver error alfa
ESCALA
La distribución de datos puede recogerse en distintas escalas: nominal, dicotómica,
discreta o continua
206
ESPECIFICIDAD DE UN TEST DIAGNÓSTICO
Representa la probabilidad de que un individuo este sano habiendo dado negativo en el test
diagnóstico
ESTADÍSTICO DE CONTRASTE EXPERIMENTAL
Se utiliza para realizar las pruebas o contrastes de hipótesis. Depende de la muestra. Su
valor hay que compararlo con el valor crítico dado en las tablas de distribución teóricas
ESTADÍSTICOS
Son funciones de la muestra. Su valor variará según la muestra, pero nos permite hacer
estimaciones de parámetro poblacionales o construir estadísticos experimentales para
tomar decisiones acerca de la
ESTADÍSTICOS DE CENTRALIZACIÓN
Son estadísticos que nos resumen la información de la muestra dándonos información
acerca del valor donde parece concentrarse la distribución de datos
ESTADÍSTICOS DE DISPERSIÓN
Son estadísticos que nos resumen la información de la muestra dándonos información
acerca de la magnitud del alejamiento de la distribución de datos en relación a un valor
central o de concentración de los datos
ESTADÍSTICOS DE FORMA
Son aquellos que nos hablan de la forma de la distribución de datos en cuanto a su simetría
y su apuntamiento
ESTIMACIÓN
Técnicas estadísticas que a partir de la información de la estadística descriptiva pretenden
conocer cómo es la población en global. Existen técnicas de estimación puntuales y por
intervalos de confianza
ESTIMADOR
Función de la muestra que sirve para dar valores candidatos a los valores desconocidos
poblacionales.
F
FACTOR
Variable que se incluye en un modelo con el propósito de explicar la variación en la
variable respuesta. Ver variable independiente o explicativa
FACTOR DE CLASIFICACIÓN
Es una variable que se usa para clasificar los datos experimentales en grupos. Los factores
de clasificación son variables nominales. Cada factor de clasificación se compone de
niveles. Así la variable "Fumador" codificada como "nunca", "ex fumador", "fumador
actual" es un factor de clasificación con tres niveles
FRECUENCIAS: ABSOLUTAS, RELATIVAS
Las frecuencias absolutas representan el recuento de los valores de una variable discreta de
forma que su suma nos da el tamaño muestral .Las relativas son las absolutas divididas por
207
el tamaño muestral .Las frecuencias relativas sumarán 1 ó 100 según se expresen en tanto
por uno o en tanto por ciento
FUNCIÓN
Función matemática. Expresión que liga dos o mas variables de forma determinística
FUNCIÓN TEÓRICA DE PROBABILIDAD
Idealización matemática que nos permite calcular probabilidades de que una variable tome
un valor (caso discreto) o rango de valores (caso continuo)
G
GAUSSIANA
Ver distribución normal
GRADO DE CONFIANZA
Ver nivel de confianza
GRADOS DE LIBERTAD
El número de datos que se pueden variar para que a un total fijo podamos reconstruir dicho
total. así la media tiene n-1 grado de libertad, pues si conocemos el valor de esta podemos
variar n-1 datos ya que restante vendrá fijado. En una tabla 4x3, si nos dan las frecuencias
marginales podremos variar las frecuencias de (4-1)x(3-1)=3x2=6 celdas, quedando
forzosamente determinadas las frecuencias de las celdas restantes. Así, los grados de
libertad serían en este caso de 6
H
HETEROCEDASTICIDAD
Hipótesis de no igualdad de varianzas poblacionales en distintos grupos
HIPÓTESIS
Cualquier teoría que formule posibles líneas de trabajo experimental. Ver hipótesis nula y
alternativa
HIPOTESIS ALTERNATIVA
Aquella que queremos probar. Representa la hipótesis renovadora
HIPOTESIS NULA
Aquella que queremos rechazar. Representa a la situación actual
HISTOGRAMAS
Es un gráfico en forma de barras de una variable continua que se ha discretizado en
intervalos, de forma que la altura de las barras en cada intervalo indica la frecuencia
relativa en éste.
HOMOCEDASTICIDAD
Hipótesis de igualdad de varianzas poblacionales en distintos grupos
I
IMPRECISION
Error que se comete en la predicción
208
INDEPENDENCIA
Son datos que no están ligados entre si
INTERVALO DE PROBABILIDAD
Proporción de casos entre dos valores definidos de la muestra
INTERVALOS CONFIDENCIALES
Intervalos de confianza. Intervalos fiduciales. Incluyen una cota mínima y máxima del
verdadero parámetro poblacional con un determinado nivel de confianza
J
JACKNIFE
Método estadístico de estimación por intervalos de confianza basado en la simulación con
reeemplazamineto, propuesto por TuKey
L
LIMITES CONFIDENCIALES
Extremos de los intervalos confidenciales
M
MAXIMO
Es un valor muestral de forma que por encima de este no hay valores muestrales
MEDIANA
Corresponde al percentil 50%. Es decir, la mediana hace que haya un 50% de valores
muestrales inferiores a ella y un 50% de valores muestrales superiores a ella.
MEDIA
Es una medida de centralización para una variable continua. Se obtiene sumado todos los
valores muestrales y dividiendo por el tamaño muestral
MÍNIMO
Es un valor muestral de forma que por debajo de este no hay valores muestrales
MODA
Es el valor que más se repite en una variable nominal
MODELO
Intento matemático / estadístico para explicar una variable respuesta por medio de una o
más variables explicativas o factores
MUESTRAS
Subgrupos de observaciones de la población de estudio.
N
NIVEL DE CONFIANZA
Se define como 1 menos el nivel de significación. Se suele expresar en tanto por ciento
NIVEL DE SIGNIFICACIÓN
209
La probabilidad de rechazar una hipótesis nula verdadera; es decir, la probabilidad de
cometer un error de tipo I
NIVELES DE CLASIFICACIÓN
Los distintos posibles valores que pueden aparecer en una variable explicativa nominal u
ordinal
NORMAL
Ver distribución de probabilidad normal
NÚMEROS
Ver valores numéricos
O
OBSERVACION
Sinónimo de caso registro e individuo
ORDEN DE UNA MATRIZ
Es el número que designa, en una matriz cuadrada, el numero de filas o columnas
ORTOGONAL
Se dice de las variables y en general de las funciones que son independientes.
P
P (p- valor)
El nivel de significación observado en le test. Cuanto más pequeño sea, mayor será la
evidencia para rechazar la hipótesis nula
PARÁMETROS
Son valores desconocidos de características de una distribución teórica. El objetivo de la
estadística es estimarlos bien dando un valor concreto, bien dado un intervalo confidencial
PEARSON ( r de Pearson)
Ver coeficiente de correlación
PERCENTILES
Un percentil 90% corresponde a un valor que divide a la muestra en dos, de forma que hay
un 90% de valores muestrales inferiores a éste, y un 10% de valores muestrales superiores
a éste. Los percentiles 25%, 50%, 75% son el primer, segundo y tercer cuartil
respectivamente
POBLACIONES
Conjunto de individuos de interés. Normalmente no se dispone de información de toda la
población y se recurre a muestras
PORCENTAJES
Proporciones expresadas en tanto por ciento
POTENCIA DE LA PRUEBA
(1-beta). Es decir la probabilidad de rechazar una hipótesis nula siendo ésta falsa. Se suele
expresar en tanto por ciento
210
PREVALECIA
Cociente entre el número de individuos que poseen una característica (p. ej. enfermedad)
entre el total de la población
PROBABILIDAD
Asignación de un número entre cero y uno a cada resultado experimental.
PROPORCION
Número de individuos que verifican una condición entre el total del tamaño muestral. Se
puede expresar en tanto por uno o en tanto por cien
PRUEBA CHI CUADRADO
Se utiliza para analizar tablas de contingencia y comparación de proporciones en datos
independientes
PRUEBA DE F
Prueba estadística que sirve para comparar varianzas. El estadístico F experimental es el
estadístico de contraste en el ANOVA y otras pruebas de comparación de varianzas
PRUEBA DE FISHER
Es la prueba estadística de elección cuando la prueba de chi cuadrado no puede ser
empleada por tamaño muestral insuficiente.
PRUEBA DE LOS SIGNOS
Prueba estadística que sirve para comparar dos variables en términos de diferencias
positiva o negativa, y no en términos de magnitud
PRUEBA DE MCNEMAR
Prueba estadística que sirve para comparar proporciones en datos pareados
PRUEBA NO PARAMÉTRICA
Técnica estadística que no presupone ninguna distribución de probabilidad teórica de la
distribución de nuestros datos
PRUEBA PARAMETRICA
En contraposición de la técnicas no paramétricas, las técnicas paramétricas si presuponen
una distribución teórica de probabilidad subyacente para la distribución de los datos. Son
más potentes que las no paramétricas.
PRUEBA T DE STUDENT
Se utiliza para la comparación de dos medias de poblaciones independientes y normales
PUNTO DE INFLEXIÓN
Representan los puntos de una función matemática donde la curva pasa de ser cóncava a
convexa o recíprocamente
R
RANGO
211
Diferencia entre el valor máximo y mínimo de un muestra o población. Solo es valido en
variables continuas. Es una mala traducción de ingles "range". Amplitud
RANGO INTERCUARTILICO
La diferencia entre el percentil 75% y el percentil 25%
RAZÓN DE VEROSIMILITUDES
Combina resultados de varios tests diagnósticos dando una probabilidad de enfermedad en
base a ese conjunto de resultados en forma global
RECTA DE REGRESIÓN
Es el modelo que sirve para explicar una variable respuesta continua en términos de un
único factor o variable explicativa
REGRESION
Técnica estadística que relaciona una variable dependiente (y) con la información
suministrada por otra variable independiente (x). Ambas variables deben ser continuas. Si
asumimos relación lineal, utilizaremos la regresión lineal simple. Entre las restricciones de
la RLS se incluyen:
Los residuos deben ser normales
Las observaciones independientes
La dispersión de los residuos debe mantenerse a lo largo de la recta de regresión
REGRESIÓN LINEAL MÚLTIPLE
El modelo de regresión lineal múltiple sirve para explicar una variable respuesta continua
en términos de varios factores o variables explicativas continuas
REGRESIÓN POLINÓMICA
Es un tipo especial de regresión múltiple donde aparecen como variables independientes
una única variable y potencias de ésta (al cuadrado, al cubo.)
RELACIÓN LINEAL
Ver recta de regresión
RESIDUOS
Residuales. Distribución de valores muestrales calculados como la diferencia entre el valor
de la variables respuesta (y) y el estimado del modelo de regresión ( ^y). La distribución
de residuos es importante como indicador del cumplimiento de las condiciones de
aplicación de las técnicas de correlación, así como de la bondad del ajuste.
S
SECTORES CIRCULARES
Forma de representación en forma de tarta de variables discretas nominales
SENSIBILIDAD DE UN TEST DIAGNÓSTICO
Representa la probabilidad de que un individuo esté enfermo habiendo dado positivo en el
test diagnóstico
SESGO
La diferencia entre el valor del parámetro y su valor esperado. También se utiliza en
contraposición de aleatorio, así una muestra sesgada es no aleatoria
212
SIMETRIA
Es una medida que refleja si los valores muestrales se extienden o no de igual forma a
ambos lados de la media.
SPEARMAN (rho de Spearman)
Coeficiente de correlación ordinal análogo al coeficiente r de Pearson de correlación lineal
SUMATORIO
Estadístico descriptivo que suma los valores numéricos de los datos muestrales de
distribuciones continuas
T
TABLAS DE CONTINGENCIA
Tablas de 2 o más variables, donde en cada celda se contabilizan los individuos que
pertenecen a cada combinación de los posibles niveles de estas variables
TABLAS DE FRECUENCIAS
Ver tablas de contingencia
TABLA DEL ANAVA
Es una forma de presentar la variabilidad observada en una variable respuesta en términos
aditivos según las distintas fuentes de variación: modelo y residual
TAMAÑO MUESTRAL
Número de individuos u observaciones que componen la muestra
TECNICAS DE CORRELACION
Ver coeficiente de correlación
TECNICAS DE REGRESION
Ver recta de regresión y regresión lineal múltiple
TECNICAS NO PARAMETRICAS
Son técnicas estadísticas que no presuponen ningún modelo probabilístico teórico. Son
menos potentes que las técnicas paramétricas, aunque tienen la ventaja que se pueden
aplicar más fácilmente
TEOREMA CENTRAL DEL LIMITE
Resultado básico en la estadística que afirma que la distribución de las medias muestrales
será normal para un n suficientemente grande con independencia de la distribución de
datos de partida
TRANSFORMACIONES
Cambios de escala con el propósito de conseguir linealidad, normalidad en los datos
U
UNIDAD
213
Concepto primario relacionado con los componentes elementales de las muestras
estadísticas. Sinónimo, pero no esencialmente idéntico, de caso, observación , registro o
individuo
UNIVERSO
Conjunto infinito de elementos o unidades generado por un modelo teórico. Conjunto real
de todos los elementos que comparten unas condiciones de admisión en el conjunto
VALORES NUMÉRICOS
Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza
puede ser nominal, dicotómica, ordinal o continua
V
VALORES NUMÉRICOS
Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza
puede ser nominal, dicotómica, ordinal o continua
VALOR PREDICTIVO POSITIVO DE UN TEST DIAGNOSTICO
La probabilidad de que un individuo esté enfermo si el test diagnóstico da positivo
VALOR PREDICTIVO NEGATIVO DE UN TEST DIAGNOSTICO
La probabilidad de que un individuo esté enfermo si el test diagnóstico da negativo
VARIABLE
Objeto matemático que puede tomar diferentes valores. Generalmente asociado a
propiedades o características de las unidades de la muestra. Lo contrario de variable es
constante.
VARIABLE ALEATORIA
Variable cuyo resultado varía según la muestra según una distribución de probabilidad
VARIABLE CONTINUA
Aquella que puede tomar una infinidad de valores, de forma que dados dos valores
cualesquiera, también pueda tomar cualquier valor entre dichos valores
VARIABLE DEPENDIENTE
Ver variable respuesta
VARIABLE DISCRETA
Variable que toma un número finito o infinito de valores, de forma que no cubre todos los
posibles valores numéricos entre dos dados, en contraposición de las continuas
VARIABLE EXPLICATIVA
Ver variable independiente
VARIABLE INDEPENDIENTES O EXPLICATIVAS
Variables que no sirven para construir un modelo que explique el comportamiento de una
o más variables respuesta
VARIABLE RESPUESTA O DEPENDIENTE
214
Variable objeto del estudio y que sus resultados se pretenden explicar por medio de las
variables llamadas explicativas o independientes
VARIABLES
Describen características en las observaciones realizadas
VARIANZA
Característica de una muestra o población que cuantifica su dispersión o variabilidad. La
varianza tiene unidades al cuadrado de la variable. Su raíz cuadrada positiva es la
desviación típica. La varianza muestral es un estimador sesgado de la varianza poblacional
X
X2 Chi- cuadrado
Ver prueba de Chi cuadrado
W
WILCOXON
Prueba estadística no paramétrica para la comparación de dos muestras (dos tratamientos).
Las distribuciones de datos no necesitan seguir la distribución normal. Es por tanto una
prueba menos restrictiva que la prueba t-Student.