estadÍstica guÍa bÁsica para economistas y administradores
DESCRIPTION
Universidad Nacional José Faustino Sánchez CarriónAutores: Benigno Walter Moreno Mantilla, Cristián Iván Escurra Estrada, Miguel Ángel Aguilar Luna VictoriaTRANSCRIPT
2
U N I V E R S I D A D N A C I O N A L
JOSÉ FAUSTINO SÁNCHEZ CARRIÓN
FACULTAD DE CIENCIAS
INSTITUTO DE INVESTIGACIÓN
TEXTO UNIVERSITARIO
ESTADÍSTICA GUÍA BÁSICA PARA
ECONOMISTAS Y ADMINISTRADORES
AUTORES
Mg. Benigno Walter Moreno Mantilla
Lic. Cristián Iván Escurra Estrada
Lic. Miguel Ángel Aguilar Luna Victoria
HUACHO – PERÚ
2011
1
3
AGRADECIMIENTO
En forma muy especial a cada una de nuestras familias,
quienes reconocen el esfuerzo que le ponemos en cada una
de nuestras hazañas académicas, y hacen de nuestra labor
de investigación el mas insaciable gusto por aportar a la
ciencia. Así como también, a los investigadores y autores
de textos bibliográficos que nos han servido de consulta en
el desarrollo del texto que presentamos.
Los autores
2
4
ÍNDICE DE CONTENIDO
Pág.
PROLOGO
UNIDAD I: Definiciones básicas, comparación y discusión.
Variables 6
UNIDAD II: Cálculo del tamaño muestral. Técnicas y
Métodos para la recolección de datos y diseños
de cuestionarios.
13
UNIDAD III: Tablas de frecuencia, gráficos. Medidas de
tendencia central. Medidas de Dispersión.
Asimetría y Kurtosis.
26
UNIDAD IV: Regresión y correlación lineal simple.
40
EPILOGO 44
GLOSARIO DE TÉRMINOS 45
BIBLIOGRAFÍA 46
APENDICE 47
5
PRÓLOGO
En este texto, presentamos las principales técnicas para cálculos estadísticos, con
aplicaciones en la empresa:
a) Definiciones básicas, comparación y discusión. Variables. Ver Unidad I.
b) Cálculo del tamaño muestral. Técnicas y Métodos para la recolección de
datos y diseños de cuestionarios. Ver Unidad II.
c) Tablas de frecuencia, gráficos. Medidas de tendencia central. Medidas de
Dispersión. Asimetría y Kurtosis. Ver Unidad III.
d) Regresión y correlación lineal simple. Ver Unidad IV.
Los autores
5
6
UNIDAD I: Definiciones básicas, comparación y discusión. Variables.
DEFINICIÓN DE ESTADÍSTICA
La estadística, es la ciencia que trata de la recopilación, organización presentación, análisis
e interpretación de datos generalmente numéricos con el fin de realizar una toma de
decisión más efectiva. Así mismo, se puede considerar como el conjunto de indicadores
numéricos que caracterizan diferentes aspectos de la vida social, incluyendo la producción,
las relaciones políticas, culturales de la vida cotidiana; se refiere alas colecciones
sistemáticas de datos relativos a un fenómeno.
La Estadística aplicada a la Economía da una caracterización cuantitativa y cualitativa del
volumen, composición y dinamismo de las fuerzas productivas y además refleja el
comportamiento de las relaciones de producción, estudia las fuerzas productivas de un
país, las condiciones de producción, etc.
TIPOS DE ESTADÍSTICA
Teniendo en cuenta las funciones, cometidos y el ámbito de la Estadística entendida como
método de aplicación de los principios científicos para la resolución de problemas
socioeducativos y la toma de decisiones, podemos identificar dos grandes tipos, según las
tareas a las que debe enfrentarse, la descriptiva y la inferencial:
Estadística Descriptiva: Es la técnica que se va a encargar de la recopilación,
presentación, tratamiento y análisis de los datos, con el objeto de resumir, describir las
características de un conjunto de datos y por lo general toman forma de tablas y gráficas.
En realidad, transforma un conjunto de números u observaciones en índices que sirven para
describir o caracterizar esos datos dentro de los grupos de sujetos. La podemos considerar
como una parte de la Estadística que se ocupa del estudio de los métodos y técnicas
necesarios para la descripción gráfica y numérica de los conjuntos de datos, ello nos ofrece
una visión global del grupo de sujetos que es objeto de estudio. Estos cálculos tienen
limitaciones en la interpretación de los estadísticos, pues en muchas ocasiones nos
7
debemos centrar en una comparación entre el valor de la muestra y otros que procedan de
muestras similares, por lo que no aporta suficientes argumentos científicos al investigador
en la toma de decisiones sobre los grupos.
Estadística Inferencial: Técnica mediante la cual se sacan acerca de parámetros de una
población basándose en los estadígrafos de una muestra de población. Se dedica a la
generación de los modelos, inferencias y predicciones asociadas a los fenómenos en
cuestión teniendo en cuenta la aleatoriedad de las observaciones, bajo un nivel de
confianza definido por el investigador. Se usa para modelar patrones en los datos y extraer
inferencias acerca de la población bajo estudio
POBLACIÓN: Es el conjunto de todos los posibles elementos que intervienen en un
experimento o en un estudio.
CENSO: Al estudio completo de la población.
TIPOS DE POBLACIÓN:
POBLACIÓN FINITA: Es aquella que indica que es posible alcanzarse o sobrepasarse al
contar. Es aquella que posee o incluye un número limitado de medidas y observaciones.
POBLACIÓN INFINITA: Es infinita si se incluye un gran conjunto de medidas y
observaciones que no pueden alcanzarse en el conteo.
Son poblaciones infinitas porque hipotéticamente no existe límite en cuanto al número de
observaciones que cada uno de ellos puede generar.
MUESTRA: Un conjunto de medidas u observaciones tomadas a partir de una población
dada. Es un subconjunto de la población.
MUESTRA REPRESENTATIVA: Un subconjunto representativo seleccionado de una
población de la cual se obtuvo.
MUESTREO: Al estudio de la muestra representativa.
PARÁMETRO: Son las características medibles en una población completa. Se le asigna
un símbolo representado por una letra griega.
8
ESTADÍSTICO O ESTADÍGRAFO: Es la medida de una característica relativa a una
muestra. La mayoría de los estadísticos muestrales se encuentran por medio de una fórmula
y suelen asignárseles nombres simbólicos que son letras latinas.
DATOS ESTADÍSTICOS: Los datos son agrupaciones de cualquier número de
observaciones relacionadas.
Para que se considere un dato estadístico debe tener 2 características:
a) Que sean comparables entre sí.
b) Que tengan alguna relación.
VARIABLE: Es una característica de los elementos de la población que pueden ser
medibles.
TIPOS DE VARIABLES: Existen varios tipos de Variables, entre ellos tenemos:
Por su Dependencia en la Investigación. Pueden ser:
Variable Dependiente: Aquellas que su valor a medir depende de otras variables.
Variable Independiente: Aquellas cuyo valor a medir no depende de otras variables y
en algunos casos afecta el resultado de otras variables.
Variable Interviniente: Aquellas que en una investigación intervienen indirectamente
en el efecto de otra variable o que cuyo valor se necesita tomar en cuenta para
interpretar o analizar otras variables principales.
Por su Naturaleza. Pueden ser:
Variable Cuantitativa: cuando la variable a medir asume valores netamente
numéricos, estas a su vez se clasifican en:
Variable Cuantitativa Discreta: Es aquella que puede asumir sólo ciertos
valores, mas conocidos como números enteros. Estos deben ser indivisibles y es
ilógico interpretarlos como decimales.
9
Ejemplo: El número de hijos (0, 1, 2, 3, …)
Variable Cuantitativa Continua: Es aquella que teóricamente puede tomar
cualquier valor en una escala de medidas, ya sea entero o fraccionario.se puede
interpretar con cierta lógica en decimales.
Ejemplo: Estatura: (1.90 m.); Ingreso Económico (700.52)
Variables Cualitativas: Cuando no es posible hacer medidas numéricas sino que son
caracteres de los elementos de población y son susceptibles de clasificación.
Ejemplo: Color de autos: rojo, verde, azul.
UNIDAD DE ANÁLISIS: La unidad de análisis corresponde a la entidad mayor o
representativa de lo que va a ser objeto específico de estudio en una medición y se refiere
al qué o quién es objeto de interés en una investigación. Por ejemplo:
Debe estar claramente definida en un protocolo de investigación y el investigador debe
obtener la información a partir de la unidad que haya sido definida como tal, aun cuando,
para acceder a ella, haya debido recorrer pasos intermedios. Las unidades de análisis
pueden corresponder a las siguientes categorías o entidades:
Personas
Grupos humanos
Poblaciones completas
Unidades geográficas determinadas
Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones
intrahospitalarias, etc)
Entidades intangibles, susceptibles de medir (exámenes, días camas)
El tipo de análisis al que se someterá la información es determinante para elegir la unidad
de análisis.
EXPERIMENTO: Es una actividad planificada, cuyos resultados producen un conjunto
de datos. Es el proceso mediante el cual una observación o medición es registrada. En un
experimento se consideran todas las variables relevantes que intervienen en el fenómeno,
mediante la manipulación de las que presumiblemente son su causa, el control de las
variables extrañas y la aleatorización de las restantes. Estos procedimientos pueden variar
10
mucho según las disciplinas (no es igual en Física que en Psicología, por ejemplo), pero
persiguen el mismo objetivo: excluir explicaciones alternativas (diferentes a la variable
manipulada) en la explicación de los resultados. Este aspecto se conoce como validez
interna del experimento, la cual aumenta cuando el experimento es replicado por otros
investigadores y se obtienen los mismos resultados. Cada repetición del experimento se
llama prueba o ensayo.
Las distintas formas de realizar un experimento (en cuanto a distribución de unidades
experimentales en condiciones o grupos) son conocidas como diseños experimentales.
Ejemplo: ¿Cuál será la preferencia del consumidor ante dos marcas de refresco con
similares características en un ambiente armónico y sin publicidad?
ESCALAS DE MEDICIÓN
Medir significa “asignar números a objetos y eventos de acuerdo a reglas” (Stevens, 1951),
esta definición es adecuada para el área de ciencias naturales, en el campo de las ciencias
sociales medir es “el proceso de vincular conceptos abstractos con indicadores empíricos”
(Carmines y Zeller, 1979, p. 10).
La medición de las variables puede realizarse por medio de cuatro escalas de medición.
Dos de las escalas miden variables categóricas y las otras dos miden variables numéricas
(Therese L. Baker, 1997). Los niveles de medición son las escalas nominal, ordinal, de
intervalo y de razón. Se utilizan para ayudar en la clasificación de las variables, el diseño
de las preguntas para medir variables, e incluso indican el tipo de análisis estadístico
apropiado para el tratamiento de los datos.
Una característica esencial de la medición es la dependencia que tiene de la posibilidad de
variación. La validez y la confiabilidad de la medición de una variable depende de las
decisiones que se tomen para operacionalizarla y lograr una adecuada comprensión del
concepto evitando imprecisiones y ambigüedad, pero en caso contrario, la variable corre el
riesgo inherente de ser invalidada debido a que no produce información confiable. Se
conocen cuatro escalas de medición:
Escala Nominal: Usa nombres para designarlos, pueden usar números pero solo para
designarlos, sus clasificaciones no tiene un orden jerárquico. Por ejemplo, si la unidad de
11
análisis es un grupo de personas, para clasificarlas se puede establecer la categoría sexo
con dos niveles, masculino (M) y femenino (F), los respondientes solo tienen que señalar
su género, no se requiere de un orden real.
Así, si se asignan números a estos niveles solo sirven para identificación y puede ser
indistinto: 1=M, 2=F o bien, se pueden invertir los números sin que afecte la medición:
1=F y 2=M.
Escala Ordinal: son aquellas variables cuyas características de medición pueden ser
ordenadas jerárquicamente Las formas mas comunes de variables ordinales son ítems
(reactivos) actitudinales estableciendo una serie de niveles que expresan una actitud de
acuerdo o desacuerdo con respecto a algún referente. Por ejemplo, ante el ítem: La
economía mexicana debe dolarizarse, el respondiente puede marcar su respuesta de
acuerdo a las siguientes alternativas:
___ Totalmente de acuerdo
___ De acuerdo
___ Indiferente
___ En desacuerdo
___ Totalmente en desacuerdo
las anteriores alternativas de respuesta pueden codificarse con números que van del uno al
cinco que sugieren un orden preestablecido pero no implican una distancia entre un
número y otro. Las escalas de actitudes son ordinales pero son tratadas como variables
continuas (Therese L. Baker, 1997).
Escalas de Intervalo: registra de manera numérica la distancia entre dos puntos, el cero no
indica ausencia de variable y es arbitrario. El ejemplo mas representativo de este tipo de
medición es un termómetro, cuando registra cero grados centígrados de temperatura indica
el nivel de congelación del agua y cuando registra 100 grados centígrados indica el nivel
de ebullición, el punto cero es arbitrario no real, lo que significa que en este punto no hay
ausencia de temperatura.
12
Una persona que en un examen de matemáticas que obtiene una puntuación de cero no
significa que carezca de conocimientos, el punto cero es arbitrario por que sigue existiendo
la característica medida. Otros ejemplos son fecha de calendario, horas, etc.
Escala de Razón: Es una escala mas fuerte. Determina la distancia exacta entre los
intervalos de una categoría, el cero es absoluto e implica ausencia y la diferencia de dos
variables es de magnitud conocida. Es decir, en el punto cero no existe la característica o
atributo que se mide. Las variables de ingreso, edad, número de hijos, etc. son ejemplos de
este tipo de escala. El nivel de medición de razón se aplica tanto a variables continuas
como discretas.
13
UNIDAD II: Cálculo del tamaño muestral. Técnicas y Métodos para la recolección
de datos y diseños de cuestionarios.
Población
Es el conjunto de elementos de referencia sobre el que se realizan las observaciones. Es
decir el conjunto de sujetos o individuos con determinadas características demográficas, de
la que se obtiene la muestra para cualquier estudio a la que se quiere inferir los resultados
de dicho estudio. Las poblaciones pueden ser finitas, si existe un número fijo de estos
valores; e infinitas si la poblaión consiste en una sucesión interminable de valores.
Muestra
También llamada muestra aleatoria o simplemente muestra) es un subconjunto de casos o
individuos de una población estadística. Se obtienen con la intención de inferir propiedades
de la totalidad de la población, para lo cual deben ser representativas de la misma. Para
cumplir esta característica la inclusión de sujetos en la muestra debe seguir una técnica de
muestreo. En tales casos, puede obtenerse una información similar a la de un estudio
exhaustivo con mayor rapidez y menor costo. El muestreo puede ser más exacto que el
estudio de toda la población porque el manejo de un menor número de datos provoca
también menos errores en su manipulación.
Ventajas de la elección de una muestra
El estudio de muestras es preferible a los censos por las siguientes razones:
1. La población es muy grande (en ocasiones, infinita, como ocurre en determinados
experimentos aleatorios) y, por tanto, imposible de analizar en su totalidad.
2. Las características de la población varían si el estudio se prolonga demasiado tiempo.
3. Reducción de costos: al estudiar una pequeña parte de la población, los gastos de
recogida y tratamiento de los datos serán menores que si los obtenemos del total de la
población.
4. Rapidez: al reducir el tiempo de recogida y tratamiento de los datos, se consigue mayor
rapidez.
5. Viabilidad: la elección de una muestra permite la realización de estudios que serían
imposible hacerlo sobre el total de la población.
14
6. La población es suficientemente homogénea respecto a la característica medida, con lo
cual resultaría inútil malgastar recursos en un análisis exhaustivo (por ejemplo, muestras
sanguíneas).
7. El proceso de estudio es destructivo o es necesario consumir un artículo para extraer la
muestra (ejemplos: vida media de una bombilla, carga soportada por una cuerda,
precisión de un proyectil, etc.).
Espacio Muestral
Es el conjunto de todas las posibles muestras que se pueden extraer de una población
mediante una determinada técnica de muestreo.
Concepto e importancia del muestreo
Es la actividad por la cual se toman ciertas muestras de una población de elementos de los
cuales vamos a tomar ciertos criterios de decisión, el muestreo es importante porque a
través de él podemos hacer análisis de situaciones de una empresa o de algún campo de
la sociedad.
Terminología básica para el muestreo
Los nuevos términos, los cuales son frecuentemente usados en inferencia estadística son:
Estadístico:
Un estadístico es una medida usada para describir alguna característica de una muestra, tal
como una media aritmética, una mediana o una desviación estándar de una muestra.
Parámetro:
Una parámetro es una medida usada para describir alguna característica de una población,
tal como una media aritmética, una mediana o una desviación estándar de una población.
Cuando los dos nuevos términos de arriba son usados, por ejemplo, el proceso de
estimación en inferencia estadística puede ser descrito como le proceso de estimar un
parámetro a partir del estadístico correspondiente, tal como usar una media muestral ( un
estadístico para estimar la media de la población (un parámetro).
Distribución en el muestreo:
Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de la población (N), dos
o más muestras pueden ser extraídas de la misma población. Un cierto estadístico puede
15
ser calculado para cada una de las muestras posibles extraídas de la población.
Una distribución del estadístico obtenida de las muestras es llamada la distribución en el
muestreo del estadístico.
Por ejemplo, si la muestra es de tamaño 2 y la población de tamaño 3 (elementos A, B, C),
es posible extraer 3 muestras (AB, BC y AC) de la población. Podemos calcular la media
para cada muestra. Por lo tanto, tenemos 3 medias muéstrales para las 3 muestras. Las 3
medias muéstrales forman una distribución. La distribución de las medias es llamada la
distribución de las medias muéstrales, o la distribución en el muestreo de la media. De la
misma manera, la distribución de las proporciones (o porcentajes) obtenida de todas las
muestras posibles del mismo tamaño, extraídas de una población, es llamada la
distribución en el muestreo de la proporción.
Error Estándar:
La desviación estándar de una distribución, en el muestreo de un estadístico, es
frecuentemente llamada el error estándar del estadístico. Por ejemplo, la desviación
estándar de las medias de todas la muestras posibles del mismo tamaño, extraídas de una
población, es llamada el error estándar de la media. De la misma manera, la desviación
estándar de las proporciones de todas las muestras posibles del mismo tamaño, extraídas de
una población, es llamada el error estándar de la proporción. La diferencia entre los
términos "desviación estándar" y "error de estándar" es que la primera se refiere a los
valores originales, mientras que la última está relacionada con valores calculados. Un
estadístico es un valor calculado, obtenido con los elementos incluidos en una muestra.
Error muestral o error de muestreo:
La diferencia entre el resultado obtenido de una muestra (un estadístico) y el resultado el
cual deberíamos haber obtenido de la población (el parámetro correspondiente) se llama el
error muestral o error de muestreo. Un error de muestreo usualmente ocurre cuando no se
lleva a cabo la encuesta completa de la población, sino que se toma una muestra para
estimar las características de la población. El error muestral es medido por el error
estadístico, en términos de probabilidad, bajo la curva normal. El resultado de la media
indica la precisión de la estimación de la población basada en el estudio de la muestra.
Mientras más pequeño el error muestras, mayor es la precisión de la estimación. Deberá
hacerse notar que los errores cometidos en una encuesta por muestreo, tales como
respuestas inconsistentes, incompletas o no determinadas, no son considerados como
16
errores muéstrales. Los errores no muéstrales pueden también ocurrir en una encuesta
completa de la población.
Métodos de selección de muestras.
Una muestra debe ser representativa si va a ser usada para estimar las características de la
población. Los métodos para seleccionar una muestra representativa son numerosos,
dependiendo del tiempo, dinero y habilidad disponibles para tomar una muestra y
la naturaleza de los elementos individuales de la población. Por lo tanto, se requiere un
gran volumen para incluir todos los tipos de métodos de muestreo.
Los métodos de selección de muestras pueden ser clasificados de acuerdo a:
1. El número de muestras tomadas de una población dada para un estudio y
2. La manera usada en seleccionar los elementos incluidos en la muestra. Los métodos de
muestreo basados en los dos tipos de clasificaciones son expuestos en seguida.
Métodos de muestreo clasificados de acuerdo con el número de muestras tomadas de una
población.
Bajo esta clasificación, hay tres tipos comunes de métodos de muestreo. Estos son,
muestreo simple, doble y múltiple.
Muestreo simple
Este tipo de muestreo toma solamente una muestra de una población dada para el propósito
de inferencia estadística. Puesto que solamente una muestra es tomada, el tamaño de
muestra debe ser lo suficientemente grande para extraer una conclusión. Una muestra
grande muchas veces cuesta demasiado dinero y tiempo.
Muestreo doble
Bajo este tipo de muestreo, cuando el resultado dele estudio de la primera muestra no es
decisivo, una segunda muestra es extraída de la misma población. Las dos muestras son
combinadas para analizar los resultados. Este método permite a una persona principiar con
una muestra relativamente pequeña para ahorrar costos y tiempo. Si la primera muestra
arroja una resultado definitivo, la segunda muestra puede no necesitarse.
Por ejemplo, al probar la calidad de un lote de productos manufacturados, si la primera
muestra arroja una calidad muy alta, el lote es aceptado; si arroja una calidad muy pobre, el
lote es rechazado. Solamente si la primera muestra arroja una calidad intermedia, será
requerirá la segunda muestra. Un plan típico de muestreo doble puede ser obtenido de la
17
Military Standard Sampling Procedures and Tables for Inspection by Attributes, publicada
por el Departamento de Defensa y también usado por muchas industrias privadas. Al
probar la calidad de un lote consistente de 3,000 unidades manufacturadas, cuando el
número de defectos encontrados en la primera muestra de 80 unidades es de 5 o menos, el
lote es considerado bueno y es aceptado; si el número de defectos es 9 o más, el lote es
considerado pobre y es rechazado; si el número está entre 5 y 9, no puede llegarse a una
decisión y una segunda muestra de 80 unidades es extraída del lote. Si el número de
defectos en las dos muestras combinadas (incluyendo 80 + 80 = 160 unidades) es 12 o
menos, el lote es aceptado si el número combinado es 13 o más, el lote es rechazado.
Muestreo múltiple
El procedimiento bajo este método es similar al expuesto en el muestreo doble, excepto
que el número de muestras sucesivas requerido para llegar a una decisión es más de dos
muestras.
Métodos de muestreo clasificados de acuerdo con las maneras usadas en seleccionar los
elementos de una muestra.
Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes:
a. Basados en el juicio de una persona.
b. Selección aleatoria (al azar)
Muestreo de juicio
Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados
mediante juicio personal. La persona que selecciona los elementos de la muestra,
usualmente es un experto en la medida dada. Una muestra de juicio es llamada una muestra
probabilística, puesto que este método está basado en los puntos de vista subjetivos de una
persona y la teoría de la probabilidad no puede ser empleada para medir el error de
muestreo, Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y
que el costo usualmente es bajo.
Muestreo Aleatorio
Una muestra se dice que es extraída al azar cuando la manera de selección es tal, que cada
elemento de la población tiene igual oportunidad de ser seleccionado. Una muestra
aleatoria es también llamada una muestra probabilística son generalmente preferidas por
los estadísticos porque la selección de las muestras es objetiva y el error muestral puede ser
medido en términos de probabilidad bajo la curva normal. Los tipos comunes de muestreo
18
aleatorio son el muestreo aleatorio simple, muestreo sistemático, muestreo estratificado y
muestreo de conglomerados.
A. Muestreo aleatorio simple
Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del
mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Para obtener
una muestra aleatoria simple, cada elemento en la población tenga la misma probabilidad
de ser seleccionado, el plan de muestreo puede no conducir a una muestra aleatoria simple.
Por conveniencia, este método pude ser reemplazado por una tabla de números aleatorios.
Cuando una población es infinita, es obvio que la tarea de numerar cada elemento de la
población es infinita, es obvio que la tarea de numerar cada elemento de la población es
imposible. Por lo tanto, ciertas modificaciones del muestreo aleatorio simple son
necesarias. Los tipos más comunes de muestreo aleatorio modificado son sistemático,
estratificado y de conglomerados.
B. Muestreo sistemático.
Una muestra sistemática es obtenida cuando los elementos son seleccionados en una
manera ordenada. La manera de la selección depende del número de elementos incluidos
en la población y el tamaño de la muestra. El número de elementos en la población es,
primero, dividido por el número deseado en la muestra. El cociente indicará si cada
décimo, cada onceavo, o cada centésimo elemento en la población va a ser seleccionado.
El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra
sistemática puede dar la misma precisión de estimación acerca de la población, que una
muestra aleatoria simple cuando los elementos en la población están ordenados al azar.
C. Muestreo Estratificado
Para obtener una muestra aleatoria estratificada, primero se divide la población en grupos,
llamados estratos, que son más homogéneos que la población como un todo. Los elementos
de la muestra son entonces seleccionados al azar o por un método sistemático de cada
estrato. Las estimaciones de la población, basadas en la muestra estratificada, usualmente
tienen mayor precisión (o menor error muestral) que si la población entera muestreada
mediante muestreo aleatorio simple. El número de elementos seleccionado de cada estrato
puede ser proporcional o desproporcional al tamaño del estrato en relación con la
población.
19
D. Muestreo de conglomerados.
Para obtener una muestra de conglomerados, primero dividir la población en grupos que
son convenientes para el muestreo. En seguida, seleccionar una porción de los grupos al
azar o por un método sistemático. Finalmente, tomar todos los elementos o parte de ellos al
azar o por un método sistemático de los grupos seleccionados para obtener una muestra.
Bajo este método, aunque no todos los grupos son muestreados, cada grupo tiene una igual
probabilidad de ser seleccionado. Por lo tanto la muestra es aleatoria.
Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto,
da menor precisión de las estimaciones acerca de la población) que una muestra aleatoria
simple del mismo tamaño. Los elementos individuales dentro de cada "conglomerado"
tienden usualmente a ser iguales. Por ejemplo la gente rica puede vivir en el mismo barrio,
mientras que la gente pobre puede vivir en otra área. No todas las áreas son muestreadas en
un muestreo de áreas. La variación entre los elementos obtenidos de las áreas
seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la población entera
es muestreada mediante muestreo aleatorio simple. Esta debilidad puede reducida cuando
se incrementa el tamaño de la muestra de área.
El incremento del tamaño de la muestra puede fácilmente ser hecho en muestra muestra de
área. Los entrevistadores no tienen que caminar demasiado lejos en una pequeña área para
entrevistar más familias. Por lo tanto, una muestra grande de área puede ser obtenida
dentro de un corto período de tiempo y a bajo costo.
Por otra parte, una muestra de conglomerados puede producir la misma precisión en la
estimación que una muestra aleatoria simple, si la variación de los elementos individuales
dentro de cada conglomerado es tan grande como la de la población.
DISEÑO DE CUESTIONARIOS
Supuestos.
El uso de cuestionarios en investigación supone que:
1. El investigador debe partir de objetivos de estudio perfectamente definidos.
2. Cada pregunta es de utilidad para el objetivo planteado por el trabajo.
3. El investigador debe estructurar las preguntas teniendo en mente siempre los
objetivos del trabajo.
4. El que contesta está dispuesto y es capaz de proporcionar respuestas fidedignas.
20
Confiabilidad.
Una pregunta es confiable si significa lo mismo para todos los que la van a responder.
Se puede confiar en una escala cuando produce constantemente los mismos resultados al
aplicarla a sujetos similares. La confiabilidad implica consistencia.
El investigador debe asegurarse que el tipo de persona a quien se le van a hacer las
preguntas tenga la información necesaria para poder responder.
El asegurar la respuesta de los que se les aplique el cuestionario redundará en resultados
confiables.
Para la confiabilidad de los resultados hay que determinar por qué no todos respondieron el
cuestionario. Es necesario investigar con los no respondientes para conocer las razones.
Un cuestionario largo es demasiado cansado y las preguntas finales se responden sin
entusiasmo, lo cual le resta confiabilidad.
Validez.
Una pregunta es válida si estimula información exacta y relevante. La selección y
la redacción influyen en la validez de la pregunta.
Algunas preguntas que son válidas para un grupo de personas, pueden no serlo para otro
grupo.
Entre menos tenga que reflexionar el sujeto, más válida será la respuesta.
La validez implica congruencia en la manera de plantear las preguntas.
La validez puede ser
De contenido
De criterio
De constructo
Para decir que un instrumento tiene validez de contenido el diseñador del cuestionario debe
asegurarse que la medición representa el concepto medido. Por ejemplo, si el instrumento
es para medir actitudes de las personas, debe medir eso y no sus emociones.
En cuanto a la validez de criterio, el diseñador del cuestionario la puede establecer
comparando la medición del instrumento con un criterio externo. Entre más se relacionen
los resultados de la investigación con el criterio, mayor será la validez del instrumento.
La validez del constructo indica cómo una medición se relaciona con otras de acuerdo con
la teoría o hipótesis que concierne a los conceptos que se están midiendo. De ahí que sea
21
importante que el investigador tome en cuenta dichos conceptos para correlacionarlos
posteriormente.
Cuatro preguntas clave.
1. ¿De cuánto tiempo disponen quienes responderán para contestar el cuestionario?
2. ¿Cuánto tiempo tiene el investigador para editarlo, presentarlo, aplicarlo,
codificarlo, procesarlo y analizarlo?
3. ¿Qué tan dispuestos están para responder quienes van a contestar?
4. ¿Cuánto costará su aplicación?
Antes de diseñar el cuestionario.
Es necesario determinar si el cuestionario tendrá preguntas abiertas o cerradas. Para el
análisis de las preguntas es mejor que éstas sean cerradas. Para cerrarlas, primero se deben
hacer las preguntas abiertas con una muestra de la población. Con estas respuestas, se
pueden diseñar las preguntas cerradas.
Es necesario estar seguros de que los encuestados respondan. Por eso es importante
conocer las opiniones de los posibles sujetos acerca del tema a investigar, antes de
diseñarlo.
El contacto inicial es fundamental para lograr que los encuestados respondan.
Hay que preparar una explicación para los encuestados sobre la importancia de su
participación y lo que se hará con los resultados de la investigación. En esta explicación se
les debe asegurar el anonimato de su participación y ofrecerles una copia del resumen del
trabajo cuando éste esté terminado (habrá que cumplir esta promesa).
No es conveniente mencionar que se está llevando a cabo este trabajo para cubrir un
requisito de graduación (tesis), sino la importancia real del estudio. Todo cuestionario debe
hacerse con ese propósito en mente.
El investigador tiene que pensar en cómo va a presentar los resultados antes de elaborar el
cuestionario. Hay que involucrar a alguien que sea responsable de capturar la información
de los cuestionarios así como a una persona que haga el procesamiento de los datos en
la computadora. Ellos pueden ayudar a determinar la mejor presentación de cada una de las
preguntas. Eso no lo va a hacer un asesor de tesis; es indispensable la ayuda profesional de
un experto en cómputo y en estadística.
22
Diseño del cuestionario.
El título del trabajo debe estar al inicio del cuestionario.
Hay que incluir instrucciones breves, pero incluirlas. Es conveniente usar una tipografía
diferente a la de las preguntas.
Al inicio deben colocarse preguntas interesantes, no amenazantes.
Los puntos importantes deben ir cercanos al inicio del cuestionario, después de las
preguntas interesantes.
Hay que numerar las preguntas.
Es importante agrupar las preguntas en secciones lógicas.
Debe haber una categoría para cada posible respuesta, pues si se omite una opción, se
forzará al que responde a contestar de una manera que no refleje su respuesta. Por eso en
ocasiones se necesita abrir una opción de "otros" con un renglón amplio para dejar esa
parte de la pregunta abierta. También, a veces, es necesario incluir una opción de "no sé",
pues si no existe ésta, el sujeto puede seleccionar cualquier respuesta simplemente para no
dejarla en blanco.
Consejos sobre la presentación.
La apariencia física de un cuestionario es la imagen del investigador con el encuestado. Su
misma forma motiva o impide su lectura. En cuestionarios largos, hay que identificar cada
página con alguna marca por si se separan las hojas. Lo mejor es no hacer cuestionarios
largos. Si hay preguntas por ambos lados de la página, al final de la primera hoja se debe
poner "vuelta". La hoja no debe verse sobrecargada. Los espacios vacíos son agradables.
Hay que dejar suficiente espacio entre cada una de las preguntas.
Consejos sobre el lenguaje.
Una redacción pobre influye en el resultado y también en la calidad de la respuesta
obtenida.
El sujeto no debe tener que adivinar lo que se quiso preguntar. La pregunta debe estar
escrita en lenguaje claro.
La palabra cuestionario asusta o intimida al que va a responder. Encuesta es mejor.
Las preguntas deben estar redactadas para no ofender al sujeto.
23
Hay que utilizar lenguaje común y corriente. No especializado.
No deben usarse palabras vagas ni palabras ambiguas o que tengan varios significados.
Las preguntas no deben estar en negativo.
No se debe abreviar.
Hay que ser sutil para cambiar de una sección a otra.
La formulación correcta de una pregunta es una tarea muy difícil, mucho más de lo que
una persona que nunca ha diseñado un cuestionario puede imaginarse. Hay que hacerlo con
cuidado.
Consejos generales.
El contestar un cuestionario es una imposición para quien lo contesta. Hay que estar
conscientes de ello.
El uso de un cuestionario es únicamente para hacer preguntas que no se pueden obtener de
ninguna otra manera.
Lo que recuerda el sujeto no se debe considerar como un hecho. Puede ser muy diferente el
hecho a lo que recuerda la persona que está respondiendo.
Todas las preguntas en el cuestionario tienen que ser analizadas. Por eso hay que
seleccionar únicamente reactivos indispensables para obtener los objetivos del trabajo.
Es indispensable pilotear el cuestionario.
Se debe establecer el procedimiento de análisis y evaluación de los resultados antes de
llevar a cabo la encuesta. Así se sabrá cómo analizar las respuestas.
Vale la pena consultar a expertos en estadística y en procesamiento de datos antes de
aplicar un cuestionario.
Las posibles respuestas tienen que estar cerca de las preguntas. Esto evita confusiones.
El decidir utilizar un cuestionario obedece a los indicadores que el autor determine en sus
fundamentos teóricos. Analizar los indicadores puede ayudar al investigador a determinar
que el cuestionario no es el instrumento adecuado para el estudio que desea realizar.
En general a la gente en México no le gusta responder a cuestionarios.
24
Análisis de preguntas abiertas.
Para analizar las preguntas abiertas se anotará en una hoja (#1) la respuesta a la primera
pregunta abierta del primer cuestionario. Si la respuesta a la primera pregunta del segundo
cuestionario es similar, se anotará en la misma hoja (#1). Si es diferente se anotará en otra
hoja (#2). Si la respuesta a la primer pregunta del tercer cuestionario es semejante a la del
primer cuestionario se anotará en esa hoja (#1); si es similar a la del segundo cuestionario
se anotará en esa hoja (#2) y si es diferente a ambas respuestas se anotará en una tercera
hoja (#3) y así sucesivamente hasta terminar con la primera pregunta de todos los
cuestionarios. Una vez terminado el análisis de la primera pregunta de todos los
cuestionarios, se seleccionará la mejor redactada o bien se hará un resumen de todas las
respuestas en cada una de las tarjetas y se anotará el número de respuestas a cada tarjeta.
Posteriormente se hará lo mismo con cada una de las preguntas abiertas que se hayan
hecho en el cuestionario.
Análisis de los resultados.
Es necesario una revisión detallada de lo que se introduce a la computadora para asegurar
que la información que entre a ella sea la que está plasmada en el cuestionario. Hay que
revisar la información capturada con cada cuestionario. No se debe esperar hasta el final,
pues pudiera suceder que es necesario hacer todo de nuevo.
Algunos consejos para entrevistas.
Si la entrevista es en una oficina, es necesario asegurarse que el entrevistado estará
disponible y que tiene el tiempo para responder a las preguntas.
El entrevistador tiene que ser muy objetivo en sus presentaciones para que en todas se
utilice el mismo tono de voz, pronunciación de los reactivos, modismos, el lenguaje del
cuerpo y vestimenta. Todo esto influye en las respuestas y se trata de que todos los
entrevistados entiendan lo mismo y estén motivados de la misma manera.
El entrevistar en la casa del sujeto a veces resulta práctico para el entrevistado. Quizá a
través de una llamada por teléfono, se pueda hacer una cita con él.
Hay tres factores importantes en una entrevista:
25
1. La calidad del entrevistador. Hay que aprender a establecer un contacto positivo desde
el primer momento. Hay cosas impredecibles que afectarán sin que el entrevistador
pueda remediarlas: la edad, el sexo, su manera de vestir y su personalidad. Ni modo. Por
eso hay que cuidar todo lo demás.
2. La introducción que hace el entrevistador al entrevistado. Le tiene que indicar el
objetivo del estudio y debe convencerlo de que vale la pena responder a sus preguntas.
3. La manera como está estructurada la entrevista. Hay que iniciar con preguntas
interesantes para "enganchar" al entrevistado.
26
UNIDAD III: Tablas de frecuencia, gráficos. Medidas de Tendencia Central. Medidas
de Posición. Medidas de Dispersión. Asimetría y Kurtosis.
Una distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla
de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.
Tipos de frecuencia
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un determinado valor en un
estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al número total de datos, que se representa
por N.
Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que
se lee suma o sumatoria.
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y
el número total de datos.
Se puede expresar en tantos por ciento y se representa por ni.
La suma de las frecuencias relativas es igual a 1.
Frecuencia acumulada
27
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores
inferiores o iguales al valor considerado.
Se representa por Fi.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un
determinado valor y el número total de datos. Se puede expresar en tantos por ciento.
Ejemplo para variables cuantitativas discretas.
Si se conoce el número de hijos de 31 trabajadores de una empresa:
0, 7, 4, 4, 6, 4, 4, 4, 1, 1, 2, 2, 2, 3, 3, 3, 5, 3, 4, 4, 4, 2, 2, 2, 3, 3, 3, 5, 5, 6, 6.
En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la
segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.
xi Recuento fi Fi ni Ni ni% Ni%
0 I 1 1 0.032 0.032 3.2 3.2
1 II 2 3 0.065 0.097 6.5 9.7
2
6 9 0.194 0.290 19.4 29.0
3
7 16 0.226 0.516 22.6 51.6
4
8 24 0.258 0.774 25.8 77.4
5 III 3 27 0.097 0.871 9.7 87.1
6 III 3 30 0.097 0.968 9.7 96.8
7 I 1 31 0.032 1 3.2 100.0
Total 31 - 1 - 100.0 -
28
Distribución de frecuencias agrupadas
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las
variables toman un número grande de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A
cada clase se le asigna su frecuencia correspondiente.
Límites de la clase
Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.
Amplitud de la clase
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.
Marca de clase
La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el
intervalo para el cálculo de algunos parámetros.
Construcción de una tabla de datos agrupados.
1º se localizan los valores menor y mayor de la distribución.
R = número máximo – número menor
2º Encontrar el número de clases o intervalos de clases (K). El número de clases debe ser
tal que se evite el detalle innecesario, pero que no conduzca a la perdida de más
información de la que puede ser convenientemente ignorada. Para este cálculo se utiliza la
formula de Sturges:
K = 1 + 3.322log(n)
2º Determinar la amplitud o constante.
C = R /K
Ejemplo para variables cuantitativas continuas
La tienda CABRERA’S Y ASOCIADOS estaba interesada en efectuar un análisis de sus
cuentas por comprar. Uno de los factores que más interesaba a la administración de la
tienda era el de los saldos de las cuentas de crédito. Se escogió al azar una muestra
aleatoria de 30 cuentas y se anotó el saldo de cada cuenta (en unidades monetarias) como
sigue:
29
77.97 13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99 43.66 29.75 7.42 93.91 20.64
21.10 17.64 81.59 60.94 43.97 32.67 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15
25.68
donde: X1 = valor mínimo = 7.42
Xn= valor máximo = 93.91
1. Efectuar el arreglo ordenado de la población o muestra:
R = valor mayor – valor menor = 93.91 – 7.42 = 86.49
2. Encontrar el número de filas o clases que tendrá la tabla
K=1+3.322(log N)
Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la muestra:
K = 1 + 3.322 (log 30)
= 1 + 3.322 (1.477) el log fue obtenido según calculadora
= 1+ 4.9069
= 5.9069 ~6 aproximado al siguiente entero
3. Determinar la amplitud de la clase: "C"
Nota: obsérvese que se va a trabajar con una cifra significativa más cómoda, o sea como
los datos están dados en centésimos, se calculo C hasta el milésimo para evitar que algún
dato coincida con el límite de clases
30
Clases Xi fi Fi< Fi> ni Ni ni% Ni%
7.420 – 21.835 14.628 10 10 30 0.33 0.33 33.0 33.0
21.835 – 36.250 29.043 4 14 20 0.13 0.46 13.0 46.0
36.250 – 50.665 43.458 5 19 16 0.17 0.63 17.0 63.0
50.665 – 65.080 57.873 3 22 11 0.10 0.73 10.0 73.0
65.080 – 79.495 72.288 3 25 8 0.10 0.83 10.0 83.0
79.495 – 93.910 86.703 5 30 5 0.17 1.00 17.0 100.0
Total - 30 - - 1.00
100.0 -
Simbología utilizada:
Xi = Punto medio o marca de clases.
fi = frecuencia absoluta simple.
Fi> = frecuencia absoluta acumulada mayor que.
Fi< = frecuencia absoluta acumulada menor que.
ni = frecuencia relativa simple.
Ni = frecuencia relativa acumulada.
ni% = frecuencia relativa simple porcentual.
Ni% = frecuencia relativa acumulada porcentual.
Tipos de curvas de frecuencia
31
MEDIDAS DE TENDENCIA CENTRAL
Son indicadores estadísticos quemuestran hacia que valor (o valores) se agrupan los datos.
Entre las principales medidas tenemos:
La media aritmética
La moda
La mediana
Media Aritmética
Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable
por la frecuencia total. En palabras más simples, corresponde a la suma de un conjunto de
datos dividida por el número total de dichos datos. Y se calcula con el fin de representar al
conjunto de datos.
Para datos desagrupados:
X = ∑ Xi / n
Para datos agrupados:
X = ∑( Xi*fi) / n
Mediana
Para reconocer la mediana, es necesario tener ordenados los valores sea de mayor a menor
o lo contrario. Usted divide el total de casos (N) entre dos, y el valor resultante
corresponde al número del caso que representa la mediana de la distribución.
Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente.
Dicho en otras palabras, la Mediana corresponde al valor que deja igual número de valores
antes y después de él en un conjunto de datos agrupados.
Para datos desagrupados
Según el número de valores que se tengan se pueden presentar dos casos:
- Si el número de valores es impar, la Mediana corresponderá al valor central de
dicho conjunto de datos.
- Si el número de valores es par, la Mediana corresponderá al promedio de los dos
valores centrales (los valores centrales se suman y se dividen por 2).
Para datos agrupados
32
Me = Li + ( C (n/2 - Fi – 1) / (Fi - Fi – 1) )
Donde:
n = muestra
F(i – 1) = frecuencia acumulada “menor que” anterior a la clase seleccioanada.
Fi = frecuencia acumulada seleccionada (inmediatamente superior a n/2)
Moda
Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos; o
sea, cual se repite más.
Para datos desagrupados: la moda es el dato que se repite con mayor frecuencia. Se tiene 4
tipos:
- Unimodal (una moda)
- Bimodal (dos modas)
- Trimodal (tres modas)
- Multimodal (mas de tres modas)
Para datos agrupados
Mo = Li + C (fi – 1 / (fi – 1 + fi + 1 ) )
Medidas de Posición
Cuartiles
Los cuartiles son medidas estadísticas de posición que tienen la propiedad de dividir la
serie estadística en cuatro grupos de números iguales de términos.
Se emplean generalmente en la determinación de estratos o grupos correspondientes a
fenómenos socio-económicos, monetarios o teóricos. Los tres cuartiles suelen designarse
con los símbolos:
Q1 = primer cuartil
Q2 = segundo cuartil
Q3 = tercer cuartil
33
En lo que se refiere a los cuartiles, el número de orden del primer cuartil es igual al número
de términos de la distribución más uno, sobre cuatro. Para el segundo cuartil el número de
orden se calculará sumando uno al total de términos y dividiéndolo entre dos.
Así mismo el número de orden del tercer cuartil ser igual a tres cuartos del número de
términos de la distribución más uno.
Para datos Desagrupados
a) Si se adopta el símbolo No Q para denotar el número de orden, donde: No es el
número de términos y Q el cuartil a calcular, entonces en el ejemplo cuyos
términos son: 3, 4, 5, 7, 8, 10, 11, que es número de términos impar, el número de
orden se calcula así:
NoQ1 = (N + 1) / 4 = (7+1)/4 = 2, el cual indica que el valor jdel segundo término (4)
es el valor de Q1, luego Q1 =4
NoQ2 = (N + 1) / 2 = (7+1)/2 = 4, el cual indica que el valor del cuarto término (7) es
el valor de Q2 , y Q2=7
NoQ3 = 3(N + 1) / 4 = 3(7+1)/4 = 6, que indica que el valor del sexto término (10) es
el valor de Q3 , y Q3 = 10
b) Cuando el número de términos es par como la distribución constituida por: 3, 4, 5,
7, 9, 10, 11, 14
NoQ1 = (No + 1) / 4 = (8+1)/4 = 2.25, luego Q1 =4.25
NoQ2 = (No + 1) / 2 = (8+1)/2 = 4.5, luego Q2 =8
NoQ3 = 3(No + 1) / 4 = 3(8+1)/4 = 6.75, luego Q3 =10.75
Para datos Agrupados
Qi = Li + [C ( i(N + 1) / 4 - Fi – 1) / (Fi - Fi – 1) ]
Donde: i=1, 2, 3
n = muestra
F(i – 1) = frecuencia acumulada “menor que” anterior a la clase seleccioanada.
Fi = frecuencia acumulada seleccionada inmediatamente superior a (i(N+1)/4)
34
Deciles
Los deciles son medidas estadísticas de posición que tienen la propiedad de dividir la
serie estadística en diez grupos de números iguales de términos. D1, D2,…..D9.
Para el cálculo de estas nueve medidas de posición es necesario arreglar los términos
en forma creciente o decreciente. Así, en el caso de un ordenamiento simple, el
siguiente paso es determinar el "número de orden" de los deciles, el cual indicará el
lugar que ocupen en la distribución.
Para datos desagrupados
NoDi = i (No + 1) / 10 donde i=1, 2, 3, 4, 5, 6, 7, 8, 9
Para datos Agrupados
Di = Li + [C ( i(N + 1) 10 - Fi – 1) / (Fi - Fi – 1) ]
Donde: i=1, 2, 3
n = muestra
F(i – 1) = frecuencia acumulada “menor que” anterior a la clase seleccioanada.
Fi =frecuencia acumulada seleccionada inmediatamente superior a (i(N+1)/10)
Percentiles
Los Percentiles son medidas estadísticas de posición que tienen la propiedad de dividir
la serie estadística en cien grupos de números iguales de términos. P1, P2,…..P99.
Para el cálculo de estas noventainueve medidas de posición es necesario arreglar los
términos en forma creciente o decreciente. Así, en el caso de un ordenamiento simple,
el siguiente paso es determinar el "número de orden" de los percentiles, el cual indicará
el lugar que ocupen en la distribución.
Para datos desagrupados
NoPi = i (No + 1) / 100 donde i=1, 2, 3, 4, 5,……99
Para datos Agrupados
Pi = Li + [C ( i(N + 1) 100 - Fi – 1) / (Fi - Fi – 1) ]
Donde: i=1, 2, 3, ….99
n = muestra
F(i – 1) = frecuencia acumulada “menor que” anterior a la clase seleccioanada.
Fi =frecuencia acumulada seleccionada inmediatamente superior a (i(N+1)/100).
35
Medidas de Asimetría
1) Las basadas en el grado de alejamiento que tiene los términos con respecto a diversas
medidas centrales a medida que la distribución se hace asimétrica.
2) Las basadas en el sistema de momentos (A3 ).
En lo que se refiere a las primeras, estas medidas nos indican no sólo el grado de asimetría
de la curva sino también la dirección de la misma. Si su valor es negativo, la asimetría es
hacia la izquierda y si es positiva la asimetría será hacia la derecha. De (1) usaremos el
coeficiente Pearson, como se recordará en una distribución simétrica la media, moda y
mediana, se encuentran en el mismo punto. Si la distribución es asimétrica, el valor de cada
uno de ellos se localizan en diferentes puntos de la distribución.
Puesto que en una distribución asimétrica el valor de la moda permanece en lo alto de la
curva y el de la media se mueve hacia los extremos de la distribución, usando el coeficente
Pearson tendremos que:
Asimetría = (X−Mo) / σ
Cuando no se conoce la moda o es difícil localizarla, pero se conoce la mediana, el
coeficiente de Pearson será:
Asimetría = 3(X−Md) / σ
Luego la asimetría o dirección de la curva de la distribución es a la derecha (si asimetría <
0), indicando que la mayor parte de los datos están a la derecha del promedio. Y hacia la
izquierda si la asimetría es > 0.
Medidas de Kurtosis
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coficiente de Curtosis, podemos identificar si
36
existe una gran concentración de valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la
media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se
interpretan:
(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante
difícil encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar
los valores cercanos (± 0.5 aprox.).
(g2 > 0) la distribución es Leptocúrtica
(g2 < 0) la distribución es Platicúrtica
Medidas de dispersión
Rango o recorrido
El rango es la diferencia entre el mayor y el menor de los datos de una distribución
estadística.
R = N° máx. - N° mín.
37
Desviación Media
La desviación respecto a la media es la diferencia entre cada valor de la variable
estadística y la media aritmética.
Di = x – x
La desviación media es la media aritmética de los valores absolutos de las desviaciones
respecto a la media. La desviación media se representa por
Para datos desagrupados:
Para datos agrupados seria:
Varianza
La varianza es la media aritmética del cuadrado de las desviaciones respecto a la
media de una distribución estadística. La varianza se representa por .
38
Para datos desagrupados:
Una forma mas simple
Para datos agrupados:
Una forma mas simple
Desviación Estándar:
Es la raíz cuadrada de la varianza. Es decir, la raíz cuadrada de la media de los cuadrados
de las puntuaciones de desviación. Y mide la distancia promedio entre los datos.
σ = Ѵ σ2
Coeficiente de Variación de Pearson:
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor
representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de
tendencia central son representativas como síntesis de la información. Las medidas de
39
dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la
distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas,
que no son comparables entre diferentes muestras y las relativas que nos permitirán
comparar varias muestras.
El problema de las medidas de dispersión absolutas es que normalmente son un indicador
que nos da problemas a la hora de comparar. Comparar muestras de variables que entre sí
no tienen cantidades en las mismas unidades, de ahí que en ocasiones se recurra a medidas
de dispersión relativas.
Un problema que se plantea, tanto la varianza como la desviación estándar, especialmente
a efectos de comparaciones entre distribuciones, es el de la dependencia respecto a las
unidades de medida de la variable. Cuando se quiere comparar el grado de dispersión de
dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son
iguales se utiliza el llamado "Coeficiente de Variación de Pearson", del que se demuestra
que nos da un número independiente de las unidades de medidas empleadas, por lo que
entre dos distribuciones dadas diremos que posee menor dispersión aquella cuyo
coeficiente de variación sea menor., y que se define como la relación por cociente entre la
desviación estándar y la media aritmética; o en otras palabras es la desviación estándar
expresada como porcentaje de la media aritmética.
Definición del Coeficiente de Variación
Donde: C.V. representa el número de veces que la desviación típica contiene a la media
aritmética y por lo tanto cuanto mayor es CV mayor es la dispersión y menor la
representatividad de la media.
Propiedades del Coeficiente de Variación:
Si a todos los valores de la variable se le suma una misma constante el coeficiente
de variación queda alterado.
40
UNIDAD III: REGRESIONES Y CORRELACIONES
La regresión como una técnica estadística, una de ellas la regresión lineal simple y la
regresión multifactorial, analiza la relación de dos o mas variables continuas, cuando
analiza las dos variables a esta se le conoce como variable bivariante que puede
corresponder a variables cualitativas, la regresión nos permite el cambio en una de las
variables llamadas respuesta y que corresponde a otra conocida como variable explicativa,
la regresión es una técnica utilizada para inferir datos a partir de otros y hallar una
respuesta de lo que puede suceder.
Siendo así la regresión una técnica estadística, por lo tanto para interpretar situaciones
reales, pero a veces se manipula de mala manera por lo que es necesario realizar una
selección adecuada de las variables que van a construir las formulas matemática, que
representen a la regresión, por eso hay que tomar en cuenta variables que tiene relación, de
lo contraria se estaría matematizando un galimatías.
Se pueden encontrar varios tipos de regresión, por ejemplo:
1. Regresión lineal simple
2. Regresión múltiple ( varias variables)
3. Regresión logística
La regresión lineal técnica que usa variables aleatorias, continuas se diferencia del otro
método analítica que es la correlación, porque esta última no distingue entre las variables
respuesta y la variable explicativa por que las trata en forma simétrica.
La matematización nos da ecuaciones para manipular los datos, como por ejemplo medir el
gasto de acuerdo al ingreso económico promedio anual de una familia, aquí podemos
inferir o predecir que el gasto variará de acuerdo al nivel de ingreso de cada familia, en
este ejercicio el gasto es la respuesta y el ingreso económico la variable explicativa.
En la regresión tenemos ecuaciones que nos representan las diferentes clases de regresión:
Regresión Lineal: y = A + Bx
Regresión Logarítmica: y = A + BLn(x)
Regresión Exponencial: y = Ac(bx)
Regresión Cuadrática: y = A + Bx +Cx2
Para obtener un modelo de regresión es suficiente establecer la regresión para eso se hace
uso del coeficiente de correlación: R.
41
R = Coeficiente de correlación, este método mide el grado de relación existente entre dos
variables, el valor de R varía de -1 a 1, pero en la práctica se traba con un valor absoluto de
R.
El valor del coeficiente de relación se interpreta de modo que a media que R se aproxima a
1, es más grande la relación entre los datos, por lo tanto R (coeficiente de correlación)
mide la aproximación entre las variables.
El coeficiente de correlación se puede clasificar de la siguiente manera:
CORRELACIÒN VALOR O RANGO
1) Perfecta R = 1
2) Excelente R = 0.9 < = R < 1
3) Buena R = 0.8 < = R < 0.9
4) Regular R = 0.5 < = R < 0.8
5) Mala R < 0.5
DISTRIBUCIÒN BIVARIANTE
La distribución bivariante es cuando se estudia en una población dos variables, que forman
pares correspondientes a cada individuo, como por Ejm:
Las notas de 10 alumnos en biología y lenguaje
BIOLOGIA 2 4 5 5 6 6 7 7 8 9
LENGUAJE 2 2 5 5 5 7 5 8 7 10
Los pares de valores son: ( 2, 2) (4,2) (5,5)…….(8,7) (9,10) forman una distribución
bivariante.
La correlación, método por el cual se relacionan dos variables se pude graficar con un
diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de puntos,
encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar una recta y
cuyos puntos mas cercanos de una recta hablaran de una correlación mas fuerte, ha esta
recta se le denomina recta de regresión, que puede ser positiva o negativa, la primera
contundencia a aumentar y la segunda en descenso o decreciente.
42
También se puede describir un diagrama de dispersión en coordenadas cartesianas valores
como en la distribución bivariante, en donde la nube de puntos representa los pares de
valores.
GRAFICOS DE DISPERSIÓN DE UNA RECTA DE REGRESIÒN
Por último se pueden graficar las líneas de tendencia, herramienta muy útil para el
mercadeo porque es utilizada para evaluar la resistencia que proyectan los precios. Cuando
una línea de tendencia central se rompe ya sea con tendencia al alza o en la baja es porque
ocurre un cambio en los precios, por lo tanto las líneas de tendencia pueden ser alcista
cuando se unen los puntos sucesivos y bajista cuando se unen los puntos máximos.
También existen gráficos que representan la dispersión de datos dentro de las coordenadas
cartesianas, ósea las nubes de puntos y que pueden darse según la relación que representa,
que puede ser lineal, exponencial y sin relación, esta última cuando los puntos están
dispersos en todo el cuadro sin agruparse lo cual sugiere que no hay relación.
43
Los gráficos siguientes nos muestran esta relación:
Matemáticamente las ecuaciones serían:
Ajuste Lineal: Y = Bx + A
Ajuste Logarítmico: Y =BLnX + A
Ajuste Exponencial: Y = AC BX
En el modelo de regresión lineal simple se utiliza la técnica de estimación de los mínimos
cuadrados, este modelo tiene solo una variable de predicción y se supone una ecuación de
regresión lineal.
Es evidente que no todos dibujaríamos exactamente la misma recta para una nube de
puntos, aunque la correlación fuera bastante fuerte.
De todas las rectas posibles los matemáticos han elegido como la mejor aproximación la
llamada de los mínimos cuadráticos, Su cálculo es también algo mecánico que podemos
hacer con calculadora o un ordenador. En el siguiente apartado encontrarás un ejercicio
para estudiar sus propiedades.
La recta de regresión sirve para hacer estimaciones, teniendo en cuenta que:
Los valores obtenidos son aproximaciones en términos de probabilidad: es probable
que el valor correspondiente a x0 sea y0.
La fiabilidad es mayor cuanto más fuerte sea la correlación.
La fiabilidad aumenta al aumentar el número de datos.
La estimación es más fiable para los valores de x próximos a la media.
44
EPILOGO
Mientras elaborábamos este texto, se nos vino a la mente muchas técnicas, ecuaciones
diagramas y conteos que servirán a muchos estudiantes e investigadores de la rama
empresarial para solucionar los problemas económicos y administrativos, utilizando estas
herramientas presentadas de una manera bastante didáctica y sencilla de entender y aplicar,
Otras técnicas que bien existen, pero cuyo desarrollo es un poco complicado para quienes
no tienen mucha familiaridad con las matemáticas se ha reemplazado por otras mas
sencillas de aplicar en este campo.
Finalmente si este texto contribuyó un ápice en dar a algún investigador una visión mas
amplia de la aplicación de la estadística en la rama empresarial, nos damos por satisfechos.
45
GLOSARIO DE TÉRMINOS
SÍMBOLO SIGNIFICA SE DICE
x media aritmética x barra
σ Error estándar poblacional Sigma
σx Error estándar de la media Sigma subíndice x
Dx Desviación media D subíndice x
46
Bibliografía
1 ANDERSON S. Williams. Estadística para administración y economía. Internacional
Thomson editores. Volumen I y II Séptima Edición 2005.
2 DEVORE, Jay. PROBABILIDAD Y ESTADÍSTICA PARA INGENIERÍA Y
CIENCIAS. 4º Edición. Internacional Thomson Publishing 2002.
3 LIND MASON MARCHAL. Estadistica para administradores y economia. Mc. Draw
Hill tercera edición 2001.
4 BERESON, Mark./ LEVINE, Dadid. Estadística básica en administración: conceptos y
aplicaciones. Sexta edición. Editorial Prentice Hall México 2000.
4 CORDOVA Zamora Manuel. Estadística Descriptiva e Inferencial. Cuarta Edición.
Editorial Moshera RL. Lima Perú 2000.
5 STEVENSON William. ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA.
ED HARLA – MÉXICO 2000.
6 GUERRERO G. VIERE M. Estadística para estudiantes de economía y otras ciencias
sociales. Primera Edición fondo de cultura económica. México 1989.
7 HOEL Paúl G. Estadística básica para negocios y economía. Tercera edición. Editorial
continental. México 1999.
8 Levin, Richard I.: “Estadística para Administradores”. Sexta Edición. Prentice – Hall
Hispanoamericana S.A. México 1996.
47
APENDICE
EJERCICICOS DE ESTADÍSTICA BÁSICA
Ejemplo1:
Suponga que un investigador desea determinar cómo varía el peso de un grupo de
estudiantes de primer semestre de una universidad. Selecciona una muestra de 50
estudiantes y registra sus pesos en kilogramos. Los datos obtenidos fueron los
siguientes:
65 63 65 63 69 67 53 58 60 61
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62
Para determinar el número de veces que aparece cada dato (frecuencia absoluta), se
utiliza el diagrama de tallo y hojas. Se traza una línea y a la izquierda se escriben las
cifras anteriores a las unidades que tengan los datos, a la derecha de la línea se
escriben la cifra de las unidades para cada uno de los datos. Este diagrama facilita
determinar la cantidad de veces que se repite un dato y los valores de los datos con el
fin de escribirlos de manera ordenada en la tabla.
48
Luego, se organiza la información en la tabla, de la siguiente manera:
Para construir la tabla de datos no agrupados se debe calcular primero lo siguiente:
Al construir la tabla de datos agrupados con la información del ejemplo, se tiene:
Tabla de datos agrupados
Frecuencia
absoluta
Frecuencia
absoluta
acumulada
Frecuencia
relativa
Frecuencia
relativa
acumulada
Pesos (Kg) f i F i h i H i
53 - 55 2 2 4,00% 4,00%
56 - 58 5 7 10,00% 14,00%
59 - 61 9 16 18,00% 32,00%
62 - 64 15 31 30,00% 62,00%
65 - 67 12 43 24,00% 86,00%
68 - 70 5 48 10,00% 96,00%
71 - 73 2 50 4,00% 100,00%
50 100,00%
Para esta tabla también se pueden hacer histogramas o diagramas de barras y circulares.
49
Ejemplo2:
Si los datos están agrupados ya sea en tablas de frecuencias simples o en intervalos de
clase, debemos utilizar un criterio diferente para calcular los distintos estadígrafos.
Analicemos el siguiente ejemplo:
Consideremos la siguiente distribución de frecuencias que corresponden a los puntajes de
50 alumnos en una prueba.
Intervalos M.C.
(x) fi f·x Fa
[60 – 65) 62,5 5 312.5 5
[65 – 70) 67,5 5 337.5 10
[70 – 75) 72,5 8 580 18
[75 – 80) 77,5 12 930 30 Intervalo mediano
[80 – 85) 82,5 16 1320 46 Intervalo modal
[85 – 90) 87,5 4 350 50
TOTALES 50 3830
La Media Aritmética:
f
xfx
· 6.76
50
3830x ptos. 77 ptos.
Para calcular La Mediana necesitamos la siguiente fórmula:
i
a
f
AFn
LMe
·2
en el ejemplo, la cantidad de datos es 50, luego 50 : 2 = 25, y la Fa 25 se encuentra en el
intervalo [75 – 80) ya que el 25 esta aquí, en cambio en la anterior (18) no esta. Luego el
intervalo mediano es [75 – 80)
Entonces: L = 75 (límite inferior)
fi = 8
A = 5 (80 – 75 = 5)
Fa = 18 (frecuencia acumulada del intervalo anterior)
Donde: L es el límite inferior del intervalo mediano.
Fa es la frecuencia acumulada hasta antes del
intervalo mediano.
fi es la frecuencia absoluta del intervalo
mediano.
A es la Amplitud del intervalo.
50
375.79375.4758
5·775
8
5·182
50
75
Me 79 ptos.
y finalmente, para calcular la Moda en datos agrupados, utilizamos la siguiente fórmula,
teniendo presente que la clase modal es la que tiene mayor frecuencia, y esta es la
Frecuencia Modal.
Add
dLMo ·
21
1
L = 80 (intervalo modal [80 – 85), ya que la frecuencia es 16, que es la mayor)
d1= 16 – 12 = 4 (diferencia con la frecuencia anterior)
d2= 16 – 4 = 12 (diferencia con la frecuencia siguiente)
A = 5
Luego, 25,8116
20 80 5 ·
124
480
Mo puntos. 81 puntos.
Se estima que el valor más repetido de los puntajes de esta prueba fue el 81.
L: Límite real inferior de la clase modal.
d1: es la diferencia entre la frecuencia modal y la frecuencia
anterior.
d2: es la diferencia entre la frecuencia modal y la frecuencia
siguiente.
A: amplitud del intervalo
51
Ejemplo3: Cálculos de estadígrafos (Medidas de posición)
Vamos a calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de
alumnos (lección 2ª). Los deciles y centiles se calculan de igual manera, aunque haría falta
distribuciones con mayor número de datos.
Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada
X x x x x
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
1º cuartil: es el valor 1,22 cm, ya que por debajo suya se situa el 25% de la
frecuencia (tal como se puede ver en la columna de la frecuencia relativa
acumulada).
2º cuartil: es el valor 1,26 cm, ya que entre este valor y el 1º cuartil se situa
otro 25% de la frecuencia.
3º cuartil: es el valor 1,28 cm, ya que entre este valor y el 2º cuartil se sitúa
otro 25% de la frecuencia. Además, por encima suya queda el restante 25%
de la frecuencia.
Atención: cuando un cuartil recae en un valor que se ha repetido más de una vez (como
ocurre en el ejemplo en los tres cuartiles) la medida de posición no central sería realmente
una de las repeticiones.
52
Ejemplo 4: Coeficiente de Asimetría de Fisher
g
x x n
ns
m
s
i
i
i
1
3
3
3
3
Sí la distribución es simétrica en el denominador tendremos el mismo número de desviaciones positivas como negativas y por tanto g1 = 0.
Si g1>0 la distribución es asimétrica positiva o asimétrica a derechas. Si g1<0
la distribución es asimétrica negativa o asimétrica a izquierdas.
Elemplo :
xi ni xi-x (xi-x)3 ni(xi-x)
3
0 2 -2.52 -16.003 -32.006
l 4 -1.52 -3.512 -14.047
2 21 -0.52 -0.141 -2.953
3 15 0.48 0.11 1.658
4 6 1.48 3.242 19.451
5 1 2.48 15.253 15.253
6 1 3.48 42.144 42.144
29.5
g
x x n
ns
i
i
i
1
3
3
0.42 >0 luego asimétrica positiva.
Ejemplo 5: Coeficiente de Asimetría de Pearson
Es mucho más fácil de calcular que el anterior pero sólo es aplicable a aquellas distribuciones que tienen una sola moda y cuya distribución tiene forma de campana. Se define:
Ax M
ss
o
Si la distribución es simétrica x=Me y por tanto As=0. Si As>0 la distribución es asimétrica positiva. Si As<0 la distribución es asimétrica negativa. Ejemplo : As = (2.52-2)/1.12=0.46 COEFICIENTE DE APUNTAMIENTO DE FISHER. Se define como:
53
g
x x n
ns
m
s
i
i
i
2
4
4
4
43 3
si g2>0 leptocúrtica.
si g2<0 platicúrtica.
si g2=0 mesocúrtica o normal.
Ejemplo:
xi ni xi-x (xi-x)4 ni(xi-x)
4
0 2 -2.52 40.327 80.655
1 4 -1.52 3.512 14.047
2 21 -0.52 0.141 2.953
3 15 0.48 0.11 1.658
4 6 1.48 3.242 19.451
5 1 2.48 15.253 15.253
6 1 3.48 42.144 42.144
127.512
g
x x n
ns
i
i
i
2
4
43
=1.815>0 leptocúrtica.
Ejemplo 6: Coeficiente de Asimetría y Apuntamiento
Ejemplo: La distribución de las acciones de una empresa entre sus propietarios está
dada por la siguiente tabla, estudiar la simetría y el apuntamiento de esta distribución.
Acciones ix in ii nx ii nx 2 ih Xxi ii nXx 4)(
0-4 2 2 4 8 0,5 -20,7 367207
4- 10 7 5 35 245 0,83 -15,7 303787
10-16 13 8 104 1352 1,33 -9,7 70823
16-20 18 15 270 4860 3,75 -4,7 7320
20-24 22 30 660 14520 7,5 -0,7 7
24-32 28 16 448 12544 2 5,3 12625
32-36 34 7 238 8092 1,75 11,3 114133
36-42 39 6 234 9126 1 16,3 423547
42-60 51 1 51 2601 0,06 28,3 641425
TOTAL 90 2044 53348 1940874
7,2290
2044X
de donde:
54
77,896,76
96,7679,51575,59290
2044
90
53348
4,214·75,32
220
2
2
S
S
M o
Como se trata de una distribución en forma de campana, con una sola moda,
calcularíamos el coeficiente de asimetría de Pearson:
15,077,8
14,217,22
As
Se trata, pues de una distribución que presenta una asimetría por la derecha.
Para averiguar el tipo de apuntamiento vamos a calcular el coeficiente de
aplastamiento de Fisher:
3·
1 1
4
4
N
nXx
SAp
n
i
ii
= 6,0390
1940874·
77,8
14
Se trata de un una distribución de tipo leptocúrtico, esto quiere decir que una
gran cantidad de datos se agrupan alrededor de la media.
Ejemplo 7: Regresión lineal
A partir de las siguientes observaciones para 5 años de las variables X e Y, ajústese el
modelo de regresión de Y en función de X más idóneo.
Donde,
Y: producción nacional de un subsector industrial, en millones de toneladas.
X: tiempo
Año X Y
1995 1 1,25
1996 2 5
1997 3 11,25
1998 4 20
1999 5 30,5
55
1.- Ajuste de una función lineal: Y* = a + b X
X Y X2
XY Y2
Y* e=Y-Y
* e
2
1 1,25 1 1,25 1,56 -1,1 2,35 5,5225
2 5 4 10 25 6,25 -1,25 1,5625
3 11,25 9 33,75 126,56 13,6 -2,35 5,5225
4 20 16 80 400 20,95 -0,95 0,9025
5 30,5 25 152,5 930,25 28,3 2,2 4,84
15 68 55 277,5 1483,3 68 0 18,35
1/5 3 13,6 11 55,5 296,67 13,6 0 3,67
7,352
14,7
311
13,6)(3-55,5
XX1/5
Y X-XY1/5
S
S b
2222
X
XY
8,45- 37,35 -13,6 X b-Ya
Y* = -8,45 + 7,35 X
Bondad del Ajuste:
Coeficiente de determinación: R2 = 2
XYr = 0,9671 111,715
3,67 -1
S
S-1
S
S
2
Y
2
2
Y
2
Y e*
111,715 13,6 - 296,675 YY1/5 S 2222
Y
3,67N
eECM S
2
1
2
e
Ejemplo 8: Diagrama de caja y bigotes
Para la siguiente muestra de 36 datos (ordenados de menor a mayor), construir el diagrama
de caja y bigotes:
128-129-134-137-147-147-148-149-150-150-156-156-157-158-158-159-160-162
167-169-177-177-179-185-186-190-198-203-209-210-220-230-250-255-270-290
Calculados los valores correspondientes:
Media = 179,17 Mediana = 164,50 Desviación típica = 40,324 Rango = 162
Máximo = 128
56
Mínimo = 128 Cuartil 1º = 150 Cuartil 2º = 201,75 Rango intercuartilico = 51,75
Repasemos el cálculo de los valores que vamos a usar en la construcción del
diagrama:
- La caja queda delimitada por 75,201150 31 QyQ . La mediana es 50,164eM
- El rango intercuartilico es 75,5113 QQQ . Así pues 625,775,1 Q
- El bigote de la izquierda llega hasta
128)375,72128()5,1( 1min yMaxQQyXMax
- El bigote de la derecha llega
375,279)375,279290()5,1( 3max yMinQQyXMin
128 150 164,5 201,75 279,35 Outlier
(290)
*
Xmin Q1 Me Q3 Xmax
En este diagrama se puede observar entre otras cosas:
- El valor 290 es un outlier y habría que estudiarlo por separado.
- El bigote de la izquierda es mas corto que el de la derecha. Esto se interpreta diciendo
que la cuarta parte de los niveles mas bajos de la variable en estudio están más
concentrados que la cuarta parte de los niveles mas altos.
- La parte izquierda de la caja (niveles entre 150 y 164,5) es menor que la parte derecha
niveles entre (164,5 y 201,75). Diremos que los niveles de la variable en estudio
comprendidos entre el 25% y el 50% están más concentrados que los comprendidos
entre el 50% y el 75%.
- La distribución tiene una asimetría positiva o a la derecha.
57
Ejemplo 9: Regresión no lineal
Ajuste de una función parabólica: Y* = a + b X + c X
2
X Y X2
X3 X
4 XY X
2Y Y
* e=Y-
Y*
e2
1 1,25 1 1 1 1,25 1,25 1,18 0,07 0,0049
2 5 4 8 16 10 20 5,11 -0,11 0,0121
3 11,25 9 27 81 33,75 101,5 11,32 -0,07 0,0049
4 20 16 64 256 80 320 19,81 0,19 0,0361
5 30,5 25 125 625 152,5 762,5 30,58 -0,08 0,0064
15 68 55 225 979 277,5 1205 68 0 0,0644
1/5 3 13,6 11 55,5 13,6 0 0,0128
Aplicando el método de los mínimos cuadrados se obtiene el siguiente sistema de
ecuaciones:
979c225b55a1205
225c55b15a277,5
55c15b5a 68
X cXb XaYX
X cXb XaXY
Xc X b Na Y
4322
32
2
Resolviendo este sistema se obtiene: a= -0,47 b= 0,51 c= 1,14
Y* = -0,47 + 0,51 X + 1,14 X
2
Bondad del Ajuste:
Coeficiente de determinación: R2 = 0,9998
111,715
0,01288 -1
S
S-1
S
S
2
Y
2
2
Y
2
Y e*
0,01288N
eECM S
2
2
2
e
58
Ejemplo 10: Regresión no lineal
Ajuste de una función potencial: Y* = a X
b
En primer lugar linealizamos: lnY* = lna + b lnX V
* = A + b U
X Y U=lnX V=lnY U2
UV Y* e=Y-Y
* e
2
1 1,25 0 0,2231 0 0 1,2557 -0,0057 0,0000
2 5 0,6931 1,6094 0,4803 1,1156 4,9888 0,0112 0,0001
3 11,25 1,0986 2,4203 1,2069 2,6590 11,18 0,0697 0,0049
4 20 1,3863 2,9957 1,9215 4,1530 19,82 0,1799 0,0324
5 30,5 1,6094 3,4177 2,5901 5,5006 30,901 -0,4012 0,1610
15 68 4,7875 10,666 6,1988 13,428 68,146 -0,1461 0,1984
1/5 3 13,6 0,9575 2,1332 1,2397 2,6856 13,629 -0,0292 0,0397
e0
1,99020,95751,2397
2,13320,9575-2,6856
UU1/5
V U-UV1/5
S
S b
2222
U
UV
0,2277 0,95751,9902 -2,1332 U b-VA
Deshacemos el cambio efectuado: a= antilnA = antiln 0,2277 = 1,2557
Por lo que el ajuste efectuado es: Y* = 1,2557 X
1,9902
Bondad del Ajuste:
0,0397N
eECM
2
3
Nótese que al haber transformado la variable dependiente ya no se minimiza 2e sino
2*lnY-(lnY ) , de ahí que 0e .
59
Ejemplo 11: Regresión no lineal
Ajuste de una función exponencial: Y* = a b
X
En primer lugar linealizamos: lnY* = lna + X lnb V
* = A + B X
X Y V=lnY X2
XV Y* e=Y-Y
* e
2
1 1,25 0,2231 1 0,2231 1,7794 -0,529 0,2798
2 5 1,6094 4 3,2188 3,86 1,138 1,2950
3 11,25 2,4203 9 7,2609 8,37 2,88 8,2944
4 20 2,9957 16 11,983 18,18 1,82 3,3124
5 30,5 3,4177 25 17,088 39,45 -8,95 80,102
15 68 10,666 55 39,774 71,64 -3,641 95,803
1/5 3 13,6 2,1332 11 7,9548 14,328 -0,728 19,16
e0
0,7776311
32,1332-7,9548
XX1/5
V X-XV1/5
S
S B
2222
X
XV
0,1996- 30,7776 -2,1332 X b-VA
Deshacemos los cambios efectuados: a= antilnA = antiln-0,1996 = 0,819
b= antilnB =antiln 0,7776 = 2,176
Por lo que el ajuste efectuado es: Y* = 0,819 . 2,176
X
Bondad del Ajuste:
19,16N
eECM
2
4
La comparación de la bondad de modelos de regresión mediante el coeficiente de
determinación sólo es correcta cuando la variable dependiente no ha sido sometida a
transformaciones no lineales (por ejemplo, una transformación logarítmica). En este
ejercicio, mediante R2 sólo podemos comparar la regresión lineal y la parabólica. Por eso,
para comparar los cuatro ajustes efectuados utilizamos el Error Cuadrático Medio. El
mejor ajuste resulta ser el parabólico puesto que presenta el menor valor para el ECM.