material del curso

128
Tabla de Contenido Capítulo 1. Generalidades de la estadística .......................................................................... 2 Capítulo 2. Tablas de Frecuencias .......................................................................................14 Capitulo 3. Gráficos estadísticos ..........................................................................................25 Capitulo 4. Medidas Estadísticas ..........................................................................................34 Capitulo 5: Probabilidad .......................................................................................................40 Capitulo 6: Variables Aleatorias............................................................................................49 Capitulo 7: Distribuciones muestrales...................................................................................62 Capitulo 8: Pruebas de hipótesis ..........................................................................................69 Análisis de la Varianza .........................................................................................................91 Capitulo 9: Regresión y Correlación ...................................................................................100

Upload: ferlyurdayluna

Post on 09-Apr-2016

324 views

Category:

Documents


13 download

DESCRIPTION

Material de Estadística

TRANSCRIPT

Page 1: Material Del Curso

Tabla de Contenido Capítulo 1. Generalidades de la estadística .......................................................................... 2

Capítulo 2. Tablas de Frecuencias .......................................................................................14

Capitulo 3. Gráficos estadísticos ..........................................................................................25

Capitulo 4. Medidas Estadísticas ..........................................................................................34

Capitulo 5: Probabilidad .......................................................................................................40

Capitulo 6: Variables Aleatorias ............................................................................................49

Capitulo 7: Distribuciones muestrales ...................................................................................62

Capitulo 8: Pruebas de hipótesis ..........................................................................................69

Análisis de la Varianza .........................................................................................................91

Capitulo 9: Regresión y Correlación ................................................................................... 100

Page 2: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 2 de 128

Capítulo 1. Generalidades de la estadística

1 Objetivos Describir la evolución de la estadística como ciencia. Conocer y entender los conceptos generales de la estadística. Aplicar los conceptos generales de la estadística a casos reales.

2 Desarrollo histórico de la estadística

Desde los comienzos de la civilización han existido formas sencillas de estadísticas, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año 3000 A.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XXXI a.C. Los libros bíblicos de Números y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000 A.C., se refiere a los censos chinos ordenados por el emperador Yao (hacia el año 2238 a.c.). Los griegos clásicos realizaban censos cuya información se utilizaba hacia el año 594 A.C. para cobrar impuestos. La Estadística Descriptiva tiene su origen mil o dos miles años antes de Cristo, en Egipto, China y Mesopotamia, donde se hacían censos para la administración de los imperios. Los egipcios tuvieron el barómetro económico más antiguo: un instrumento llamado "Nilometro", que medía el caudal del Nilo y servia a definir un índice de fertilidad, a partir del cual se fijaba el monto de los impuestos. Con la variabilidad del clima ya conocían el concepto de incertidumbre.

Paralelamente, el concepto de azar es tan antiguo como los juegos y motivó desde antaño las reflexiones de los filósofos. En las ideas de Aristóteles (384-322) se encuentran tres tipos de nociones de probabilidad, que definen más bien actitudes frente al azar y la fortuna, que siguen vigentes hasta nuestros días: (1) el azar no existe y refleja nuestra ignorancia; (2) el azar proviene de causas

1111

Generalidades de la estadística

Σ

Page 3: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 3 de 128

múltiples y (3) el azar es divino y sobrenatural. Sin embargo, pasó mucho tiempo antes de que alguien intentara cuantificar el azar y sus efectos.

Los Incas no tenían escritura. No obstante en Cuzco sabían por ejemplo exactamente la cantidad, la edad y el sexo de los habitantes en las diferentes provincias. Datos estadísticos importantes se registraban con cordones de nudos que llamaban Quipus. Su secreto hasta ahora no está solucionado completamente pero muchas preguntas ya están contestadas. Se sabe que cada

Quipu está hecho por un cordón principal en que se anudaba más cordones de diferentes tamaños y colores. Las informaciones se puede "leer" según los nudos y los colores y tamaños de los cordones. Los Incas conocían el sistema decimal, la disposición de los nudos determinaba su valor en el conjunto de este sistema. Hay teorías de que los Quipus no solamente sirvieron para registrar datos estadísticos sino también otras informaciones como por ejemplo datos históricos. Pero no se ha podido comprobar o "leer" esta "escritura de nudos" hasta ahora. Los pastores en los Andes al principio del siglo 20 todavía utilizaban Quipus para registrar la

cantidad de sus animales.

Los Incas aparte de los Quipus utilizaron Tocapus para registrar datos históricos. Se encontraron Tocapus en tejidos, sobre vasos (también para ceremonias rituales) y tallados en madera. No se sabe mucho sobre su significación, hasta hoy día no podían estar descifrados. Solamente pocos Tocapus han sido conservados, sobre todo en tejidos.

El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes carolingios Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762 respectivamente. Después de la conquista normanda de Inglaterra en 1066, el rey Guillermo I de Inglaterra encargó un censo. La información obtenida con este censo, llevado a cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos y defunciones comenzó en Inglaterra a principios del siglo XVI, y en 1662 apareció el primer estudio estadístico notable de población, titulado Observations on the London Bills of Mortality (Comentarios sobre las partidas de defunción en Londres).

Page 4: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 4 de 128

Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de mortalidad. En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales. La Estadística, tal y como se concibe hoy en día, debe su existencia a la confluencia producida en el siglo XIX entre la Estadística descriptiva y el Cálculo de probabilidades. Por tanto, aunque su historia se remonta al citado siglo, sus orígenes coinciden con los unidimensionales de la Estadística descriptiva y los del Cálculo de probabilidades y, en cierto sentido, su evolución histórica está determinada por la evolución de éstos. En sus orígenes, el concepto de Estadística (vocablo que parece derivado del latín Status = Estado) aparece estrechamente ligado en la actividad gubernamental, y el término estadístico, con el de estadista o político. Esto se debe a que las primeras estadísticas de las que se tiene noticia fueron realizadas por gobernantes interesados en conocer la extensión de sus dominios, la población residente en ellos, la recaudación de impuestos, las riquezas, etc. La cantidad de datos recogidos para tal fin crece progresivamente, lo que obliga a su presentación en forma de cuadros o tablas. Es entonces cuando la palabra “estadística” comienza a tener un significado que se refiere al material numérico obtenido de la observación del mundo real. Durante el siglo XVIII y la mayor parte del siglo XIX, la Estadística evoluciona como ciencia separada del Cálculo de probabilidades y la Teoría de errores. Aunque A. De Moivre y Deparcieux, entre otros, aplican el Cálculo de probabilidades a datos demográficos, y Condorcet y Laplace a problemas de aritmética política, existe durante este período una escasa comunicación entre ambas disciplinas. Por su parte, el Cálculo de probabilidades evoluciona independientemente de la Estadística descriptiva. Los orígenes de la teoría de la probabilidad están relacionados con los juegos de azar. La abundante presencia del hueso astrágalo de oveja o ciervo (que constituye el antecedente inmediato del dado) en las excavaciones arqueológicas más antiguas, parecen confirmar que los juegos de azar tienen una antigüedad de más de 40.000 años, y la utilización del astrágalo en culturas más recientes -Grecia, Egipto y, posteriormente, Roma- ha sido ampliamente documentada. En las pirámides de Egipto se han encontrado pinturas que muestran juegos de azar que provienen de la primera dinastía (3500 a.C.) y Herodoto se refiere a la popularidad y difusión en su época de los juegos de azar, especialmente mediante la tirada de astrálagos y dados. Los dados más antiguos que se han encontrado se remontan a unos 3000 años antes de Cristo y se utilizaron tanto en juegos como en ceremonias religiosas. La imposibilidad de encontrar una causa o conjunto de causas que permitieran predecir el resultado, por ejemplo, al tirar un dado, hizo que las culturas antiguas

Page 5: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 5 de 128

atribuyeran los resultados de fenómenos aleatorios a la voluntad divina. No es hasta el Renacimiento cuando, con un nuevo enfoque, se abandonan las interpretaciones teológicas del azar y se produce una reconsideración de los fenómenos aleatorios, haciendo que los matemáticos italianos de principios del siglo XVI comenzaran a interpretar los resultados de experimentos aleatorios simples. Por ejemplo, en 1526 Cardano establece, bajo condiciones de simetría, la equiprobabilidad de aparición de las caras de un dado a largo plazo, y Galileo (1564-1642), respondiendo a un jugador que le preguntó por qué es más difícil obtener un 9 tirando 3 dados que obtener un 10, razonó que de las 216 combinaciones posibles equiprobables, 25 conducen a 9 y 27 conducen a 10. El desarrollo de la Teoría de la probabilidad está estrechamente ligado a los juegos de azar, no siendo de tanto interés para los matemáticos de la época la evolución de esta teoría, como la preocupación por dar razonamientos combinatorios que resuelvan los problemas planteados. A mediados del siglo XVII, aparecen los primeros avances teóricos del Cálculo de Probabilidades, cuyos principales impulsores fueron los matemáticos franceses Blaise Pascal (1623-1662) y Pierre de Fermat (1601-1665), junto con el holandés Christian Huygens (1629-1695), quien generaliza la media aritmética introduciendo el concepto de esperanza matemática. Es a partir de entonces cuando aparecen las primeras aportaciones significativas al Cálculo de Probabilidades como disciplina puramente matemática; entre ellas cabe destacar la obra de Jacques Bernoulli, “Ars Cojectandi” (1713), donde se presenta, por ejemplo, el conocido teorema de Bernoulli que generaliza la solución de determinados problemas particulares que se habían resuelto anteriormente. A finales del siglo XVIII, Thomas Bayes establece la célebre fórmula de Bayes, donde hace uso de la probabilidad inversa, introduciendo los conceptos de probabilidad “a priori” y probabilidad “a posteriori”. Estas innovaciones, desarrolladas por P. S. Laplace, desembocaron en la denominada Inferencia Bayesiana. En este periodo, Pierre Simón, Marqués de Laplace (1749-1827), establece por primera vez una definición explícita de probabilidad de un suceso, como el cociente entre el número de casos favorables y el de casos posibles, siembre que todos los resultados tengan igual probabilidad. Además, Karl Friedrich Gauss (1777-1855) estudió, junto con Laplace, las aplicaciones de la Teoría de la probabilidad al análisis numérico de los errores de medida en las observaciones físicas y astronómicas, dando lugar a la Teoría de errores. Posteriormente, se produce un estancamiento en cuanto a nuevas ideas en la Teoría de la probabilidad, ampliándose, sin embargo, los campos de aplicación del Cálculo de probabilidades y la Estadística descriptiva, que empiezan a usarse de forma complementaria. Una contribución importante a dicha síntesis se debió a A. Quetelet (1846), que sostuvo la importancia del Cálculo de probabilidades para el estudio de datos humanos. Quetelet demostró que la estatura de los reclutas de un reemplazo seguía una distribución normal, e introdujo el concepto de “hombre medio”. Los estudios sobre la evolución de poblaciones animales realizados por Darwin llevaron a Francis Galton (1822-1911) a resaltar la necesidad de acudir a métodos estadísticos para contrastar tal teoría. Galton estudió exhaustivamente la distribución normal e introdujo el concepto de línea de regresión comparando las estaturas de padres e hijos. La importancia de su

Page 6: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 6 de 128

trabajo radica no solamente en el nuevo enfoque que introduce en el problema de la dependencia estadística, sino también en su influencia directa sobre Weldon, K. Pearson, R. A. Fisher y Edgeworth entre otros. El primer departamento de Estadística, en el sentido actual de la palabra, fue patrocinado por él y llevó su nombre. El enfoque estadístico propugnado por Galton para el estudio de la evolución, es aceptado con entusiasmo por W. R. F. Weldon (1860-1906), entonces catedrático de Zoología en la universidad de Londres. Weldon abandona el camino de los estudios embriológicos y morfológicos como medio de contrastar las hipótesis de Darwin y comienza a investigar en la aplicación de los métodos estadísticos a la biología animal. La resolución de nuevos problemas enunciados por Weldon le obliga a buscar la colaboración de un filósofo y matemático: K. Pearson (1857-1936). El laboratorio de K. Pearson se convierte en un polo de atracción para las personas interesadas en el análisis empírico de datos. W. S. Gosset (1876-1937), que trabajaba en la firma cervecera Guinness de Dublín, fue una de las personas que acudieron a Londres a estudiar bajo el patrocinio de Pearson. Los trabajos de Gosset (publicados bajo el seudónimo de Student, ya que Guinness no permitía divulgar las investigaciones de sus empleados) se centraban en el estudio de muestras pequeñas y dieron lugar a la conocida distribución t de Student. Los fundamentos de la Estadística actual y muchos de los métodos de inferencia, son debidos a R. A. Fisher (1890-1962). Fisher se interesó inicialmente en la eugenesia1, lo que le conduce, siguiendo los pasos de Galton, a la investigación estadística. En sus trabajos aparece ya claramente el cuerpo metodológico básico que constituye la estadística actual: el problema de elegir un modelo a partir de datos empíricos, la deducción matemática de las propiedades del mismo, la estimación de los parámetros condicionados a la bondad del modelo y la validación final del mismo mediante un test de significación. La historia más reciente de la estadística nos sitúa entre 1920 y finales de la segunda guerra mundial, cuando aparecen múltiples técnicas estadísticas motivadas por la aplicación de la estadística a áreas tan diversas como la biología, la ingeniería, la física, la antropología, la psicología o la medicina. A partir de 1950 comienza la época moderna de la estadística, claramente diferenciada por la aparición del ordenador, que revoluciona la metodología estadística y abre enormes posibilidades para la construcción de modelos más complejos. Estrechamente ligado a lo anterior, hay que destacar la creciente importancia de los modelos dinámicos y multivariantes. Resumiendo, históricamente, la estadística comenzó siendo esencialmente descriptiva. Ha sido necesario acumular información, criticarla, analizarla y sintetizarla. Posteriormente, gracias al cálculo de probabilidades, la estadística ha pasado a ser explicativa, proporcionando potentes herramientas para la toma

1 Eugenesia.- es la ciencia que estudia la mejora, desde un punto de vista biológico, de los individuos de una especie vegetal o animal.

Page 7: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 7 de 128

de decisiones, cuando éstas se adoptan en un ambiente de incertidumbre, siempre que esta incertidumbre pueda ser medida en términos de probabilidad. El desarrollo que ha adquirido hasta nuestra fecha la estadística nos permite concluir que, en la actualidad, la aplicabilidad y potencia de esta Ciencia es enorme hasta el punto no sólo de no concebir hoy día un trabajo de carácter científico sin el apoyo de algún método o técnica estadística que corrobore las hipótesis en él planteadas, sino que estamos llegando a no saber vivir sin la acostumbradas “estadísticas” públicas publicadas en la prensa y utilizadas, en muchos casos incorrectamente, para la defensa de argumentos particulares. Por último, y con el fin de advertir de las consecuencias que conlleva el uso incorrecto de la Estadística, se reproduce un texto de G. U. Yule y M. G. Kendall sobre la actitud del público ante la estadística: “La actitud del profano con respecto a las estadísticas se resume admirablemente en la observación de que la humanidad puede dividirse en dos grupos: los que dicen que los números pueden probarlo todo y los que aseguran que no pueden probar nada. Hay que reconocer que esta actitud no está exenta de razón. [...] A veces, tales números sirven para dar una imagen engañosa de la realidad que puede ser debida a ignorancia o distracción, pero también a un deliberado deseo de extraviar o seducir. El profano sabe todo esto, y su actitud de desconfianza ante los argumentos basados en números es la del hombre que no está preparado para distinguir por sí mismo lo verdadero de lo falso y tiende, por ello, a sospechar de todo. No sería pertinente defender aquí la estadística ante la opinión pública. Hemos aludido a esta cuestión para advertir que los métodos estadísticos son instrumentos muy peligrosos en manos inexpertas. Pocas disciplinas tienen aplicación más amplia, y ninguna requiere tanto cuidado al aplicarla. La estadística es una de esas ciencias cuyos cultivadores deben ejercitarse en la autolimitación, como los artistas.”

3 Etimología Los orígenes del término estadística no están bien definidos, pero dentro de las principales aceptaciones se tiene que el término estadística deriva de las palabras: Staat que en alemán significa “estado” o Status que en latín significa “situación” o “estado”.

4 Definición de estadística

Se han planteado muchas definiciones y existe diferentes denominaciones de estadística, algunas con un enfoque de ciencia y otras caracterizándola como una metodología; atreverse a dar una definición precisa y concreta en este momento, podría resultar poco significativa puesto que aun no se ha precisado su esencia, cobertura y contenido, pero se debe mencionar algunas definiciones, dentro de ellas tenemos las siguientes:

Page 8: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 8 de 128

Disciplina que se ocupa del manejo de datos empíricos para extraer de ellos información comprensible y relevante. Es la ciencia que tiene por objeto la descripción y análisis de conjunto de datos empíricos, relacionados con los fenómenos que se desea estudiar, a fin de obtener leyes que describan su comportamiento y expliquen las observaciones. Es la ciencia que abarca la colección, organización, presentación y análisis de datos tanto para la deducción de conclusiones como para tomar decisiones razonables deacuerdo con tales análisis. La estadística es la disciplina que proporciona un conjunto de métodos y procedimientos que permite recopilar, clasificar, presentar y analizar los datos con el fin de describirlos para en forma adecuada poder tomar decisiones frente a la incertidumbre o predecir o afirmar algo acerca de la población a partir de datos extraídos de la misma. En la actualidad, con el término Estadística se recogen una gran diversidad de técnicas encaminadas a analizar información por medio de la observación y la experimentación. Es difícil y arriesgado dar una definición genérica de Estadística, pues podemos olvidar aspectos importantes de la misma. Aun así, se acepta como definición más extendida la siguiente: es la ciencia cuya finalidad es estudiar los procedimientos destinados a la recogida, resumen, análisis e interpretación de un conjunto de datos, así como los conducentes a la obtención de inferencias científicas a partir de ellos.

5 Objetivos de la estadística De un modo general y amplio los objetivos de la estadística son: Describir colecciones de datos empíricos. Inferir las propiedades de una población. Realizar predicciones sobre el comportamiento de los fenómenos.

6 Clasificación de la estadística

Estadística descriptiva Se denomina estadística descriptiva, al conjunto de métodos estadísticos que se relacionan con el resumen y descripción de los datos, como tablas, graficas y el análisis mediante la obtención de medidas de resumen.

Inferencia estadística Se denomina inferencia estadística al conjunto de métodos con los que hacen la generalización o la inferencia sobre una población utilizando una muestra. La inferencia puede contener conclusiones que pueden no ser ciertas en forma absoluta, por lo que es necesario que estas sean dadas con una medida de confiabilidad a la que se denomina probabilidad. Cálculo de probabilidades

Page 9: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 9 de 128

Se trata de una rama a caballo entre la estadística descriptiva y la inferencia estadística. Podría definirse como un conjunto de proposiciones que permiten medir la aleatoriedad de un fenómeno a través de la asignación de un modelo matemático que conceptualice, resuma y simplifique la esencia aleatoria de dicho fenómeno.

7 Conceptos Generales a) Universo.- En estadística se define como el conjunto de poblaciones. b) Población(N).- en Estadística se define como el conjunto de elementos que

presentan una característica particular en estudio. En función al # de elementos la población puede ser: Finita.- Cuando se conoce el número total de elementos. Infinita.- cuando no se conoce el número total de elementos.

c) Individuo.- Es cada uno de los elementos que componen la población

estadística en estudio. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo, si estudiamos el número de fallas de un producto, cada producto es un individuo. Es un ser observable que no tiene por qué ser una persona, puede ser un objeto, un ser vivo, etc…

d) Muestra (n).- Se le define como una parte representativa que se toma de una

población. Al indicar que la muestra sea representativa, en ella se quiere reproducir todas las características de la población.

e) Variable.- se denomina variable estadística a una característica definida de la

población por la tarea o investigación estadística, que puede tomar dos o más valores(Cualidades o números). Es la generalización o abstracción de cualquier cualidad o atributo correspondiente a un individuo, por ejemplo si el individuo en estudio es un polo producido por una empresa, lo podremos describir mediante las siguientes características: tipo de mercado, precio, material de fabricación, color, peso, modelo, tiempo de producción, etc A cada una de estas características la llamamos variable estadística y la representamos normalmente por las letras mayúsculas X, Y, Z,…

N n

Valor Cualidad Cantidad

UE

Page 10: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 10 de 128

Hay caracteres que son medibles, esto es, se pueden cuantificar, como por ejemplo la edad, el peso y la estatura de las personas, el precio de un producto, los ingresos anuales, etc… Pero hay otros que no se pueden cuantificar como el color de los ojos, el partido votado en unas elecciones, el estado civil, el sexo, la nacionalidad, etc… A los primeros se les llama caracteres cuantitativos (y a las variables que los representan variables cuantitativas) y a los segundos caracteres cualitativos o categóricos (y variables cualitativas a las variables que los representan) Modalidades o valores de las variables: Es cada uno de los posibles valores que puede tomar una carácter y se representan con las letras minúsculas x1, x2, …, xn. Por ejemplo, el carácter o variable estadística cualitativa estado civil puede tomar los valores o modalidades: casado, soltero o viudo. El carácter o variable estadística cuantitativa edad puede tomar las modalidades o valores: 10 años, 12 años, 15 años, etc… Una variable estadística puede tomar distintos valores y cada uno de ellos puede aparecer repetido más de una vez en la muestra que se estudia de la población. Las variables estadísticas también se pueden clasificar en: Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alumnos de una clase). Variables bidimensionales: recogen, a la vez y sobre el mismo individuo, información sobre dos características de la población, que pueden o no estar relacionadas, (por ejemplo: edad y altura de los alumnos de una clase). Variables pluridimensionales: recogen, a la vez y sobre el mismo individuo, información sobre tres o más características de la población, que pueden o no estar relacionadas (por ejemplo: edad, altura y peso de los alumnos de una clase). Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas: Discretas: Toman valores aislados y no pueden tomar ningún valor entre dos consecutivos fijados, sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3....,etc, pero nunca podrá ser 3,45); nº de monedas que una persona lleva en el bolsillo (0, 1, 2, …) Continuas: Pueden tomar cualquier valor real dentro de un intervalo real. Siempre pueden tomar valores entre dos consecutivos, por muy próximos que los fijemos. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h; altura de las personas, medida del tiempo,...etc.

f) Dato.- Es el valor que toma una variable en cada unidad de observación. g) Unidad elemental.- Un elemento o unidad elemental es un objeto o individuo

en el cual se toman las mediciones.

Page 11: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 11 de 128

h) Observaciones.- son los datos que se recolectan para un estudio. i) Parámetro.- son las diversas medidas con las cuales se analizan los

elementos de una población. Así por ejemplo se tiene: La media aritmética µ La varianza σ 2 La desviación estándar σ

j) Estadígrafo.- son las diversas medidas con las cuales se analizan los elementos de una muestra. Así por ejemplo se tiene: La media Aritmética X La varianza s2 La desviación estándar s

8 Ejercicio resueltos La empresa Plásticos de Arequipa E.I.R.L., se dedica a la fabricación de todo tipo de artículos derivados del polietileno, se hizo un estudio acerca de la cantidad de bolsas de plástico que vendieron en una de sus sucursales, obteniéndose los siguientes datos: a) Se tomo una muestra de 80 órdenes de pedido del día 13 de marzo del 2006. b) Se pidieron 5593 paquetes de bolsas. c) El ingreso promedio por pedido fue de S/. 493.57. d) El pedido con monto más alto fue hecho por la asociación comercial El

Porvenir, con 1908 nuevos soles. e) Los colores mas solicitados fueron el negro, blanco y rosado. f) El tamaño más vendido fue el de 15x10 cm. Identifique población, muestra, variable(s), tipo de variable(s), unidad elemental, observaciones, parámetro(s) y estadígrafo(s). Solución a) La unidad elemental es el paquete de bolsa. Se debe tener mucho cuidado en

la identificación de la Unidad Elemental, se debe analizar como son comercializados los productos.

b) La población es la producción total de bolsas que ha tenido la empresa desde que empezó a operar.

c) La muestra son los 5593 paquetes que componen los 80 pedidos que se hicieron el día 13 de marzo del 2006.

d) S/. 493.57, es un estadígrafo. e) Monto de cada pedido es una variable cuantitativa continua. f) El valor S/. 1908, es una observación que corresponde al pedido con mayor

monto. g) Color del paquete es una variable cualitativa y los colores negro, blanco y

rosado son sus observaciones. h) Tamaño de la bolsa es una variable cuantitativa continua, por que cada bolsa

puede almacenar un determinado volumen o peso de contenido

9 Ejercicios de Aplicación

Page 12: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 12 de 128

1. Primer Problema

En el siguiente enunciado identifique: población, muestra, variable(s), tipo de variable(s), unidad elemental, observaciones, parámetro(s) y estadígrafo(s). "Con la finalidad de conocer en que medida los propietarios de viviendas del distrito de JLBR pagan el impuesto predial, la Municipalidad correspondiente realizó un estudio.” De una muestra de 450 propietarios se obtuvo los siguientes resultados preliminares. El ingreso promedio mensual por propietario es de S/. 675,65 El número de pisos promedio por propiedad es de 2 Solo el 38% opina que puede pagar el impuesto predial. El número de viviendas promedio por manzana es de 17.5 casas/manzana El 29% opina que la atención en el municipio para pagar el impuesto predial

es regular. El número de veces por semana que barrieron sus veredas fue en promedio

de 1,8 veces/semana. 2. Segundo Problema

En el siguiente enunciado identifique: población, muestra, variable(s), tipo de variable(s), unidad elemental, observaciones, parámetro(s) y estadígrafo(s). El día 23/03/2003 en el aeropuerto Rodríguez Ballón se hizo un estudio en el cual se encuestaron a 232 personas obteniéndose los siguientes resultados: El 12% de pasajeros es Arequipeño. La edad promedio de los pasajeros es de 27,9 años. El 31,5% dijo que el servicio en el aeropuerto era malo. En promedio cada pasajero llevaba 1,8 maletas. El costo promedio de un pasaje en avión es $68,50. El tiempo de espera promedio antes de subir al avión es de 0,73 horas.

3. Identifique en cada caso: unidad elemental, tipo de variable, y proporcione

dos ejemplos de observación de:

a) Accidentes de trabajo en Cerro Verde SAC. b) Ventas de la empresa Estilos. c) Utilización de Internet por los hogares Arequipeños. d) Opinión acerca de la gestión del alcalde de la Ciudad y del Presidente de

la Región. e) Consumo de agua en el Cono Norte de la Ciudad.

4. Desarrollar lo siguiente:

a) Proporcione 5 ejemplos sobre universo. b) Proporcione 5 ejemplos sobre población. c) Proporcione 5 ejemplos sobre muestra.

Page 13: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 13 de 128

d) Proporcione 5 ejemplos sobre variables cualitativas. e) Proporcione 5 ejemplos sobre variables cuantitativas discretas. f) Proporcione 5 ejemplos sobre variables cuantitativas continuas. g) Mencione 5 formas diferentes para obtener información estadística.

5. Investigue sobre lo siguiente:

Historia de los censos. Censos realizados en el Perú Orígenes de los números. Otras clasificaciones de las variables

Page 14: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 14 de 128

Capítulo 2. Tablas de Frecuencias

Objetivos Conocer el proceso de la investigación estadística. Presentar los datos de manera tabular.

Introducción ¿Qué es investigar?

Investigar es buscar conocimientos, tratar nuevos problemas, para darles solución, es una manera de comprender al mundo para poderlo controlar. La investigación es el proceso mediante el cual se pretende resolver un problema; es decir; es el conjunto de acciones que permiten elaborar la respuesta satisfactoria a la interrogante del problema.

Etapas de una investigación estadística. a) Planteamiento o preparación del programa de trabajo. b) Recolección de datos. c) Organización y presentación de los datos. d) Cálculos estadísticos e) Análisis e interpretación de los resultados. f) Formulación de conclusiones. g) Presentación de un informe final. El planteamiento del problema, pasa por una etapa de planificación del problema y determinación de lo que se pretende investigar y su finalidad; una buena formulación del problema implica siempre la delimitación del campo de investigación, es decir, establece claramente los límites de tiempo y espacio dentro de los cuales se realizará la investigación. Para la preparación del programa de trabajo se debe considerar lo siguiente: Formulación del problema. Justificación el estudio. Determinación de objetivos. Determinación de variables. Identificación de fuentes de información. Análisis exploratorio de estudios similares. Determinación de la cobertura del estudio: población, ámbito geográfico

y periodo que abarca el estudio. Determinación de muestras. Determinación de los métodos, técnicas e instrumentos para la

recolección y análisis de datos. Elaboración de instrumentos para la recolección de datos.

2222

Tablas de Frecuencias

Σ

Page 15: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 15 de 128

Formulación del presupuesto y fuentes de financiamiento. Capacitación del equipo de trabajo. En la recolección de datos, se realiza el contacto con las unidades estadísticas de investigación, con el propósito de obtener los datos relacionados con las variables que serán estudiadas o analizadas. Luego que los datos han sido recopilados, estos deben ser procesados para transformarse en información estadística, la misma que servirá de base para realizar el análisis que permitirá describir y explicar el fenómeno en estudio, la organización y presentación de los datos se hace de dos maneras: Presentación tabular. Presentación gráfica. Luego de presentar lo datos, se realizan una serie de cálculos, los que servirán para mostrar el resumen de los datos en forma de indicadores o medidas estadísticas, los mismos que son interpretados para poder sacar conclusiones del estudio. Finalmente se debe presentar un informe final del estudio. A continuación se mostrara las diferentes formas de presentar la información.

Presentación tabular de datos Lo realizamos mediante una tabla de frecuencia, la cual se define como el resumen que se realiza en función de la totalidad de elementos de una muestra, o de una población con respecto a una característica bastante particular que está estudiando alguna variable.

Elementos de una tabla de frecuencias

a) Frecuencia absoluta(fi).- es el # de veces que se repiten los elementos de una variable, por lo tanto se debe de cumplir:

b) Frecuencia relativa (hi).- es el cociente de cada frecuencia absoluta entre el # total de elementos. Se calcula de la siguiente manera:

c) Frecuencia acumulada (Fi, Hi).- es la suma de una frecuencia dada y todas las anteriores a ella.

d) Tabla de distribución de frecuencia.- es el arreglo ordenado en filas y

columnas de datos estadísticos según las diversas categorías de la variable, mostrando la frecuencia o repetición en cada categoría. Este tipo de tabla se utiliza para organizar los datos con el objeto de calcular algunas medidas de resumen.

∑=

=n

i

i Nf1

N

fh i

i =

Page 16: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 16 de 128

Tipos de datos a analizarse. a) Datos de tipo I.- Aquí por ser la información bastante pequeña no

existen tablas de frecuencia y únicamente los datos presentados, ya sea en filas o en columnas. Esto debido a que el dato solo presenta una observación.

Ejemplo 1 – Variable cuantitativa discreta La sgte. información representa la edad en años de 6 postulantes para el cargo de asistente de programación de software en la empresa MACROTEC.

Edad 17 20 16 23 21 28

Solución: Los datos se ordenan ascendentemente. En una fila:

Edad 16 17 20 21 23 28

En una columna:

Tabla Nº 1.- Edad de los postulantes para el cargo de asistente de programación

Dpto. de personal de MACROTEC – Abril del 2006

Nombre Edad

N1 16 N2 17 N3 20 N4 21 N5 23 N6 28

FUENTE: Elaboración propia

Interpretación: Como se puede apreciar en la tabla Nro 1, el postulante de menor edad tiene 16 años y el de mayor edad tiene 28 años.

b) Datos de tipo II.- Se realiza lo siguiente:

Identificar la variable que se está estudiando; Asignarle una letra cuales quiera a la variable en estudio; Ordenar los datos ya sea en forma ascendente o descendente; Efectuar la respectiva tabulación de los datos; Calcular los elementos de la tabla de frecuencia; e Interpretar los resultados del cuadro. Las tablas de distribución de frecuencias de tipo II, sirven para presentar las variables cualitativas y las variables cuantitativas discretas. Ejemplo 2.- Variable cuantitativa discreta

Page 17: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 17 de 128

Se encuesto a una muestra de 42 clientes de la tienda ESTILOS, acerca del número de veces que compraron en la tienda durante el mes de octubre del 2006, teniéndose los siguientes resultados:

Nro de veces que compraron los clientes de la 2 3 2 4 6 6 1 5 4 3 2 2 2 6 4 5 2 2 3 2 3 7 4 3 2 3 2 1 3 3 2 4 1 4 2 1 1 4 5 5 1 3

Solución: Tabulación de datos

Tabulación de datos Nro de veces que

realizó una compra Clásica En Excel

1 6

2 12

3 9

4 7

5 4

6 3

7 1

Tabla Nº 2 Tienda Estilos - AREQUIPA Cantidad de veces que un cliente realizó una compra en octubre del 2006

Nro. Veces

fi hi hi (%) Fi Hi Hi (%) Grados

1 6 0,1429 14,29% 6 0,1429 14,29% 51.43 2 12 0,2857 28,57% 18 0,4286 42,86% 102.86 3 9 0,2143 21,43% 27 0,6429 64,29% 77.14 4 7 0,1667 16,67% 34 0,8095 80,95% 60 5 4 0,0952 9,52% 38 0,9048 90,48% 34.29 6 3 0,0714 7,14% 41 0,9762 97,62% 25.71 7 1 0,0238 2,38% 42 1,0000 100,00% 8.57

42 1,0000 100,00% 360.00

FUENTE.- Elaborado en base a la encuesta realizada.

Interpretación: En la presente tabla estadística que se refiere a la cantidad de compras que efectuó un cliente de la tienda Estilos – Arequipa en el mes de octubre

Abra Excel y escriba los datos en A1:G7

Coloque estos

datos en el rango

Utilizar la fórmula: =CONTAR.SI($A$2:$G$7;A

Esta tabla esta en el rango: A10:H18

Page 18: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 18 de 128

del 2006, observamos claramente que el 28.57% de los clientes hizo 2 compras y el 21.43% hizo 3 compras, siendo los demás porcentajes de menor incidencia. Esto significa que el 50% de los clientes hizo de 2 a 3 compras en el mes de octubre del 2006. Además de lo anterior, se puede apreciar también que el 80.95% de los clientes realizo entre 1 y 4 compras. Resumen de fórmulas en Excel para el ejemplo 2 En B11 =CONTAR.SI($A$2:$G$7,A11) En B18 =SUMA(B11:B17) En C11 =B11/$B$18 En C18 =SUMA(C11:C17) En D11 =C11, rellenar hasta D18 y aplicar el formato de porcentaje En E11 =B11 En E12 =B12+E11 y rellenar hasta E17 En F11 =C11 En F12 =F11+C12 y rellenar hasta F17 En G11 =F11, rellenar hasta G17 y aplicar el formato de porcentaje En H11 =REDONDEAR(C11*360,2) y rellenar hasta H17 En H18 =SUMA(H11:H17) Ejemplo 3.- Variable cualitativa Se ha tomado una muestra de 68 trabajadores de los registros del departamento de personal acerca del distrito donde viven dichos trabajadores, con el fin de analizar la ruta probable que debe tomar el nuevo ómnibus que se ha adquirido. Se tienen los siguientes resultados

Cerro Colorado Characato J.L.B.y R. Paucarpata Cerro Colorado J.L.B.y R. Paucarpata J.L.B.y R. Selva Alegre Selva Alegre Paucarpata Cayma Cayma Cerro Colorado J.L.B.y R. Selva Alegre J.L.B.y R. J.L.B.y R. Paucarpata Cerro Colorado Cerro Colorado

Cayma Miraflores Miraflores Selva Alegre Paucarpata Miraflores Cerro Colorado Paucarpata Cerro Colorado Cerro Colorado Miraflores J.L.B.y R. Miraflores Selva Alegre Selva Alegre J.L.B.y R. Cayma Paucarpata Cerro Colorado Paucarpata Miraflores

Miraflores J.L.B.y R. J.L.B.y R. Cerro Colorado J.L.B.y R. Cerro Colorado Paucarpata J.L.B.y R. J.L.B.y R. Cerro Colorado J.L.B.y R. J.L.B.y R. Paucarpata J.L.B.y R. Miraflores Cerro Colorado Paucarpata Miraflores J.L.B.y R. Paucarpata

Selva Alegre Miraflores J.L.B.y R. Paucarpata Cerro Colorado Characato Tabla Nº 3.- Distrito de procedencia de los trabajadores de la empresa DITESSUR SRL

Octubre del 2006

Distrito fi Fi hi hi (%) Grados

Cayma 4 4 0,0590 5,90% 21,24 J.L.B.y R. 18 22 0,2650 26,50% 95,40 Miraflores 10 32 0,1470 14,70% 52,92 Paucarpata 13 45 0,1910 19,10% 68,76 Selva Alegre 7 52 0,1030 10,30% 37,08 Cerro Colorado 14 66 0,2060 20,60% 74,16 Characato 2 68 0,0290 2,90% 10,44 68 1,0000 100,00% 360,00 FUENTE.- Archivos del registro del Dpto. de personal.

Page 19: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 19 de 128

Interpretación.- La mayor parte de los trabajadores viven en Cerro Colorado, Paucarpata y en J. L.B.y R. Nota.- Para trabajar este ejercicio en Excel se procede de la misma manera que en el ejemplo 2.

c) Datos de tipo III.- Se siguen los siguientes pasos:

Identificar la variable que se está estudiando; Asignarle una letra cualesquiera a la variable en estudio; Ordenar los datos ya sea en forma ascendente o descendente; Calcular el rango de los datos, mediante.

Rango = Dato mayor- Dato menor Determinar el número de clases o intervalos

Regla de STURGES → k = 1+3,322 log (N)

Regla de Joule → Nk =

Regla o método del experto → se considera un número arbitrario de clases, teniendo en cuenta: 5 ≤ k ≤ 20 El número de clases o intervalos siempre debe ser un valor entero, por lo tanto se puede redondear al número superior o inferior entero más próximo.

Calcular la amplitud de los intervalos, mediante:

Se determina el cambio mínimo, el cual se define como la mínima variación que puede llegar a existir para los valores de la variable, para determinar el cambio mínimo se observa los datos y se sigue procede así: Si los datos son enteros el cambio mínimo es 1. Si los datos tienen un decimal el cambio mínimo es 0.1 Si los datos tienen dos decimales el cambio mínimo es 0.01 Si los datos tienen tres decimales el cambio mínimo es 0.001

Constituir los intervalos; Efectuar el proceso de tabulación; Calcular cada uno de los elementos de la tabla de frecuencias; e Interpretar los resultados.

n

RCciA i ==== Se redondea al número superior,

considerando el cambio mínimo.

Page 20: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 20 de 128

Ejemplo 4.- Variable cuantitativa discreta A continuación se presenta los sueldos (en dólares) de 60 empleados de la empresa DITESSUR S.A. del mes de abril del 2006.

440 560 335 587 613 453 650 407 376 470 570 430 618 537 409 440 340 558 460 560 450 530 501 471 660 574 500 462 380 518 400 424 466 565 383 560 321 500 528 526 600 550 432 591 428 607 382 667 512 482 470 364 634 580 450 480 625 507 645 382

Solución

FORMULA EN EXCEL Valor menor : 321 En D16 =MIN(B2:F13) Valor mayor : 667 En D17 =MAX(B2:F13)

Rango : 346 En D18 =D17-D16 Total Datos : 60 En D19 =CONTAR(B2:F13)

Núm Clases : 7 En D20 =REDONDEAR.MAS(1+3.322*LOG(D19);0) Amplitud de clase : 50 En D21 =REDONDEAR.MAS(D18/D20;0)

Cambio mínimo: 1 Como son datos discretos, se debería de crear intervalos cerrados, para ello se procede así:

Clases LimInf LimSup 1 321 370 2 371 420 3 421 470 4 471 520 5 521 570 6 571 620 7 621 670

Para el primer intervalo, el límite inferior es el valor mínimo de todos los datos y el límite superior se obtiene sumado al límite inferior la amplitud y restando un cambio mínimo. Para el segundo intervalo, el límite inferior es el límite superior de la clase 1 más un cambio mínimo y el límite superior se obtiene igual que el límite superior de la clase 1. Se repite el mismo procedimiento

Rango: B2:F13

Page 21: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 21 de 128

Tabla Nº 4.- Sueldos($) de los empleados de la Empresa DITESSUR SA

Abril - 2006 Clase Intervalo fi hi hi (%) Fi Hi Xi

1 [321 – 370] 4 0,067 6,67% 4 0,067 345,50 2 [371 – 420] 8 0,133 13,33% 12 0,200 395,50 3 [421 – 470] 14 0,233 23,33% 26 0,433 445,50 4 [471 – 520] 9 0,150 15,00% 35 0,583 495,50 5 [521 – 570] 11 0,183 18,33% 46 0,767 545,50 6 [571 – 620] 8 0,133 13,33% 54 0,900 595,50 7 [621 – 670] 6 0,100 10,00% 60 1,000 645,50 60 1.000

FUENTE: Departamento de contabilidad - Empresa DITESSUR S.A.

Nota: Xi es la marca de clase y se define como el valor central de cada intervalo, se halla sumado el límite inferior más el límite superior de cada intervalo y el resultado se divide entre dos. Interpretación.- En la tabla estadística N° 4, que se refiere al sueldo en dólares de 60 trabajadores de la empresa DITESSUR, observamos que el 23,33% ganan entre 421 y 470 dólares, el 18,33% ganan entre 521 y 570 dólares y el 15% ganan entre 471 y 520 dólares, siendo los demás porcentajes de menor incidencia, esto significa que se trata de trabajadores que ganan por encima del sueldo mínimo vital. Resumen de formulas en Excel para el ejemplo 4 En C27 =D16 En D27 =C27+$D$21-$D$22 y rellenar hasta D33 En C28 =D27+$D$22 y rellenar hasta C33 En E27 =C27-$D$22/2 y rellenar hasta E33 En F27 =D27+$D$22/2 y rellenar hasta F33 En G27 ="["&C27&" - "&D27&"]" y rellenar hasta G33 Para encontrar la frecuencia absoluta simple, primero se debe seleccionar el rango H27:H33 y luego escribir la función: =FRECUENCIA($B$2:$F$13;$D$27:$D$33) y presionar la combinación de teclas Ctrl + Shift + Enter . Se ha creado una fórmula matricial. Se debe tener en cuenta que la función FRECUENCIA solo va a devolver un resultado satisfactorio cuando se trabaje con los limites superiores de intervalo cerrado o con los límites reales. En M27 =PROMEDIO(C27:D27) y rellenar hasta M33

El resto de fórmulas son análogas al ejemplo 2

Page 22: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 22 de 128

Visualización en Excel Ejemplo 5.- Variable cuantitativa continua A continuación se presenta la talla de los trabajadores de la empresa de vigilancia privada “Resguardo Total S.A.”, se pide elaborar una tabla de distribución de frecuencias de dato continuo.

1.90 1.73 1.65 1.65 1.95 1.85 1.75 1.73 1.68 1.83 1.70 1.77 1.75 1.73 1.77 1.75 1.79 1.77 1.69 1.74 1.59 1.93 1.98 1.73 1.70 1.67 1.90 1.85 1.77 1.75 1.75 1.79 1.79 1.87 1.79 1.77 1.82 1.80 1.83 1.80

FORMULA EN EXCEL

Valor menor : 1.58 En D16 =MIN(TALLAS) Valor mayor : 1.98 En D17 =MAX(TALLAS)

Rango : 0.4 En D18 =D17-D16 Total Datos : 40 En D19 =CONTAR(TALLAS)

Núm Clases : 7 En D20 =REDONDEAR.MAS(1+3.322*LOG(D19);0) Amplitud de clase

: 0.06 En D21 =REDONDEAR.MAS(D18/D20;2) Cambio mínimo : 0.01

Rango B3:F10, definido con el nombre TALLAS

Page 23: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 23 de 128

Para el primer intervalo teórico, el límite inferior es el valor mínimo de todos los datos y el límite superior se obtiene sumado al límite inferior la amplitud, para el segundo intervalo, el límite inferior es el límite superior de la clase 1 y el límite superior se obtiene como en el caso anterior. Se repite el mismo procedimiento para todas las clases. Para crear lo limites reales se restan la mitad del cambio mínimo a todos los

Como son datos continuos, se debería de crear intervalos semiabiertos, para ello se procede así: TEORICOS REALES

Clases LimInf LimSup LimInf LimSup

1 1.58 1.64 1.575 1.635 2 1.64 1.70 1.635 1.695 3 1.70 1.76 1.695 1.755 4 1.76 1.82 1.755 1.815 5 1.82 1.88 1.815 1.875 6 1.88 1.94 1.875 1.935 7 1.94 2.00 1.935 1.995

Tabla Nº 5.- Talla de los trabajadores de la empresa “Resguardo Total S.A.”

Abril - 2006 Marca de clase TEORICOS REALES Teórico Real

i LimInf LimSup LimInf LimSup Intervalo fi hi hi (%) Fi Hi Xi Xi

1 1.58 1.64 1.575 1.635 [ 1.58 - 1.64 > 1 0.025 2.50% 1 0.025 1.61 1.605 2 1.64 1.70 1.635 1.695 [ 1.64 - 1.70 > 5 0.125 12.50% 6 0.150 1.67 1.665 3 1.70 1.76 1.695 1.755 [ 1.70 - 1.76 > 12 0.300 30.00% 18 0.450 1.73 1.725 4 1.76 1.82 1.755 1.815 [ 1.76 - 1.82 > 11 0.275 27.50% 29 0.725 1.79 1.785 5 1.82 1.88 1.815 1.875 [ 1.82 - 1.88 > 6 0.150 15.00% 35 0.875 1.85 1.845 6 1.88 1.94 1.875 1.935 [ 1.88 - 1.94 > 3 0.075 7.50% 38 0.950 1.91 1.905 7 1.94 2.00 1.935 1.995 [ 1.94 - 2.00 > 2 0.050 5.00% 40 1.000 1.97 1.965

40 1.000 100.00% FUENTE: Dpto de personal. Notas de la tabla anterior

a) Los limites reales siempre resultan el mismo valor así se calcule los límites teóricos como datos discretos o continuos

b) La marca de clase sufre una variación se calcula con limites teóricos y reales, cuando se trabaja con intervalos cerrados no existe dicha variación. Por cuestiones prácticas, la marca de clase se trabaja generalmente con los límites teóricos.

c) El resto de fórmulas de la tabla anterior son idénticas al ejemplo Nro. 3

Visualización en E

xcel

Page 24: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 24 de 128

Frecuencias MAYORES QUE Y MENORES QUE. Las frecuencias menores que corresponden a las frecuencias acumulas y para encontrar las frecuencias mayores que, se debe tomar el total de los datos para la primera frecuencia mayor que restando las frecuencias absolutas acumuladas y luego ir haciendo el mismo procedimiento para todas las clases Tabla N° 6.- Cantidad de inspecciones de un grupo de 80 productos

Agosto del 2006 i LimInf LimSup fi F < Que F > Que

1 4 6 10 10 70 2 7 9 14 24 56 3 10 12 24 48 32 4 13 15 16 64 16 5 16 18 9 73 7 6 19 21 5 78 2 7 22 24 2 80 0

80 FUENTE: Dpto de Producción de la Empresa Hilados y Tejidos S.A.

Resumen de formulas en Excel para la tabla N° 6

En F5 =E5 En F6 =F5+E6 y rellenar hasta F11 En G6 =$E$12-F5 y rellenar hasta G11

Responda las siguientes preguntas

a) ¿A cuántos productos se les hizo 16 o mas inspecciones? La respuesta se puede leer en la columna “F > Que”, siendo la respuesta 7.

b) ¿A cuántos productos se les hizo 11 o menos inspecciones? Se busca la columna “F < Que”, y encuentra que la clase 10-12 tiene por frecuencia absoluta simple el valor 24, entonces dividimos este valor entre 3, obteniéndose 8, luego este valor se lo restamos a 48, resultando que la respuesta final es 40.

Page 25: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 25 de 128

Capitulo 3. Gráficos estadísticos

Objetivo Crear los principales gráficos estadísticos en Excel.

Presentación grafica de datos A pesar de la gran ayuda que prestan las tablas y cuadros con información organizada, no todos los públicos alcanzan a comprenderla o no disponen del tiempo suficiente para analizarla. Es por ello que la mayoría de los investigadores acostumbran a reforzar la descripción a través de dibujos, generalmente con formas geométricas, que ayudan a visualizar el comportamiento de las variables tratadas. Los gráficos son una de la maneras de presentar un resumen de datos, por ejemplo cuando un gerente desea analizar la información de la ventas de un determinado producto en varias zonas y comparar el posicionamiento que tiene, es probable que el primer vistazo que se de a los datos sea el de un grafico para hacerse una idea inicial de cómo esta su participación en el mercado y de allí recién se harán algunos análisis posteriores, demostrándose de esta manera la importancia de los gráficos. En esta sección se procederá a trabajar directamente en la creación de gráficos estadísticos haciendo uso de Microsoft Excel.

Grafico circular

Se creara un grafico circular con los datos de la tabla Nro 3

3333

Gráficos estadísticos

Σ

Page 26: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 26 de 128

Tabla Nº 3.- Distrito de procedencia de los trabajadores de la empresa DITESSUR SRL

Octubre del 2006

Distrito fi Fi hi hi (%) Grados

Cayma 4 4 0,0590 5,90% 21,24 J.L.B.y R. 18 22 0,2650 26,50% 95,40 Miraflores 10 32 0,1470 14,70% 52,92 Paucarpata 13 45 0,1910 19,10% 68,76 Selva Alegre 7 52 0,1030 10,30% 37,08 Cerro Colorado 14 66 0,2060 20,60% 74,16 Characato 2 68 0,0290 2,90% 10,44 68 1,0000 100,00% 360,00 FUENTE.- Archivos del registro del Dpto. de personal.

Para crear este grafico, se procederá primero a realizar lo siguiente: 1. Crear una copia de la hoja Frecuencias_Cualitativo, haciendo clic

derecho en la hoja Frecuencias_Cualitativo, y escoger mover o copiar.

Activar esta casilla de verificación.

Escoger la opción “nuevo libro”.

Presionar Aceptar

1

2

3

Page 27: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 27 de 128

2. Grabar el archivo creado con el nombre Grafico Circular. 3. Seleccionar B14:C20.

4. Iniciar el asistente para gráficos y seleccionar las opciones mostradas y presionar el boton Finalizar.

Page 28: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 28 de 128

5. Finalmente dar el formato al grafico, según se desee.

Histograma con su polígono de frecuencias Un histograma se construye dibujando barras contiguas que tienen como base la amplitud de cada intervalo y como alturas las frecuencias respectivas, sin ninguna separación entre las respectivas clases. Un polígono de frecuencias, es un grafico de líneas que une las marcas de clase de cada intervalo a la altura de la frecuencia simple, ya sea absoluta o acumulada. Se creará, un grafico con los datos de la hoja “F>Que y F<Que”, para ello cree una copia a dicha hoja en un libro nuevo de la misma manera como se procedió con el grafico circular y realice lo siguiente.

1. Seleccionar D4:E12

Grafico Nro 1: Distrito de Procedencia de los trabajadores de la empresa DITESSUR

J.L.B.y R.26.47%

Miraflores14.71%

Paucarpata19.12%

Cayma5.88% Characato

2.94%

Cerro Colorado20.59%

Selva Alegre10.29%

Page 29: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 29 de 128

2. Iniciar el asistente para gráficos, y presionar el botón finalizar.

3. Hacer clic derecho sobre cualquiera de las barras y escoger la opción señalada.

4. Luego en la ficha opciones, en ancho de rango colocar 0 (cero) y aceptar.

0

5

10

15

20

25

30

[ 01 -03 ]

[ 04 -06 ]

[ 07 -09 ]

[ 10 -12 ]

[ 13 -15 ]

[ 16 -18 ]

[ 19 -21 ]

[ 22 -24 ]

[ 25 -27 ]

Serie1

A partir de este grafico se personalizará, hasta que tenga la apariencia correcta.

Page 30: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 30 de 128

5. Hacer clic derecho sobre cualquiera de las barras y escoger la opción datos de origen.

6. En la ficha serie, presionar el botón agregar.

7. De la opción valores, presionar el botón seleccionar celdas.

Page 31: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 31 de 128

8. Seleccionar el rango E4:E12 y presionar el botón

9. Aceptar el cuadro de dialogo. 10. Clic derecho sobre cualquiera de las nuevas barras creadas y

escoger la opción tipo de grafico. 11. Seleccionar el tipo de grafico líneas y aceptar.

Ojiva Una ojiva en un grafico de líneas que se crea con las frecuencias acumuladas. Como ejercicio, se deja crear la ojiva de porcentajes de la tabla Nro 5

0

5

10

15

20

25

30

[ 01

- 0

3 ]

[ 04

- 0

6 ]

[ 07

- 0

9 ]

[ 10

- 1

2 ]

[ 13

- 1

5 ]

[ 16

- 1

8 ]

[ 19

- 2

1 ]

[ 22

- 2

4 ]

[ 25

- 2

7 ]

0.00%

20.00%

40.00%

60.00%

80.00%

100.00%

120.00%

1 2 3 4 5 6 7

Page 32: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 32 de 128

Pictogramas Un pictograma es un grafico en el que se representan imágenes de la variable en estudio es el eje cartesiano, como ejemplo aplicativo, se tiene una pregunta de una encuesta realizada en la ciudad de Arequipa acerca del consumo de carne de pollo en 5 distritos, teniéndose como resultados lo siguientes: Tabla Nro 7.- Consumo de Carne de pollo (en Kg por familia en un mes)

Año Cantidad

Cayma 29 JLByR 18 Yanahuara 21 Selva Alegre 32 Yura 14

Para elaborar el pictograma, se procede de la siguiente manera:

1. Se copian los datos en Excel. 2. Se crea un grafico de tipo columnas simples.

3. Hacer doble clic izquierdo en cualquiera de las columnas y en la ficha tramas presionar el botón efectos de relleno.

4. En la ficha imagen presionar el botón seleccionar imagen y buscar la

imagen apropiada a la variable en estudio

0

5

10

15

20

25

30

35

Cayma JLByR Yanahuara SelvaAlegre

Yura

Serie1

Antes de crear este grafico, se debe tener imágenes guardadas en el ordenador. Buscar la imagen: Gallina.wmf la que se encuentra en su carpeta de trabajo.

Page 33: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 33 de 128

5. Una vez escogida la imagen, presionar el botón aceptar.

0

5

10

15

20

25

30

35

Cayma JLByR Yanahuara SelvaAlegre

Yura

Serie1

Page 34: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 34 de 128

Capitulo 4. Medidas Estadísticas

Objetivo Calcular las principales medidas estadísticas en Excel, haciendo uso de la

diversas funciones y complementos que posee este programa, para datos no agrupados.

Encontrar las medidas estadísticas en Excel para datos agrupados.

Medidas Estadísticas para datos no agrupados. Consideremos los siguientes datos que se refieren movimiento mensual en dólares de 250 clientes del Banco de Crédito del Perú para sus clientes que pertenecen al estrato alto de la ciudad de Arequipa en el mes de octubre del 2006

5263 7803 4631 5688 5393 6969 7848 7024 2692 2702 6904 4479 5274 7379 5508 5130 9354 5551 5811 5667 9355 5500 7273 5728 4609 5416 2559 7056 6012 6587 5370 7647 4708 4350 4545 8043 4818 5743 6095 6509 5096 5669 7221 3673 6227 4153 5717 6989 4162 6300 5857 7304 4798 7724 5091 6551 7814 6286 6262 4002 7907 6000 6233 3640 6370 5415 4847 2948 2179 5411 5211 6133 4393 7884 6693 4301 6266 5875 3671 7144 7291 4774 5943 6411 3762 4398 6215 5487 3341 5061 4348 6606 7155 7856 4462 4192 6897 5357 5201 3886 7258 6071 5380 5161 5652 5607 3411 6496 6594 4883 6779 4937 7451 5683 4305 5059 5675 7205 6997 6663 5457 4662 5751 5760 6919 5463 7722 6830 7059 6930 6427 6463 5007 5712 6281 5369 7912 6415 7012 4115 6703 2479 6554 6233 7699 5535 4925 5488 6439 3960 6640 5757 6753 3854 6265 5685 7690 6736 5881 5112 8138 4757 6845 5688 5674 7645 6920 7306 6065 5149 4195 4068 3703 7959 7824 9268 6632 4208 8519 6809 6353 5927 7803 3857 8582 6224 7849 7192 7638 4987 5182 6797 5924 4419 5652 5160 9133 4600 5311 6199 4230 8186 6085 5639 6586 5763 5133 5355 8880 6138 7072 5158 7028 8949 7253 6708 3569 4879 3781 8461 7887 6490 6103 6881 6682 8515 6825 4985 4685 7920 6172 8554 6309 4332 7251 8528 8942 5767 5407 3633 6383 6108 5578 4352 4140 8248 6269 4159 7518 5834

Para encontrar las diversas medidas estadísticas en Excel, se debe introducir los datos en una hoja de cálculo, considerando que estos deben estar en una sola

4444

Medidas Estadísticas

Σ

Page 35: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 35 de 128

columna. Vamos a suponer que hemos introducido los datos tal como están en la tabla anterior, la pregunta es: ¿Cómo haría para pasar los datos de una tabla de 25 filas por 10 columnas, a una tabla de 250 filas por una columna? Los datos han sido introducidos en el rango A7:J31, entonces se procede de la siguiente manera: Se selecciona la opción complementos del menú herramientas, y se activa la opción Herramientas para Análisis. Seleccionar del menú Herramientas el comando “Análisis de Datos”, seleccionar la opción muestra y aceptar. Escoger las opciones que a continuación se muestran y presionar aceptar.

Seleccionar los datos.

Activar la opción periódico y como periodo colocar 1.

Colocar el nombre para la hoja nueva donde aparecerán los datos.

Page 36: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 36 de 128

Una vez que los datos están en una hoja nueva, activar el comando “Análisis de Datos” del menú herramientas, seleccionar la opción “Estadística Descriptiva” y aceptar. Escoger las opciones que a continuación se muestran y presionar aceptar. Finalmente los resultados hallados son:

Columna1

Media 5973.78Error típico 89.8641721Mediana 5935Moda 7803Desviación estándar 1420.877319Varianza de la muestra 2018892.357Curtosis -0.221722878Coeficiente de asimetría -0.022460424Rango 7176Mínimo 2179Máximo 9355Suma 1493445Cuenta 250Nivel de confianza(95.0%) 176.990795

Comentarios acerca de los resultados obtenidos: a) La Media, es la media aritmética de los datos de la muestra y se halla con la

fórmula:

Seleccionar los datos.

Colocar un rango de salida, para que el resultado salga en esta

Activar las opciones mostradas.

1

2

3

iX

XN

Σ=

Page 37: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 37 de 128

La interpretación seria que el movimiento promedio mensual en dólares de 250 clientes del Banco de Crédito del Perú para sus clientes que pertenecen al estrato alto de la ciudad de Arequipa en el mes de octubre del 2006 es de $ 5973.78 b) El error típico, se calcula con la formula: El error típico es la desviación estándar de la distribución muestral de medias. c) Recordemos que la mediana es el valor que divide a la muestra en dos

subconjuntos con el mismo numero de elementos cada uno. Para nuestra muestra podemos decir que el 50% de los clientes realizó movimientos entre $2179 y $5935, 50% de los clientes realizo movimientos entre $5935 y $9355.

d) La moda es el valor que mas se repite, en nuestro datos existen 4 valores que

se repiten dos veces, el Excel lo que ha hecho es ordenar los datos en forma descendente y el primer valor que se repetía mas veces (2, en nuestro caso), lo ha tomado como si fuera la moda, siendo el valor 7803. Si es que no hubiese ningún valor que se repita dos o mas veces, Excel devolvería el valor #!N/A, a la altura de la moda. Los otros dos valores son 6233, 5688 y 5652. Para encontrar dichos valores se debe hacer lo siguiente:

e) Para la desviación estándar se puede utilizar cualquiera de estas formulas

XN

σσ =

a) Ordenar los datos en forma descendente.

b) En la Celda B1, escribir esta función y rellenar hasta la celda B250.

( )2

1

n

i

i

X X

nσ =

=∑ ( )

2

1

1

n

i

i

X X

sn

=

=−

Page 38: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 38 de 128

El movimiento mensual en dólares de los clientes del Banco de Crédito del Perú que pertenecen al estrato alto de la ciudad de Arequipa en el mes de octubre del 2006 se dispersa en promedio $1420.88 con respecto al valor central. f) Recordemos que la varianza es la desviación estándar elevada al cuadrado.

Se pueden usar estas formulas alternativas para su calculo. g) La curtosis es el estadígrafo de asimetría que mide el grado de apuntamiento

o elevación de una curva estadística comparada con la curva normal. Una curtosis positiva indica una distribución relativamente elevada, mientras que una curtosis negativa indica una distribución relativamente plana. La formula para calcularla es:

En nuestro una curtosis de -0.223, nos indica que la distribución de datos es platicurtica, es decir, es mas achatada que la curva normal. h) El coeficiente de asimetría o “grado de asimetría” de una distribución, es la

inclinación que adopta una curva estadística respecto de la media aritmética. Esta inclinación se llama “cola”, que puede ser más prolongada a la izquierda o derecha de sus media aritmética. La formula para calcularla es:

En nuestra muestra el coeficiente de -0.022 nos indica que la cola de los datos se presenta ligeramente a la izquierda de la media aritmética. i) El rango es la diferencia entre el mayor y menor de todos los valores, para

nuestro caso el rango ha sido calculado 7176 = 9355 - 2179. j) El nivel de confianza, sirve para calcular un intervalo de confianza para la

media poblacional, dicho intervalo, de manera manual se calcula con la formula:

Entonces el intervalo de confianza seria:

I = [5796.79 ; 6150.77]

2 22

1

n x ( x )s

n( n )

Σ − Σ=

2 22

2

n x ( x )

Σ − Σ=

421 3 1

1 2 3 2 3

iX Xn( n ) ( n )Curtosis

( n )( n )( n ) s ( n )( n )

−+ − = −

− − − − − ∑

3

1 2

iX Xn

Sesgo( n )( n ) s

−=

− − ∑

2/

sx z

nαµ = ±

Page 39: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 39 de 128

Medidas estadísticas para datos agrupados. Los datos agrupados que analizaremos, serán aquellos que se vieron en las tablas de distribución de frecuencias para datos tipo 3. Se presentara un ejemplo a manera de realizar un análisis de sensibilidad con los datos presentados, recordemos que un análisis de sensibilidad responde a la pregunta: ¿Qué pasaría si?. Para ello se presentará un modelo creado en Excel. Considere el siguiente modelo: Los siguientes datos se refieren a una muestra del número de ventas realizadas por los trabajadores de la tienda Estilos durante la primera quincena del mes de mayo del 2006.

56 12 62 68 56 75 52 73 60 66 29 60 73 39 59 72 73 54 62 42 62 33 40 65 55 19 23 57 78 68 82 76 37 65 17 36 15 79 33 66 66 52 56 80 17 28 63 83 88 66 60 47 92 65 AB XY

AB y XY, pueden tomar cualquier valor de dos dígitos, para un caso practico puede considerar lo siguiente, AB representa los dos últimos dígitos de su código de ingreso y XY representa los dos últimos dígitos de su DNI (Si fuese menor de edad colocar el día de su cumpleaños). Si se tratase de un examen que se le toma a un grupo de alumnos. Los valores AB y XY, harán que se cree intervalos de diferentes frecuencias absolutas simples. Se procederá a crear una tabla de distribución de frecuencias de cinco clases. Para trabajar este ejemplo abrir el archivo Ejercicio de Aplicación Realizar un análisis estadístico completo con los datos del archivo Ventas de Celulares

Page 40: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 40 de 128

Capitulo 5: Probabilidad Experimento aleatorio En nuestra vida cotidiana encontramos algunos fenómenos, situaciones o experimentos cuyo resultado esta dentro de un conjunto de posibilidades. Por ejemplo Al lanzar una moneda que lado de la moneda saldrá. Al lanzar un dado que número se mostrará. ¿Cuántos de los alumnos del salón de clase aprobaran? ¿Cuál será la jugada ganadora de la TINKA de este domingo? A estos fenómenos se les llama fenómenos aleatorios, ya que no es posible conocer el resultado antes de realizar el experimento. Un experimento es proceso que genera un conjunto de datos cualitativos o cuantitativos. Muchas veces el resultado de estos experimentos depende del azar, es decir que no se puede pronosticar el resultado con exactitud. De todas las ideas anteriores podemos dar una definición: “Un experimento aleatorio es todo proceso que consiste de la ejecución de un acto o prueba una o mas veces, cuyo resultado en cada prueba depende del azar y en consecuencia no se puede predecir con certeza.” Espacio muestral Es el conjunto que consiste de todos los resultados posibles de un experimento aleatorio. Se denota por (Ω). Cada resultado posible del experimento aleatorio es un elemento del espacio muestral o punto muestral. Se representa por: Ω= ω/ω es un punto muestral Ejemplos de experimentos aleatorios con sus respectivos espacios muestrales

a) El experimento aleatorio de lanzar un dado y observar el resultado obtenido, es de una sola prueba.

Ωa = 1,2,3,4,5,6

b) El experimento aleatorio de lanzar una moneda tres veces, consiste de 3 pruebas. Ωb = CCC, CCS, CSC, SCC, SSC, SCS, CSS, SSS

5555

Probabilidad

Σ

Page 41: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 41 de 128

Los espacios muestrales que consisten de de dos o mas pruebas sucesivas se obtienen también de un diagrama de tipo arbol. c) Si el experimento aleatorio es lanzar una moneda y un dado a la vez, y

observar los resultados, el espacio muestral es: Ωc = 1C, 2C, 3C, 4C, 5C, 6C, 1S, 2S, 3S, 4S, 5S, 6S d) si el experimento aleatorio es lanzar una moneda tantas veces como sea

necesario hasta que aparezca la primera cara, su espacio muestral es: Ωd = C, SC, SSC, SSSC, SSSSC,…

e) Si el experimento aleatorio consiste en medir la vida útil (en horas de uso) de un quemador de DVD, su espacio muestral es: Ωe = t ∈ ℜ / t ≥ 0 ℜ representa al conjunto de números reales.

f) Si el experimento aleatorio consiste en determinar la posición de caída de dardo que es tirado hacia un blanco circular de radio 5 cm., su espacio muestral es: Ωf = (x,y) ∈ ℜ / x2 + y2 ≤ 25

Clasificación de los espacios muestrales Por el número de elementos o puntos muestrales, los espacios muestrales se clasifican en: Discretos finitos, son los que tienen un número finito de elementos, por ejemplo, los espacios Ωa, Ωb y Ωc Discretos infinitos, consisten de un número infinito numerable de elementos, por ejemplo el espacio Ωd Continuos, consiste de un número infinito no numerable de elementos, por ejemplo los espacios Ωe y Ωf Eventos o sucesos Son cualquier subconjunto de un espacio muestral. Los diversos eventos son:

a) El evento imposible, ∅, es el que no tiene puntos muestrales, en consecuencia no ocurre nunca.

b) Los eventos unitarios o elementales, wi, son los que contienen un solo punto muestral.

c) Los eventos compuestos, son los que contienen de dos a mas eventos. d) El evento seguro o cierto, Ω, es el mismo espacio muestral.

Definiciones

Se dice que un evento A ocurre, si contiene por lo menos un punto muestral de algún experimento aleatorio.

Un evento A no ocurre si y solo si w ∉ A. El evento A es un subevento o esta contenido en el evento B, simbolizado,

A ⊂ B, si toda vez que ocurre A ocurre también B. Los eventos A y B son iguales, A = B, si y solo si A ⊂ B y B ⊂ A.

Page 42: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 42 de 128

Se denomina complemento del evento A, al evento que se denota por AC o A’ o A , que consiste de todos los puntos muestrales que no están en el evento A, esto es:

AC = w ∈ Ω/ w ∉ A Probabilidad de un evento Sea Ω el espacio muestral asociado a un experimento aleatorio. La probabilidad de cualquier evento A de W, es el número real P(A) que satisface los siguientes axiomas:

a) 0 ≤ P(A) ≤ 1 b) P(Ω) = 1 c) P(A ∪ B) = P(A) + P(B)

Para calcular la probabilidad de un evento se usara la formula: Probabilidad de dos o mas eventos Eventos Mutuamente Excluyentes Dos o mas eventos son mutuamente excluyentes o disjuntos si no pueden ocurrir simultáneamente. Es decir, la ocurrencia de un evento impide la ocurrencia del otro evento ( o eventos ). La probabilidad del evento A o B es: P(A ∪ B) = P(A) + P(B) Ejemplo: Se extrae una carta de una baraja. Hallar la probabilidad de que ésta sea un as o un rey

A AC

n(A)P(A)=

n(Ω)

[ ] [ ]

[ ]

4 1 4 1

52 13 52 13

1 115 38

13 13

P A ; P B ;

P A B . %

= = = =

∴ ∪ = + =

Page 43: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 43 de 128

Eventos no Excluyentes Dos o más eventos son no excluyentes o conjuntos, cuando es posible que ocurran ambos. En forma simbólica se tiene: P(A ∪ B) = P(A) + P(B) - P(A ∩ B) Para tres eventos cualesquiera A, B y C, se cumple que: P(A ∪ B ∪ C) = P(A) + P(B) + P(C) – P(AB) –P(AC) – P(BC) + P(ABC) Ejemplo: Sea A el evento de sacar un rey y B el evento de sacar un trébol en una sola carta sacada de la baraja. ¿Cuál es la probabilidad de sacar un rey o un trebol o ambas en una sola oportunidad? Eventos Independientes Dos o más eventos son considerados independientes si los eventos en ningún modo se afectan uno al otro. La probabilidad de que ambos eventos independientes A y B ocurran, tienen como fórmula: P [ A y B ] = p [ A ] * p [ B ] Ejemplo Una caja contiene 5 bolas vender y 2 bolas negras. Se extrae una bola de la caja y después se reemplaza; otra bola es extraída después del reemplazamiento. Encontrar la probabilidad de que ambas extracciones sean bolas verdes. Solución 5 bolas verdes

Caja 2 bolas negras 7

[ ] [ ] [ ]

[ ]

4 1 13 1 1

52 13 52 4 52

1 13 130 77

13 52 52

P A ; P B ; P A B

P A B . %

= = = = ∩ =

∴ ∪ = + − =

5 5 25P(AyB)= × = =51.02%

7 7 49

Ω

B

ABC ACB AB

ACBC

A

Page 44: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 44 de 128

Eventos dependientes Si A y B están relacionadas de tal manera que la ocurrencia de B depende de la ocurrencia de A; entonces A y B son llamados eventos dependientes y la probabilidad del evento B es llamado Probabilidad condicional, en forma simbólicamente: P [ A y B ] = p [ A ] * p [ B / A ] Ejemplo: Con relación al ejemplo anterior, supongamos que la bola no es regresada a la caja antes de sacar la segunda bola. Encuentre la probabilidad de que ambas bolas sean verdes. Solución: PROBABILIDAD CONDICIONADA Ejemplo de aplicación Se tiene un grupo de 112 alumnos en los que se ha anotado si están aprobados o desaprobados y si provienen de colegio nacional o particular.

Particular (P) Nacional (N) Total Aprobado (A) 20 30 50 Desaprobado (D) 22 40 62 42 70 112

Los sucesos A, D, P y N, representan los sucesos que se verifican cuando al escoger una persona esta resulta ser un alumno aprobado o desaprobado, provenir de colegio particular o nacional. Si la elección se hace sin condiciones, la probabilidad de elegir una persona que sea de colegio particular es: La de elegir una persona que sea de colegio nacional es: Sin embargo si la elección se hace solamente entre los aprobados, las probabilidades de que sea de colegio particular o nacional son: Para que no existan confusiones y se anote claramente de que son probabilidades calculadas sobre el conjunto solo de los aprobados, se escribe A)PP( , la que se lee: “Probabilidad de P condicionada a A” o bien “Probabilidad de P supuesto que es A”. Las probabilidades de P y N, condicionadas a A son:

5 4P(A)= ;P(B)=

7 6

5 4 20P(AyB)= × = =47.62%

7 6 42

83

11242

P(P) ==

85

11270

P(N) ==

52

5020

P(P) == 53

5030

P(N) ==

Page 45: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 45 de 128

Calculamos ahora las otras probabilidades condicionadas que se dan: Según lo anterior, tenemos: y hallamos: Como se puede observar la relación existente entre las 3 probabilidades es: De la anterior relación se deduce que: Por todo lo anterior demostrado, definimos: Sea A un suceso cuya probabilidad es distinta de cero y sea B cualquier suceso. Se llama probabilidad de B condicionado a A, al cociente: La relación anterior mide la proporción de veces que ocurre B de entre las que ha ocurrido A. Ejemplo Nro 1 Se lanzan dos dados; ¿Cuál es la probabilidad de que la suma de los resultados sea menor que seis si sabemos que dicha suma ha sido múltiplo de cuatro? La probabilidad pedida es:

Utilizando la ley de Laplace casos favorables

pcasos posibles

= tenemos:

Conteo de los casos posibles, se sacaran los pares de dados cuyas sumas sean múltiplo de 4, (1,3), (2,2), (2,6), (3,1), (3,5), (4,4), (5,3), (6,2) y (6,6)

( )52

APP = ( )

53

ANP =

( ) 22 11PP = =D 62 31

( ) 22 11DP = =P 42 21

( ) 40 20NP = =D 62 31

( ) 30 3AP = =N 70 7

( ) 20 10AP = =P 42 21

( ) 40 4DP = =N 70 7

( ) 2PP =A 5

50 25P(A)= =

112 56

20 5P(P A)= =

112 28∩

5 25 2= ×

28 56 5

( ) ( ) ( ) ( ) ( )( )

P P AP PP P A =P A ×P PA A P A

⇒ =∩

( ) ( )( )

P A BBPA P A

=∩

( )64

sumaPsuma multiplo de

<

Page 46: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 46 de 128

Conteo de los casos favorables (1,3), (2,2) y (3,1) Por lo tanto: Haciendo uso de la tabla de probabilidad condicional, hallamos Ω.

2 3 4 5 6 7 3 4 5 6 7 8

Ω = 4 5 6 7 8 9 5 6 7 8 9 10

6 7 8 9 10 11 7 8 9 10 11 12

Tabla de Probabilidad Condicional Es < 6 (C) Es ≥ 6(D) Total Es múltiplo de 4 (A) 3 6 9 No es múltiplo de 4 (B) 7 20 27 10 26 36 PROBABILIDAD TOTAL Tenemos n sucesos A1, A2, …, An incompatibles dos a dos (Ai ∩ Aj = ∅) y tales que A1 ∪ A2 ∪… ∪ An = Ω. Si S es un suceso cualquiera se tiene que:

TEOREMA DE BAYES. Si los n sucesos A1, A2, …, An, constituyen una partición del espacio muestral Ω, entonces, para cualquier evento S de Ω tal que P(B)>0. Donde:

( ) 3 164 9 3

sumaPsuma multiplo de

< = =

( ) ( )

( ) ( )( )

3 164 9 3

3

1369 3

36

suma CP Psuma multiplo de A

P C ACP

A P A

< = = =

= = =∩

A1 A2 A3 An …

S

Ω

1 2 n1 2 n

S S SP(S)=P(A )×P +P(A )×P +...+P(A )×PA A A

i iiP(A )P(S A )A

P =S P(S)

1 2 n1 2 n

S S SP(S)=P(A )×P +P(A )×P +...+P(A )×PA A A

Page 47: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 47 de 128

La regla de Bayes nos permite comparar la probabilidad previa (o a priori) P(Ai) con la probabilidad posterior (o aposteriori) P(Ai/S), la regla de Bayes da el porcentaje de la contribución de P(Ai ∩ S) con respecto a P(S). Ejemplo de aplicación Se tiene dos urnas, en la primera hay dos bolas blancas y tres bolas negras, mientras que en la segunda tiene cuatro bolas blancas y una negra. Se elige una urna al azar y se extrae una bola. Calcular:

a) La probabilidad de que la bola extraída sea blanca. b) La probabilidad de haber elegido la primera urna, supuesto que la bola

extraída ha sido blanca. Solución Sea A1 el suceso de elegir la primera urna y sea A2 el suceso de elegir la segunda urna y S el suceso de extraer la bola blanca. El punto (a), pide calcular: Como las urnas son elegidas al azar, entonces P(A1)=P(A2) = 1/2 El punto (b), pide calcular: Ejercicios de aplicación 1. Tres máquinas denominadas A, B y C, producen un 43%, 26% y 31% de la

producción total de una empresa respectivamente, se ha detectado que un 8%, 2% y 1.6% del producto manufacturado por estas máquinas es defectuoso, a. Se selecciona un producto al azar y se encuentra que es defectuoso, ¿cuál es la probabilidad de que el producto haya sido fabricado en la máquina B?, b. Si el producto seleccionado resulta que no es defectuoso, ¿cuál es la probabilidad de que haya sido fabricado en la máquina C?

2. Tres máquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total de las piezas producidas en una fábrica. Los porcentajes de producción defectuosa de estas máquinas son del 3%, 4% y 5%. Seleccionamos una pieza al azar; calcular la probabilidad de que sea defectuosa. Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la probabilidad de haber sido producida por la máquina B. ¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza defectuosa?

3. La fábrica de enlatados PORTOLA SA produce 5000 envases diarios. La máquina A produce 3000 de estos envases, de los que el 2% son defectuosos y la máquina B produce los 2000 restantes de los que se sabe que el 4% son defectuosos. Determinar la probabilidad de que un envase elegido al azar sea defectuoso. Si se escoge un envase y este es bueno, ¿Cuál es la probabilidad que haya sido hecho en la maquina B?

4. El volumen de producción en tres plantas diferentes de una fabrica es de 500 unidades en la primera, 1000 unidades en la segunda y 2000 en la tercera.

1 21 2

S SP(S)=P(A )×P +P(A )×PA A

1 2 1 4 3P(S)= × + ×

2 5 2 5 5

=

1 11

1 21 2

1 2×

P(A )P(S A ) 1A 2 5P = = =S 1 2 1 4 3S SP(A )×P +P(A )×P × + ×

A A 2 5 2 5

Page 48: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 48 de 128

Sabiendo que el porcentaje de unidades defectuosas producidas en cada planta es el 1%, 0.8% y 2% respectivamente. Calcula la probabilidad de que al seleccionar una unidad al azar sea defectuosa.

5. En un día cualquiera cuatro maquinas M1, M2, M3 y M4 producen un bien de consumo en las siguientes proporciones: M1 produce el doble de M4, M3 produce el triple de M4, mientras que M1 produce la mitad de M2. Las producciones no defectuosas son respectivamente 95%, 95%, 90% para M1, M2 y M3. Si se elige al azar un articulo de la producción de un día y se encuentra que la probabilidad de que resulte no defectuoso es 0.93%.

a) ¿Cuál es el porcentaje de producción no defectuosa de M4? b) ¿De que maquina es más probable que provenga un articulo defectuoso?

Page 49: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 49 de 128

Capitulo 6: Variables Aleatorias Distribución de variables aleatorias Variable aleatoria Fenómeno aleatorio: es todo fenómeno sobre el cual no se tiene la certeza absoluta de poder explicarlo, en por lo menos algún ámbito o sistema de referencia. Definido así, se deduce que todo fenómeno conocido es o fue aleatorio alguna vez. Por ejemplo, la determinación del sexo de un recién nacido fue aleatoria hasta antes del alumbramiento, momento en que se alcanza la certeza. No hay ciencia sin experimentos y tampoco hay experimentos sin ciencia. Experimento aleatorio: es todo experimento sobre cuyo resultado no se tiene “a priori” la certeza de su resultado. Por ejemplo, si el experimento es lanzar un dado, se tiene la certeza que hay seis resultados posibles pero nunca se sabe cuál cara saldrá si se trata de un dado normal. Existe un cierto grado de incertidumbre asociado a cada cara posible. Una variable estadística es una característica(Cualitativa o cuantitativa) que se mide u observa en una población. Si la población es aleatoria y la característica es cuantitativa la variable es denominada variable aleatoria. Variable aleatoria: son todas aquellas magnitudes donde cada uno de los valores que pueda tomar, en un sistema de referencia o población, tiene asociada una cierta probabilidad de ocurrencia. Definición: Se denomina variable aleatoria, a una variable estadística definida en un espacio muestral Ω. El dominio de la variable aleatoria X es el espacio muestral W y el rango es un subconjunto de los números reales que se denotará por RX, siendo, RX = x ∈ ℜ / x = X(ω), ω∈Ω VARIABLE ALEATORIA DISCRETA La función X es una variable aleatoria discreta, si el rango de X es contable (finito o infinito numerable). Una V.A. discreta asume cada uno de sus valores con cierta probabilidad que denotaremos por PX(Probabilidad inducida por X). En efecto si e

Una variable aleatoria X es una función definida en W tal que a cada elemento ωi ∈ Ω le asocia el número real x = X(ωi), ver en la figura de la izquierda.

6666

Variables Aleatorias

Σ

Page 50: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 50 de 128

rango de la variable aleatoria X es el conjunto finito de números, RX = 1;2;...;Xn y si B = xi es un evento en RX, entonces: P(xi) = P[X = xi] = P[ω ∈ Ω / X(ω) = xi]; ∀ i = 1;2;3;….. Ejemplo 1 Sea Ω el espacio muestral de lanzar al aire una moneda tres veces consecutivas, esto es, Ω = SSS, SSC, SCS, CSS, SCC, CSC, CCS, CCC. Si X se define en Ω como “el número de caras obtenidas”, entonces, X es una variable aleatoria cuyo rango es el conjunto: RX = 0;1;2;3;4. En efecto, X = 0; corresponde al elemento elemental SSS. X = 1; corresponde a los elementos elementales SSC, SCS, CSS. X = 2; corresponde a los elementos elementales SCC, CSC, CSS. X = 3; corresponde al elemento elemental CCC. P[X = 0] = P(SSS) = 1/8 P[X = 1] = P(SSC o SCS o CSS) = 3/8 P[X = 2] = P(SCC o CSC o CSS) = 3/8 P[X = 3] = P(CCC) = 1/8 En general, sea P una probabilidad definida en un espacio muestral Ω, y X una variable aleatoria definida en Ω cuyo rango es el conjunto de números RX, la probabilidad PX del evento B en RX se define por: PX (B) = P(A)

RX

P(A) = PX(B)

PX

P

B

X Ω

A

Page 51: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 51 de 128

NOTAS: a) El conjunto de pares (xi; P[X = xi]) es la distribución de probabilidades de la

variable aleatoria X.

Esta distribución es similar a una distribución de frecuencias relativas, por lo tanto, se pueden calcular las medidas de tendencia central y de dispersión por un proceso similar al que se hizo con la distribución de frecuencias relativas.

b) Las probabilidades pi = P[X = xi], xi ∈ RX satisfacen las propiedades: pi ≥ 0, para cada xi ∈ RX Σpi = 1

c) Por extensión para todo número real x ≠xi, siendo xi ∈ RX, se define : P[X = x] = P(∅) = 0 Función de probabilidad de una variable aleatoria discreta Sea X una variable aleatoria discreta. Se denomina función (ley o modelo de distribución) de probabilidad de X a la función f (x) definida por f (x) = P[X = x] para todo x número real y que satisface las siguientes condiciones: i) f (x) ≥ 0 ∀ x ∈ ℜ ii) Σ f (xi) = 1 Ejemplo 2 Consideremos el experimento de lanzar dos dados y observar los números que aparecen en las caras superiores. Encuentre la función de distribución de probabilidad de la variable aleatoria y grafique para:

a) X: suma de los números que aparecen en las caras superiores de los dos dados.

b) X: diferencia de los números que aparecen en las caras superiores de los dos dados.

c) X: máximo de los dos números que aparecen en las caras superiores de los dos dados.

d) Calcular para cada caso P[2 < X ≤ 5]. Solución: El espacio muestral asociado al experimento es:

(1-1) (1-2) (1-3) (1-4) (1-5) (1-6) (2-1) (2-2) (2-3) (2-4) (2-5) (2-6) (3-1) (3-2) (3-3) (3-4) (3-5) (3-6) (4-1) (4-2) (4-3) (4-4) (4-5) (4-6) (5-1) (5-2) (5-3) (5-4) (5-5) (5-6) (6-1) (6-2) (6-3) (6-4) (6-5) (6-6)

a) En este experimento los posibles valores de x(ω) = i + j, donde ω = i;j son 2; 3; 4;...;12. Tenemos que x = 2 corresponde al evento (1-1) con probabilidad 1/36, esto es, P[x = 2] = P[(1-1)] = 1/36. Resolviendo por analogía para los demás casos, llegamos a la siguiente distribución de probabilidad.

xi 2 3 4 5 6 7 8 9 10 11 12 pi ó f (xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Ω = =(i;j) / i = 1; 2; 3; 4;5;6 j = 1; 2; 3; 4;5;6

xi∈RX

Page 52: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 52 de 128

x P(x) 2 1/36 3 2/36 4 3/36 5 4/36 6 5/36 7 6/36 8 5/36 9 4/36 10 3/36 11 2/36 12 1/36

La grafica de una distribución de probabilidades discreta se denomina gráfica de bastones, que consiste en segmentos verticales continuos o punteados de longitud proporcional a la probabilidad respectiva en cada valor xi de la variable (Observar el grafico de arriba)

Cálculo de P[2 < X ≤ 5] Para encontrar esta probabilidad se debe hallar:

4

1

36

9

36

4

36

3

36

2)5(f)4(f)3(f)x(f

5

3x

i

i

==++=++=∑=

Realice Ud. los puntos (b); (c) y (d) del ejemplo 2.

Función de distribución acumulada de la variable aleatoria discreta. F(x) = P[X ≤ x] Ejemplo 3.- Hallar la función de distribución acumulada del punto (a) del ejemplo 2

f (x)

0 x < 2 1/36 2 ≤ x < 3 3/36 3 ≤ x < 4 6/36 4 ≤ x < 5 10/36 5 ≤ x < 6 15/36 6 ≤ x < 7 21/36 7 ≤ x < 8 26/36 8 ≤ x < 9 30/36 9 ≤ x < 10 33/36 10 ≤ x < 11 35/36 11 ≤ x < 12 36/36 x ≥ 12

Ejercicio.- Encontrar la función de distribución de probabilidad acumulada para los puntos (b) y (c) del ejemplo 2.

Distribución de probabilidad

01/362/363/364/365/366/367/36

1 2 3 4 5 6 7 8 9 10 11 12

P(X)

Gráfica de la Distribución

0 6/36

12/36 18/36 24/36 30/36

1 1 6/36

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Page 53: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 53 de 128

Esperanza matemática de una variable aleatoria discreta La media de una v.a. X o media de la distribución de probabilidad de X es un número real que se denota por µX o por µ. La media es denominada también, esperanza matemática o valor esperado de X, se denota también por E(X) La media de una variable aleatoria discreta X con función de probabilidad f (x) es la expresión: Si el rango de X es un conjunto finito RX = x1; x2; ...; xn, entonces:

Si el rango de X es un conjunto infinito numerable RX = x1; x2; ..., entonces

∑=

=n

1i

ii )x(fx)X(E ∑∞

=

=1i

ii )x(fx)X(E

Varianza de una variable aleatoria discreta Se denota por cualquiera de estas formas:

)X(v);X(Var;; 2

X

2 σσ Sea X una v.a. con distribución de probabilidad f(x) y con media igual a m. La varianza de X es la expresión: La desviación estándar es la raiz cuadrada de la varianza. Ejemplo 4.- Hallar la media y la varianza del punto (a) del ejemplo 2. Cálculo de la media o de la esperanza matemática.

xi 2 3 4 5 6 7 8 9 10 11 12 pi ó f (xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Procedemos a multiplicar cada xi por f(xi) y luego sumamos. obteniendo que µ = 7. Conclusión: La esperanza matemática de la suma de dos dados que son lanzados es 7. Cálculo de la varianza Se procede a elevar al cuadrado cada suma de par de dados, multiplicar ese valor por su probabilidad y hallar dicha suma, obteniéndose: 54,83. Luego Var(X) = E(X2)-µ2 = 54,83 – (7)2 = 54,83 – 49 = 5,83 Var (X) = 5,83 Ejercicios Propuestos Ejercicio 1 Considere el experimento de lanzar una moneda al aire 3 veces consecutivas y anotar el resultado obtenido. Sea X una VA discreta que se define como el número de caras obtenidas, hallar:

a) La función de distribución de probabilidad acumulada. b) La Esperanza matemática. c) La varianza d) La desviación estándar. e) P[0 < X ≤ 2]

∑∈

==Xi Rx

ii )x(fx)X(Eµ

[ ] ∑ −=−= )x(f)x()X(E i

222

X i µµσ

∑∈

==Xi Rx

ii )x(fx)X(Eµ

Page 54: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 54 de 128

Ejercicio 2 Considere el experimento de lanzar cuatro monedas de 50 céntimos al aire juntas y anotar el resultado obtenido. Sea X una VA discreta que se define como el número de sellos obtenidos, hallar:

a) La función de distribución de probabilidad acumulada. b) La Esperanza matemática. c) La varianza d) La desviación estándar. e) P[0 < X ≤ 2]

Ejercicio 3 Realice nuevamente el ejercicio 1, pero considerando que la moneda se lanza al aire 5, 6 y 7 veces. Ejercicio 4 Una urna contiene 3 fichas de color rojo y una de color azul. Un experimento aleatorio consiste en extraer fichas al azar de la urna uno a uno sucesivamente.

a) Determinar la distribución de probabilidades del número de intentos que se realizan hasta que aparezca la primera ficha azul. Sin reposición y con reposición.

b) Si dos personas A y B juegan sacando alternativamente una ficha cn reposición de la urna y si gana el que obtiene la primera ficha azul, ¿Cuál es la probabilidad e que A gane el juego si juega primero?.

Ejercicio 5 Un lote de 10 impresoras contiene 4 defectuosas. Si se obtiene una muestra al azar de cinco artículos, determine la distribución de probabilidades del número de artículos defectuosos en la muestra, si se escogen:

a) Los cinco a la vez. b) Uno por uno con reposición.

Ejercicio 6 Un embarque de 7 televisores contiene 2 aparatos defectuosos. Un hotel realiza una compra aleatoria de 3 de ellos. Si X es el nº de unidades defectuosas que se compran:

a) Encuentre la distribución de probabilidad de X. b) Representarla gráficamente. c) Encuentre la distribución acumulada de X. d) Representarla gráficamente. e) Utilizando F(x) encuentre P(X = 1) y P(0 < X ≤ 2). f) Calcule la Varianza y la Media de X.

DISTRIBUCIONES DISCRETAS DISTRIBUCION BINOMIAL a) Las n pruebas son estadísticamente independientes b) Los resultados de cada prueba son dos mutuamente excluyentes, éxito (E) y

fracaso(F). c) La probabilidad de éxito en invariante en cada una de las pruebas.

nkconqpk

nkXPxf

knk ...,3,2,1,0,][)( =

=== −

Page 55: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 55 de 128

Si ),(~ pnBX , entonces: DISTRIBUCIÓN DE POISON Se aplica a problemas donde la variable aleatoria es el número de eventos independientes que ocurren en un intervalo de tiempo, o en una región plana(con un promedio dado), por ejemplo, entre otros: a) Número de llamadas que recibe una central telefónica en el periodo de un

minuto. b) Número de accidentes de trabajo que ocurren en una fabrica durante una

semana. c) Número de fallas en la superficie de una cerámica rectangular. d) Número de bacterias en un volumen de un m3 de agua. Si )(~ λPX , entonces: Extensión o reducción del intervalo unitario La probabilidad de que ocurran k eventos de Poisson en un intervalo de tiempo o en una región de tamaño t es: Aproximación de la distribución binomial a la de poisson. Sea X ~ B( n , p ). Si cuando n ∞, p 0 y λ = np permanece constante, entonces la distribución binomial se aproxima a la distribución de Poisson con parámetro λ. Entonces esta aproximación nos permite resolver el problema de distribución binomial aplicando la distribución de Poisson, básicamente cuando:

−=

<

=== ∑=

nxsi

nxsiqpk

n

xsi

xXPxFn

k

knk

,1

1,...,2,1,0,

0,0

][)(0

npXE == )(µ npqXVar == )(2σ

....2,1,0,!

][)( ====−

xConx

exXPxf

xλλ

λµ == )( XE λσ == )(2 XVar

etckConk

ekXP

kt

....,2,1,0,!

][.

===− λλ

Donde λ es el número promedio de ocurrencias por unidad de periodo o región (λt es el número promedio de ocurrencias de eventos en el periodo o región de tamaño t)

05,030 ≤≥ pyn

e = 2,718282

Page 56: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 56 de 128

DISTRIBUCIONES CONTINUAS La distribución normal Se dice que una variable aleatoria continua, X, que toma los valores reales, -∞ < µ < ∞, se distribuye normalmente ( o más brevemente es normal) con parámetros µ y σ y se describe por X ~ N(µ , σ2), si su función de densidad es: Su gráfica de función de densidad es: Estandarización Si la variable aleatoria X tiene una distribución normal, entonces, la variable aleatoria estándar N(µ , σ2) Z, tiene una distribución normal N( 0 ; 1 ). EJERCIOS PROPUESTOS 1. En una empresa metal mecánica, la probabilidad de que una silla pase con éxito

la prueba de control de calidad es de 5/6. Se prueban 10 sillas. Si X es la variable aleatoria que se define como el número de sillas que no pasan la prueba, determine: a) La función de probabilidades de X. b) La media y la desviación estandar de X. c) La función de distribución de probabilidad acumulada F(X) de X. d) Usando F(X), calcular P[7<X≤9].

2. Una tienda de alquiler de autos, cada vez que un cliente alquile un automóvil

debe pagar como mínimo $4. Si alquila una auto de tipo A debe pagar $15 más. Se sabe que la probabilidad de que un cliente alquile un auto tipo A es de 0,7. De 5 clientes que alquilan autos en esta tienda: a) Determine la distribución de probabilidades de los clientes que alquilan autos

tipo A. b) Determine la utilidad y la utilidad esperada que producen a la tienda los 5

clientes que alquilan automóviles.

2

2

1

2

1)(

−−

= σ

µ

πσ

x

exf

µ X 0

f(x)

σ

µ−=

Xz

Page 57: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 57 de 128

3. Si X ~ B(n,p) tal que E(X) = 3 y Var(X) = 2,4, calcular: P[X ≥ 3]. (considere p > 0) 4. Un estudiante contesta al azar un examen de 9 preguntas tipo IBM con 4

alternativas cada pregunta. Solo una de las alternativas es la correcta. Determine la distribución de probabilidades del número de preguntas contestadas correctamente. Si para aprobar el examen debe contestar al menos 6 preguntas, ¿Cuál es la probabilidad de aprobar el examen?.

5. En una producción, la probabilidad de que un objeto sea defectuoso es de 0,2.

Si en una muestra de 5 de tales objetos escogidos al azar uno por uno, ¿Cuál será la probabilidad que exista un defectuoso?. Determinar F(X). Hallar P[0≤X<3].

6. Suponga que llegan en forma aleatoria una serie de llamadas a una central

telefónica con un promedio de tres llamadas por minuto. Calcular la probabilidad de que en el periodo de un minuto: a) No ocurra llamada alguna. b) Ocurran al menos cuatro llamadas. c) Si cada llamada cuesta S/. 0,50, ¿Cuánto es el costo esperado por llamada?.

7. Una empresa textil produce un tipo de tela en rollos de 100m. El número de

defectos que se encuentran al desenrollar la tela es una variable aleatoria de Poisson que tiene en promedio 4 defectos por cada 20 metros de tela. a) ¿Qué probabilidad hay que al desenrollar la tela se encentre menos de tres

defectos en los primeros 50 metros?. b) Hallar la probabilidad de que al desenrollar la tela no se encuentre defectos

en el primer segmento de 5 metros de tela. c) Si se desenrollan 5 rollos de tela escogidos al azar, ¿Cuál es la probabilidad

de que no se encuentren defectos de tela en elprimer segmento de 5 metros de tela en al menos dos de ellos?.

8. Un líquido contiene cierta bacteria con un promedio de 3 bacterias por cm3,

calcular la probabilidad de que una muestra de 2 cm3 contenga por lo menos 1 bacteria.

9. Un estudio realizado en las tierras de cultivo de Socabaya concluye afirmando de

que la probabilidad de que cada hectárea de siembra fumigada contenga por lo menos un nido de hormiga es de 0,005. De 600 hectáreas sembradas y escogidas al azar. ¿Qué probabilidad hay de que al menos 5 de ellas contengan por lo menos un nido de hormiga?.

10. Suponga de que la probabilidad de que se haga una soldadura defectuosa en

una conexión dada es 0,001. Calcular la probabilidad de que se presenten a lo más 2 defectos en un sistema que tiene 5000 conexiones soldadas independientemente.

11. Utilizando la tabla de probabilidades normal, hallar:

a) P[z ≤ 1,2] b) P[0,81 ≤ Z ≤ 1,94] c) P[Z ≤ -1,28] d) P[-0,46 ≤ Z ≤ 2,21]

Page 58: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 58 de 128

e) P[Z ≥ -0,68] f) P[-2.04 ≤ Z ≤-1,98] g) P[Z ≤ 1,676]

12. Una población normal tiene una media de 50.0 y una desviación estancar de 4.0.

Calcule la probabilidad de un valor entre 44.0 y 55.0. a) Evalúe la probabilidad de uno mayor que 55.0. b) Obtenga la probabilidad de uno entre 52.0 y 55.0. c) Determine el valor de X abajo del cual ocurriera el 95% de los valores

13. Una maquina expendedora de refrescos se ajusta para servir 7.00 oz (onzas) de

liquido por vaso. La desviación estándar es de 0.10 oz. ¿Cuál es la probabilidad de que la maquina sirva? a) Entre 7.10 y 7.25 onzas de refresco? b) 7.25 oz o más? c) Entre 6.8 y 7.25 onzas? d) ¿Cuánto refresco se sirve en el máximo 1% de las bebidas?

14. Las cantidades de dinero en solicitudes de préstamo para casa que recibe la

cooperativa La Chamchita SAC es de $70.000(dólares) y una desviación estándar de $20.00. Una solicitud de préstamo se recibió esta mañana. ¿cuál es la probabilidad de que: a) La cantidad solicitada sea de $80.000 ó mas? b) El monto solicitado esté entre $65.000y $80.000? c) El importe solicitado sea de $65.000 ó más? d) 20% de los préstamos sean mayores que cuál cantidad?

15. Suponga que el ingreso familiar mensual en una comunidad tiene una

distribución normal con media de S/. 600,00 desviación estándar de S/. 100,00. a) Calcular la probabilidad de el ingreso de una familia escogida al azar sea

menor que S/. 400,00. b) Si el 5% de las familias con mayores ingresos deben pagar un impuesto, ¿a

partir de que ingreso familiar se debe pagar dicho impuesto?. 16. La empresa Cervesur SA utiliza el camión N-1310 en forma exclusiva, y efectuó

un estudio de costos de mantenimiento utilizando una muestra. Tal análisis reveló que la media aritmética del número de kilómetros recorridos por camión durante el año,' fue 60 000, Las distancias recorridas se distribuyeron en forma normal y la desviación estándar de la muestra fue 2 000 km. a) ¿Qué porcentaje de los camiones recorrió 65 200 km o más? b) Si la empresa posee 3 500 camiones N-1310. Con base en lo obtenido de la

muestra, ¿cuántos recorrieron 55 000 km o menos? c) ¿Cuántos recorrieron 62 000 km o menos durante el año?

17. La gerencia de la empresa Gordon Electronics está considerando adoptar un

sistema de bonos o primas para incrementar la producción. Una opción consiste en pagar un bono sobre el 5% más alto de la producción con base en la experiencia. Los registros indican que, en promedio, durante una semana se elaboran 4 000 unidades de un pequeño ensamble. La distribución déla producción semanal es, aproximadamente, normal con desviación estándar de 60

Page 59: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 59 de 128

unidades. Si la prima se paga sobre el 5% superior de la producción, ¿este bono se pagará con respecto a cuántas unidades o más?

18. Suponga que la duración X de los focos que produce una compañía se distribuye

normalmente. Si el 18,41% de estos focos duran menos de 8,2 meses y el 6,68% duran al menos 13 meses. a) Calcular la media y la varianza de la duración de los focos. b) Hallar el cuartil Q1 de la distribución.

Estudio de Caso: Inmobiliaria “La casa del árbol EIRL” La siguiente información se refiere a las casas vendidas en una ciudad el año pasado por una inmobiliaria. X1 X2 X3 X4 X5 X6 X7 X8

263,1 4 2300 0 17 5 1 2 182,4 4 2100 1 19 4 0 2 242,1 3 2300 1 12 3 0 2 213,6 2 2200 1 16 2 0 2,5 139,9 2 2100 1 28 1 0 1,5 245,4 2 2100 0 12 1 1 2 327,2 6 2500 1 15 3 1 2 271,8 2 2100 1 9 2 1 2,5 221,1 3 2300 0 18 1 0 1,5 266,6 4 2400 1 13 4 1 2 292,4 4 2100 1 14 3 1 2 209 2 1700 1 8 4 1 1,5 270,8 6 2500 1 7 4 1 2 246,1 4 2100 1 18 3 1 2 194,4 2 2300 1 11 3 0 2 281,3 3 2100 1 16 2 1 2 172,7 4 2200 0 16 3 0 2 207,5 5 2300 0 21 4 0 2,5 198,9 3 2200 0 10 4 1 2 209,3 6 1900 0 15 4 1 2 252,3 4 2600 1 8 4 1 2 192,9 4 1900 0 14 2 1 2,5 209,3 5 2100 1 20 5 0 1,5 345,3 8 2600 1 9 4 1 2 326,3 6 2100 1 11 5 1 3 173,1 2 2200 0 21 5 1 1,5 187 2 1900 1 26 4 0 2 257,2 2 2100 1 9 4 1 2 233 3 2200 1 14 3 1 1,5 180,4 2 2000 1 11 5 0 2 234 2 1700 1 19 3 1 2 207,1 2 2000 1 11 5 1 2 247,7 5 2400 1 16 2 1 2 166,2 3 2000 0 16 2 1 2

X1 X2 X3 X4 X5 X6 X7 X8 177,1 2 1900 1 10 5 1 2 182,7 4 2000 0 14 4 0 2,5 216 4 2300 1 19 2 0 2 312,1 6 2600 1 7 5 1 2,5 199,8 3 2100 1 19 3 1 2 273,2 5 2200 1 16 2 1 3 206 3 2100 0 9 3 0 1,5 232,2 3 1900 0 16 1 1 1,5 198,3 4 2100 0 19 1 1 1,5 205,1 3 2000 0 20 4 0 2 175,6 4 2300 0 24 4 1 2 307,8 3 2400 0 21 2 1 3 269,2 5 2200 1 8 5 1 3 224,8 3 2200 1 17 1 1 2,5 171,6 3 2000 0 16 4 0 2 216,8 3 2200 1 15 1 1 2 192,6 6 2200 0 14 1 0 2 236,4 5 2200 1 20 3 1 2 172,4 3 2200 1 23 3 0 2 251,4 3 1900 1 12 2 1 2 246 6 2300 1 7 3 1 3 147,4 6 1700 0 12 1 0 2 176 4 2200 1 15 1 1 2 228,4 3 2300 1 17 5 1 1,5 166,5 3 1600 0 19 3 0 2,5 189,4 4 2200 1 24 1 1 2 312,1 7 2400 1 13 3 1 3 289,8 6 2000 1 21 3 1 3 269,9 5 2200 0 11 4 1 2,5 154,3 2 2000 1 13 2 0 2 222,1 2 2100 1 9 5 1 2 209,7 5 2200 0 13 2 1 2 190,9 3 2200 0 18 3 1 2 254,3 4 2500 0 15 3 1 2

Page 60: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 60 de 128

X1 X2 X3 X4 X5 X6 X7 X8 207,5 3 2100 0 10 2 0 2 209,7 4 2200 0 19 2 1 2 294 2 2100 1 13 2 1 2,5 176,3 2 2000 0 17 3 0 2 294,3 7 2400 1 8 4 1 2 224 3 1900 0 6 1 1 2 125 2 1900 1 18 4 0 1,5 236,8 4 2600 0 17 5 1 2 164,1 4 2300 1 19 4 0 2 217,8 3 2500 1 12 3 0 2 192,2 2 2400 1 16 2 0 2,5 125,9 2 2400 1 28 1 0 1,5 220,9 2 2300 0 12 1 1 2 294,5 6 2700 1 15 3 1 2 244,6 2 2300 1 9 2 1 2,5 199 3 2500 0 18 1 0 1,5 240 4 2600 1 13 4 1 2 263,2 4 2300 1 14 3 1 2 188,1 2 1900 1 8 4 1 1,5 243,7 6 2700 1 7 4 1 2 221,5 4 2300 1 18 3 1 2 175 2 2500 1 11 3 0 2 253,2 3 2300 1 16 2 1 2 155,4 4 2400 0 16 3 0 2 186,7 5 2500 0 21 4 0 2,5 179 3 2400 0 10 4 1 2 188,3 6 2100 0 15 4 1 2 227,1 4 2900 1 8 4 1 2 173,6 4 2100 0 14 2 1 2,5 188,3 5 2300 1 20 5 0 1,5 310,8 8 2900 1 9 4 1 2 293,7 6 2400 1 11 5 1 3 179 3 2400 1 8 4 1 2 188,3 6 2100 0 14 2 1 2,5 227,1 4 2900 1 20 5 0 1,5 173,6 4 2100 1 9 4 1 2 188,3 5 2300 1 11 5 1 3

Page 61: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 61 de 128

Donde:

Variable Descripción X1 Precio de venta (Miles de dólares) X2 Número de dormitorios X3 Superficie en pies cuadrados X4 Piscina (1=Si; 2=No) X5 Distancia desde el centro de la

ciudad X6 Distrito X7 Garaje(1=Si; 0=No) X8 Número de baños

Realizar lo siguiente:

a. Hallar la media y la desviación estándar del precio de venta. b. Utilizar la distribución normal para calcular el porcentaje de casas que se

venden por más de 280000 dólares. Comparar este resultado con el porcentaje real. ¿Da la distribución normal una buena aproximación de los resultados reales?

c. Hallar la media y la desviación estándar de la distancia al centro de la ciudad.

d. Utilizar la distribución normal para calcular el numero de casas que están dentro de las distancias de mas de 18000 pero menos de 22000 del centro de la ciudad.. Comparar este resultado con el conteo real. ¿Da la distribución normal una buena aproximación de los resultados reales?

Page 62: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 62 de 128

Capitulo 7: Distribuciones muestrales Teorema del limite central

Si X1, X2, ..., Xn son variables aleatorias (discretas o continuas) independientes ,con idéntico modelo de probabilidad, de valor medio µ y varianza σ2 , entonces la distribución de la variable

se aproxima a la de una variable normal tipificada N(0,1), mejorándose la calidad de la aproximación a medida que n aumenta.

Este resultado prueba que el estadístico o estimador media muestral

Con carácter general, o al menos en los modelos de probabilidad clásicos, se admite una aproximación aceptable al modelo normal siempre que n sea mayor o igual que 30, a pesar de que esta cifra es insuficiente en determinados casos y excesiva en otros; por lo que debemos ser cautelosos en su aplicación.

Medias muestrales con reemplazamiento

a) La cantidad total de muestras que se pueden extraer esta dada por la relación: Donde: N = Tamaño de la población

n#Muestras=N

7777

Distribuciones Muestrales

Σ

Page 63: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 63 de 128

n = Tamaño de la muestra

b) La media de todas la medias muestrales es igual a la media de la población. c) La varianza de la medias mustrales es igual a la varianza poblacional dividido por el

tamaño de la muestra. d) El valor de z es:

Medias muestrales sin reemplazamiento

a) La cantidad total de muestras que se pueden extraer esta dada por la relación:

Donde: N = Tamaño de la población n = Tamaño de la muestra

b) La media de todas la medias muestrales es igual a la media de la población. c) La varianza de la medias muestrales es igual a la varianza poblacional dividido por el

tamaño de la muestra, todo por el factor de corrección de población finita. d) El valor de z es:

Como consecuencia de la distribución muestral de medias se analizara para la diferencia de medias, para la distribución muestral de proporciones y para la diferencia de proporciones cuando σ2 = conocida y n >30.

Distribución muestral de medias

XE Xµ µ = =

22

XVar X

n

σσ = =

XE Xµ µ = =

N

n

N!#Muestras= =

n!(N-n)!C

22

1X

N nVar X

n N

σσ

− = = −

0 1X

Z N( ; )

n

µ

σ

−= ∼

0 1

1

XZ N( ; )

N n

Nn

µ

σ

−=

0 1X

Z N( ; )

n

µ

σ

−= ∼ 0 1

1

XZ N( ; )

N n

Nn

µ

σ

−=

Page 64: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 64 de 128

Distribución muestral de la diferencia de medias Distribución muestral de proporciones Se debe usar el factor de corrección de variable discreta, que es (½ n), para que las aproximaciones de la probabilidad sean mas precisas. Distribución muestral de la diferencia de proporciones. Tamaño de Muestra Intervalos de confianza Estimación para la media con varianza poblacional conocida Estimación para la media con varianza poblacional desconocida

a) Muestras de tamaño inferior o igual a 30 (n ≤ 30)

b) Muestras de tamaño superior a 30 (n > 30) Intervalo de confianza para la varianza de una población normal

2 20 1A B A B

A B

( x x ) ( )Z N( ; )

n n

µ µ

σ σ

− − −=

+

0 1p p

Z N( ; )pq

n

−= ∼ 0 1

1

p pZ N( ; )

pq N n

n N

−=

−×

0 1A B A B

A A B B

A B

ˆ ˆ( p p ) ( p p )Z N( ; )

p q p q

n n

− − −=

×

2z s

nE

⋅ =

2

1z

n p( p )E

= −

nzx 2/

σ±=µ α

1N

nN

nzx 2/

−σ±=µ α

Cuando n ≥ 5% de N

2 1/ ;( n )

Sx t

nαµ −= ±

n

Szx 2/α±=µ

2

2/1

2

2

2/

2S)1n(

,S)1n(

Iα−α χ

χ

−=

Page 65: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 65 de 128

Intervalo de confianza para la razón de dos varianzas poblacionales normales Intervalo de confianza para la diferencia entre dos medias

a) Cuando las varianzas son conocidas b) Cuando las varianzas son desconocidas Caso I: (n1 + n2 ≤ 30) y varianzas poblacionales desconocidas pero iguales. Caso II: (n1 + n2 ≤ 30) y varianzas poblacionales desconocidas y distintas.

Caso III: (n1 + n2 > 30) y varianzas poblacionales desconocidas. Intervalo de confianza para una proporción Intervalo de confianza para la diferencia entre dos proporciones poblacionales.

2

2

2

1

2

12/21

nnZ)XX(I

σ+

σ±−= α

+±−= α

21

2

p2/21n

1

n

1ST)XX(I

2nn

S)1n(S)1n(S

21

2

22

2

112

p−+

−+−=

2

2

2

1

2

12/21

nn)g(T)XX(I

σ+

σ±−= α 2

1n

n

S

1n

n

S

n

S

n

S

g

2

2

2

2

2

1

2

1

2

1

2

2

2

2

1

2

1

+

++

+

=

2

2

2

1

2

12/21

n

S

n

SZ)XX(I +±−= α

n

qpzpp 2/α±=

1N

nN

n

qpzpp 2/

−±= α

2

22

1

112/21

n

qp

n

qpz)pp(I +±−= α

)1n,1n(FS

S,

)1n,1n(F

1

S

SI 212/2

1

2

2

122/

2

1

2

2 −−×−−

×= α

α

Page 66: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 66 de 128

Ejercicios Propuestos 1. Consideremos una población constituida por 5 proyectos desembolsados por un

banco cuyos montos son 500; 600; 700; 700 y 800 (miles de nuevos soles) respectivamente. Seleccionando con y sin reemplazamiento todas las muestras posibles de tamaño 2, determine la media y la varianza de la distribución muestral de la estadística X .

2. Sea P = 300; 305; 308; 310; 310; 312; 312; 315; 318; 320

a. Si se extrae una m.a. de tamaño 4 sin reemplazamiento. Hallar la media y la varianza de la estadística X .

b. Si se selecciona una m.a. de tamaño 4 con reemplazamiento. Calcular P(310 ≤ X ≤ 313).

3. Las alturas de 5000 estudiantes son normalmente distribuidas con media 172

cm. y desviación estándar de 7,5 cm. Si fueron obtenidas 100 muestras con 36 estudiantes cada una, en cuantas muestras se puede esperar que la media muestral se encuentre (Con y sin reemplazamiento y compare los resultados)

a) Entre 169 y 174. b) Superior a 170.

4. Los pesos de 1500 cojinetes de bolas se distribuyen normalmente con media de

22,40 onzas y desviación estándar de 0.048 onzas. Si se extraen 300 muestras de tamaño 36 de esta población, determinar la media esperada y la desviación estándar de la distribución muestral de medias si el muestreo se hace:

a) Con remplazamiento b) Sin remplazamiento

5. Unos focos para cañón multimedia tienen una vida media de 800 horas y una

desviación estándar de 60. Calcule la probabilidad de que la vida media de una muestra aleatoria de 49 focos, tomada del grupo sea de:

a) Entre 790 y 810 h. b) Menor que 785 h. c) Mayor que 820 h.

6. Una empresa eléctrica fabrica focos que tienen una duración que se distribuye

aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida promedio de menos de 775 horas.

Distribución Muestral de Proporciones 7. Un encuestador político efectúa un análisis de los resultados de la muestra para

hacer un pronóstico para la elección. Supóngase que se trata de una elección con dos candidatos. Si un candidato específico recibe cuando menos 52% de los votos en la muestra, entonces se pronosticara que ese candidato será el ganador de la elección. Si se selecciona una muestra aleatoria de 600 votantes. Cual será la probabilidad de que se pronostique como ganador a ese candidato cuando,

Page 67: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 67 de 128

a) El % real de sus votos es de 50.3% b) El % real de sus votos es de 55%

8. Un proveedor de fuentes de 500W para case, determina a través de pruebas que el 4%

de fuentes son defectuosas. El proveedor vende lotes de 150 fuentes c/u con la garantía de que el lote contiene 92% de fuentes no defectuosas. ¿Cuál es la probabilidad de que un lote no satisfaga la garantía?

9. Se sabe que la verdadera proporción de los componentes defectuosos fabricadas por

una firma es de 4%, y encuentre la probabilidad de que una muestra aleatoria de tamaño 60 tenga:

a) Menos del 3% de los componentes defectuosos. b) Más del 1% pero menos del 5% de partes defectuosas.

Distribución Muestral de Diferencia de Medias 10. Una muestra aleatoria de 50 casas en alquiler del distrito de JLByR, produjo una renta

mensual promedio de $ 360. Se calculó una renta mensual promedio de $ 370 en base a una m.a. de 45 casas del distrito de Yananhuara. Supongamos que no hay ninguna diferencia entre los dos distritos respecto a las rentas mensuales promedio de las casas. ¿Cuál es la probabilidad de observar una diferencia entre medias muestrales tan grande o mas grande que la que se acaba de anotar si se supone que σ = 25 para ambos distritos?

11. Las quemadoras de DVD del fabricante A tienen una vida media de 1400 horas de

quemado con una σ = 200h mientras que la vida promedio de las quemadoras del fabricante B es de 1200h con una σ = 100h. Si se prueban m.a. de 125 quemadoras de cada marca. Cual es la probabilidad de que las quemadoras de la marca A tengan una vida media de por lo menos:

a) 160 horas mas que las quemadoras de la marca B b) 240 horas mas que las quemadoras de la marca B

12. Se estima que una población tiene una desviación estándar de 10. Ha de evaluarse la

media de la población dentro de 2, con un nivel de confianza de 95%. ¿Qué tamaño se requiere para la muestra?

13. Se quiere estimar la media poblacional dentro de 5, con un nivel de confianza de 99%. La desviación estándar de la población se determina que es 15. ¿Qué tamaño debe tener la muestra?

14. El valor de la proporción de población ha de estar entre ±0.05, con un nivel de confianza

de 95%. El mejor cálculo de la proporción de la población es 0.15. ¿Qué tamaño se requiere para la muestra?

15. Extraída una muestra de 30 piezas, dio los siguientes pesos:

250 265 267 269 271 275 277 281 283 284.

287 289 291 293 293 298 301 303 306 307.

307 309 311 315 319 322 324 328 335 339.

Page 68: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 68 de 128

Por medio de la construcción de intervalo de confianza, responder si ésta muestra satisface la especificación por la cual el peso medio debe ser 300kgr,

Use α=5%. Calcular l intervalo de confianza para la varianza.

Page 69: Material Del Curso

Estadística Aplicada

DDDDoooocccceeeennnntttteeee:::: Ing. Ferly Urday Luna Página 69 de 128

Capitulo 8: Pruebas de hipótesis Hipótesis estadística

Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. Hipótesis nula: La hipótesis nula, representada por H0, es la afirmación sobre una o más características de la población que al inicio se supone cierta (es decir, la “creencia a priori”). Es la hipótesis aceptada provisionalmente como verdadera y cuya validez será sometida a comprobación experimental. La hipótesis nula siempre debe contener el signo igual. Hipótesis alternativa: La hipótesis alternativa, representada por H1 ó HA, es la afirmación contradictoria a H0, y ésta es la hipótesis del investigador. La hipótesis alternativa se acepta en caso que la hipótesis nula sea rechazada. Las hipótesis se enuncian según:

1) H0: θ = θ0 H1: θ ≠ θ0 2) H0: θ ≤ θ0 H1: θ > θ0 3) H0: θ ≥ θ0 H1: θ < θ0

Tipos de pruebas de hipótesis o de ensayo y región de aceptación

Los diferentes tipos que se analizaran, serán: • Bilateral o prueba de dos colas: El investigador desea comprobar la hipótesis de

un cambio en el parámetro. El nivel de significancia se divide en dos y existen dos regiones de rechazo. Ensayo de hipótesis: H0: θ = θ0 H1: θ ≠ θ0

θ = θ0

8888

Pruebas de Hipótesis

Σ

Page 70: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 70 de 128

• Unilateral de cola a la derecha: El investigador desea comprobar la hipótesis de un aumento en el parámetro, en este caso el nivel de significancia se carga todo hacia el lado derecho, para definir las regiones de aceptación y de rechazo.

H0: θ = θ0 H1: θ > θ0

• Unilateral de cola a la izquierda: El investigador desea comprobar la hipótesis de una disminución en el parámetro, en este caso el nivel de significancia se carga todo hacia el lado izquierdo, para definir las regiones de aceptación y de rechazo.

H0: θ = θ0 H1: θ < θ0

Errores Tipo I y Tipo II

Decisión H0 Verdadera H0 Falsa

Rechazar H0 Error Tipo I

Probabilidad (a) Decisión Correcta Probabilidad (1-β)

Aceptar H0 Decisión Correcta Probabilidad (1-α)

Error Tipo II Probabilidad (β)

Nivel de significancia Se denomina nivel de significancia de una prueba de hipótesis a la probabilidad de cometer un error tipo I (α). También se le conoce como nivel de riesgo.

Potencia de una prueba La potencia de una prueba es la probabilidad de tomar la decisión acertada de rechazar H0, cuando esta es falsa o de aceptar H1 cuando esta es verdadera. Esta representada por: 1-β.

H0: θ = θ0

H0: θ = θ0

Page 71: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 71 de 128

Procedimiento para la elaboración de una prueba de hipótesis.

a) Formular la hipótesis nula H0: θ = θ0 y la hipótesis alternativa adecuada. H1: θ ≠ θ0 H1: θ > θ0 H1: θ < θ0

b) Especificar el tamaño a del nivel de significación. c) Seleccionar la estadística apropiada a usar en la prueba. d) Establecer la regla de decisión, determinando la región crítica de la prueba. e) Calcular el valor del estadístico de la prueba a partir de los datos de la muestra. f) Tomar la decisión de rechazar la hipótesis H0 si el valor de la estadística de la

prueba está en la región crítica o de rechazo. En caso contrario, no rechazar H0.

Muestras pequeñas Distribución Chi cuadrado

v = n -1 Grados de libertad. Distribución t de student

Esta dada en honor a W.S. Gosset, y se utiliza cuando no se conoce la varianza poblacional.

Distribución F de Fisher Snedecor

La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadradas independientes, cada una dividida entre sus respectivos grados de libertad. Esto es,

Para la prueba de hipótesis, se da por cierta la H0, de manera inicial, entonces al ser las varianzas poblacionales iguales, su división da 1, por lo tanto la formula queda así:

Resolver los siguientes problemas sobre Pruebas de Hipótesis

Una media

1. Un abastecedor de pollos a una cadena de pollerías, afirma que sus pollos tienen un peso promedio de 1,655 kg (peso ideal para el negocio). El dueño de una de estas

2

12

22 ~

)1(−

−= n

Snχ

σχ

)1(~ −

−= nt

nS

XT

µ

)1,1(~ 21

2

2

2

2

2

1

2

1

−−= nnFS

S

F

σ

σ)1,1(~ 21

2

1

2

2

2

1

2

1

2

2

2

2

2

1 −−

== nnF

S

S

S

SF

σ

σ

σ

σ

1 2

2

1

2

2

( r ;r )

SF ~ F

S=

Page 72: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 72 de 128

pollerías toma una muestra aleatoria de 50 pollos con la finalidad de comprobar la afirmación del proveedor. La muestra arrojo una media de 1,698 kg con una desviación típica de 0,185 kg. A un nivel de significación de 0,01. ¿Podemos aceptar la afirmación del proveedor?

2. Una muestra aleatoria de 100 muertes registradas en un país americano el año pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de significancia de 0.05.

3. Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de forma aproximadamente normal con una media de 800 horas y una desviación estándar de 40 horas. Si una muestra aleatoria de 30 focos tiene una duración promedio de 788 horas, ¿muestran los datos suficiente evidencia para decir que la duración media ha cambiado? Utilice un nivel de significancia del 0.04.

4. Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en promedio 5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis de que µ = 5.5 onzas contra al hipótesis alternativa, µ < 5.5 onzas en el nivel de significancia de 0.05.

5. La asociación de los propietarios de industrias metalúrgicas están muy preocupadas por el tiempo perdido en accidentes de trabajo, cuya media, en los últimos tiempos, a sido del orden de 60 horas/hombre por año y desviación estándar de 20 horas/hombre . Se probo un programa de prevención de accidentes y, después del mismo, se tomó una m.a. de 9 industrias y se determino el numero de horas /hombres perdida por accidentes , que fue de 50 horas ¿usted diría , al nivel de 5%, que hay evidencia de mejoría ?

6. El salario promedio de los empleados de las industrias siderúrgicas es de 2.5 salarios mínimos, con una desviación estándar de 0.5 salarios mínimos. Si una firma particular tiene 49 empleados con un salario medio de 2.3 salarios mínimos, ¿podemos afirmar que esta industria paga salarios inferiores?

Diferencia de medias

7. Una muestra de 65 observaciones se selecciono de una población. La media de la

muestra es 2.67 y la desviación estándar 0.75. Una muestra de 50 observaciones se toma de una segunda población. La media de la muestra es 2.59 y la desviación estándar 0.66. Efectué la siguiente prueba de hipótesis utilizando el nivel de significancia de 0.08.

H0: µ1 ≤ µ2 H1: µ1 > µ2

a) ¿Es esta una prueba de una o de dos colas? b) Enuncie la regla de decisión c) Calcule el valor estadístico de prueba d) ¿Cuál es su decisión respecto H0? e) ¿Cuál es el valor p?

8. Una muestra de 100 focos de un fabricante A dio una duración media de 1190 horas con una desviación típica de 90 horas. Otra muestra de 75 focos de un fabricante B dio una duración media de 1230 horas con una desviación típica de 120 horas. ¿Hay

Page 73: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 73 de 128

diferencias entre las duraciones medias de los focos de los dos fabricantes a un nivel de 0,05?

9. Un diseñador de productos está interesado en reducir el tiempo de secado de una pintura tapaporos. Se prueban dos fórmulas de pintura; la fórmula 1 tiene el contenido químico estándar, y la fórmula 2 tiene un nuevo ingrediente secante que debe reducir el tiempo de secado. De la experiencia se sabe que la desviación estándar del tiempo de secado es ocho minutos, y esta variabilidad inherente no debe verse afectada por la adición del nuevo ingrediente. Se pintan diez especímenes con la fórmula 1, y otros diez con la fórmula 2. Los dos tiempos promedio de secado muestrales son 121 min y 112 min respectivamente. ¿A qué conclusiones puede llegar el diseñador del producto sobre la eficacia del nuevo ingrediente, utilizando α = 0.05?

10. Se utilizan dos máquinas para llenar botellas de plástico con un volumen neto de 16.0 onzas. Las distribuciones de los volúmenes de llenado pueden suponerse normales, con desviaciones estándar σ1= 0.020 y σ2 = 0.025 onzas. Un miembro del grupo de ingeniería de calidad sospecha que el volumen neto de llenado de ambas máquinas es el mismo, sin importar si éste es o no de 16 onzas. De cada máquina se toma una muestra aleatoria de 10 botellas. ¿Se encuentra el ingeniero en lo correcto? Utilice α = 0.05

MAQUINA 1 MAQUINA 2 16.03 16.01 16.02 16.03 16.04 15.96 15.97 16.04 16.05 15.98 15.96 16.02 16.05 16.02 16.01 16.01 16.02 15.99 15.99 16.00

11. Existen dos tipos de plástico apropiados para su uso por un fabricante de componentes electrónicos. La tensión de ruptura de ese plástico es un parámetro importante . Se sabe que σ1=σ2= 1.0 psi. De una muestra aleatoria de tamaño 10 y 12 para cada plástico respectivamente, se tiene una media de 162.5 para el plástico 1 y de 155 para el plástico 2. La compañía no adoptará el plástico 1 a menos que la tensión de ruptura de éste exceda a la del plástico 2 al menos por 10 psi. Con base a la información contenida en la muestra, ¿la compañía deberá utilizar el plástico 1? Utilice α = 0.05 para llegar a una decisión.

Una proporción

12. Un fabricante afirma que al menos el 95% de los equipos que produce está de acuerdo con las especificaciones solicitadas. El análisis de una muestra de 200 equipos revela que 18 eran defectuosos. Contrastar la afirmación del fabricante a un nivel de significación de 5%.

13. Un artículo reciente en la publicación USA Today reportó que sólo hay un empleo disponible para uno de cada tres egresados de universidad. Las principales razones aportadas fueron que existe una sobrepoblación de estos últimos, y una economía débil. Suponga que una encuesta entre 200 egresados recientes de la institución a la que usted asiste, reveló que 80 tenían empleo. Al nivel de significancia de 0.02, ¿se

Page 74: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 74 de 128

puede concluir que tienen trabajo una proporción mayor de egresados de tal institución?

14. Un fabricante garantiza que 90% de los equipos que da a una fabrica están de acuerdo con las especificaciones exigidas. Examinando una muestra de 200 unidades de ese equipo se encontró 25 defectuosos. ¿Esta evidencia apoya o no la afirmación del fabricante?

15. Una investigación en la Universidad de Toledo indica que 50% de los estudiantes cambian su área principal de especialización después del primer año en el programa de estudios. Una muestra aleatoria de 100 alumnos en la Escuela de Administración reveló que 43 de ellos cambió dicha área después del lapso mencionado. ¿Ha habido un decrecimiento significativo en la proporción de estudiantes que cambian su área de especialización después del primer año en el programa? Realice la prueba al nivel de significancia de 0.05.

16. Un constructor afirma que se instalan bombas de calor en 70% de todas las casas que se construyen hoy en día en la ciudad de Richmond. ¿Estaría de acuerdo con esta afirmación si una investigación de casas nuevas en esta ciudad muestra que 8 de 15 tienen instaladas bombas de calor? Utilice un nivel de significancia de 0.10.

17. Un fabricante de semiconductores produce controladores que se emplean en aplicaciones de motores automovilísticos. El cliente requiere que la fracción de controladores defectuosos en uno de los pasos de manufactura críticos no sea mayor que 0.05, y que el fabricante demuestre esta característica del proceso de fabricación con este nivel de calidad, utilizando α = 0.05. El fabricante de semiconductores toma una muestra aleatoria de 200 dispositivos y encuentra que cuatro de ellos son defectuosos. ¿El fabricante puede demostrar al cliente la calidad del proceso?

18. Una estación de televisión afirma que 60% de los televisores estaban sintonizado su programa especial del ultimo domingo. Una red competidores desea contestar esa afirmación del ultimo domingo. Una red m.a. de 200 familias.¿Cual debe ser el procedimiento adoptado para juzgar la veracidad de las afirmación de la estación?

Diferencia de proporciones

19. Dos grupos A y B, de 100 personas cada uno, padecen la misma enfermedad. Se suministra un medicamento al grupo A pero no al B, por lo demás todas las condiciones han sido las mismas. Después de un tiempo se observa que 75 personas del grupo A y 65 personas del grupo B se recuperan de la enfermedad. Contrastar la hipótesis, al nivel de significación del 5%, de que el medicamento cura dicha enfermedad.

20. Se evalúan dos tipos diferentes de soluciones para pulir, para su posible uso en una operación de pulido en la fabricación de lentes intraoculares utilizados en el ojo humano después de una cirugía de cataratas. Se pulen 300 lentes con la primera solución y, de éstos, 253 no presentaron defectos inducidos por el pulido. Después se pulen otros 300 lentes con la segunda solución, de los cuales 196 resultan satisfactorios. ¿Existe alguna razón para creer que las dos soluciones para pulir son diferentes? Utilice α = 0.01

Page 75: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 75 de 128

21. Se tomará el voto entre los residentes de una ciudad y el condado circundante para determinar si se debe construir una planta química propuesta. El lugar de construcción está dentro de los límites de la ciudad y por esta razón muchos votantes del condado consideran que la propuesta pasará debido a la gran proporción de votantes que favorecen la construcción. Para determinar si hay una diferencia significativa en la proporción de votantes de la ciudad y votantes del condado que favorecen la propuesta, se realiza una encuesta. Si 120 de 200 votantes de la ciudad favorecen la propuesta y 240 de 500 residentes del condado también lo hacen, ¿estaría de acuerdo en que la proporción de votantes de la ciudad que favorecen la propuesta es más alto que la proporción de votantes del condado? Utilice un nivel de significancia de 0.025.

22. Los administradores de los hospitales en muchos casos encargan de obtener y calcular algunas estadísticas que son de suma importancia para los médicos y para los encargados de decidir en el hospital. En los registros del hospital Honorio Delgado se tiene que 80 hombres de una muestra de 900 hombres y 51 mujeres de una muestra de 800 mujeres ingresaron al hospital por causa de alguna enfermedad Venérea. ¿Puede o no considerarse que estos datos presentan evidencia suficiente en el sentido de que existe una mayor tasa de afecciones venéreas en los hombres que ingresan al hospital Honorio Delgado?.

23. La organización Roper realizó encuestas idénticas en 1977 y 1997, Una pregunta formulada a mujeres fue: "¿La mayoría de los hombres son básicamente amables, corteses y considerados?" El estudio de 1977 reveló que de 3 000 mujeres, interrogadas, 2010 contestaron afirmativamente. En 1997 el resultado fue que 1 530 de las 3000 mujeres en la encuesta consideraron que los varones eran amables, corteses y considerados. Al nivel de significancia de 0.05, ¿puede concluirse que las féminas creen que los hombres son menos amables, corteses y considerados en 1997, comparados con los de 1977?

Los siguientes problemas corresponden a muestras pequeñas Problemas introductorios 24. Si ,~ 2

)23(χX encontrar:

a) P(X≥35.172) b) P(X≤19.021) c) P(13.091≤X≤38.968) d) P(X30)

25. Si ,~ 2

)13(χX hallar Xo tal que P(X≥Xo) = 0.80

26. Si ,~ 2

)8(χX hallar Xo tal que P(X≥Xo) = 0.15

27. Si ,~ 2

)10(χX hallar a y b tal que P(a<X<b) = 0.94 y P(X>b) = 0.04

28. Encuentre la probabilidad de que en una m.a. de 25 observaciones tomada de una

población normal con varianza σ2=9 tenga una varianza muestral de S2 entre 4.071 y 15.10125

Page 76: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 76 de 128

29. Encuentre la probabilidad de que en una m.a. de 19 observaciones tomada de una población normal con varianza σ2=16 tenga una varianza muestral de S2 entre 11 y 19.

30. Suponga que los tiempos requeridos por un cierto autobús para alcanzar uno de sus

destinos en una ciudad grande forman una distribución normal con σ=1 minuto. Si se elige al azar una m.a. de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor que 2.

31. Si X~t(18). Hallar

a) P(X≥2.101) b) P(X≤-2.878) c) P(0.688≤X≤2.214) d) P(-0.534≤X≤3.610) e) P(X≥2)

32. Si X~t(10). Hallar la abscisa c, tal que:

a) P(X≥c)=0.15 b) P(X≤c)=0.98 c) P(|X|≤c)=0.95 d) P(X≥c)=0.92

33. Si la v.a. X~F(9;20), hallar:

a) P(X≥1.96) b) P(X≤2.39) c) P(2.84≤X≤3.96) d) P(X≥2)

34. Si X~F(5;4), hallar b tal que p(X≥b)=0.08 35. Si X~F(22,12), hallar b tal que p(X≥b)=0.05 Problemas de pruebas de hipótesis Distribución t de Student

36. El Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que gastan varios aparatos eléctrodomésticos. Se afirma que una aspiradora gasta un promedio de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado indica que las aspiradoras gastan un promedio de 42 kilowatt-hora al año con una desviación estándar de11.9 kilowatt-hora, ¿esto sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan, en promedio, menos de 46 kilowatt-hora anualmente? Suponga que la población de kilowatt-hora es normal.

37. Los pesos en libras de una muestra aleatoria de bebés de seis meses son: 14.6, 12.5, 15.3, 16.1, 14.4, 12.9, 13.7 y 14.9. Haga una prueba con nivel de 5% de significancia para determinar si el peso promedio de todos los bebés de seis meses es distinto a 14 libras, suponga que sus pesos se distribuyen normalmente

38. Pruebe la hipótesis de que el contenido promedio de los envases de un lubricante en particular es de 10 litros si los contenidos de una muestra aleatoria de 10 envases son: 10.2, 9.7, 10.1, 10.3, 10.1, 9.8, 9.9, 10.4, 10.3 y 9.8 litros. Utilice un nivel de significancia de 0.01 y suponga que la distribución del contenido es normal.

Page 77: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 77 de 128

39. De acuerdo con un estudio dietético una ingesta alta de sodio se puede relacionar con úlceras, cáncer de estómago y migraña. El requerimiento humano de sal es de sólo 220 miligramos por día, el cual se rebasa en la mayoría de las porciones individuales de cereales listos para comerse. Si una muestra aleatoria de 20 porciones similares de Special K tiene un contenido medio de 244 miligramos de sodio y una desviación estándar de 24.5 miligramos ¿esto sugiere, en el nivel de significancia del 0.05, que el contenido promedio de sodio para porciones individuales de Special K es mayor que 220 miligramos? Suponga que la distribución de contenidos de sodio es normal.

Distribución ji – cuadrada.

40. Una compañía que produce una parte maquinada para un motor, afirma que tiene una varianza de diámetro no mayor a 0.0002 pulgadas. Una muestra aleatoria de 10 de dichas partes dio una varianza de muestra S2 = 0.0003. Si se supone que las medidas del diámetro se distribuyen en forma normal, ¿hay evidencia para refutar lo que afirma el proveedor? Use α= 0.05.

41. El contenido de azúcar del almíbar de los duraznos enlatados tiene una distribución normal, donde se cree que la varianza es σ2 = 18 mg2. Se toma una muestra de 10 latas dieron una desviación estándar de 4.8 mg. ¿Muestran estos datos suficiente evidencia para decir que la varianza ha cambiado?. Use un α = 0.05

42. Un fabricante de cierto tipo de acero especial afirma que su producto tiene un severo servicio de calidad, que es traducido en la desviación estándar de la resistencia a la tensión , el cual no es mayor que 5 kgs por cm2. Un comprador, deseando verificar la veracidad de la afirmación, tomo una muestra de 11 varillas y los sometió a una

prueba de tensión. Los resultados fueron los siguientes: 48263 2 == SyX . Estos resultados traen alguna evidencia contra la afirmación del fabricante.

43. Una máquina automática empacadora de azúcar se usa para llenar bolsas de 5

libras. Una muestra aleatoria de 15 bolsas indicó una media de 4.94 libras y una desviación estándar de 0.02; si se supone que la distribución de los pesos es normal, y de la experiencia pasada se sabe que la desviación estándar de los pesos es de 0.015 libras, ¿muestran los datos suficiente evidencia para decir que hubo un aumento en la variabilidad?. Haga la prueba con un nivel de significancia del 0.05 y calcule el valor de P.

44. La Metro Bus Company en una ciudad grande afirma tener una varianza en los

tiempos de llegada de sus carros, medidos en minutos, a las distintas paradas, de no más de 5; un ejecutivo de la compañía ordenó tomar los tiempos de llegada en varias paradas para determinar si los conductores están cumpliendo con sus horarios. Si una muestra de 12 llegadas a una parada particular produjo una varianza de 5.7 y se supone que los tiempos de llegada se distribuyen normalmente, ¿muestran estos datos suficiente evidencia para contradecir a la compañía? Use un nivel de significancia de 0.10 y calcule el valor de P.

45. Un aserradero, produce mangos para lampas, asegurando que su longitud siguen

una distribución normal con una desviación estándar de 1 cm. Una muestra de 12 de estos mangos ha dado las siguientes medidas:

61.50 62.40 63.78 62.16 62.07 61.11 62.10 60.96 62.88 63.76 59.83 64.05

Page 78: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 78 de 128

¿Es correcta la afirmación del aserradero?

46. Los diámetros en cm. de las piezas que produce un torno, tienen una distribución normal con desviación estándar de 0.25. En un reciente control a una muestra aleatoria de 20 piezas dio una desviación estándar de 0.32. ¿Es el aparente incremento de variabilidad significativo?

47. Los salarios de los trabajadores nombrados de la empresa El alamo SAC, tienen una distribución normal y el gerente de personal afirma que tienen una desviación estándar de 150 nuevos soles. El directorio de dicha empresa ha ordenado una auditoria para corroborar dicha afirmación, para lo cual se ha tomado una muestra de sueldos, arrojando los siguientes resultados:

1250 1380 1650 1050 1450 1500 1230 1470 1100 1270 1480 1075 990 1350 1275 1400 1360 1430

A un nivel de significación del 5%, se puede afirmar que la variación de los sueldos es mayor de la que se piensa?

Distribución “F” Fisher

48. En su incansable búsqueda de un sistema de llenado adecuado, cierta empresa prueba dos máquinas. Robo-fill se usa para llenar 16 tarros y da una desviación estándar de 1.9 onzas en el llenado. Con Automat-fill se llenan 21 frascos que dan una desviación estándar de 2.1 onzas. Si la empresa tiene que elegir uno de estos sistemas en función de la uniformidad de llenado. ¿Cuál deberá seleccionar? Use un α = 0.10.

49. Una industria lechera desea adquirir una maquina embotelladora y tomo a consideración dos modelos distintos, el modelo A y el modelo B. Suponga que las maquinas resultan bastantes parecidas de aproximadamente con el mismo costo con el que el valor decisivo será la variabilidad de la cantidad embotellada. (Se preferiría aquel modelo con menor variabilidad en la cantidad embotellada). Para demostrar que la variabilidad de la maquina A es menor que la del modelo B un vendedor de la compañía Consigue una muestra de 30 registros de embotellado del modelo A y una muestra de 10 registros de la maquina B. Las varianzas muéstrales fueron

2 20 027 0 065A B

S . y S .= = .¿proporcionan estos datos apoyo estadístico para la

suposición del vendedor?

50. Una empresa empacadora de azúcar está considerando una máquina nueva para reemplazar su máquina actual. Los pesos de una muestra de 21 paquetes de 5 libras empacados por la máquina vieja producen una varianza de 0.16, mientras que los pesos de 20 paquetes de 5 libras empacados por la máquina nueva dan una varianza de 0.09. En base a estos datos, ¿aconsejaría usted al gerente a comprar la máquina nueva? Use un a = 0.05.

51. Un corredor de valores de la bolsa de lima estudia los porcentajes de rendimiento de las empresas del sector minero y del sector financiero. Se sabe que las tasas de los rendimientos tienen una distribución normal. Dos muestras aleatorias de las tasas de

Page 79: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 79 de 128

8 empresas del sector minero (M) y de 6 empresas del sector financiero (F) han dado los siguientes valores de rendimiento en porcentajes:

Sector M 17 23 25 18 24 20 21 16

Sector F 13 16 14 12 15 14

Con un nivel de significación del 5%. ¿Se puede concluir que hay más variación en los valores del sector minero?

52. Los salarios en dólares del personal de las compañías A y B se distribuyen según el modelo de probabilidad con igual media. Para determinar cual de ellas tiene salarios más homogéneos, se escogió una muestra aleatoria de 10 salarios de A y 9 de B, resultando las varianzas 100 y 225 respectivamente. En el nivel de 0.01, hay razón suficiente para decidir que en la compañía A los salarios son mas homogéneos?

53. El jefe de logística de la empresa El Cardumen SRL tiene que escoger entre dos marcas A y B de máquinas para su planta de producción. El sabe que cada marca tiene un tiempo de producción por pieza cuya distribución es normal. Se le permitió probar ambas máquinas durante un periodo de prueba para luego escoger 10 tiempos al azar para cada una de ellas, resultando los siguientes tiempos en segundos.

Máquina A 40 49 47 42 48 38 44 49 50 37

Máquina B 40 41 39 40 38 42 43 37 38 41

a) En el nivel de significación del 0.05 y en una prueba bilateral, se podría concluir que las varianzas poblacionales son iguales? ¿Qué marca de máquina debería adquirir?

b) Determine la probabilidad P de significación unilateral.

Page 80: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 80 de 128

Practica dirigida de prueba de hipótesis para la diferencia de dos medias

Ejemplo Aplicativo Nro 1

Un corredor de valores de la bolsa de lima estudia los porcentajes de rendimiento de las empresas del sector minero y del sector financiero. Se sabe que las tasas de los rendimientos tienen una distribución normal. Dos muestras aleatorias de las tasas de 8 empresas del sector minero (M) y de 6 empresas del sector financiero (F) han dado los siguientes valores de rendimiento en porcentajes:

Sector M 17 23 25 18 24 20 21 16

Sector F 13 16 14 12 15 14

¿Qué sector empresarial presenta mayor rendimiento? Solución Para resolver este problema se debe cumplir las siguientes condiciones:

a) Los datos provengan de poblaciones normales. b) Los datos sean independientes. c) Probar la igualdad de varianzas. d) Probar la igualdad de medias.

En este ejemplo vamos a suponer que se cumplen las dos primeras condiciones, y vamos a docimar las dos últimas. Primer paso Prueba de hipótesis para la igualdad de varianzas. Cuando se trata de una prueba de hipótesis para la igualdad de varianzas, se utiliza la distribución F de Fisher-Snedecor.

1) H0: 2 2

M Fσ σ=

H1: 2 2

M Fσ σ≠

2) Nivel de significancia: α = 5% 3) Estadística

4) Regla de decisión 6.85, se obtiene leyendo la tabla Fisher del 2.5% con 7 grados de libertad en el numerador y 5 grados de libertad en el denominador. 0.19; se obtiene hallando la inversa del valor de la tabla Fisher de 2.5% con 5 grados de libertad en el numerador y 7 grados de libertad en el denominador.

1 2

2

1

2

2

( r ;r )

SF ~ F

S=

F

2.5%

2.5%

6.85 0.19

Page 81: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 81 de 128

5) Cálculos Datos del Problema

2

M

2

F

σ = 11.1428

σ = 2

Cal

Cal

11.1428F =

2

F = 5.57

6) Decisión

Dado que el FCal = 5.57 ∈ RA, aceptamos H0 y rechazamos H1, por lo tanto podemos concluir que las varianzas poblacionales del sector minero y financiero son iguales.

Cálculos con Statgraphics

a) Una vez introducidos los valores de las variables, se procede a ejecutar menú comparación – Dos muestras – Comparación de dos muestras, luego se seleccionan las respectivas muestras en el cuadro de dialogo y se acepta, ver los pasos para este procedimiento:

10 19

5 29.

.=

Se introducen los valores de las

variables

Se configura el cuadro de la

siguiente manera y se presiona aceptar

Page 82: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 82 de 128

b) Luego se presiona el botón , y se activa la siguiente opción:

c) Finalmente se analiza el resultado:

Comparación de Desviaciones Típicas

-----------------------------------

Sector M Sector F

------------------------------------------------------------

Desviación Típica 3.33809 1.41421

Varianza 11.1429 2.0

GL 7 5

Cociente de varianzas = 5.57143

95.0% Intervalos de Confianza

Desviación Típica deSector M: [2.20706;6.79393]

Desviación Típica deSector F: [0.882763;3.46852]

Cociente de varianzas: [0.812978;29.4463]

Contrastes F para comparar varianzas

Hipótesis nula: sigma1 = sigma2

(1) Hipótesis alt.: sigma1 <> sigma2

F = 5.57143 P-Valor = 0.0766501

El StatAdvisor

--------------

Esta opción ejecuta un F-test para comparar las varianzas de las

dos muestras. También establece los intervalos de confianza o los

límites para cada desviación típica y para el ratio de varianzas. De

particular interés está el intervalo de confianza para el ratio de las

varianzas, el cual se extiende desde 0.812978 hasta 29.4463. Dado que

el intervalo contiene el valor 1.0, no existe diferencia

estadísticamente significativa entre las desviaciones típicas de las

dos muestras para un nivel de confianza del 95.0%.

También puede utilizarse un F-test para probar una hipótesis

específica sobre las desviaciones típicas de las poblaciones de las

que proceden las dos muestras. En este caso, el test se ha realizado

para determinar si el ratio de las desviaciones típicas son iguales

1.0 frente a la hipótesis alternativa en la que el ratio no es igual

1.0. Puesto que el p-valor calculado no es inferior a 0.05, no

podemos rechazar la hipótesis nula.

NOTA IMPORTANTE: los F-test y los intervalos de confianza mostrados

dependen de que las muestras procedan de distribuciones normales.

Para comprobar esta asunción, seleccione Resumen Estadístico de la

lista de Opciones Tabulares y observe los valores de asimetría

estandarizada y curtosis estandarizada.

Lo mas importante aquí, es observar el valor de p = 7.67% > α = 5%, lo que indica que se acepta la hipótesis nula.

Page 83: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 83 de 128

Cálculos con Excel

a) Primero se deben colocar los datos en una hoja de cálculo. b) Activar menú herramientas – Análisis de datos – Prueba F para varianzas de

dos muestras

c) Se configura el cuadro de dialogo de la siguiente manera: Obsérvese que el valor de a ha sido colocado dividido entre 2, esto por que en el Excel, para esta prueba, siempre se considera solo uno de los lados, ya sea el izquierdo o el derecho, esto según cual de las dos muestras tenga mayor o menor varianza

d) Obteniéndose los siguientes resultados:

Prueba F para varianzas de dos muestras

Sector M Sector F

Media 20.5 14 Varianza 11.14285714 2 Observaciones 8 6 Grados de libertad 7 5 F 5.571428571 P(F<=f) una cola 0.038324609 Valor crítico para F (una cola) 6.853075629

e) Finalmente se analizan los resultados.

Observen que el valor F es menor que el Valor critico para F (una cola), y que para hallar el valor de p, hay que multiplicar por 2 el valor “P(F<=f) una cola” Por todo lo anterior, aceptamos H0 y rechamos H1.

Page 84: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 84 de 128

Si se tratase de una prueba con una sola cola, entonces los valores se leerían directamente, sin hacer ningún cambio

Segundo Paso Con la Prueba anterior se ha demostrado que las varianzas poblacionales son iguales, pero desconocidas, entonces ahora se procede a elaborar una prueba de hipótesis para la diferencia de medias. Prueba de hipótesis para la diferencia de medias, con varianzas iguales

1) H0: µM = µF H1: µM ≠ µF

2) α = 5% 3) Estadística.

Dado que las varianzas poblacionales resultaron ser iguales, se utiliza:

4) Regla de decisión

5) Cálculos

Sector Minero Sector Financiero Media Aritmética 20.5 14

Varianza Muestral 11.14285714 2 Tamaño de muestra 8 6

6) Decisión Dado que TCal = 4.44 ∉ R.A., aceptamos H1 y rechazamos H0, por lo tanto los rendimientos medios en las empresas del sector minero no son iguales a los de las empresas del sector financiero.

Hasta este momento solo podemos decir que los rendimientos medios son diferentes pero no sabemos en que sectores son mayores, para ello hacemos un replanteamiento de las hipótesis. Para este replanteamiento se observa el signo del

1 2

1 22 2

1 2

2

C C

X XT t( n n )

S S

n n

−= + −

+

∼ 2 2

21 1 2 2

1 2

1 1

2C

( n )S ( n )SS

n n

− + −=

+ −

0 t

2.5% 2.5%

-2.179 2.179

2

C

2

C

(8-1)×11.14285+(6-1)×2S =

8+6-2

S =7.33

Cal

20.5-14T =

7.33 7.33+

8 6

CalT =4.44

Page 85: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 85 de 128

estadístico TCal dado que este es positivo, hay un fuerte indicio que el rendimiento en las empresas del sector minero sea mayor al de las empresas del sector financiero. Replanteando

1) H0: µM ≤ µF H1: µM > µF

2) α = 5% 3) Estadística.

Dado que las varianzas poblacionales resultaron ser iguales, se utiliza:

4) Regla de decisión

5) Cálculos

Sector Minero Sector Financiero Media Aritmética 20.5 14

Varianza Muestral 11.14285714 2 Tamaño de muestra 8 6

6) Decisión Dado que TCal = 4.44 ∉ R.A., aceptamos H1 y rechazamos H0, por lo tanto el rendimiento promedio de las empresas del sector minero son mayores al rendimiento medio de las empresas del sector financiero.

Cálculos con Statgraphics Con el Statgraphics, se sigue el mismo procedimiento que para la prueba de hipótesis

para las varianzas, con la unica salvedad que al presionar el botón , se deb escoger la siguiente opción:

1 2

1 22 2

1 2

2

C C

X XT t( n n )

S S

n n

−= + −

+

∼ 2 2

21 1 2 2

1 2

1 1

2C

( n )S ( n )SS

n n

− + −=

+ −

0 t

5%

1.782

2

C

2

C

(8-1)×11.14285+(6-1)×2S =

8+6-2

S =7.33

Cal

20.5-14T =

7.33 7.33+

8 6

CalT =4.44

Page 86: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 86 de 128

Obteniéndose así el siguiente resultado:

Comparación de Medias

---------------------

95.0% intervalo de confianza para la media de Sector M: 20.5 +/- 2.79072

[17.7093,23.2907]

95.0% intervalo de confianza para la media de Sector F: 14.0 +/- 1.48413

[12.5159,15.4841]

95.0% intervalos de confianza para la diferencia de medias:

suponiendo varianzas iguales: 6.5 +/- 3.18651 [3.31349,9.68651]

contrastes t de comparación de medias

Hipótesis nula: media1 = media2

Hipótesis alt.: media1 <> media2

suponiendo varianzas iguales: t = 4.44446 P-Valor = 0.00080058

El StatAdvisor

--------------

Esta opción ejecuta el t-test para comparar las medias de las dos

muestras. También establece los intervalos de confianza o los límites

para cada media y para la diferencia entre las medias. De particular

interés está el intervalo de confianza para la diferencia entre las

medias, el cual se extiende desde 3.31349 hasta 9.68651. Dado que el

intervalo no contiene el valor 0.0, existe diferencia estadísticamente

significativa entre las medias de las dos muestras para un nivel de

confianza del 95.0%.

También puede aplicarse un t-test para probar una hipótesis

específica sobre la diferencia entre las medias de las poblaciones de

las que proceden las dos muestras. En este caso, el test se ha

realizado para determinar si la diferencia entre las dos medias es

igual a 0.0 frente a la hipótesis alternativa en la que la diferencia

no es igual 0.0. Puesto que el p-valor calculado es inferior a 0.05,

podemos rechazar la hipótesis nula en favor de la alternativa.

NOTA: estos resultados asumen la igualdad de varianzas en las dos

muestras. En este caso, esa asunción parece ser razonable teniendo en

cuenta los resultados del F-test para comparar las desviaciones

típicas. Puede ver los resultados de este test seleccionando

Comparación de Desviaciones Típicas del menú Opciones Tabulares.

Se puede observar que el estadístico calculado tCal = 4.44 y que el valor de p = 0.00080058; el que es mucho menor que a, por lo tanto se acepta la hipótesis alternativa.

Page 87: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 87 de 128

Cálculos con Excel

a) Primero se deben colocar los datos en una hoja de cálculo. b) Activar menú herramientas – Análisis de datos – Prueba t para dos muestras

suponiendo varianzas iguales.

c) Se configura el cuadro de dialogo de la siguiente manera:

d) Obteniéndose los resultados siguientes:

Prueba t para dos muestras suponiendo varianzas iguales

Sector M Sector F

Media 20.5 14 Varianza 11.14285714 2 Observaciones 8 6 Varianza agrupada 7.333333333 Diferencia hipotética de las medias 0 Grados de libertad 12 Estadístico t 4.444462482 P(T<=t) una cola 0.00040029 Valor crítico de t (una cola) 1.782287548 P(T<=t) dos colas 0.000800581 Valor crítico de t (dos colas) 2.178812827

Page 88: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 88 de 128

Ejemplo Aplicativo Nro 2

Un corredor de valores de la bolsa de lima estudia los porcentajes de rendimiento de las empresas del sector minero y del sector financiero. Se sabe que las tasas de los rendimientos tienen una distribución normal. Dos muestras aleatorias de las tasas de 8 empresas del sector minero (M) y de 6 empresas del sector financiero (F) han dado los siguientes valores de rendimiento en porcentajes:

Sector M 17 23 25 18 24 20 21 16

Sector F 13 15 14 12 15 14

¿Qué sector empresarial presenta mayor rendimiento? En este segundo ejemplo, lo único que se ha hecho es cambiar la segunda observación del sector financiero de 16 por 15 y con este pequeñísimo cambio, la prueba de igualdad de varianzas da como resultado:

1) H0: 2 2

M Fσ σ=

H1: 2 2

M Fσ σ≠

2) Nivel de significancia: α = 5% 3) Estadística

4) Regla de decisión 6.85, se obtiene leyendo la tabla Fisher del 2.5% con 7 grados de libertad en el numerador y 5 grados de libertad en el denominador. 0.19; se obtiene hallando la inversa del valor de la tabla Fisher de 2.5% con 5 grados de libertad en el numerador y 7 grados de libertad en el denominador. 5) Cálculos Datos del Problema

2M

2F

σ = 11.1428

σ = 1.3667

1 2

2

1

2

2

( r ;r )

SF ~ F

S=

F

2.5%

2.5%

6.85 0.19

10 19

5 29.

.=

Page 89: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 89 de 128

Cal

Cal

11.1428F =

1.3667

F = 8.1533

6) Decisión

Dado que el FCal = 8.15 ∉ RA, aceptamos H1 y rechazamos H0, por lo tanto podemos concluir que las varianzas poblacionales del sector minero y financiero son diferentes.

Se deja al alumno el desarrollo de este ejercicio con el software respectivo.

Prueba de hipótesis para la diferencia de medias, con varianzas desiguales

1) H0: µM = µF H1: µM ≠ µF

2) α = 5% 3) Estadística.

Dado que las varianzas poblacionales resultaron ser desiguales, se utiliza:

4) Regla de decisión

5) Cálculos

Sector Minero Sector Financiero Media Aritmética 20.5 13.8333

Varianza Muestral 11.14285714 1.3667 Tamaño de muestra 8 6

r ≈ 9

6) Decisión Dado que TCal = 5.24 ∉ R.A., aceptamos H1 y rechazamos H0, por lo tanto los rendimientos medios en las empresas del sector minero no son iguales a los de las empresas del sector financiero.

0 t

2.5% 2.5%

-2.262 2.262

Cal

20.5-13.83T =

11.1429 1.3667+

8 6

CalT =5.24

1 2

2 2

1 2

1 2

X XT t( r )

S S

n n

−=

+

22 2

1 2

1 2

2 22 2

1 2

1 2

1 21 1

S S

n nr

S Sn n

n n

+ =

+

− −

r, representa el número de grados de libertad

( ) ( )

2

2 2

11.1429 1.3667+

8 6r= =9.1347

1.3611.148 6+

8-1 6-1

Page 90: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 90 de 128

Calculo con Excel

a) Primero se deben colocar los datos en una hoja de cálculo. b) Activar menú herramientas – Análisis de datos – Prueba t para dos muestras

suponiendo varianzas desiguales.

c) Configurar el cuadro de dialogo

d) Finalmente los resultados son:

Prueba t para dos muestras suponiendo varianzas desiguales

Sector M Sector F

Media 20.5 13.83333333 Varianza 11.14285714 1.366666667 Observaciones 8 6 Diferencia hipotética de las medias 0 Grados de libertad 9 Estadístico t 5.236801889 P(T<=t) una cola 0.000268521 Valor crítico de t (una cola) 1.833112923 P(T<=t) dos colas 0.000537042 Valor crítico de t (dos colas) 2.262157158

Se deja al lector el replanteamiento de la prueba de hipótesis.

En esta tabla se resume todo el procedimiento y resultado de la prueba de hipótesis.

Page 91: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 91 de 128

Análisis de la Varianza

Análisis de la Varianza Técnica estadística utilizada para comprobar si son iguales las medias de más de dos poblaciones mediante el análisis y comparación de diversos tipos de varianzas muestrales insesgadas. En adelante, se emplearán el nombre que le puso J.W. Tukey al tema: ANOVA, una manera resumida y practica de referirse a la materia en cuestión y de uso muy difundido en la literatura actual. Esta técnica fue creada por Ronald Aymer Fisher, Los modelos de ANOVA son el capítulo fundamental de la Estadística porque son algo más que unas técnicas aplicadas. Son la herramienta fundamental para adentrarse en la naturaleza de la variación de los acontecimientos; permiten discernir mejor las causas de los fenómenos y los efectos de los factores involucrados. No solo sirve para introducirnos en la misma Naturaleza de las cosas, sino que es la herramienta básica para el diseño de experimentos. Toda vez que necesite buscar las causas que hayan descontrolado sus técnicas de laboratorio o de producción, podrá usar la filosofía de estos modelos para realizar cualquier tipo de investigación. Para una mejor comprensión de la técnica del análisis de la varianza, se verá el presente ejemplo: Supongamos una población de notas Xij de un universo de 9 alumnos para tres grupos distintos:

Notas normales Notas después de aplicar el método

Grupo 1 Grupo 2 Grupo 3 Grupo 1 Grupo 2 Grupo 3 10 10 10 10 + 1 = 11 10 + 2 = 12 10 10 10 10 10 + 1 = 11 10 + 2 = 12 10 10 10 10 10 + 1 = 11 10 + 2 = 12 10

Como se puede apreciar en la tabla anterior la media global es 10, y la de cada grupo también Xij = µ; cada valor es igual a la media general. NO HAY DIFEENCIAS ENTRE GRUPOS, NI DENTRO DE LOS GRUPOS. Supongamos que aplicamos un método de enseñanza (factor) que afecta, subiendo las notas del grupo 1 en 1 punto, del grupo 2 en 2 puntos y no modificando las notas del grupo 3. Así las notas de cada alumno sería: Xij = µµµµ + ααααi en que los ααααi 1; 2 y 0 los efectos que producen el factor (método) en cada nivel. Parece claro que el factor influye en establecer diferencias entre los grupos; pero no dentro. Lo más habitual es que haya alumnos que rindan más que otros(por diversas razones aleatorias o que en principio no dependan de un factor), son por tanto comportamientos aleatorios individuales que denominamos εij; implantando algunos en el ejemplo sería:

Grupo 1 Grupo 2 Grupo 3 10 + 1 – 1 = 10 10 + 2 + 5 = 17 10 + 0 + 3 = 13 10 + 1 – 2 = 09 10 + 2 + 0 = 12 10 + 0 + 0 = 10 10 + 1 – 0 = 11 10 + 2 + 1 = 13 10 + 0 + 2 = 12

Page 92: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 92 de 128

De lo anterior se puede apreciar que los efectos aleatorios εij serían –1; -2; 0; 5; 0; 1; 3; 0 y 2; que fomentan la variabilidad dentro de los grupos INTRAGRUPOS. Entonces para cada valor tenemos el modelo:

Xij = µµµµ + ααααi + εεεεij Tenemos dos tipos de variabilidad: la que se presenta entre los grupos(debida al factor) y la intragrupos (debida a la aleatoriedad). Para poder afirmar que el factor produce efectos la variabilidad entre los grupos ha de ser significativamente grande respecto a la intragrupos. Mediante el análisis de la varianza, explicaremos y hallaremos si las medias son distintas o no, todo ello utilizando las pruebas de hipótesis. Análisis de varianza de un factor: Diseño Completo al Azar (D.C.A.) Sea X una característica que se mide en k poblaciones (o tratamientos) diferentes, con medias respectivas µ1, µ2,...,µk y varianzas respectivas

22

2

2

1 ,...,, kσσσ . Las suposiciones del ANOVA son: 1. Las k poblaciones son independientes (o las k muestras son

independientes). 2. Cada una de las poblaciones tiene distribución Normal, ( )2, iiN σµ . 3. Las k varianzas son iguales a la varianza común. Las k poblaciones juntas constituye una población mayor cuya media µ (media total o gran media) se define por:

k

k

i

i∑== 1

µ

µ

Estas k constituyen los subgrupos que se supone pues son independientes. En el modelo de clasificación de un factor completamente aleatorizado los valores xij de las k muestras (j-ésima observación de la i-ésima muestra j =1; 2;...;ni; i = 1; 2;...;k) se registran en un arreglo tabular. Para comenzar a aplicar el modelo del ANOVA, consideraremos el siguiente ejemplo: El gerente de compras de la empresa “La Tijera Brava S.A.C.” desea comparar la velocidad de 4 máquinas de marcas diferentes con el fin de adquirir la más veloz para su uso en la apertura de una nueva planta de confecciones en la Ciudad de Matarani. Para esto, observó los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Los tiempos registrados en segundos se presentan a continuación:

Para cada i = 1; 2; ...;k. Sea Xi1, Xi2,...,Xin, una muestra aleatoria simple de tamaño ni escogida en la i-esima población.

Page 93: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 93 de 128

Máquina 1 2 3 4 55 60 64 42 46 58 62 45 45 68 51 52 73 58 57 44 50 63 65 42 63 52 68 56

Totales Ti• 332 359 367 281 T•• =1339 ni = r 6 6 6 6 n = 24

Medias •iX 55,33 59,83 61,17 46,83 ••X = 55,79 En la tabla anterior, se debe considerar lo siguiente: Ti• es la suma de datos de la muestra i. T•• es el total de datos de las k muestras. n es el total observado de las k muestras, n = n1 + n2 + ... + nk.

•iX es la media de la muestra i, (estimación insesgada de la media µ).

••X media total muestral (estimación insesgada de la media µ). El modelo del anova Recuerde que cada observación Xij (i = 1; 2;...;k ; j =1; 2;...;ni) de la muestra se expresa en la forma:

Xij = µµµµ + ααααi + εεεεij En donde, i = 1; 2;...;k ; j =1; 2;...;ni Las variables aleatorias Xij son independientes y normales ( )2,σµ iN .

Las variables aleatorias εij son independientes y normales ( )2,σµ iN .

µ es la media total, y αi = µi – µ es el efecto del tratamiento i. La hipótesis del anova La hipótesis nula consiste en afirmar que las medias de las k poblaciones (o tratamientos) son iguales, ( o las k muestras provienen de la misma población). Esto, es: HO: µ1 = µ2 = ... = µk Dado que µi = µi es equivalente a αi = 0, para i = 1; 2;...;k, la hipótesis nula consiste en afirmar que no hay efecto en todos los tratamientos, esto es:

HO: α1 = α2 = ... =αk = 0 La hipótesis alternativa es: Para la primera forma, H1: No todas las medias son iguales. Para la segunda forma, H1: Al menos una de las αi no es igual cero. El análisis La prueba de la hipótesis H0 contra H1 se basa en dos estimaciones independientes de la varianza poblacional común σ2. Estas estimaciones se obtienen particionando la suma de cuadrados total (SCT) en dos componentes:

Page 94: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 94 de 128

SCT = SCE + SCC

Donde: SCE es la suma de cuadrados del error ( o dentro de los tratamientos). SCC es la suma de cuadrados de las columnas ( o entre los tratamientos). De lo anterior se encuentra las estimaciones insesgadas para la varianza σ2 Donde: CME es el cuadrado medio del error. CMC es el cuadrado medio de las columnas. Es de esperar entonces que el cociente CMC/CME sea cercano a uno si la hipótesis nula es verdadera. Pero, si la hipótesis nula no es verdadera CME no cambia, mientras que CMC será mayor. Esto implica que el cociente será mayor que la unidad. Si invertimos el razonamiento, se concluye que si CMC/CME es significativamente grande se puede concluir que las medias de las poblaciones son distintas. La región crítica La región de rechazo de H0 de la prueba es el intervalo ] [∞+;c

A partir de los datos observados de la muestra se calcula: CME

CMCFcal =

La regla de decisión es: Rechazar la hipótesis nula H0 si Fcal > c. En caso contrario no rechazar H0. Para desarrollar los cálculos se utilizan las siguientes fórmulas: Para una mayor facilidad del uso del ANOVA, se debe elaborar la siguiente tabla:

1−=

k

SCCCMC

kn

SCECME

−=

∑∑= =

−=k

i

n

j

ij

i

CxSCT1 1

2

n

TC

2

••= ∑=

• −=k

i i

i Cn

TSCC

1

2

SCCSCESCT +=

Page 95: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 95 de 128

Fuente de Variación

Suma de Cuadrados

Grados de Libertad

Cuadrados Medios

Razón F calculada

Tratamientos ( Columnas )

SCC k - 1

Error SCE n - k

Total SCT n - 1

Solución del ejemplo de la empresa “La Tijera Brava S.A.C.” Sea µi la velocidad media de la máquina i, donde i = 1; 2; 3; 4

1. Hipótesis: HO: µ1 = µ2 = µ3 = µ4 H1: No todas las medias son iguales.

2. Nivel de significancia: α = 0,05

3. Estadística CME

CMCFcal = que se distribuye según F(k-1,n-k) donde k = 4 y n

= 24.

4. Región crítica: Para α = 0,05; en la tabla F se encuentra el valor crítico de la prueba, Fteo = c = 3,10. Se rechazará H0, si Fcal > 3,10.

5. Cálculos De los datos, se obtiene:

04,7470524

)1339( 22

=== ••

n

TC

∑∑ =−+++=−= 95833,185104,74705)56(...)46()55( 2222CXSCT ij

∑ =−+++

=−= • 125,75404,747056

)281()367()359()332( 22222

Cr

TSCC i

83333,1097125,7495833,1851 =−=−= SCCSCTSCE

Las suma de cuadrados, los grados de libertad, los cuadrados medios y la F calculada se dan a continuación:

1−=

k

SCCCMC

kn

SCECME

−=

CME

CMCFcal =

Page 96: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 96 de 128

Fuente de Variación

Suma de Cuadrados

Grados de Libertad

Cuadrados Medios

Razón F calculada

Tratamientos Columnas 754,125 3 251,375 F = 4,579

Error 1097,833 20 54,892 Total 1851,958 23

6. Decisión: Dado que F = 4,579 > 3,10; se rechaza H0.

Comparación Múltiple a Posterior Como H0 ha sido rechazada, es decir que no todas las medias son iguales, es deseable determinar cuales son las medias que no son iguales entre sí. La comparación de pares de medias se resuelve utilizando intervalos de confianza de pares de medias o ejecutando pruebas de hipótesis de pares de medias, a este procedimiento se le conoce como comparación múltiple a posterior. Existen múltiple métodos para comparar los pares de medias, utilizaremos la prueba DMS (Diferencia Mínima Significativa)

kn

ji

ji

ji FCMEnn

nnXX −•• ××

−>− ,1,α

Cuando las muestras son iguales, se utiliza la siguiente fórmula:

knji FCMEr

XX −•• ××>− ,1,

2α donde r es el tamaño de cada muestra.

Solución El valor crítico para las comparaciones de todos los pares de medias de los grupos del método DMS es:

( ) 92,8)35,4)(892,54(6

2220;1;05,0 ==FCME

r

Se tienen entonces: 55,33 - 59,83 = 4,50 < 8,92 No significativa

55,33 - 61,17 = 5,84 < 8,92 No significativa

55,33 - 46,83 = 8,50 < 8,92 No significativa

59,83 - 61,17 = 1,34 < 8,92 No significativa

59,83 - 46,83 = 13,00 > 8,92 Significativa

Page 97: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 97 de 128

61,17 - 46,83 = 14,34 > 8,92 Significativa Resumen de las DMS entre los grupos

Grupos 1 2 3 4 Medias 55,33 59,83 61,17 46,83

1 55,33 - 2 59,83 4,50 - 3 61,17 5,84 1,34 - 4 46,83 8,50 13,00 14,34 -

Se ha sombreado las diferencias significativas al 5%. En este caso se tiene que 2 de los 6 pares de medias poblacionales son significativamente diferentes:

4342 µµµµ ≠≠ y . Es evidente que se debe elegir la máquina 4 por ser la más veloz, es decir en promedio utiliza menos tiempo. Ejercicios Propuestos 1. Una compañía desea comparar cuatro tipos de neumaticos. Se asigno

aleatoriamente los neumaticos a seis automóviles semejantes. La duración de los neumáticos en miles de Km. se da en la tabla siguiente:

TIPOS DE NEUMATICOS

N1 N2 N3 N4 55 53 50 60 55 65

63 67 55 62 70 75

48 50 59 50 47 61

59 68 57 66 71 73

Al nivel de α = 0.05 a) ¿se puede concluir que existe alguna diferencia en los rendimientos

medios de los tipos de neumáticos? b) Si se rechaza la hipótesis nula, utilice la prueba t para probar si la

duración media de los neumáticos tipo 1 es distinta a la duración media de los neumáticos tipo 4?

2. Un promotor inmobiliario esta considerado invertir en un centro comercial a

construirse en una capital del interior del país. Se evalúan 4 ciudades: Arequipa, Iquitos, Piura, Trujillo, en donde es muy importante el nivel de ingresos mensuales de las familias. Para resolver este problema se diseño una prueba hipótesis de varias medias seleccionando una muestra aleatoria de ingresos familiares en cada una de las ciudades, obteniendo los siguientes ingresos en cientos de dólares:

Ingresos mensuales en decenas de $ Arequipa Iquitos Piura Trujillo

Page 98: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 98 de 128

61 56 49 55

71 73 66 61 46

56 61 47 51

58 62 65

50 40 50 50 50 40

a) ¿cuales son los supuestos para realizar la prueba ANOVA? b) Con un nivel α = 0.05 ¿puede el promotor concluir que hay

diferencias en el ingreso medio? c) ¿Qué pares de medias muéstrales son significativamente diferentes?

¿en que ciudad debería construir el centro comercial? d) Utilice una prueba t, para probar que el ingreso medio en arequipa es

diferente al ingreso medio en Trujillo 3. Pruebe la hipótesis de que las medias de las poblaciones 1, 2,3 y 4 son

iguales con un nivel de α = 0.05, con base en las siguientes muestras aleatorias escogidas de las poblaciones respectivas.

Muestras Muestra1 Muestra2 Muestra3 Muestra4

15 20 08 14 18 14

10 12 20 13 18 20 12 17 14

20 08 20 15 10 11 13 12

10 08 16 15

Indique las hipótesis nulas y alternativa, la regla de decisión, el cuadro de ANOVA y su decisión respecto a la hipótesis nula.

4. Se ha aplicado tres métodos diferentes de enseñanza a tres grupos de alumnos de estadística, el primero compuesto por 8 estudiantes, el segundo de 6 y el tercero de 12. Se quiere saber si estos métodos tienen algún efecto sobre las notas. Las calificaciones sobre un máximo de 20 obtenidas por dichos alumnos en una proba final se dan en la tabla siguiente:

Metodos

A B C 13 14 12 13 12 15 11 14

17 16 16 17 17 13

10 11 15 10 14 13 10 13 11

Page 99: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 99 de 128

14 13 10

a) Con un α = 0.05 ¿hay diferencia en las calificaciones

promedio entre los tres métodos? b) Si se rechaza la hipótesis nula, realice pruebas adicionales por

el método de intervalo de confianza para determinar que pares de calificaciones promedio son diferentes.

5. Se realiza un estudio de movimientos para determinar el mejor de tres

métodos de montar un mecanismo. Para esto se diseño un experimento de un factor por bloques aleatorios seleccionando cinco operarios con igual velocidad. El número de montajes terminados diarios por cada operario y con cada método se da en la tabla que sigue.

OPERARIO MÉTODOS

1 2 3 1 2 3 4 5

3 4 3 5 4

9 8 7 9 6

5 6 7 8 9

Al nivel de significancia del 5 %

a) ¿Se puede concluir que los tres métodos de montaje son significativamente diferentes?

b) Si se rechaza la hipótesis nula. ¿Qué pares de números son significativamente diferentes a ese nivel?

6. Una empresa tiene 4 plantas en Sudamérica: Argentina, Brasil, Chile y

Perú. Cada planta produce con 3 tipos diferentes de maquinas. Una muestra aleatoria del numero de unidades producidas por planta y por maquinas se da en la siguiente tabla:

Argentina Brasil Chile Perú Maquina 1

230 250 180 120

Maquina 2

160 180 120 80

Maquina 3

120 100 70 50

Aplicando un análisis de varianza de dos factores y el nivel de α = 0.05 determinar si existe alguna diferencia en la producción media. a) debido a las maquinas b) debido a los países

Page 100: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 100 de 128

Capitulo 9: Regresión y Correlación Definiciones

La correlación es el método es el método empleado para determinar el grado de relacionamiento entre las variables que se estudian, para así determinar en que medida una relación funcional describe o explica de una forma adecuada la relación entre estas dos variables Se usa el término correlación cuando se habla de relaciones entre variables de experimentos bivariantes. Los diversos tipos de correlación que existen pueden ser:

Coeficiente de correlación lineal de Pearson Es una medida del grado de asociación lineal entre las variables X e Y. Es un número abstracto y se representa por r:

Propiedades

• r está siempre comprendido entre -1 y 1. • Si r = 1 ó r = -1 entonces los puntos de la muestra están situados

en línea recta (correlación lineal perfecta). • Si r está próximo a 1 ó a -1, habrá una asociación lineal fuerte entre

ambas variables. • Si r es cercano a 0, habrá una asociación lineal muy débil. • r no varía cuando en las variables se realiza un cambio de escala o

de origen. Esto demuestra que r no tiene dimensión

2 2 2 2

n XY ( X )( Y )r

( n X ( X ) )( n Y ( Y ) )

Σ − Σ Σ=

Σ − Σ Σ − Σ

( )( ) X Y

(X-X)(Y-Y)r=

n-1 S S

9999

Regresión y Correlación

Σ

Page 101: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 101 de 128

Dos consideraciones sobre el coeficiente de correlación. a) Se trata de una medida matemática que luego hay que interpretar.

Aunque un alto grado de correlación indique buena aproximación a un modelo matemático lineal, su interpretación puede no tener ningún sentido. Por ejemplo puede haber un alto grado de correlación entre las ventas de celulares y el consumo de alcohol en Arequipa, pero ambas variables están claramente disociadas.

b) Aunque el grado de correlación sea cercano a cero (pobre

aproximación al modelo lineal) eso no significa que no haya relación entre las dos variables. Puede ser que dicha relación sea no lineal.

Coeficiente de determinación

El coeficiente de determinación se calcula elevando al cuadrado el coeficiente de correlación y representa el porcentaje de la variación explicada por la recta de regresión. El coeficiente de determinación r2, es una medida de la proximidad del ajuste de la recta de regresión; cuanto mayor sea el valor de r2, mejor será el ajuste y mas útil la recta de regresión como instrumento de predicción. (r2 = 0.92 indica que de 100 pares de puntos 92 están en la recta de regresión y 8 fueran de la recta de regresión)

Método de mínimos cuadrados para encontrar la ecuación de regresión

Recordemos que el análisis de regresión lo que persigue es determinar la relación funcional de la variable dependiente Y con respecto a la variable independiente X con el fin de predecir valores de Y.

A continuación desarrollaremos un modelo matemático (ecuación de la línea) para expresar la relación entre dos variables y para estimar el valor de la variable dependiente Y basándonos en el valor de la variable independiente X. La técnica que se utiliza para desarrollar la ecuación de la línea y hacer estas predicciones, se le llama análisis de regresión. El principio matemático con base con el cual se traza la ecuación de la línea y se predicen los valores de Y, se conoce con el nombre de mínimos cuadrados. Este principio consiste en trazar una línea sobre la gráfica de dispersión de los valores de modo que la suma de los cuadrados de la distancia vertical entre el valor real de Y y su valor predictorio, sea la cantidad más pequeña posible. Entonces la ecuación lineal que se tiene que encontrar es:

Y* = a + bX Donde: Y * = Se lee Y asterisco, es el valor predictorio de la variable Y para un

valor seleccionado de X.

a = Es la intersección con el eje Y. Es el valor estimado de Y cuando X = 0.

b = Es la pendiente de la línea, o el cambio promedio en Y* por cada cambio en una unidad de la variable independiente X.

X = Es el valor que se escoge para la variable independiente.

Page 102: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 102 de 128

A los valores a y b se les conoce como coeficientes de regresión y se calculan con las siguientes fórmulas:

Varianza de la regresión poblacional σσσσ2.

Una vez que se ha determinado la recta de regresión Y a bX= + es de suma prioridad saber su utilidad, siendo esta la de predecir valores de Y para valores determinados de X. Si se hace una predicción seria razonable conocer la respuesta de la interrogante: ¿Qué tan confiable es la predicción que se acaba de determinar? La respuesta a la pregunta anterior depende de la variabilidad de los valores de Y con respecto a la recta de regresión. Una medida que indica el grado de variabilidad o dispersión o concentración en torno a la línea de regresión es la varianza de la regresión poblacional, que se denota por σ2 o por 2

YX

σ y se define por:

La raíz cuadrada de esta varianza es la regresión estándar de la regresión en la población. Una estimación insesgada de σ2 es la varianza de la regresión muestral que se denota por s2 y se define por:

Donde, el numerador es la suma de los cuadrados de los errores alrededor de la línea de regresión y el denominador, n-2, representa los grados de libertad (se le quitan 2 valores a n porque corresponden al numero de coeficientes de regresión).

La raíz cuadrada de la varianza de la regresión muestral, es la desviación estándar muestral de la regresión, denotada por s. Este valor es conocido también como error estándar de estimación.

Análisis de la varianza para ββββ

El análisis de la varianza es un método que utiliza la estadística F para probar la significación de la ecuación de regresión muestral o existencia de regresión en la población. Las hipótesis nula y alternativa para esta prueba son:

H0: β = 0 contra H1: β ≠ 0

Se siguen todos los pasos para el análisis de la varianza de más de dos medias poblacionales, resumiéndose los cálculos en la siguiente tabla:

y b xa

n

Σ − Σ= 2 2

n xy x yb

n x ( x )

Σ − Σ Σ=

Σ − Σ

( )( )

2

2 1

N

i YXi

YX

y

E YN

µ

σ µ =

= − =∑ Donde N es el tamaño

de la población

( )2

2

2 1 1 1 1

2 2 2

n n n n

i i i i ii

i i i i

y y y a y b x ySCE

sn n n

= = = =

− − −

= = =− − −

∑ ∑ ∑ ∑

Page 103: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 103 de 128

Fuente de Variación

Suma de Cuadrados

Grados de Libertad

Cuadrados Medios

Razón F calculada

Regresión SCR 1

Error SCE n - 2

Total SCT n - 1

Donde: Intervalo de confianza para la media de Y

Donde: t0 =tn-2;α es un valor t de student con n - 2 grados de libertad. Intervalo de predicción para y0. Aplicaciones Problema Nro 1 Lori Franz, supervisora de mantenimiento de Baltimore Transit Authority, quisiera determinar si existe una relación positiva entre los costos anuales de mantenimiento de un autobús y su edad. Si existe tal relación, Lori cree que puede hacer un mejor trabajo si pronostica el presupuesto anual para el autobús. Ella recopiló los datos dé la tabla P.1 a) Grafique un diagrama de dispersión. b) ¿Qué clase de relación existe entre estas dos variables? c) Calcule el coeficiente de correlación. d) Determine la recta de mínimos cuadrados. e) Pruebe la significancia de la pendiente de la regresión en el nivel de

significancia 0.05. ¿Esta regresión es significativa? Explique. f) Pronostique el costo anual del mantenimiento de un autobús de 5 años.

1

SCRCMR =

2

SCECME

n=

cal

CMRF

CME=

2 2SCT=Σy -n(y) ( )SCR=b Σxy-n(x)(y) SCE=SCT-SCR

2

00 0 2

i

(x -x)1y t s +

n Σ(x -x)±

2

00 0 2

i

(x -x)1y ±t s 1+ +

n Σ(x -x)ˆ

Page 104: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 104 de 128

Tabla Nro 1

Autobus Costo de mantenimiento ($) Y

Edad (años) X

1 859 8 2 682 5 3 471 3 4 708 9 5 1094 11 6 224 2 7 320 1 8 651 8 9 1049 12

Fuente: Dpto Mnto de Baltimore Transit Authority Solución Punto (a), primero solucionaremos con el Excel. Paso 1.- Se introducen los datos en una hoja de cálculo, y se seleccionan los

valores a graficar, para nuestro caso es el rango C3:D11.

Paso 2.- Se inicia el asistente para gráficos, ( ) y se escoge el tipo de grafico.

Se escoge el tipo de grafico.

Luego se puede cambiar el subtipo

Finalmente se presiona siguiente

Page 105: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 105 de 128

Paso 3.- Finalmente el grafico queda terminado.

(b) ¿Qué clase de relación existe entre estas dos variables? La relación que existe entre estas variables es positiva, ello debido a que según se puede apreciar en el diagrama de dispersión, la relación es directamente proporcional, es decir que si aumenta el tiempo de vida también aumenta el costo de mantenimiento. (c) Calculo del coeficiente de correlación. Introducimos los datos en una hoja de cálculo, según se aprecia en la figura siguiente:

Se configuran las opciones apropiadamente.

Diagrama de dispersión

0

200

400

600

800

1000

1200

0 3 6 9 12 15

Tiempo de vida

Co

sto

de

Man

ten

imie

nto

En el presente diagrama se puede notar que parece existir cierta relación lineal, directamente proporcional, entre las variables tiempo de vida y

Page 106: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 106 de 128

Luego utilizamos las siguientes formulas: También se pueden usar funciones de Excel, como: FUNCIÓN: PEARSON Devuelve el coeficiente de correlación producto o momento r de Pearson, r, un índice adimensional acotado entre -1,0 y 1,0 que refleja el grado de dependencia lineal entre dos conjuntos de datos. Sintaxis =PEARSON(matriz1;matriz2) Matriz1 es un conjunto de valores independientes. Matriz2 es un conjunto de valores dependientes. FUNCIÓN: COEF.DE.CORREL Devuelve el coeficiente de correlación entre dos rangos de celdas definidos por los argumentos matriz1 y matriz2. Use el coeficiente de correlación para determinar la relación entre dos propiedades. Por ejemplo, para examinar la relación entre la temperatura promedio de una localidad y el uso de aire acondicionado. Sintaxis COEF.DE.CORREL(matriz1;matriz2) Matriz1 es un rango de celdas de valores. Matriz2 es un segundo rango de celdas de valores. Entonces los cálculos de r, quedarían de la siguiente manera: d) Determinación de la recta de mínimos cuadrados Para determinar los coeficientes de la recta de regresión, se puede utilizar estas ecuaciones: En Excel se hace uso de las funciones: FUNCIÓN: INTERSECCION.EJE Calcula el punto en el que una línea intersecará el eje y utilizando los valores X e Y existentes. El punto de intersección se basa en el mejor ajuste de la línea de regresión trazado con los valores X y los valores Y. Utilice la función INTERSECCION.EJE para determinar el valor de la variable dependiente cuando la variable independiente es

2 2 2 2

n XY ( X )( Y )r

( n X ( X ) )( n Y ( Y ) )

Σ − Σ Σ=

Σ − Σ Σ − Σ

( ) ( )2 2

9×48665-59×6058r= =0.9377

9×513-(59) × 9×4799724-(6058)

( )( ) X Y

(X-X)(Y-Y)r=

n-1 S S

8951.44r= =0.9377

(9-1)×3.9721×300.42

y b xa

n

Σ − Σ=

2 2

n xy x yb

n x ( x )

Σ − Σ Σ=

Σ − Σ

Page 107: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 107 de 128

igual a 0 (cero). Por ejemplo, puede emplear la función INTERSECCION.EJE para predecir la resistencia eléctrica de un metal a 0 °C si los puntos de datos se han tomado a temperatura ambiente o superior. Sintaxis INTERSECCION.EJE(conocido_y;conocido_x) Conocido_y es el conjunto de observaciones o datos dependientes. Conocido_x es el conjunto de observaciones o datos independientes. PENDIENTE Devuelve la pendiente de una línea de regresión lineal creada con los datos de los argumentos conocido_x y conocido_y. La pendiente es la distancia vertical dividida por la distancia horizontal entre dos puntos cualquiera de la recta, lo que corresponde a la tasa de cambio a lo largo de la línea de regresión. Sintaxis PENDIENTE(conocido_y;conocido_x) Conocido_y es una matriz o rango de celdas de puntos de datos numéricos dependientes. Conocido_x es el conjunto de puntos de datos independientes. Entonces la recta de mínimos cuadrados es: Y = 208.203 + 70.92X Otra forma de encontrar dicha recta es por el método grafico en el Excel, para ello se hace clic derecho en cualquier punto del diagrama de dispersión y se escoge “agregar línea de tendencia.”

Diagrama de dispersión y = 70.918x + 208.2

R2 = 0.8792

0

200

400

600

800

1000

1200

0 3 6 9 12 15

Tiempo de vida

Co

sto

de

Man

ten

imie

nto

Page 108: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 108 de 128

Donde R2, representa el coeficiente de determinación, el cual se interpreta diciendo que el 87.92% de los valores de y quedan explicados o dependen directamente de X, existiendo un 22.08% de valores de Y que no quedan representados por la ecuación de regresión calculada. R2, se obtiene en la práctica elevando el valor de r al cuadrado. e) Prueba ANOVA para el análisis de regresión Para realizar este análisis en Excel, se activa menú herramientas – Análisis de datos y se escoge regresión: Luego de aceptar, se obtiene el siguiente resultado:

Resumen

Estadísticas de la regresión Coeficiente de correlación múltiple 0.93767326 Coeficiente de determinación R^2 0.87923114 R^2 ajustado 0.86197845 Error típico 111.60975

Observaciones 9

ANÁLISIS DE VARIANZA

Grados de

libertad Suma de

cuadrados Promedio de cuadrados

F Valor crít

de F

Regresión 1 634819.73 634819.73 50.96196 0.0001871 Residuos 7 87197.15 12456.73

Total 8 722016.888

9

Coeficientes Error típico Estadístico t Prob Inf 95% Sup 95%

Intercepción 208.203 75.0017941 2.77597819 0.02745673 30.852283 385.554406

Page 109: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 109 de 128

Variable X 1 70.918 9.93423031 7.13876481 0.00018719 47.427411 94.4088557

Analizando los resultados, tenemos: La tabla ANOVA para análisis de regresión tiene el siguiente formato:

Fuente de Variación

Suma de Cuadrados

Grados de Libertad

Cuadrados Medios

Razón F calculada

Regresión SCR 1

Error SCE n - 2

Total SCT n - 1

Donde: Entonces la Tabla ANOVA calculada es:

Fuente SC GL CM Fcal Prob Fcrit Regresión 634819.73 1 634819.73 50.96 0.00018719 5.59 Error 87197.15 7 12456.74 Total 722016.89 8 90252.11

Las hipótesis de trabajo quedan expresadas como:

H0: β = 0 contra H1: β ≠ 0 Entonces dado que FCal = 50.96 ∈ RC, o p = 0.000187 < α, aceptamos H1 y rechazamos H0, por lo tanto se puede validar la ecuación de regresión al 5% de error o podemos afirmar que la pendiente de la recta de regresión es diferente de cero. El error típico es la desviación estándar de la regresión y se calcula con la formula:

n X Y Yi (Y-Yi)2

1 8 859 775.5484155 6964.166957 2 5 682 562.7940141 14210.06708 3 3 471 420.9577465 2504.227137 4 9 708 846.4665493 19172.98527 5 11 1094 988.3028169 11171.89451 6 2 224 350.0396127 15885.98396 7 1 320 279.1214789 1671.05349 8 8 651 775.5484155 15512.3078 9 12 1049 1059.220951 104.4678333

ΣΣΣΣ 59 6058 87197.15405

( )2

2

2 1 1 1 1

2 2 2

n n n n

i i i i ii

i i i i

y y y a y b x ySCE

sn n n

= = = =

− − −

= = =− − −

∑ ∑ ∑ ∑

1

SCRCMR =

2

SCECME

n=

cal

CMRF

CME=

2 2SCT=Σy -n(y) ( )SCR=b Σxy-n(x)(y) SCE=SCT-SCR

2Y =4799724∑ Y=673.111 n=9XY=48665∑ X=6.555 b=70.9181

Page 110: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 110 de 128

El coeficiente de determinación se puede calcular con la relación: El coeficiente de determinación corregido se calcula Los coeficientes de la recta de regresión son:

Coeficientes

Intercepción 208.203

Variable X 1 70.918 La recta de regresión también es representada por: Y = b0 + b1X Las pruebas de hipótesis para cada uno de los coeficientes de la recta de

regresión, están expresadas en a la derecha de dichos coeficientes y en ambos casos se utiliza la distribución t de student.

Desviación estándar estimada de b1

ΣX = 59 ΣX2 = 513 n = 9

sx = 9.934230312 Para la Prueba de Hipótesis individual, el estadístico t se calcula por:

p = 0.000187190 f) Pronóstico para un costo anual de mantenimiento de 5 años

87197 15111 61

9 2

.s .= =

2 SCRR =

SCT

2 634819.73R = =0.8792

722016.89

2 2 CMER =R =1-

CMT

2 12456.74R =1- =0.861978

90252.11

iY*=Y=Y=209.203+70.918X

( )1 2

2

b

i

i

ss

XX

n

=∑

∑ −

1

1

b

bt

s=

70 9187 139

9 934

.t .

.= =

iY*=Y=Y=209.203+70.918X

Page 111: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 111 de 128

Y* = 209.203 + 70.918(5) Y* = 562.794 Problema Nro 2 Ejercicio aplicativo de series de tiempo Con los datos que se presentan en la tabla Nro 2, realizar un pronostico para los próximos 5 años, haciendo uso del método de los mínimos cuadrados con tendencia lineal.

Tabla Nro 2.- Gastos en capacitación de la empresa INSUR

Año Gasto

1995 14.8 1996 20.6 1997 22.1 1998 19.3 1999 20.6 2000 25.6 2001 26.5 2002 28.5 2003 26.8 2004 28.7 2005 35.1 2006 37.0 2007 30.5

FUENTE.- Dpto de RRHH - enero del 2008 Para trabajar este ejercicio en Excel, se puede proceder de la siguiente manera:

Page 112: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 112 de 128

Problema Nro 3 Encontrar la ecuación de tendencia para los siguientes datos: (Utilizar un modelo lineal o uno que se pueda linealizar)

X Y

1.5 2.6 2 2.4 3 1.2

3.5 1.8 4 1.6 5 1.4

Se utiliza la opción agregar línea de tendencia de Excel para un diagrama de dispersión De lo 4 modelos anteriores, se selecciona el Nro 3, por presentar un mayor coeficiente de determinación. Problema Nro 4 Realizar un pronostico cuando el valor de X = 6, para el siguiente conjunto de datos.

y = 3.1251x-0.532

R2 = 0.6247

0

0.5

1

1.5

2

2.5

3

0 1 2 3 4 5 6

y = -0.34x + 2.91

R2 = 0.6202

0

0.5

1

1.5

2

2.5

3

0 1 2 3 4 5 6

y = -1.0456Ln(x) + 2.9566

R2 = 0.71

0

0.5

1

1.5

2

2.5

3

0 1 2 3 4 5 6

y = 3.0498e-0.1728x

R2 = 0.5443

0

0.5

1

1.5

2

2.5

3

0 1 2 3 4 5 6

1 2

3 4

Page 113: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 113 de 128

X Y

1.2 4.5 1.8 5.9 3.1 7 4.9 7.8 5.7 7.2 7.1 6.8 8.6 4.5 9.8 2.7

Solución Se utiliza la opción agregar línea de tendencia de Excel, con un modelo polinomial de grado 2 (Parábola de mínimos cuadrados) Ahora como X tiene el valor 6 entonces para hallar Y se tiene:

Y = 2.5878 + 2.0649(6) – 0.211(6)2

Y = Problema Nro 5 Aplicación de series de tiempo con varios valores por año, uso del índice estacional ajustado para pronosticar Método de la razón de promedio móvil. Caso: Empresa de Acido Sulfurico Una planta productora de acido sulfúrico, ha venido posicionándose en el mercado, para ello se presenta la evolución de sus ventas trimestrales, en miles de barriles aprox. La capacidad máxima de la planta es de 550000 barriles por año. Si una ampliación de la misma, desde que se hacen los pedidos de las maquinarias, hasta que estas se instalan y prueban, demora 6 meses. Ayude al gerente de producción a decidir cual es el tiempo máximo en el que debe proponer a gerencia general el inicio de la expansión de la fábrica, si se desea cumplir al 100% con los pedidos de los clientes en todo momento.

y = -0.211x2 + 2.0649x + 2.5878

R2 = 0.9823

0

2

4

6

8

10

0 2 4 6 8 10 12

Page 114: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 114 de 128

Tabla: Ventas en miles de barriles Año Trimestre 2002 2003 2004 2005 2006

I 197 283 278 268 339 II 408 449 491 465 505 III 307 372 288 332 345 IV 184 169 213 225 244

Realice un pronóstico para los trimestres de los próximos 2 años y responda la interrogante anterior. Solución Para dar solución a este problema se deben seguir los siguientes pasos: a) Colocar los datos, según el formato de la tabla Nro 3 b) En el paso Nro 1 (Columna 4), se calcula el total móvil de los cuatro trimestres. c) En el paso Nro 2 (Columna 5), se calcula el promedio móvil de cuatro trimestres. d) En el paso Nro 3 (Columna 6), se calcula el promedio móvil centrado,

considerando dos trimestres para dicho cálculo. e) En el paso Nro 4 (Columna 7), se calcula el porcentaje del valor real con respecto

al valor promedio móvil centrado. Para ello se usa la siguiente formula:

100Re al

%Valor Re alPr omedio Movil

= ×

Tabla: Calculo del promedio móvil centrado de cuatro trimestres.

Año (1)

Trimestre (2)

Producción (3)

Total Movil (4)

Prom. Movil (5)

Pro_Mo_Cen (6)

%_Valor_Real (7) = (3)/(6)

2002

I 197 -- II 408 1096 274 -- III 307 1182 295.5 284.75 107.81% IV 184 1223 305.75 300.625 61.21%

2003

I 283 1288 322 313.875 90.16% II 449 1273 318.25 320.125 140.26% III 372 1268 317 317.625 117.12% IV 169 1310 327.5 322.25 52.44%

2004

I 278 1226 306.5 317 87.70% II 491 1270 317.5 312 157.37% III 288 1260 315 316.25 91.07% IV 213 1234 308.5 311.75 68.32%

2005

I 268 1278 319.5 314 85.35% II 465 1290 322.5 321 144.86% III 332 1361 340.25 331.375 100.19% IV 225 1401 350.25 345.25 65.17%

2006

I 339 1414 353.5 351.875 96.34% II 505 1433 358.25 355.875 141.90% III 345 -- IV 244 --

Page 115: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 115 de 128

Grafico: Serie temporal, promedio móvil centrado y línea de tendencia. f) En el paso Nro 5, reunir todos los porcentajes reales con respecto a los valores

promedio móvil que se encuentran en la columna 7 de la tabla Nro 3 y organizarlos por trimestres, ver tabla Nro 4

Tabla: Porcentajes de valores reales

Año Trimestre

I Trimestre

II Trimestre

III Trimestre IV 2002 -- -- 107.81% 61.21% 2003 90.16% 140.26% 117.12% 52.44% 2004 87.70% 157.37% 91.07% 68.32% 2005 85.35% 144.86% 100.19% 65.17% 2006 96.34% 141.90% -- --

Una vez reunidos los porcentajes de valores reales se procederá a calcular la media modificada. Los valores estacionales que se han recuperado para los trimestres, todavía contienen las componentes cíclica e irregular de la variación de la serie temporal. Al eliminar los valores mas alto y mas bajo de cada trimestre, se reducen estas variaciones cíclicas e irregulares extremas.

Trimestre I II III IV Media Modificada 88.93%143.38%104.00% 63.19%

Por ejemplo, el valor 88.93, es el resultado de promediar 90.16 con 87.70, los valores 85.35 y 96.34 han sido eliminados para el primer trimestre. Repetir este proceso para los demás trimestres. g) En el paso Nro 6, se procederá a calcular los índices temporales ajustados.

Trim Indice Desajustado

Constante ajuste

Índice Temporal Ajustado

I 88.93% 1.001251564 89.04% II 143.38% 1.001251564 143.56% III 104.00% 1.001251564 104.13% IV 63.19% 1.001251564 63.27%

399.50% 400.00%

0

100

200

300

400

500

600

0 5 10 15 20 25

Page 116: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 116 de 128

Calculo de la constante de estacionalidad Suma deseada 400% Suma de índices 399.50%

Constante de

estacionalidad 1.001251564 Nota.- Para calcular la constante de estacionalidad, se usa la siguiente formula:

Suma DeseadaCons tante Estacionalidad

Suma Indices=

h) En el paso Nro 7, se procederá a realizar la desestacionalización de los datos,

para ello se debe dividir cada valor entre el índice estación ajustado correspondiente a su respectivo trimestre, y con los datos se procederá a encontrar la ecuación de tendencia, haciendo uso del método de los mínimos cuadrados para la tendencia desestacionalizada.

Tabla: Datos Desestacionalizados

X Año Trimestre Producción Real

Producción Desestacionalizada

Produccion Pronosticada

1

2002

I 197 221.25 272.68 2 II 408 284.20 277.46 3 III 307 294.82 282.24 4 IV 184 290.82 287.02 5

2003

I 283 317.83 291.81 6 II 449 312.76 296.59 7 III 372 357.25 301.37 8 IV 169 267.11 306.16 9

2004

I 278 312.22 310.94 10 II 491 342.02 315.72 11 III 288 276.58 320.51 12 IV 213 336.65 325.29 13

2005

I 268 300.99 330.07 14 II 465 323.91 334.86 15 III 332 318.83 339.64 16 IV 225 355.62 344.42 17

2006

I 339 380.73 349.21 18 II 505 351.77 353.99 19 III 345 331.32 358.77 20 IV 244 385.65 363.56

a = 267.8917644 Y = 267.89 + 4.78X b = 4.783245626

i) Finalmente se calcula el pronóstico haciendo uso de la ecuación de pronóstico y se

estacionalizan los valores hallados multiplicándolos por el índice estacional ajustado según corresponda a cada trimestre.

Tabla: Pronóstico Estacionalizado

Page 117: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 117 de 128

X Año Trimestre Pronostico Desestacionalizado

Pronostico Estacionalizado

21

2007

I 368.34 327.97 22 II 373.12 535.66 23 III 377.91 393.51 24 IV 382.69 242.13 25

2008

I 387.47 345.01 26 II 392.26 563.12 27 III 397.04 413.44 28 IV 401.82 254.23 29

2009

I 406.61 362.04 30 II 411.39 590.59 31 III 416.17 433.36 32 IV 420.96 266.34

Grafico: Serie temporal, serie desestacionalizada y línea de tendencia Conclusión: Como se puede ver en la tabla Nro 6, se excederá la capacidad máxima de producción en el II trimestre del año 2008, por lo tanto se debería comenzar la ampliación de las instalaciones a mas tardar al finalizar el tercer trimestre del 2007. Ejercicios Planteados 1. ¿Cuál de las siguientes situaciones es inconsistente?

g) Y = 499 + 0.21X y r = 0.75 h) Y = 100 + 0.9X y r = -0.70 i) Y = -20 + 1X y r = 0.40 j) Y = -7 - 4X y r = -0.90

2. Las ganancias de AT&T (American Telephone and Telegraph) en miles de millones

de dólares se estiman mediante el GNP (gross national product, Producto Nacional Bruto). La ecuación de regresión es Y = 0.078 + 0.06X donde el GNP se mide en miles de millones de dólares. a) Interprete la pendiente. b) Interprete la intersección con el eje Y.

0

100

200

300

400

500

600

0 5 10 15 20 25

Page 118: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 118 de 128

3. Considere los datos en la tabla P.3, donde X = gastos semanales de publicidad e Y = Ventas semanales en cientos de dólares. a) ¿Existe una relación significativa entre los gastos de publicidad y las ventas? b) Determine la ecuación de predicción. c) Pronostique las ventas para un gasto de publicidad de 50 dólares. d) ¿Qué porcentaje de la variación en ventas se puede explicar con la ecuación

de predicción? e) Mencione la cantidad de la variación no explicada. f) Obtenga la cantidad de la variación total.

Tabla P.3

Y X Y X 1250 41 1300 46 1380 54 1400 62 1425 63 1510 61 1425 54 1575 64 1450 48 1650 71

4. El tiempo requerido para que los clientes paguen en el supermercado y los valores

correspondientes de las compras se muestran en la tabla P.4. Conteste los incisos a), b), e) y f) del problema 3 utilizando estos datos. Proporcione un estimado puntual y un intervalo estimado de 99% para Y sí X = 3.0.

Tabla P.4

Tiempo requerido para pagar en caja

(minutos)

Valor de la compra (dólares)

Tiempo requerido para pagar en caja

(minutos)

Valor de la compra (dólares)

3.6 30.6 1.8 6.2 4.1 30.5 4.3 40.1 0.8 2.4 0.2 2.0 5.7 42.2 2.6 15.5 3.4 21.8 1.3 6.5

5. Lori Franz, supervisora de mantenimiento de Baltimore Transit Authority, quisiera

determinar si existe una relación positiva entre los costos anuales de mantenimiento de un autobús y su edad. Si existe tal relación, Lori cree que puede hacer un mejor trabajo si pronostica el presupuesto anual para el autobús. Ella recopiló los datos dé la tabla P.5. a) Grafique un diagrama de dispersión. b) ¿Qué clase de relación existe entre estas dos variables? c) Calcule el coeficiente de correlación. d) Determine la recta de mínimos cuadrados. e) Pruebe la significancia de la pendiente de la regresión en el nivel de

significancia f) 0.05. ¿Esta regresión es significativa? Explique. g) Pronostique el costo anual del mantenimiento de un autobús de 5 años.

Tabla P.5 Autobus Costo de mantenimiento ($)

Y Edad (años)

X 1 859 8 2 682 5 3 471 3 4 708 9

Page 119: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 119 de 128

5 1094 11 6 224 2 7 320 1 8 651 8 9 1049 12

6. Andrew Vazsonyi es el gerente de la cadena de supermercados Spendwise, a

quien le gustaría poder pronosticar las ventas de libros (ejemplares por semana) basándose en la cantidad de espacio de exhibición (en pies) de los anaqueles. Andrew reúne los datos para una muestra de 11 semanas, como se mostró en la tabla P.6. a) Grafique un diagrama de dispersión. b) ¿Qué clase de relación existe entre estas dos variables? c) Calcule el coeficiente de correlación. d) Determine la línea de mínimos cuadrados. e) Pruebe la significancia de la pendiente de correlación en el nivel de

significancia de 0.10. ¿Esta correlación es significativa? Explique. f) Grafique los residuales contra los valores ajustados. Basándose en esta

gráfica, ¿es apropiado el modelo de regresión lineal simple para estos datos? g) Pronostique las ventas de libros para una semana durante la cual se proveen

4 pies de espacio en anaqueles.

Tabla P.6

Semana Nro de libros vendidos

Y Espacio en pies en los anaqueles

X

1 275 6.8 2 142 3.3 3 168 4.1 4 197 4.2 5 215 4.8 6 188 3.9 7 241 4.9 8 295 7.7 9 125 3.1

10 266 5.9 11 200 5.0

7. En la tabla P.7 se muestra la información proporcionada por un negocio de órdenes por correo para 12 ciudades. a) Determine si existe una relación lineal significativa entre estas dos variables.

(Pruébelo con un nivel de 0.05 de significancia.) b) Determine la línea de regresión ajustada. c) Calcule el error están dar de la estimación. d) Elabore una tabla ANOVA. e) ¿Qué porcentaje de la variación en las órdenes por correo se explica por el

número de catálogos repartidos? f) Realice la prueba de hipótesis para determinar si la pendiente o coeficiente de

regresión es significativamente diferente de cero. (Utilice el nivel 0.01 de significancia.)

Page 120: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 120 de 128

g) Pruebe la significancia de la regresión usando la estadística F de la tabla ANOVA. (Use el nivel de significancia de 0.01) ¿Es el resultado consistente en el punto f? ¿Debe serIo?

h) Pronostique el número de órdenes por correo recibidas cuando se han repartido 10 mil catálogos con un intervalo para la predicción de 90% de confianza.

Tabla P.7

Ciudad

Número de órdenes postales recibidas (Miles)

Y

Número de Catálogos

recibidos (Miles) X

Ciudad

Número de órdenes postales recibidas (Miles)

Y

Número de Catálogos

recibidos (Miles) X

A 24 6 G 18 15 B 16 2 H 18 3 C 23 5 I 35 11 D 15 1 J 34 13 E 32 10 K 15 2 F 25 7 L 32 12

8. Industrias Peruanas S.A., (INPESA), es una empresa que se dedica a la producción y comercialización de artículos para limpieza en todo el territorio peruano, cuenta con agencias en 10 ciudades del país, a continuación se presenta la cantidad de vendedores por agencia que posee esta empresa.

Nro Vendedores 2 6 8 8 12 16 20 20

Ventas Mensuales Miles de $ 58 105 88 118 117 137 157 169

a) Elaborar el diagrama de dispersión. b) Hallar el coeficiente de correlación y determinación e interpretar los resultados. c) Encontrar la ecuación de regresión por el método de mínimos cuadrados. d) Halle el intervalo de confianza y de predicción cuando los vendedores sean 10 e) Elabore el ANOVA para β. f) Halle el coeficiente de determinación corregido.

9. El gerente de personal de la empresa DITESSUR quiere estudiar la relación entre

ausentismo y la edad de sus trabajadores. Se tienen los siguientes datos.

Edad 25 46 58 37 55 32 41 50 23 60 Ausentismo 18 12 8 15 10 13 7 9 16 6

Nota.- La edad esta expresada en años y el ausentismo en días por año.

a) Elaborar el diagrama de dispersión. b) Hallar el coeficiente de correlación y determinación e interpretar los resultados. c) Encontrar la ecuación de regresión por el método de mínimos cuadrados. d) Halle el intervalo de confianza y de predicción cuando la edad sea 30 años. e) Elabore el ANOVA para β. f) Halle el coeficiente de determinación corregido.

10. Se presenta la siguiente información del ingreso de una personas con el su ahorro.

Ingreso 350 400 450 500 950 850 700 900 600

Ahorro 100 110 130 160 350 350 250 320 130

Page 121: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 121 de 128

a) Elaborar el diagrama de dispersión. b) Hallar el coeficiente de correlación y determinación e interpretar los resultados. c) Encontrar la ecuación de regresión por el método de mínimos cuadrados. d) Halle el intervalo de confianza y de predicción cuando el ingreso sea de 1200. e) Elabore el ANOVA para β. f) Halle el coeficiente de determinación corregido.

11. Jennifer Sánchez, supervisora de la cadena de tiendas Estilos, quiere pronosticar

el tiempo que le toma a un cliente pagar en la caja. Decide usar las siguientes variables independientes: número de artículos comprados y la cantidad total de la compra. Entonces, recolecta los datos de muestra de 18 clientes, como se ve en la tabla P.8. a) Determine la mejor ecuación de regresión. b) Cuando se compra un artículo adicional, ¿cuál es el aumento promedio en el

tiempo que tardan en pagar en la caja? c) Calcule el residual del cliente 18. d) Calcule el error estándar de la estimación. e) Interprete el inciso d en los términos de las variables utilizadas en este

problema. f) Calcule un pronóstico del tiempo para pagar si un cliente compra 14 artículos y

paga una cantidad de 70 dólares. g) Calcule el intervalo estimado de 95% para su predicción del inciso f. h) ¿A qué conclusión debe llegar Jennifer?

Tabla P.8

Cliente Tiempo para

pagar (Minutos) Y

Cantidad (Dolares)

X1

Número de artículos

X2 1 3 36 9 2 1.3 13 5 3 0.5 3 2 4 7.4 81 14 5 5.9 78 13 6 8.4 103 16 7 5 64 12 8 8.1 67 11 9 1.9 25 7

10 6.2 55 11 11 0.7 13 3 12 1.4 21 8 13 9.1 121 21 14 0.9 10 6 15 5.4 60 13 16 3.3 32 11 17 4.5 51 15 18 2.4 28 10

12. La tabla P.9 contiene datos de gastos en alimentos, ingreso anual y el tamaño de

la familia para un ejemplo de 10 familias.

Tabla P.9 Familia Gastos Anuales en Ingreso Tamaño de la

Page 122: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 122 de 128

alimentos ($-100’s) Y

anual ($ -1000’s) Xg

familia X2

A 24 11 6 B 8 3 2 C 16 4 1 D 18 7 3 E 24 9 5 F 23 8 4 G 11 5 2 H 15 7 2 I 21 8 3 J 20 7 2

a) Construya la matriz de correlación para las tres variables de la tabla P.9.

Interprete las correlaciones en la matriz. b) Ajuste un modelo de regresión múltiple al relacionar los gastos en alimentos con el

ingreso y el tamaño de la familia. Interprete los coeficientes de regresiones parciales del ingreso y tamaño de la familia. ¿Parecen razonables?

c) Calcule los factores de expansión de la varianza (VIF) para las variables independientes. Con estos datos, ¿existe un problema de multicolinealidad?, si es así, ¿cómo modificaría el modelo de regresión?

13. Estamos intentando predecir la demanda anual de un cierto producto (DEMAND),

utilizando las siguientes variables independientes: PRECIO = precio de producto (en $) INGRESO= ingreso del consumidor (en$) SUB= precio de un bien sustituto (en $) (Nota: Un bien sustituto es aquel que puede suplir a otro bien. Por ejemplo, la margarina es un bien sustituto de la mantequilla.) Se han registrado datos correspondientes al periodo 1978-1992:

Año Demanda Precio ($) Ingreso ($) Sub ($) 1978 40 9 400 10 1979 45 8 500 14 1980 50 9 600 12 1981 55 8 700 13 1982 60 7 800 11 1983 70 6 900 15 1984 65 6 1000 16 1985 65 8 1100 17 1986 75 5 1200 22 1987 75 5 1300 19 1988 80 5 1400 20 1989 100 3 1500 23 1990 90 4 1600 18 1991 95 3 1700 24 1992 85 4 1800 21

a) Encontrar la ecuación de regresión de mejor ajuste para estos datos. b) Son los signos (+ o -) de los coeficientes de regresión de las variables

independientes como cabe esperar? Explique brevemente la respuesta (Nota:

Page 123: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 123 de 128

Ésta no es una pregunta estadística; solamente necesita pensar acerca de lo que significan los coeficientes de regresión)

c) Establezca e interprete el coeficiente de determinación múltiple del problema. d) Establezca e interprete el error estándar de la estimación para el problema. e) Utilizando la ecuación de regresión obtenida, ¿qué valor de DEMAND predeciría si

el precio de los productos fue de $6, el ingreso del consumidor de $1200 y el precio del bien sustituto fue de $17?

14. Una línea aérea cuya base está en Nueva Inglaterra ha efectuado una

investigación sobre sus 15 terminales y ha obtenido los siguientes datos correspondientes al mes de febrero, en los que:

VENTAS = recuperación total basada en el número de boletos vendidos (en miles de dólares) PROMOC = cantidad gastada en promover la línea aérea en la zona (en miles de dólares) COMPET = número de aerolíneas competidoras en ese aeropuerto GRATIS = porcentaje de pasajeros que vuelan gratis (por alguna razón)

Ventas ($) Promoc ($) Compet Gratis

79.3 200.1 163.2 200.1 146.0 177.7 30.9

291.9 160.0 339.4 159.6 86.3

237.5 107.2 155.0

2.5 5.5 6.0 7.9 5.2 7.6 2.0 9.0 4.0 9.6 5.5 3.0 6.0 5.0 3.5

10 8

12 7 8

12 12 5 8 5

11 12 6

10 10

3 6 9

16 15 9 8

10 4

16 7 6

10 4 4

a) Determinar la ecuación de regresión de mejor ajuste para la aerolínea. b) ¿Los pasajeros que vuelan gratis ocasionan que las ventas bajen

significativamente? Establezca y pruebe las hipótesis apropiadas. Use α= 0.05. c) ¿Un aumento en las promociones de $1000 cambia las ventas en $28000, o es

el cambio significativamente diferente a $28000? Establezca y pruebe las hipótesis apropiadas. Use α= 0.10.

d) Dé un intervalo de confianza de 90% para el coeficiente de la pendiente de COMPET.

15. Rick Blackburn está pensando en vender su casa. Con el fin de decidir qué precio

pedir por ella, ha recogido datos de doce ventas recientes. Registró el precio de las ventas (en miles de dólares), el número de pies cuadrados de construcción (en cientos de pies), el número de pisos, el número de baños y la antigüedad de la casa(en años).

Precio de venta Pies cuad. Pisos Baños Antigüedad

49.65 67.95 81.15

8.9 9.5 12.6

1 1 2

1.0 1.0 1.5

2 6 11

Page 124: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 124 de 128

81.60 91.50 95.25 100.35 104.25 112.65 149.70 160.65 232.50

12.9 19.0 17.6 20.0 20.6 20.5 25.1 22.7 40.8

2 2 1 2 2 1 2 2 3

1.5 1.0 1.0 1.5 1.5 2.0 2.0 2.0 4.0

8 22 17 12 11 9 8 18 12

a) Utilizando cualquier paquete de computadora que tenga disponible, determine la ecuación de regresión de mejor ajuste para los datos.

b) ¿Cuál es el valor de R² para esta ecuación? c) Si la casa de Rick tiene 1800 pies cuadrados, un piso, 1.5 baños y seis años de

antigüedad, ¿qué precio de venta podría esperar Rick? 16. Suponga que el siguiente conjunto específico de índices estacionales

corresponden a marzo, está dado como porcentajes y se obtuvo por el método de la proporción del modelo móvil:

102.2 105.9 114.3 122.4 109.8 98.9 ¿Cuál es el índice estacional para marzo al usar la mediana?

17. Los siguientes porcentajes específicos para los índices estacionales corresponden a diciembre:

75.4 86.8 96.9 72.6 80.0 85.4 Suponga un modelo de descomposición multiplicativa. Si la tendencia esperada para diciembre es de $900 y se usa el ajuste estacional de la mediana, ¿Cuál es el pronóstico para diciembre?

18. Al preparar un informe para June Bancock, gerente de Kula Department Store, usted incluye las estadísticas de las ventas del último año (tabla P.12). Después de verlas, la señora Bancock dice: “Este informe confirma lo que le he estado diciendo: el negocio está mejorando cada vez más.” ¿Es correcta esta afirmación? ¿Por qué sí o por qué no?

TABLA P.12

Mes Ventas

(miles de dólares)

ĺndice estacional

ajustado (%)

Enero 125 51 Febrero 113 50 Marzo 189 87 Abril 201 93 Mayo 206 95 Junio 241 99 Julio 230 96 Agosto 245 89 Septiembre 271 103 Octubre 291 120 Noviembre 320 131 Diciembre 419 189 Fuente: registros de Kula Department Store.

19. Los niveles de ventas trimestrales cuantificados en millones de dólares para

Goodyear Tire se muestran en la tabla P.13. ¿Parece que hay algún efecto

Page 125: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 125 de 128

estacional significativo en estos niveles de ventas? Analice esta serie de tiempo para obtener los cuatro índices estacionales, y determine la magnitud del componente estacional en las ventas de Goodyear. a) ¿Utilizaría los componentes de tendencia o estacional, o ambos para realizar el

pronóstico? b) Pronostique los trimestres tercero y cuarto de 1996. c) Compare sus pronósticos con los realizados por Value Line.

TABLA P.13

Año Trimestre

1 2 3 4 1985 2292 2450 2363 2477 1986 2063 2358 2316 2366 1987 2268 2533 2479 2625 1988 2616 2793 2656 2746 1989 2643 2811 2679 2736 1990 2692 2871 2900 2811 1991 2497 2792 2838 2780 1992 2778 3066 3213 2928 1993 2874 3000 2913 2916 1994 2910 3052 3116 3210 1995 3243 3351 3305 3267 1996 3246 3330 3340a 3300a

aEstimados de Value Line para 1996. Fuente: The Value Line Investment Survey (Nueva York, Value Line, 1988, 1989, 1993, 1994, 1996), p.126.

20. Las ventas mensuales para la Cavanaugh Company, listadas en la tabla P.14, se

presentan a continuación: a) Graficar la serie de datos. b) Realice una descomposición multiplicativa de las series de tiempo de ventas de

la Cavanaugh Company suponiendo los componentes de tendencia, estacional e irregular.

c) ¿Utilizaría los componentes de tendencia, estacionales, o ambos para realizar el pronóstico?

d) Proporcione los pronósticos por el resto de 2002.

TABLA P.14 Mes 1996 1997 1998 1999 2000 2001 2002

Enero 154 200 223 346 518 613 628 Febrero 96 118 104 261 404 392 308 Marzo 73 90 107 224 300 273 324 Abril 49 79 85 141 210 322 248 Mayo 36 78 75 148 196 189 272 Junio 59 91 99 145 186 257 Julio 95 167 135 223 247 324 Agosto 169 169 211 272 343 404 Septiembre 210 289 335 445 464 677 Octubre 278 347 460 560 680 858 Noviembre 298 375 488 612 711 895 Diciembre 245 203 326 467 610 664

Page 126: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 126 de 128

21. La demanda mensual de gasolina (miles de barriles por día) para la Yukong Oil Company de Corea del Sur, correspondiente al periodo de enero de 1986 a septiembre de 1996, está contenida en la tabla P.17. a) Grafique la serie de tiempo para la demanda de gasolina. ¿Cree que sería

adecuada una descomposición aditiva o una multiplicativa para esta serie de tiempo? Explique su respuesta.

b) Desarrolle un análisis de descomposición para la demanda de gasolina. c) Interprete los índices estacionales. d) Pronostique la demanda de gasolina para los últimos tres meses de 1996.

TABLA P.17 Mes 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996

Enero 15.5 20.4 26.9 36.0 52.1 64.4 82.3 102.7 122.2 145.8 170.0 Febrero 17.8 20.8 29.4 39.0 53.1 68.1 83.6 102.2 121.4 144.4 176.3 Marzo 18.1 22.2 29.9 42.2 56.5 68.5 85.5 104.7 125.6 145.2 174.2 Abril 20.5 24.1 32.4 44.3 58.4 72.3 91.0 108.9 129.7 148.6 176.1 Mayo 21.3 25.5 33.3 46.6 61.7 74.1 92.1 112.2 133.6 153.7 185.3 Junio 19.8 25.9 34.5 46.1 61.0 77.6 95.8 109.7 137.5 157.9 182.7 Julio 20.5 26.1 34.8 48.5 65.5 79.9 98.3 113.5 143.0 169.7 197.0 Agosto 22.3 27.5 39.1 52.6 71.0 86.7 102.2 120.4 149.0 184.2 216.1 Septiembre 22.9 25.8 39.0 52.2 68.1 84.4 101.5 124.6 149.9 163.2 192.2 Octubre 21.1 29.8 36.5 50.8 67.5 81.4 98.5 116.7 139.5 155.4 Noviembre 22.0 27.4 37.5 51.9 68.8 85.1 101.1 120.6 147.7 168.9 Diciembre 22.8 29.7 39.7 55.1 68.1 81.7 102.5 124.9 154.7 178.3

22. La tabla P.18 contiene los datos que representan las ventas mensuales de todas

las tiendas minoristas de Estados Unidos, en miles de millones de dólares. Utilice estos datos a lo largo de 1994 y desarrolle un análisis de descomposición para esta serie. Haga comentarios sobre los tres componentes de la serie. Pronostique las ventas al menudeo para 1995 y compare sus resultados con los valores reales que proporciona la tabla.

TABLA P.18 Mes 1988 1989 1990 1991 1992 1993 1994 1995

Enero 113.6 122.5 132.6 130.9 142.1 148.4 154.6 167.0 Febrero 115.0 118.9 127.3 128.6 143.1 145.0 155.8 164.0 Marzo 131.6 141.3 148.3 149.3 154.7 164.6 184.2 192.1 Abril 130.9 139.8 145.0 148.5 159.1 170.3 181.8 187.5 Mayo 136.0 150.3 154.1 159.8 165.8 176.1 187.2 201.4 Junio 137.5 149.0 153.5 153.9 164.6 175.7 190.1 202.6 Julio 134.1 144.6 148.9 154.6 166.0 177.7 185.8 194.9 Agosto 138.7 153.0 157.4 159.9 166.3 177.1 193.8 204.2 Septiembre 131.9 144.1 145.6 146.7 160.6 171.1 185.9 192.8 Octubre 133.8 142.3 151.5 152.1 168.7 176.4 189.7 194.0 Noviembre 140.2 148.8 156.1 155.6 167.2 180.9 194.7 202.4 Diciembre 171.0 176.5 179.7 181.0 204.1 218.3 233.3 238.0 Fuente: Survey of Current Business, 1989, 1993, 1996.

23. La empresa INSUR, se dedica a la producción de soportes de goma para disminuir

la vibración de los motores de camiones. La demanda mensual de los años 1999 - 2005 se presenta a continuación:

AÑO Mes 2000 2001 2002 2003 2004 2005 2006

Page 127: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 127 de 128

Enero 781 913 800 774 733 619 599 Febrero 790 822 671 810 722 657 590 Marzo 927 848 829 919 833 773 669 Abril 936 906 895 852 843 751 675 Mayo 912 918 830 874 885 819 744 Junio 923 1012 963 981 950 858 792 Julio 949 934 899 883 830 779 755 Agosto 926 894 903 901 880 777 675 Septiembre 1105 1149 955 937 956 825 737 Octubre 973 948 819 807 800 787 692 Noviembre 828 719 718 764 666 683 610 Diciembre 849 902 901 896 694 683 628

Se le pide encontrar un pronóstico para todos los meses de los años 2007-2008, haciendo uso del índice estacional ajustado con los promedios móviles, considere el promedio móvil de 12 meses.

24. La siguiente semana. Stan se dirigió a Laurel para pedirle algunos datos para su próxima reunión sobre ventas.

Si recuerdas las primeras pláticas que tuvimos sobre la historia de la compañía le dio, recordarás que te dije como os sellos y el equipo para sellar, nuestra línea de producción más extensa, son la piedra angular de nuestras ventas. De hecho es la línea de productos con la que, básicamente empezó el negocio el Señor Douglas. Como están las cosas, también es la línea de productos que genera mayor nuestro mayor porcentaje de cobertura ¿Hay algo que puedas hacer, como diagramas o gráficas, que pudiera ilustrar el comportamiento de las ventas de sellos durante los últimos diez años o algo así? Tengo datos de las ventas por día o por mes con los que puedes trabajar.

¿Qué tal si desestacionalizo los datos para mostrar una tasa de crecimiento más precisa? Sugirió Laurel. Puedo utilizar las cifras sobre ventas mensuales y generar algunas gráficas que muestren las tendencias. Calculando una estimulación de mínimos cuadrados, también podrá darte una herramienta aproximado para que puedas predecir la venta de sellos, sin tomar en cuenta las diferentes temporadas de ventas, quiero decir, para los años venideros ¿Qué te parece?

Me perdí en la parte de los mínimos cuadrados – admitió Stan - , pero suena exactamente como la clase de cosa que estoy buscando. Será interesante ver como se ven las ve tas sin el efecto de las temporadas. ¿podrás tener una primera información de las cifras para el inicio de la siguiente semana?

Claro que si, respondió Laurel. Te traeré todo a tu oficina el lunes o el martes.

a) Haga un análisis de serie temporal de las ventas de sellos durante los últimos diez años. Desestacionalice las ventas por mes, utilizando el método de razón de promedio móvil (use un promedio móvil centrado de doce meses). Luego encuentre la ecuación lineal de mínimos cuadrados que mejor describa los datos desestacionalizados.

b) Utilice los resultados que obtuvo para predecir las ventas de cada mes del 2007

c) Observe los residuos asociados con la ecuación de regresión lineal ¿Existe algún patrón que pueda hacerle sospechar que una línea recta no es el mejor ajuste?

Page 128: Material Del Curso

Estadística Aplicada

DocenteDocenteDocenteDocente: : : : Ing. Ferly Urday Luna Página 128 de 128

Ventas mensuales de sellos (1997 – 2006)

Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006

1421 1535 1381 1561 1734 2232 1867 2365 2662 3328

1434 1549 1395 1576 1751 1704 1873 2060 2590 3237

1952 2108 1897 2144 2382 1733 2053 2242 2799 3500

1533 1656 1490 1684 1871 2017 1906 2820 2605 3256

1853 2001 1801 2035 2261 2258 2465 2409 2907 3630

1516 1637 1473 1665 1850 1914 2094 2191 2513 3141

1663 1796 1619 1829 2029 1895 2691 2871 3230 4037

1969 2127 1914 2163 2403 2429 2331 2414 3171 3910

1304 1408 1347 1522 1591 2028 2233 2890 3126 3910

1465 1582 1424 1609 1788 2371 2828 2380 3676 4595

1369 1478 1330 1503 1670 1557 2008 2730 2610 3263

979 1057 1360 1511 1194 1381 1901 2157 2804 3505

25. Los índices estacionales ajustados que se presentan en la tabla P.19 reflejan el

volumen cambiante del negocio del Mt. Spokane Resort Hotel, el cual recibe a familias que vacacionan durante el verano y a esquiadores entusiastas durante los meses de invierno. No se esperan variaciones cíclicas repentinas durante 2003. a) Si 600 turistas estuvieran en el centro vacacional en enero de 2003, ¿cuál sería

un estimado razonable para febrero? b) La ecuación de tendencia mensual es Ť = 140 +5t donde t = 0 representa el 15

de enero de 1997. ¿Cuál es el pronóstico para cada mes de 2003? c) ¿Cuál es el número promedio de turistas nuevos por mes?

TABLA P.19

Mes

ĺndice estacional ajustado Mes

ĺndice estacional ajustado

Enero 120 Julio 153 Febrero 137 Agosto 151

Marzo 100 Septiembre 95

Abril 33 Octubre 60 Mayo 47 Noviembre 82 Junio 125 Diciembre 97 Fuente: registros del Mt. Spokane Resort Hotel.

BIBLIOGRAFIA Estadística para Administración y Economía por Anderson.