Download - Pres unid i estadistica descriptiva 2011
RJAL
UNIDAD I: ESTADISTICA DESCRIPTIVA
UNIVERSIDAD NACIONAL DE INGENIERIAFACULTAD DE CIENCIAS Y SISTEMA
INGENIERIA DE SISTEMA
ESTADISTICA I
MSC. ROBERTO JOSE AGUILERA LOPEZ
RJALDEFINICION DE ESTADISTICA
Se define como la ciencia que se encarga de reunir, organizar, presentar, analizar e interpretar datos para ayudar a tomar mejores decisiones.
Se dice que es la ciencia de la toma de decisiones a partir de datos cuantitativos y cualitativos, este proceso incluye determinar los atributos y cualidades reales al igual que realizar estimaciones y verificar hipótesis mediante las cuales se determinan valores probables o esperados.
Rama de las matemáticas que aborda el tema de la organización, recolección, presentación, análisis e interpretación de grupos de datos numéricos
13/04/2023 2 ING. ROBERTO AGUILERA LOPEZ
RJAL
En términos de áreas funcionales de negocios la estadística puede aplicarse por ejemplo en:
Contabilidad: Para seleccionar muestras con propósitos de auditoría.
Finanzas: Para decidir si se concede o no un préstamo basado en las características demográficas, historial crediticio, ingresos, etc. Predecir la tasa de rendimiento de un activo. Evaluar oportunidades de inversión.
Administración: Para describir características de empleados dentro de una organización.
13/04/2023 3 ING. ROBERTO AGUILERA LOPEZ
IMPORTANCIA DE LA ESTADISTICA
RJAL
Mercadeo: Para estimar la demanda de un producto. Para determinar los efectos de una campaña publicitaria
Producción: Para el control de calidad de un proceso de producción.
Macroeconómico: Para analizar el comportamiento de las tasas tributarias, el comportamiento de la inversión, del consumo y el de la producción entre otros.
13/04/2023 4 ING. ROBERTO AGUILERA LOPEZ
IMPORTANCIA DE LA ESTADISTICA
RJAL
Para tomar una decisión eficaz y oportuna se necesita de la estadística para ser capaz de:
Determinar si la información existente es adecuada o si se necesita información adicional.
Conseguir información adicional, si es necesaria, de manera que no lleve resultados erróneos.
Resumir la información de una manera útil e informativa
Analizar la información disponible. Sacar conclusiones y hacer inferencias
determinando el riesgo de una conclusión incorrecta.
13/04/2023 5 ING. ROBERTO AGUILERA LOPEZ
IMPORTANCIA DE LA ESTADISTICA
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ6
USARIOS DE LA ESTADISTICA
Organismos oficiales Administradores y gerentes de línea Investigadores científicos Diarios y revistas Políticos Deportistas Marketing Control de calidad Policía Médicos, etc.
IMPORTANCIA DE LA ESTADISTICA
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ7
ESTADISTICA DESCRIPTIVA
RAMAS DE LA ESTADISTICA
La estadística descriptiva se puede definir como aquellos métodos que incluyen la recolección, organización, presentación y caracterización de un conjuntos de datos con el fin de describir apropiadamente las diversas características de ese conjunto de datos
Ejemplo 1: Los datos del Censo de población de 2001.
Ejemplo 2: La cantidad de robos ocurridos el último mes en el municipio.
Ejemplo 3: La cantidad de pacientes atendidos en un Hospital municipal el último año.
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ8
ESTADISTICA INFERENCIAL
RAMAS DE LA ESTADISTICA
La estadística inferencial puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de decisión referente a una población , basándose en los resultados de una muestra.
Población(1) es la colección o conjunto de individuos, objetos o eventos cuyas propiedades serán analizadas. Puede ser finita o infinitaMuestra es un subconjunto de la población de interés.
(1) Algunos autores utilizan Universo como sinónimo
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ9
Ejemplos de inferencia estadística
Predecir el periodo de vida útil de un equipo (sobre la base del desempeño de estas maquinas)
Determinar las dosis de un medicamento (sobre la base de pruebas realizadas)
Pronosticar la cantidad de ventas de un producto (sobre la base de su precio, diseño, ubicación, publicidad)
RAMAS DE LA ESTADISTICA
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ10
RECOPILACION DE DATOS
Datos de fuentes primarias: Son aquellos datos que no han sido recopilados anteriormente por parte de organismos que trabajan en la obtención y elaboración de datos y que por consiguiente, son observados y anotados por el investigador.
• Encuestas• Observación• Entrevistas con expertos• Entrevistas de grupo con personas
informadas
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ11
RECOPILACION DE DATOS
Datos de fuentes secundarias son datos ya han sido recopilados y elaborados para propósito diferentes de las necesidades inmediatas y específicas de una investigación
Los datos secundarios se clasifican como provenientes de:
Fuentes internas: disponible dentro de la organización.
Fuentes externas: son proporcionados por fuentes externas a la organización
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ12
RECOPILACION DE DATOS
Recolección de información primariaRecolección de información secundaria
EncuestasPor correoTelefónicasPersonales
EntrevistasDe gruposPersonales
Observación
Experimental
PersonalMecánica
TestRetornoEtiquetasMercado
Fuentes internas
Fuentes externas
Registros contablesBanco de datos de marketing
CensosPublicaciones periódicasInformes
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ13
Parámetro: Valor numérico que resume todos los datos de una población completa. Se utilizan letras griegas para simbolizar un parámetro como ser y .
Ejemplos: La calificación “promedio” del estudiante de secundaria en el momento de admisión de todos los estudiantes a una Universidad.
Estadística: Valor numérico que resume los datos de una muestra. Se utilizan letras del alfabeto español para simbolizarlas como y s .
Ejemplo: La edad “promedio” registrada en una encuesta de 150 consumidores de gaseosas.
RECOPILACION DE DATOS
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ14
Variable: Característica de interés sobre cada elemento individual de una población o muestra.
Datos: conjunto de valores recolectados de la variable asociada a un elemento de la población o muestra. Estos valores pueden ser números, palabras o símbolos.
Ejemplo: La familia López tiene “6” miembros, sus ingresos mensuales son de “C$ 12,355”, “4” son de sexo femenino y “2” masculino.
RECOPILACION DE DATOS
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ15
RECOPILACION DE DATOS Cualitativa o de Atributos: clasifica o describe un elemento
de la población. Los valores que puede asumir no constituyen un espacio métrico, por lo tanto las operaciones aritméticas, como sumar y obtener promedios, no son significativas.
Ejemplos: Sexo, nacionalidad, marcas de auto, grado de satisfacción, etc.
Cuantitativa o Numérica: Cuantifica un elemento de la población. Los valores que puede asumir constituyen un espacio métrico, por lo tanto las operaciones aritméticas, como sumar y obtener promedios, son significativas.
Ejemplos: Cantidad de habitaciones, número de hijos, kilómetros recorridos, tiempo de vuelo, ingreso, etc.
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ16
RECOPILACION DE DATOS Variables Discretas: solo pueden asumir ciertos valores y
normalmente hay huecos entre ellos. Es decir cuando los posibles valores son un conjunto finito entre dos valores dados.
Ejemplo 1: Cantidad de materias aprobadas.(1, 2,3 ......) Ejemplo 2: Cantidad de hijos (1, 2, 3, 4...)
Variables Continuas: son aquellas que pueden tomar cualquier valor dentro de un rango especifico de medición. Normalmente se miden magnitudes como ser longitud, superficie, volumen, peso, tiempo, dinero.
Ejemplo 1: Peso al nacer. Ejemplo 2: Salario de un empleado. Ejemplo 3: Tiempo de viaje en bus entre Chinandega y León.
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ17
PRESENTACION DE DATOSUna vez que los datos se recopilan se presentan básicamente mediante tablas y por gráficos.
TITULO (ENCABEZAMIENTO) CONTENIDO (CUERPO) FUENTE
CALIFICACIONES DE ESTADISTICAS
GRUPO 2M1IS
68
52
44
32
10
73
73
31
32
83
45
61
61
45
21
95
58
35
66
83
15
67
62
42
96
65
81
72
60
55
DEPARTAMENTO DE MATEMATICA RUPAP - UNI
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ18
PRESENTACION DE DATOSCuando disponemos de gran número de datos es útil el distribuirlo en clases o categorías y determinar el número de individuos pertenecientes a cada clase, que es la frecuencia de clase. Alturas de 100 estudiantes de la UNI
ALTURA
(mts)
NUMERO DE
ESTUDIANTES
1.41 - 1.50
23
1.51 - 1.60
28
1.61 - 1.70
37
1.71 - 1.80
10
1.81 - 1.90
2
TOTAL
100
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ19
PRESENTACION DE DATOSUna distribución de frecuencia es una ordenación tabular de datos estadísticos que muestran cuantos elementos o que partes entran en diferentes intervalos o categorías en los cuales se agrupan los datos. Las distribuciones de frecuencia pueden ser distribuciones numéricas o cualitativas.
DÍAS
ARTÍCULOS
DEFECTUOSOS
1
35
2
45
3
52
4
31
5
48
Número de estudiantes
Planean ir a la Universidad
240
Quizás vayan a la Universidad
140
Quizás vayan a un vocacional
60
No seguirán estudiando
60
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ20
PRESENTACION DE DATOS
Para construir distribuciones de frecuencias se debe de tomar en cuenta que: Siempre nos aseguramos de que cada elemento quede
en una sola clase. Siempre que sea posible, hacemos que las clases
cubran escalas o intervalos iguales. El número de clases depende del número de
observaciones pero tiene muy poca utilidad usar menos de 5 o más de 20 clases.
Se deben evitar las clases abiertas (menos de, más de, menor que, mayor que) ya que hacen imposible el cálculo de ciertas descripciones adicionales que sean de interés.
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ21
PRESENTACION DE DATOSPasos para organizar los datos en una distribución de frecuencia 1. Seleccionar el número apropiado de agrupamientos de
clases. En general la tabla deberá tener entre 5 y 20 clases. Se puede utilizar una regla simple para aproximar el número de clases a utilizar, c, la cual es 2c > n, donde n es el número de datos.
2. Determinar el intervalo o amplitud de clase de cada agrupamiento.
Valor unitario siguiente Valor más Ancho de después del valor más - pequeño de los intervalos = grande de los datos los datos .de clase Número total de intervalos
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ22
PRESENTACION DE DATOSPasos para organizar los datos en una distribución de frecuencia 3. Establecer los límites de cada agrupamiento de clase
para evitar los traslapes.
4. Clasifique los puntos de datos en clase y cuente el número de observaciones que hay en cada clase. Al número de observaciones en cada clase se le llama frecuencia de clase.
La marca de clase es el punto medio del intervalo de clase y se obtiene sumando el límite inferior al límite superior de la clase y dividiendo entre dos.
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ23
PRESENTACION DE DATOSEjemplo: Los siguientes datos indican el número de trabajadores que faltan a una fábrica en 50 días de trabajo. Construya una tabla de distribución de frecuencia. Represéntelos gráficamente a través de un histograma de frecuencia, un polígono de frecuencias, una ojiva y una ojiva porcentual.
13
5
13
37
10
16
2
11
6
12
8
21
12
11
7
7
9
16
39
18
3
11
19
6
15
10
14
10
7
24
11
3
6
10
4
6
32
9
12
7
29
12
9
9
8
20
15
5
17
10
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ24
REPRESENTACIÓN GRÁFICA DE LOS DATOS
HISTOGRAMA DE FRECUENCIA.Consiste en una serie de rectángulos que tienen sus bases sobre el eje horizontal con centro en las marcas de clase (Xi), ancho igual al tamaño de los intervalos de clase y alturas proporcionales a las frecuencias de clase. POLÍGONO DE FRECUENCIA.Gráfico que consiste en unir los puntos formados por la intersección de cada marca de clase (Xi) y la frecuencia de clase (fi). Es decir la frecuencia dentro de un intervalo de clase se representa como un punto, cuya abcisa es la marca de clase. Posteriormente, se unen los puntos para obtener el polígono de frecuencia, teniendo cuidado de agregar al inicio y al final marcas de clases adicionales.
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ25
REPRESENTACIÓN GRÁFICA DE LOS DATOS
OJIVAGráfico que resulta de unir los puntos colocados encima de los límites reales de la clase a una altura según la frecuencia absoluta acumulada o es decir se marcan los intervalos de clase en el eje horizontal y la frecuencia absoluta acumulada en el eje vertical como ordenada en el extremo derecho de dicho intervalo. OJIVA PORCENTUALGráfico que resulta al unir los puntos colocados encima de los límites reales de clase a una altura según la frecuencia relativa acumulada.
DIAGRAMA DE PASTEL.Es un círculo dividido en sectores circulares proporcionales al tamaño de las frecuencias.
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ26
MEDIDAS DE TENDENCIA CENTRAL
Un promedio es un valor que es típico o representativo de un conjunto de datos. Como tales, estos valores tienden a situarse en el centro del conjunto de datos ordenados según su magnitud, los promedios se conocen también como medidas de centralización DATOS NO
AGRUPADOS
LA MEDIA
MEDIANA
LA MODA
MEDIA PONDERADA
MEDIA GEOMETRICA
DATOS AGRUPADOS
LA MEDIA
MEDIANA
LA MODA
CUARTILES
DECILES
PERCENTILES
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ27
MEDIDAS DE TENDENCIA CENTRAL.
DATOS NO AGRUPADOSMedia aritmética Media poblacional = Suma de todos los valores de la población Número de valores en la población
Media muestral = Suma de todos los valores en la muestra Número de valores en la muestra
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ28
MEDIDAS DE TENDENCIA CENTRAL.
Mediana La mediana de un conjunto de observaciones xi se define como el valor M que cae en el centro de los dos valores centrales cuando las observaciones están colocadas en orden de magnitud. Si el conjunto de datos tiene un número impar de observaciones, la posición de la mediana es Posición de la mediana = (n + 1) / 2 Con un conjunto de datos que contiene un número par de observaciones es necesario promediar los dos valores medios.
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ29
MEDIDAS DE TENDENCIA CENTRAL.
Moda La moda es el valor de las observaciones que se presentan con más frecuencia, es decir el valor más común. La moda puede no existir, incluso si existe puede no ser única. La denotaremos por Mo.
Media ponderadaSe presenta cuando se tienen varias observaciones con un mismo valor. X = f1x1 + f2x2 + f3x3 +... + fkxk = Σfixi = Σfixi
f1 + f2 + f3 + ..... fk Σfi n
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ30
MEDIDAS DE TENDENCIA CENTRAL.
Media geométrica La media geométrica es útil para encontrar el promedio de porcentajes, proporciones, índices o tasas de crecimiento. Como tal, tiene una gran aplicación en los negocios y la economía, debido a que con frecuencia se está interesado en establecer el cambio porcentual en las ventas, en el salario, en el producto interno bruto, o en cualquier serie económica. La media geométrica proporciona una medida precisa de un cambio porcentual promedio en una serie de números.
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ31
MEDIDAS DE TENDENCIA CENTRAL.
DATOS AGRUPADOSMedia aritmética
Mediana
M = Linf + [n/2 - F] * c fmd
Linf = Límite inferior de la clase medianan = Tamaño de la muestra.c = Tamaño de la clase mediana.F = Frecuencia acum. de la clase que antecede a la clase mediana.fmd = Frecuencia de la clase mediana.
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ32
MEDIDAS DE TENDENCIA CENTRAL.
ModaLa moda es el intervalo de clase (a menudo indicada por el punto medio de la clase) que posee la mayor frecuencia. M = Linf + [ Da ] * c Db + Da
Linf: Límite inferior real de la clase modal.c : Tamaño de la clase modal.Da : Diferencia entre la frecuencia de la clase modal y la clase que la antecede.Db : Diferencia entre la frecuencia de la clase modal y la clase que le sigue.
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ33
MEDIDAS DE TENDENCIA CENTRAL.
POSICIONES RELATIVAS DE LA MEDIA, LA MEDIANA Y LA MODA Si el polígono de frecuencia, es simétrico, es decir que la distribución tiene la misma forma a ambos lados del centro; la moda, la mediana y la media aritmética se localizan en el centro y son siempre iguales.
Curva A
Moda = Mediana = Media
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ34
MEDIDAS DE TENDENCIA CENTRAL.
Curva B
Media M Mo
Sesgada a la izquierda (negativamente sesgada)
Frecuencia
Curva A
Mo M Media
Sesgada a la derecha (positivamente sesgada)
Frecuencia
DISTRIBUCIÓN SESGADA A LA DERECHA
DISTRIBUCIÓN SESGADA A LA IZQUIERDA
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ35
MEDIDAS DE TENDENCIA CENTRAL.
OTROS TIPOS DE MEDIDAS: CUARTILES, DECILES Y PERCENTILES.
¼ de las observaciones
¼ de las observaciones
Alcance intercuartil
Observación más baja
Observación más alta
1er cuartilQ1
2do cuartilQ2
3er cuartilQ3
MEDIANA Q1 Q2 Q3 └─────┴─────┴──┼──┴─────┴─────┼─────┴─────┴──┼──┴─────┴─────┴ 0 1 2 │ 3 4 5 6 7 │ 8 9 10 P25 P50 P75 D1 D2 D3 D4 D5 D6 D7 D8 D9 D10
RJAL
13/04/2023 ING. ROBERTO AGUILERA LOPEZ36
MEDIDAS DE TENDENCIA CENTRAL.
Las fórmulas para los cuartiles Q1 y Q3 son: 𝑄1 = 𝐿𝑖𝑛𝑓 + (𝑛4 − σ𝑓𝑖𝑛𝑓)𝑓𝑐𝑢𝑎𝑟𝑡𝑖𝑙 ∗𝐶 𝑄3 = 𝐿𝑖𝑛𝑓 + (3𝑛4 − σ𝑓𝑖𝑛𝑓)𝑓𝑐𝑢𝑎𝑟𝑡𝑖𝑙 ∗𝐶
Las fórmulas para los deciles D1 y D9 son: 𝐷1 = 𝐿𝑖𝑛𝑓 + ( 𝑛10 − σ𝑓𝑖𝑛𝑓)𝑓𝑑𝑒𝑐𝑖𝑙 ∗𝐶 𝐷9 = 𝐿𝑖𝑛𝑓 + (9𝑛10 − σ𝑓𝑖𝑛𝑓)𝑓𝑑𝑒𝑐𝑖𝑙 ∗𝐶
Las fórmulas para los percentiles P30 y P68 son: 𝑃30 = 𝐿𝑖𝑛𝑓 + (30𝑛100 − σ𝑓𝑖𝑛𝑓)𝑓𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 ∗𝐶 𝑃68 = 𝐿𝑖𝑛𝑓 + (68𝑛100 − σ𝑓𝑖𝑛𝑓)𝑓𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 ∗𝐶
RJAL