![Page 1: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/1.jpg)
1
Temario de la asignatura
• Introducción.
• Análisis de datos univariantes.
• Análisis de datos bivariantes.
• Series temporales y números índice.
• Probabilidad y Modelos probabilísticos.
• Introducción a la inferencia estadística.
Estadística aplicada al Periodismo
![Page 2: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/2.jpg)
2
1. Representaciones y gráficos. Tablas de frecuencias.
Diagrama de barras, Pictogramas, Histograma y Polígono de frecuencias.
2. Resumen numérico. Medidas de localización.
Medidas de dispersión.
Medidas de forma.
Lecturas recomendadas:
• Capítulos 2 a 6 del libro de Peña y Romo (1997)
• Capítulos 3 a 7 del libro de Portilla (2004)
Tema 2: Análisis de datos univariantes
![Page 3: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/3.jpg)
3
Medidas de localización o posición Moda
Mediana
Media
Cuantiles
Medidas de dispersión
Medidas de forma
Lecturas recomendadas: Capítulos 4 y 5 del libro de Peña y Romo (1997)
Capítulo 5 a 7 del libro de Portilla (2004)
Tema 2: Análisis de datos univariantes
![Page 4: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/4.jpg)
4
MEDIDAS DESCRIPTIVAS
¿Para qué nos sirven?
¿Se pueden calcular todas con todo tipo de variables?
¿Cuáles son las más adecuadas en cada caso?
¿De qué forma podemos sacar partido a nuestra calculadora?
2.3 Medidas de localización o posición
![Page 5: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/5.jpg)
5
LA MODA: (Cuando los datos no están agrupados enintervalos)
Es el valor que aparece con una frecuencia mayor.
Puede haber más de una moda: bimodal-trimodal-plurimodal
7 7 7 5 3 5 11 7
11 2 11 7 4 8 8 7
10 2 5
¿Qué valor toma la moda?
2.3 Medidas de localización o posición
![Page 6: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/6.jpg)
6
LA MODA: (Cuando los datos están agrupados en intervalos)
Clases ni Marca de clase
[0,5) 11
[5,10) 13
[10,15) 6
[15,20) 2
[20,25) 1
[25,30) 3
Podemos encontrar: La CLASE MODAL
¿En la representación gráfica?
¿Podemos calcularla para DATOS CUALITATIVOS?
2.3 Medidas de localización o posición
![Page 7: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/7.jpg)
7
LA MEDIANA: (Cuando los datos no están agrupados en intervalos)
Es la observación que ocupa el “lugar” central
7 7 7 5 3 5 11 7
11 2 11 7 4 8 8 7
10 2 5
¿Qué valor toma la mediana?
1. Ordenamos los datos de menor a mayor.
2. Tenemos en cuenta también los que se repiten.
3. La mediana, es el “CENTRO FÍSICO” de los datos.
¿Cómo cambia el cálculo si n es par o impar?
2.3 Medidas de localización o posición
![Page 8: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/8.jpg)
8
LA MEDIANA: (Cuando los datos están agrupados en intervalos)
Podemos encontrar:
El INTERVALO MEDIANO
Pero, ¿y si queremos calcular exactamente el valor de la MEDIANA?
1
12
i
i i
i
nN
Me LIn
¿Podemos calcularla para DATOS CUALITATIVOS?
Clases ni Marca de clase
[0,5) 13 2,5
[5,10) 11 7,5
[10,15) 6 12,5
[15,20) 2 17,5
[20,25) 1 22,5
[25,30) 3 27,5
2.3 Medidas de localización o posición
![Page 9: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/9.jpg)
9
LA MEDIA ARITMÉTICA: Es el PROMEDIO de los valores de la muestra
7 7 7 5 3 5 11 7
11 2 11 7 4 8 8 7
10 2 5
¿Qué valor toma la media?
1. Sumamos los datos.
2. Los dividimos por el número total de datos (n).
1 1 2 ...
n
i
i n
xx x x
Xn n
(Cuando los datos no están agrupados en intervalos)
2.3 Medidas de localización o posición
![Page 10: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/10.jpg)
10
LA MEDIA ARITMÉTICA:
El valor de la media con
los datos agrupados en
intervalos utiliza la
marca de clase.
¿Podemos calcularla para DATOS CUALITATIVOS?
(Cuando los datos están agrupados en intervalos)
Clases ni M.C. (xi) ni xi
[0,5) 13 2,5 32,5
[5,10) 11 7,5 82,5
[10,15) 6 12,5 75
[15,20) 2 17,5 35
[20,25) 1 22,5 22,5
[25,30) 3 27,5 82,5
330 Suma
9,17 Media
2.3 Medidas de localización o posición
![Page 11: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/11.jpg)
11
1 , siendo el número de intervalos
K
i i
i
x n
X Kn
La MEDIA ARITMÉTICA para datos agrupados en intervalos es
entonces:
(Cuando los datos están agrupados en intervalos)
2.3 Medidas de localización o posición
![Page 12: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/12.jpg)
12
LOS CUANTILES: (Cuando los datos no están agrupados en intervalos)
Nos divide en conjunto de datos en k partes.
Si por EJEMPLO tenemos diez datos (N=10), y queremos hacer cuatro partes(k=4), necesitamos tres marcas (c1, c2 y c3)
Cuando k=4, se llaman CUARTILES; cuando k=10, DECILES;
y cuando k=100, CENTILES.
2.3 Medidas de localización o posición
![Page 13: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/13.jpg)
13
CÁLCULO DE CUARTILES
Tenemos el siguiente conjunto de datos:
47 52 52 57 63 64 69 71
72 72 78 81 81 86 91
1. Ordenamos los datos de menor a mayor.
2. Calculamos c2 , que ocupa la posición correspondiente a la “mitad”,
¿con qué parámetro visto ya coincide este segundo cuartil?
3. Ahora calculamos, la “mitad” de la primera parte: c1 .
4. Y la “mitad” de la segunda parte: c3 .
2.3 Medidas de localización o posición
![Page 14: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/14.jpg)
14
47 47
52 52
52 52
57 57
63 63
64 64
69 69
71 71 71
72 72
72 72
78 78
81 81
81 81
86 86
91 91
c2 = 71
c1 = 60
c3 = 79,5
2.3 Medidas de localización o posición
![Page 15: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/15.jpg)
15
Medidas de localización o posición
Medidas de dispersión Varianza y desviación típica
Coeficiente de variación
Rango y rango intercuartílico
Medidas de forma Asimetría.
Curtosis o apuntamiento.
Lecturas recomendadas: Capítulos 4 y 5 del libro de Peña y Romo (1997)
Capítulos 6 y 7 del libro de Portilla (2004)
Tema 2: Análisis de datos univariantes
![Page 16: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/16.jpg)
16
PRIMER CONJUNTO DE DATOS
(Salarios anuales en € de la empresa A)
30700 32500 32900 33800
34100 34500 36000
SEGUNDO CONJUNTO DE DATOS
(Salarios anuales en € de la empresa B)
27500 31600 31700 33800
35300 34000 40600
Vamos a calcular: MEDIA y MEDIANA de
ambos conjuntos de datos:
Observa ahora las representaciones
gráficas.
Señala media y mediana.
¿Tenemos suficiente información?
2.3 Medidas de dispersión: Varianza
![Page 17: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/17.jpg)
17
Parece que la diferencia entre ambos conjuntos de datos son las
DISTANCIAS A LA MEDIA, vamos a calcularlas.
X XEmpresa A xi- Empresa B xi-
30700 -2800 27500 -6000
32500 -1000 31600 -1900
32900 -600 31700 -1800
33800 300 33800 300
34100 600 34000 500
34500 1000 35300 1800
36000 2500 40600 7100
¿Cuánto suman nuestras dos nuevas columnas?
NUEVA PROPIEDAD:
1
0n
i
i
x X
¿Por qué sucede esto? ¿Podemos solucionarlo de alguna manera?
2.3 Medidas de dispersión: Varianza
![Page 18: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/18.jpg)
18
¿Qué hacemos para poder compararlas?
2
21
n
i
i
x X
n
Empresa A Empresa B
30700 7840000 27500 36000000
32500 1000000 31600 3610000
32900 360000 31700 3240000
33800 90000 33800 90000
34100 360000 34000 3240000
34500 1000000 35300 250000
36000 6250000 40600 50410000
16900000 96840000
¿Qué unidades tiene este nuevo estadístico? ¿Podemos cambiarlas?
¿Qué indica este nuevo
estadístico?
Modificamos nuestro cálculo:
2.3 Medidas de dispersión: Varianza
![Page 19: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/19.jpg)
19
Cuando la media sea distinta de “0”, podemos calcular:
XCV
Nos permite comparar, porque no tiene unidades.
¿Para qué nos sirve con una única base de datos?
EJERCICIO 1:
Analizamos el volumen de consultas durante el período de exámenes en 10
bibliotecas universitarias, y se comparan con las anotadas el año anterior. El %
de incremento de consultas fue: 10.2 2.9 3.1 6.8 5.9
7.3 7.0 8.2 3.7 4.3
¿Son los datos homogéneos?
2.3 Medidas de dispersión: Coeficiente de variación
![Page 20: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/20.jpg)
20
Rango: la diferencia entre el mayor y el menor de los datos.
EJERCICIO 2:
Calcula estas dos medidas para el ejercicio anterior.
Medidas de dispersión: Rango y rango intercuartílico
Rango intercuartílico: la diferencia entre el tercer y el primer
cuartil.
![Page 21: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/21.jpg)
21
Medidas de localización o posición
Medidas de dispersión
Medidas de forma Asimetría.
Curtosis o apuntamiento.
Tema 2: Análisis de datos univariantes
![Page 22: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/22.jpg)
22
La distribución es simétrica, la media deja por
delante el mismo nº de observaciones que por
detrás.
Asimétrica derecha: los valores bajos son los más frecuentes.
Asimétrica izquierda: los valores mayores son los más frecuentes.
2.2.3 Medidas de forma
![Page 23: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/23.jpg)
23
COEFICIENTE DE ASIMETRÍA DE PEARSON:
CA=0 Simétrica
CA>0 Asimétrica derecha
CA<0 Asimétrica izquierda
COEFICIENTE DE ASIMETRÍA DE FISHER(cuando existe más de una moda):
MoXCA
3
31
3 3
n
i
i
x xm
CAn
2.2.3 Medidas de forma
![Page 24: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/24.jpg)
24
Podemos verlo gráficamente, comparando con la curva normal:
COEFICIENTE DE CURTOSIS DE FISHER:
4
1
43
n
i
iP
x x
CAn
CAP = 0 (mesocúrtica)
CAP > 0 (leptocúrtica)
CAP < 0 (platicúrtica)
2.2.3 Medidas de forma
![Page 25: Estadística aplicada al Periodismohalweb.uc3m.es/esp/Personal/personas/amalonso/esp/EAPtema2(2010)p2.pdf · ¿Para qué nos sirve con una única base de datos? EJERCICIO 1: Analizamos](https://reader035.vdocuments.pub/reader035/viewer/2022081615/5fe13fe1f9f43b6117650df9/html5/thumbnails/25.jpg)
25
Trabaja con la siguiente base de datos (calificaciones de un grupo de alumnos):
EJERCICIO: Cálculo de las medidas forma estudiadas.
100 112 88 105 100 102 98 113
102 87 93 93 117 100 98 92
100 117 97 100 83 67 76 100
106 117 89 83 100 109 109 93
105 108 104 63 81 109 100 98
2.2.3 Medidas de forma