REPASO BLOQUE I: TEMAS 1-4
ESTADÍSTICA DESCRIPTIVA EN GEOGRAFÍA
¿Qué hemos visto?
Tipos de variables
Niveles de medición de las variables
Tabulación y representación gráfica de las variables
Estadísticos/ Parámetros:
Medidas de centralización: Media, mediana y moda• Diferenciar sus propiedades.
Posición (cuantiles, percentiles,...) Medidas de dispersión
• con unidades: rango, rango intercuartílico, varianza, desv. Típica…• sin unidades: coeficiente de variación intercuartílica, coeficiente
variación Pearson
TIPOS DE VARIABLESCUALITATIVAS
CUANTITATIVAS
DISCRETAS CONTINUAS
Se refieren a los aspectos no medibles o cualidades de los individuos (estado civil, lugar de nacimiento...). Las variables cualitativas toman valores que no pueden ser ordenados ni operados conforme a las reglas aritméticas; a estos valores se les suele denominar modalidades
Miden alguna cualidad o atributo "cuantificable" de los individuos. (Valor numérico)
Las variables discretas, al ser numerables, pueden tomar una serie de valores determinados, pero no los valores intermedios (Ej, número de años de escolarización, número de hijos por familia…).
Las variables continuas, aquellas medibles que pueden tomar infinitos valores dentro de un campo de variación (peso, altura, temperatura…)
TIPOS DE VARIABLES
NIVELES DE MEDICIÓN
PROPIEDADES DE LOS NIVELES DE MEDICIÓN
CUALITATIVA NOMINAL - Nivel de medición más básico
-Clasifica a los individuos u objetos en clases o categorías meramente descriptivas y excluyentes
ORDINAL - Contiene las mismas propiedades del nivel de medición nominal + una nueva: ordena según se posea en mayor o menor grado la característica que se pretenda medir
CUANTITATIVA(Discretas/
continuas)
INTERVALOS -Además de lo observado para las otras dos escalas, ésta tiene la propiedad de poder medir la distancia o la diferencia numérica que aparece entre una categoría y otra
RAZONES/PROPORCIONES
-Posee todas las propiedades de las anteriores más el cero absoluto, es decir, se emplea un punto natural u origen no arbitrario en la escala de medida; de esta forma no sólo podremos establecer diferencias entre las categorías sino que además las cantidades en esta escala, y por lo tanto las proporciones, tienen un significado. Esta escala posee además la propiedad de que la razón de dos valores cualesquiera es independiente de la unidad de medición
NIVELES DE MEDICIÓN DE LAS VARIABLES
Ej: lugar de nacimiento
Ej: nivel de instrucción
Ej: Temperatura, presión
Ej: renta per cápita, peso
TABULACIÓN Y REPRESENTACIÓN GRÁFICA DE LAS VARIABLES
CUALITATIVA NOMINAL CUALITATIVAORDINAL
CUANTITATIVA DISCRETA
CUANTITATIVA CONTINUA
TABULACIÓN f y f% f, f%, F y F% f, f%, F y F% MC, f, f%, F y F%
REPRESENTACIÓN GRÁFICA
Diagrama de círculo; diagrama rectangular; diagrama triangular, diagrama de barras (si alto nº de modalidades y/o frecuencia muy baja)
Diagrama de círculo; diagrama rectangular; diagrama triangular (si alto nº de modalidades y/o frecuencia muy baja)
Diagrama de barras; polígono de frecuencias; polígono de frecuencias acumuladas (ojiva)
Histogramas frecuencias; polígono de frecuencias, polígono de frecuencias acumuladas (ojiva).
La correcta realización de un gráfico necesita que se incluya en el mismo:
- la fuente origen de los datos que permita consultas directas a la información,- las unidades de medida de los datos (porcentajes, números absolutos...),- el año o periodo de referencia de la información- el ámbito de referencia de la información (región, país...). - y un título en el que se indique claramente la variable a que corresponde la información
DIAGRAMA DE BARRAS HISTOGRAMA
TIPOS DE GRÁFICOS
MADRID
BARCELONA
BILBAO
SEVILLA
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1
UNIVERSIDAD
SECUNDARIA
PRIMARIA
ANALFABETO
DIAGRAMA RECTANGULAR
CICLOGRAMA
Parámetros y estadísticos Parámetro: Es un valor calculado sobre una población
La altura media de los individuos de un país
La idea es resumir toda la información que hay en la población en unos pocos números (parámetros).
Estadístico: Ídem (cambiar población por muestra)
La altura media de los que estamos en este aula.• Somos una muestra (¿representativa?) de la población.
Un brevísimo resumen sobre estadísticos
Centralización Indican valores con respecto a los que los datos parecen
agruparse.• Media, mediana y moda
Posición Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.• Cuartiles, quintiles, deciles y percentiles.
Dispersión Indican la mayor o menor concentración de los datos con respecto
a las medidas de centralización.• Desviación típica, coeficiente de variación, rango, varianza, …
Se define como la suma de todos los valores numéricos (que adopta la variable estudiada) divididos por el número total de valores observados
Media de 2,2,3,7 es (2+2+3+7)/4=3,5-Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. -Muy sensible a valores extremos. En estos casos es más conveniente calcular la mediana-En distribuciones a partir de intervalos de clase no se puede estimar si existen intervalos abiertos
a)Media aritrmética:Datos sin agrupar Datos agrupadosX= ∑x X= ∑ fx N Nb)Media Ponderada:Xw= ∑ wx ∑ w
MEDIA
Ejemplo
Peso M. Clase Fr. Fr. ac.
40 < 50 45 5 5
50 < 60 55 10 15
60 < 70 65 21 36
70 < 80 75 11 47
80 < 90 85 5 52
90 < 100 95 3 55
100 < 130 115 3 58
58
3,6958
31151055545
N
fxx
ii
Mediana: de un conjunto de valores ordenados en magnitud es el valor central o la media de los dos valores centrales. Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos .
Mediana de nº observaciones impar: N/2 + 0,5:Ejemplo: 1,2,4,5,6,6,8 nº observaciones, 7; (7/2)+0,5=4 ; hay que buscar el valor que ocupa la posición 4ª: 1,2,4,5,6,6,8 ;luego la mediana es 5
Mediana de nº observaciones par es el valor medio de los valores que ocupan las posiciones N/2 y N/2 +1 Ejemplo: 1,2,4,5,6,6,8,9Nº observaciones par, 8; hay que buscar los valores que ocupan las posiciones 8/2 y (8/2)+1, es decir, las posiciones 4 y 5; los valores que ocupan las posiciones 4 y 5 son el 5 y el 6; la ,mediana es la media de esos dos valores 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Altura mediana
- No es sensible a valores extremos.-Es conveniente cuando los datos son asimétricos.
EJEMPLO
-Mediana de 3,5,6,8,9,11 es 7-Mediana de 3,5,6,8,9,29 es 7
MEDIANA
Ejemplo
Peso M. Clase Fr. Fr. ac.
40 < 50 45 5 5
50 < 60 55 10 15
60 < 70 65 21 36
70 < 80 75 11 47
80 < 90 85 5 52
90 < 100 95 3 55
100 < 110 115 3 58
58
6,6621
1558*2/11060
*2/1 1
i
i
f
FNcLMediana
La moda: se define como el valor que tiene una mayor frecuencia en un conjunto de datos (es decir, aquel que más se repite). Para datos agrupados en intervalos
Mo= Li + c. D1 D1+D2
D1: fi-fi-1D2: fi- fi+1
Peso M. Clase Fr. Fr. ac.
40 < 50 45 5 5
50 < 60 55 10 15
60 < 70 65 21 36
70 < 80 75 11 47
80 < 90 85 5 52
90 < 100 95 3 55
100 < 110 115 3 58
58
Intervalo modal
24,651011
111060
Mo
Estadísticos de posición
Cuartiles: Dividen a la muestra en 4 grupos homogéneos. Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75
Quintiles: 4 valores que dividen a una muestra en 5 grupos homogéneos Quintil 2= Decil 2= Percentil 20
Deciles: 9 valores que dividen a una muestra en 10 grupos homogéneos Decil 5= mediana= cuartil segundo= percentil 50
Percentil de orden k = cuantil de orden k/100 Percentil 50= mediana= cuartil segundo= decil quinto, El percentil de orden 15 deja por debajo al 15% de las observaciones. Por
encima queda el 85%
Ejemplo
Peso M. Clase Fr. Fr. ac.
40 < 50 45 5 5
50 < 60 55 10 15
60 < 70 65 21 36
70 < 80 75 11 47
80 < 90 85 5 52
90 < 100 95 3 55
100 < 130 115 3 58
58
8,7611
365,431070
100/75 175
f
FNcLP i
i
Medidas de dispersiónLas medidas de dispersión indican el grado de representatividad de las medidas de tendencia central. Miden el grado de dispersión/ concentración de los datos en torno a las medidas de tendencia central
Existen dos tipos de medidas de dispersión: ABSOLUTAS Y RELATIVAS
ABSOLUTAS
Mediana Rango
Rango intercuartílico
Rango entre percentiles
Media Desviación media
Varianza
Desviación típica
RELATIVASMediana Coeficiente variación intercuartílica
Media Coeficiente variación de Pearson
Amplitud o Rango: Diferencia entre observaciones extremas. 1, 2, 3,4,4,8. El rango es 8-1=7 Es muy sensible a los valores extremos.
Rango entre percentiles (‘interquartile range’): Es la distancia entre percentil 90 y percentil 10.
• Rango entre percentiles = P90 – P10 Parecida al rango, pero eliminando las
observaciones más extremas inferiores y superiores. No es tan sensible a valores extremos
Rango intercuartílico: Es la distancia entre primer y tercer cuartil.
• Rango intercuartílico = Q3 - Q1 Parecida al rango, pero eliminando las
observaciones más extremas inferiores y superiores. Es el menos sensible a valores extremos.
150 160 170 180 190
0.0
00
.01
0.0
20
.03
0.0
40
.05
150 160 170 180 190
25% 25% 25% 25%
Mín. P25 P50 P75 Máx.
Rango intercuartílico
Rango
Dispersión absoluta: mediana
Dispersión absoluta: media
Varianza S2 :•Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.
•Es sensible a valores extremos (alejados de la media).
•Sus unidades son el cuadrado de las de la variable. De interpretación difícil para un principiante.
Desviación media: •Mide el promedio de las desviaciones (absolutas) de las observaciones con respecto a la media.
•Es la menos sensible a valores extremos (alejados de la media).
•Viene expresada en las mismas unidades de la variable.
•Desviación típica Es la raíz cuadrada de la varianza
•Tiene las misma dimensionalidad (unidades) que la variable. Es sensible a valores extremos (alejados de la media).
Dispersión relativa: mediana
100*13
me
QQVq
Es la razón entre el rango intercuartílico y la mediana.Mide el rango intercuartílico en forma de“qué tamaño tiene con respecto a la mediana”
Es frecuente mostrarla en porcentajesSi la mediana es 80 y el rango intercuartílico es de 5 entonces Vq=5/80*100=6,25%
Es una cantidad adimensional (independiente de las unidades de medida). Interesante para comparar la variabilidad de diferentes variables.
Si el peso tiene Vq=6,25% y la edad tiene Vq=10%, los individuos presentan más dispersión en edad que en peso.
Coeficiente de variación de PEARSON
Es la razón entre la desviación típica y la media. Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”
También se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes• Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)
Es una cantidad adimensional (independiente de las unidades de medida). Interesante para comparar la variabilidad de diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.
No debe usarse cuando para variables cuyo nivel de medición es por intervalos, es decir,la variable cuenta con un valor 0 fijado arbitrariamente.
Por ejemplo 0ºC ≠ 0ºF
Si la variable presenta valores negativos, al calcular el coeficiente de variación de pearson los habrá que considerar como positivos
Dispersión relativa: media
100*x
SCV
VARIABLES NORMALIZADAS O UNIDADES TIPIFICADASNormal.............. |z| < 1Anormal............ 1 < |z| < 2Muy anormal...... |z| >=2
Variables normalizadas: número de unidades de desviación típica que un individuo queda por encima o por debajo de la media del grupo. Son unidades independientes de las unidades originales de medida con lo cual facilitan enormemente la comparación. Útil para comparar un individuo respecto a los datos poblacionales a los que pertenece.Las unidades Z se calculan: Z= x -
S
VARIABLES NORMALIZADAS O UNIDADES TIPIFICADAS
x