el científico de datos - usmp€¦ · 05. minerÍa de datos paso dos dos / minería de datos (data...
TRANSCRIPT
El Científico de Datos
A N A LY Z I N G t h e A N A LY Z E R S
Is
y
ou
r
Jo
b
s
ex
y?
A N A LY Z I N G t h e A N A LY Z E R S
Is
y
ou
r
Jo
b
s
ex
y?
INFORMATION ANALYTICS
S c i e n c e
S H A R E D
visualization
L a r g e
S
O
F
T
W
A
R
E
Networks A s s e t
C
L
U
S
T
E
R
I N T E R N E T
s
t
o
r
a
g
e
s i ze business
c l o u d
n
e
e
d
e
d
v o l u m e
N A S
t re n d
Databases
m a n a ge m e nt
r e s e a r c h
q u a n t i t y
d a t a
c o m p l e x
c a p t u r e
a m o u n t
Según Burtch Works,
el 32% de los científicos de datos en activo vienen
del mundo de las matemáticas y la estadística,
el 19% de la ingeniería informática el 16% de otras ingenierías.
Mínimo Máximo
España
250,000 500,000
Perú
36,567 73,134
C i e n c i a d e D a t o s
01. ¿QUÉ ES UN CIENTÍFICO DE DATOS?
Contexto
I N G E N I E R O I T / D E S A R R O L L A D O R E S TA D Í S T I C O
Solucionar el problema del negocio.
Maneja la Infraestructura. Construye el Modelo.
C i e n c i a d e D a t o s
01. ¿QUÉ ES UN CIENTÍFICO DE DATOS? Contexto
I N G E N I E R O I T / D E S A R R O L L A D O R E S TA D Í S T I C O
Solucionar el problema del negocio.
Maneja la Infraestructura. Valida el Modelo.
02. ANALICE Y ACTÚE EN ´MOMENTOS CRÍTICOS DEL NEGOCIO´ En tiempo real
Pro
activ
amen
te
man
teng
a la
s
máq
uina
s
Mod
ifiqu
e ru
tas
de tr
ansp
orte
S E G U N D O S M I N U T O S H O R A S
Ser
vici
o al
Clie
nte
Ofe
rte
a
cons
umid
ores
Mod
ifiqu
e vo
lum
en
de in
vent
ario
Det
ecte
Fra
udes
Opt
imiz
e
prec
ios
C i e n c i a d e D a t o s
02. ANALICE Y ACTÚE EN ´MOMENTOS CRÍTICOS DEL NEGOCIO´ En tiempo real
Estadística
Aplicada
Comunicación
Programación
Visualización de Datos Experiencia en el Campo
Adquisición de Datos Mineria de Datos (Data Munging)
Exploración de Datos
Generar Modelos Validación de Modelos
1/ 2/ 3/
4/ 5/
03. PROCESO EN EL ANÁLISIS DE DATOS Cinco Pasos
C i e n c i a d e D a t o s
1 / Adquisición
de Datos
2 / Minería de Datos
(Data Wrangling)
3 / Exploración
de Datos
4 / Generar
Modelos
5 / Validación
de Modelos
03. PROCESO EN EL ANÁLISIS DE DATOS Cinco Pasos
C i e n c i a d e D a t o s
04.
UNO / Adquisición
de Datos
ADQUISICIÓN DE DATOS Paso Uno
05. MINERÍA DE DATOS Paso Dos
DOS / Minería de Datos
(Data Wrangling)
C i e n c i a d e D a t o s
Data Wrangling o Data Mining
Minería de Datos: es un campo
de la estadística y las ciencias
de la
computación referido al
proceso que intenta descubrir
patrones en
grandes volúmenes de
conjuntos de datos.
05. EJEMPLO MINERÍA DE DATOS Paso Dos
DOS / Minería de Datos
(Data Wrangling)
Q3-14 Q4-14 Q1-15 Q2-15 Q3-15 Q4-15 Q1-16 Q2-16 Well-
Id Total Cost in
SMM
Total Days
Avg ABC per
Operator
# of ABC
Total ABC
Total Cost in
SMM
Total Days
Avg ABC per
Operator
# of ABC
Total ABC
Total Cost in
SMM
2.00
0.60
5.00
6.00
50.00
1.00
0.60
5.00
40.00
2.00
0.60
2
4
25
50
500
6
4
25
50
450
2
3.00
4.20
30.00
40.00
400.00
1.00
4.20
30.00
40.00
398.00
3.00
4
8
40
60
600
5
8
40
60
610
4
2
12
40
100
700
2
12
40
100
620
2
2
15
50
130
1000
2
15
50
130
950
2
3
15
45
120
500
3
15
45
120
420
3
6
20
65
150
600
6
20
65
150
600
6
Well 1
Well 1
Well 1
Well 1
Well 1
Well 2
Well 2
Well 2
Well 2
Well 2
Well 3
CATEGOR
Y
Año 13 Año 14 Año 15 Año 16
25.00
20.00
15.00
10.00
5.00
0.00
25.00
20.00
15.00
10.00
5.00
0.00
25.00
20.00
15.00
10.00
5.00
0.00
25.00
20.00
15.00
10.00
5.00
0.00
PARA MAÑANA!
???
CATEGOR
Y
C i e n c i a d e D a t o s
C i e n c i a d e D a t o s
06. EXPLORACIÓN DE DATOS
Paso Tres
TRES / Exploración
de Datos
06. EXPLORACIÓN DE DATOS
Paso Tres
TRES /
Exploración
de Datos
“El mayor valor de una imagen es cuando se nos
obliga a darnos cuenta de lo que nunca esperábamos
ver”.
John W. Tukey, 1977
Análisis exploratorio de datos (EDA) es un enfoque /
filosofía para el análisis de datos que emplea una
variedad de técnicas (principalmente GRÁFICA) para
maximizar la penetración de datos; descubrir la
trayectoria subyacente; extraer variables importantes;
detectar valores atípicos y anomalías; probar los
supuestos subyacentes; desarrollar modelos
parsimoniosos; y determinar los valores óptimos de los
factores.
EXPLORACIÓN DE
DATOS ¿Cómo voy a visualizar los
datos?
C i e n c i a d e D a t o s
06. EXPLORACIÓN DE DATOS
Paso Tres
TRES / Exploración
de Datos
C i e n c i a d e D a t o s
07.
CUATRO / Generar
Modelos
DA
TA
RE
LA
TI
ON
SH
IP
S
Numerical Vs
Numerical
Numerical Vs
Categorical
Categorical Vs
Categorical
Lineal
Regression Spearman R
Anova
Kruskal-Wallis
Chi-square
GENERAR MODELOS
Paso Cuatro