plataformas analíticas como soporte en la era del big data

49

Upload: data-mining-peru

Post on 02-Aug-2015

685 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Plataformas Analíticas como Soporte en la era del Big Data

Kesber Angulo SánchezConsultor de ProyectosInformese Ltda. Suc. Perú

#ExperienciaAnalítica2015

Agenda

• Big Data

• Big Data Analytics

• El Análisis de Entidades

• La propuesta de IBM• IBM SPSS Analytics

¿Qué entendemos por Big Data?

BigData

Gestión Inteligente con Analítica 8

Gestión Inteligente con Analítica 10

#ExperienciaAnalítica2015

Servicios públicos

Comercio al detalle

Aplicación de la ley

Transporte

Servicios financieros

TI

Telecomunicaciones

Muchas áreas de oportunidad

Salud y Ciencia

#ExperienciaAnalítica2015

Servicios Financieros

Predecir comportamiento de cliente.

PLA, identificar fraudes 360° vista del Cliente

Estudio de las colas largas de actividad de transacciones. Análisis de los logs de datos para auditoría interna y cumplimiento.Sistemas de recomendaciónAnálisis de Entidades

Muchas áreas de oportunidad

¿Qué entendemos por Big Data?

#ExperienciaAnalítica2015

Big Data se define como el conjunto de herramientas informáticas destinadas a la

manipulación, gestión y análisis de grandes volúmenes de datos de todo tipo los cuales no pueden ser gestionados por las herramientas

informáticas tradicionales. 

BIG DATA

#ExperienciaAnalítica2015

Gestión Inteligente con Analítica 15

¿Las 3 V’s del Big Data?

Gestión Inteligente con Analítica 16

#ExperienciaAnalítica2015

Gestión Inteligente con Analítica 17

Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y

analizar grandes volúmenes de datos

Hadoop es capaz de almacenar toda clase de datos:

estructurados, no estructurados, semiestructurados; archivos de

registro, imágenes, video, audio, comunicación, etc.

¿Qué es HADOOP?

#ExperienciaAnalítica2015

Gestión Inteligente con Analítica 18

Sistema de fichero distribuido, escalabilidad y disponibilidad debido a la replicación de los datos y tolerancia a fallos.

Arquitectura:

Proceso batch creado para el proceso distribuido de los datos. Permite paralelizar el trabajo sobre los grandes volúmenes de datos.

#ExperienciaAnalítica2015

Gestión Inteligente con Analítica 19

Arquitectura de HadoopQuery es enviado

al nodo master

Nodo Master usa el proceso “Map” para

asignar los sub-job a los nodos esclavos

Nodos Esclavos pueden aun asignar a otros nodos

esclavos

Los sub-job son ejecutados en paralelo en cada nodo en

los cluster contra los datos en los nodos locales

Los esclavos completan su trabajo y devuelven los

resultados al nodo maestro

El nodo maestro “ensambla” los resultados usan el proceso “Reduce”

Usuario envía un query via una

interface/aplicación

Datos es dividido y almacenado en

HDFS

Datos en HDFS es distribuido en

numerosos nodos (sistema

tolerante a fallos)

HDFS tiene un nodo maestro y

numerosos nodos esclavos

Nodo Maestro almacena el meta

dato y nodos esclavos los

bloques de datos

Nodo Maestro y nodos

esclavos/datos residen en sevidores

commodity

Cada nodo/servidor ofrece

almacenamiento y procesamiento local

Social Feeds

GIS Data

Imagenes

Social Feeds

World Events

Documents, XML

Email, otros no-

estr.

Logs Auditoria

Market Events

Web logs

Data Fields, RFID

CCTV Footage

Name Node & Job Tracker

(master)

#ExperienciaAnalítica2015

Gestión Inteligente con Analítica 20

¿Qué es Big Data Analytics?

Gestión Inteligente con Analítica 21

#ExperienciaAnalítica2015

Gestión Inteligente con Analítica 22

Big data analytics is the process of examining big data to uncover hidden patterns, unknown correlations and other useful

information that can be used to make better decisions.

With big data analytics, data scientists and others can analyze huge volumes of data that conventional analytics and business

intelligence solutions can't touch. 

Big Data Analytics

#ExperienciaAnalítica2015

Gestión Inteligente con Analítica 23

Las 3 V’s del Big Data

#ExperienciaAnalítica2015

La cuarta “V”: La Veracidad

• Nivel de fiabilidad

• Requisito y reto importante

• La imprevisibilidad no se puede eliminar

#ExperienciaAnalítica2015

Un problema…

¿Cómo toma esa decisión?

¿Es posible cuantificar ese riesgo?

¿Qué fuentes dispone?

¿Cuán confiables son?

#ExperienciaAnalítica2015

Un problema…

Unificación y consistencia de datos

#ExperienciaAnalítica2015

Información en contexto…y acumulado

Bases de datos

[email protected]

Perfil Redes Sociales

Centrales deRiesgo

Base de datos clientes

Bases de datos migraciones

#ExperienciaAnalítica2015

Retos

• Información faltante

• Coherencia

• Análisis de datos

El Análisis de EntidadesEntity Analytics

#ExperienciaAnalítica2015

Entity Analytics

El análisis de entidades se centra en mejorar la coherencia de los datos actuales mediante la resolución de conflictos de identidades dentro de los

propios registros.

#ExperienciaAnalítica2015

¿Cómo se puede aplicar?

• Fraude• Reclamaciones de seguros• Solicitud de prestamos• Cobro de cheque en ventanillas

• Reclutamiento e investigación• Contratación de funcionarios.• Investigación de declaraciones.

• Calidad de datos• Unificación de la cartera de clientes

#ExperienciaAnalítica2015

De esa forma…

Mr. Joseph Carbella55 Church StreetNew York, NY 10007Tel#: 212-693-5312DOB: 07/08/66SID#: 068588345DL#: 544 210 836

ACCT # 2310322

DDA

Registros Civiles Dep.

#ExperienciaAnalítica2015

Mr. Joseph Carbella55 Church StreetNew York, NY 10007Tel#: 212-693-5312DOB: 07/08/66SID#: 068588345DL#: 544 210 836

ACCT # 2310322

DDA

Mr. Joe JonesAPT 4909Bethesda, MD 20814Tel#: 978-365-6631DOB: 09/07/66TRUST FUND

Mr. Joe Carbello1 Bourne StClinton MA 01510TEL#: 978-365-6631 DL#: 544 210 836DOB: 07/09/66

ACCT #3292322

CREDIT CARDS

Mr. Joey Carbello555 Church AveNew York, NY 10070Tel#: 212-693-5312 DL#: 544 210 836

PPN#: 086588345

ACCT #494202

MORTGAGE Coincidencia Cercana

Coincidencia Exacta

De esa forma…Registros

Civiles Dep.

RegistrosPúblicos

Ente Recaudador

Seguro Social

#ExperienciaAnalítica2015

#ExperienciaAnalítica2015

EA les permitirá… Personas, Asociaciones

políticas, empresas.

Se pueden agregar nuevas entidades y características

IBM SPSS Única tecnología comercial de este tipo que se puede desplegar el mismo día que se instala.

En Resumen…

La propuesta de IBM

#ExperienciaAnalítica2015

BI / Reporting

BI / Reporting

Exploration / Visualization

FunctionalApp

IndustryApp

Predictive Analytics

Content Analytics

Analytic Applications

IBM Big Data Platform

Systems Management

Application Development

Visualization & Discovery

Accelerators

Information Integration, Data Quality & Governance

HadoopSystem

Stream Computing

Data Warehouse

Volume, Variety

Cost-effectively process and analyze any type of data

Velocity

Analyze data-in-motion to produce insights in micro-seconds

Visibility

Understand, find, and navigate federated big data

Volume

Purpose-built offerings

High-performance appliances and software

Veracity

Trusted information

Parallel processing for high-volume integration

Analytics

Analyze, predict and automate for more accurate answers

Estrategia de IBM Big Data

#ExperienciaAnalítica2015

BI / Reportin

g

BI / Reporting

Exploration / Visualization

FunctionalApp

IndustryApp

Predictive Analytics

Content Analytics

Analytic Applications

IBM Big Data Platform

Systems Management

Application Development

Visualization & Discovery

Accelerators

Information Integration, Data Quality & Governance

HadoopSystem

Stream Computing

Master Data Management

Databases & Tools

Data Warehouse

IBM proporciona una plataforma complete para soportar esta evolución.

Visualization & Discovery

HadoopSystem

Volume, Variety

• InfoSphere BigInsights

• Pure Data for Hadoop

Velocity

• InfoSphere Streams

Visibility

InfoSphere Data Explorer

Data Warehouse

Volume

• Pure Data for Analytics

• DB2 BLU

• InfoSphere Warehouse

Veracity

• IBM InfoSphere Information Server

• Data Quality

Analytics

• Cognos BI (in-memory)• Cognos Real-Time• SPSS Modeler• SPSS Analytic Server• Social Media Analytics

IBM SPSS Analytics para Big Data

Gestión Inteligente con Analítica 39

#ExperienciaAnalítica2015

• SPSS Modeler

• SPSS C&D Services

• SPSS Analytic Server

• SPSS Analytic Catalyst (*)

Plataforma IBM SPSS: Integran a Big Data

#ExperienciaAnalítica2015

Gestión Inteligente con Analítica 41

IBM SPSS Modeler

#ExperienciaAnalítica2015

Gestión Inteligente con Analítica 42

IBM SPSS Collaboration & Deployment (C&D)

▪ Colaborativo– Comparte y almacene rutas,

modelos o resultados.– Trabajar con multiples fuentes

de datos (históricas y en tiempo real)

Automatizado– Programe modelos analíticos

basado en tiempo o eventos– Controle procesos analiticos y

auditelos.– Actualice y reconstruya

modelos para asegurar el rendimiento.

Despligue– Implemente analitica con sus

procesos de negocios– Calificación en tiempo real o

por lotes

#ExperienciaAnalítica2015

• Permite aprovechar los datos almacenados en Hadoop mediante el uso de IBM SPSS Modeler, permitiendo capacidades de Big Data Analytics.

• Proporciona:• Soporte para las diversas distribuciones de Hadoop

(InfoSphereBigInsigths, Cloudera, Hortonsworks y Apache)• Interface que permite incorporar algoritmos estadísticos diseñados

para ir a los datos.• Una interface familiar que oculta el entorno de big data para que

el analista se enfoque en analizar los datos.• Una solución escalable a problemas de casi cualquier tamaño.

IBM SPSS Analytic Server

#ExperienciaAnalítica2015

Gestión Inteligente con Analítica 44

IBM SPSS Analytic Server

Big DataRequest

Stream File

Modeler Client Modeler Server

IBM SPSS Modeler

IBM SPSSAnalytic Server

Hadoop Job

Analytics

IBM InfoSphere BigInsights& Other Hadoop Distributions

Relational Database

SQL / UDF

IBM SPSS Analytic Catalyst

Analytic CatalystBrowser Client

Analytic CatalystTablet Client

Watson Analytics

#ExperienciaAnalítica2015

Gestión Inteligente con Analítica 45

• Proporciona una plataforma analítica predictiva integrada y accesible que fue diseñada para big data.

• Distribución de procesamiento analítico en ambientes de Hadoop con soporte para IBM InfoSphere BigInsights, Cloudera, Hortonworks y Apache

• Permite a los usuarios acceder a data estructurada y no estructurada (RDBMS, Hadoop, social media, etc).

IBM SPSS Modeler y Analytic Server

#ExperienciaAnalítica2015

Ejemplo de IBM SPSS Modeler con IBM SPSS Analytic Server mostrando la integración con R.

Casos de Éxito: Big Data Analytics

#ExperienciaAnalítica2015

• Necesidad:• Evitar los casos de fraude mediante una

aplicación que pueda hacerlo en tiempo real.• Manejan información a través de PC,

teléfonos como medios de pago en miles de sitios web.

• Poder predecir donde podría suceder fraude antes que…en alguno de los 90MM de navegadores conectados al sitio en un día dado.

• Situación Actual:• PayPal maneja filtros de administración de

fraudes: revisión por su monto, origen u otros factores.

• PayPal (y Amazon) desarrollaron herramientas que dependen de grandes conjuntos de datos (IP, información del navegador, y demás datos técnicos para refinar los modelos para predecir, identificar y prevenir actividades fraudulentas.

#ExperienciaAnalítica2015

• Firma global de servicios financieros estadounidense, sede New York.

• 42 países, + 1300 oficinas, + 60K empleados.

• Corporaciones multinacionales, gobiernos, instituciones financieras y particulares.

• + US$ 300MM en activos

• Hadoop desde 2010

• Usan Hadoop para rastrear toda su web y bases de datos en busca de registros que indiquen la posibilidad de que aparezca cualquier problema…Los problemas se descubren en tiempo real y se dispone de la trazabilidad completa sobre: quien hizo que, cómo, cuándo y qué causo el problema.

• Morgan Stanley Smith Barney (MSSB), creada 2009 y gestiona 1.7 trillones de dólares en activos para los 4M de clientes.

• Recomienda sus inversiones en acciones, bonos, y renta fija.

• Informes de analistas, datos públicos y sociales.

• Todo se emplea en recomendaciones de comprar y vender accione sobre la base de las posiciones en tiempo real y las condiciones del mercado.