big data lic manuel barrera 689476 maestria en tecnologias de informacion data mining

21
Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Upload: carolina-soledad-cordero-crespo

Post on 25-Jan-2016

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Big Data

LIC MANUEL BARRERA 689476MAESTRIA EN TECNOLOGIAS DE

INFORMACION

DATA MINING

Page 2: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Big DataEl Big Data o Datos Masivos se refiere a sistemas

informáticos basados en la acumulación a gran escala de datos y de los procedimientos usados para

identificar patrones recurrentes dentro de esos datos

Page 3: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

 Los data sets crecen en volumen debido en parte a la introducción de información ubicua procedente del internet de las cosas.

Page 4: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Modelo de BIG Data

Redes Social

es

Internet Cosas

ERP

ETL

DataWarehouse

Análisis de Datos

Aplicaciones

Internet Trazabilid

ad

Page 5: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Tecnología

Existen muchísimas herramientas para tratar con Big Data. Nombres como Hadoop, NoSQL, Cassandra, Business Intelligence, Machine Learning, MapReduce .

tres tipos de Big Data:

Datos estructurados (Structured Data): Datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y las hojas de cálculo.

Datos no estructurados (Unstructured Data): Datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, e-mails o documentos de texto.

Datos semiestructurados (Semistructured Data): Datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Estos datos poseen sus propios metadatossemiestructurados16

 que describen los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados por convención. Un ejemplo es el HTML, el XML .

Page 6: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Cuánto es demasiada información de manera que sea elegible para

ser procesada y analizada utilizando Big Data? Analicemos primeramente en términos de bytes:

Gigabyte = 109 = 1,000,000,000Terabyte = 1012 = 1,000,000,000,000Petabyte = 1015 = 1,000,000,000,000,000Exabyte = 1018 = 1,000,000,000,000,000,000

Velocidad , volumen y variedad son las tres características del BIG DATA

Page 7: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Captura

Page 8: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

¿De dónde provienen todos estos datos? Los

fabricamos directa e indirectamente segundo tras segundo Catalogamos la procedencia de los datos según las siguientes categorías:18

Generados por las personas: Redes socialesTransacciones de datosTrazabilidad en InternetInternet de las cosasBiométrica: 

Page 9: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Transformación

Page 10: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Una vez encontradas las fuentes de los datos

necesarios, muy posiblemente dispongamos de un sinfín de tablas de origen sin estar relacionadas. El siguiente objetivo consta en hacer que los datos se recojan en un mismo lugar y darles un formato.

Aquí entran en juego las plataformas ETL (Extract, Transform and Load). Su propósito es extraer los datos de las diferentes fuentes y sistemas, para después hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de formato…) y finalmente cargar los datos en la base de datos o Data Warehouseespecificada.21 

Page 11: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Almacenamiento NoSQL

Page 12: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Almacenamiento NoSQL El término NoSQL se refiere a Not Only SQL y son sistemas de

almacenamiento que no cumplen con el esquema entidad-relación.22

 Proveen un sistema de almacenamiento mucho más flexible y concurrente y permiten manipular grandes cantidades de información de manera mucho más rápida que las bases de datos relacionales.

Distinguimos cuatro grandes grupos de bases de datos NoSQL: Almacenamiento Clave-Valor (Key-Value): Los datos se almacenan

de forma similar a los maps o diccionarios de datos, donde se accede al dato a partir de una clave única.23 Los valores (datos) son aislados e independientes entre ellos, y no son interpretados por el sistema. Pueden ser variables simples como enteros o caracteres, u objetos. Por otro lado, este sistema de almacenamiento carece de una estructura de datos clara y establecida, por lo que no requiere un formateo de los datos muy estricto.24

Son útiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de velocidad de carga de un sitio web que pueden utilizar diferentes perfiles de usuario, teniendo mapeados los archivos que hay que incluir según el id de usuario y que han sido calculados con anterioridad. Cassandra es la tecnología de almacenamiento clave-valor más reconocida por los usuarios.25

con nodos de contenidos. Soluciones como Neo4J y GraphDB25 son las más conocidas dentro de las bases de datos en grafo.

Page 13: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Almacenamiento Documental: Las bases de datos documentales guardan un gran parecido con las bases de datos Clave-Valor, diferenciándose en el dato que guardan. Si en la anterior no requería una estructura de datos concreta, en este caso guardamos datos semiestructurados.25

 Estos datos pasan a llamarse documentos, y pueden estar formateados en XML, JSON, Binary JSON o el que acepte la misma base de datos.

Todos los documentos tienen una clave única con la que puede ser accedido e identificado explícitamente. Estos documentos no son opacos al sistema, por lo que pueden ser interpretados y lanzar queries sobre ellos.23 Un ejemplo que aclare cómo se usa lo encontramos en un blog: se almacena el autor, la fecha, el título, el resumen y el contenido del post.CouchDB o MongoDB25

 son quizá las más conocidas. Hay que hacer mención especial a MapReduce, una tecnología de Google inicialmente diseñada para su algoritmo PageRank, que permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en otra colección, y a Hadoop que es una tecnología deApache diseñada para almacenar y procesar grandes cantidades de datos.

Almacenamiento en Grafo: Las bases de datos en grafo rompen con la idea de tablas y se basan en la teoría de grafos, donde se establece que la información son los nodos y las relaciones entre la información son las aristas,25 algo similar en el modelo relacional. Su mayor uso se contempla en casos de relacionar grandes cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden contener objetos, variables y atributos diferentes en unos y los otros. Las operaciones de join se sustituyen por recorridos a través del grafo, y se guarda una lista de adyacencias entre los nodos.23 Encontramos un ejemplo en las redes sociales: en Facebook cada nodo se considera un usuario, que puede tener aristasde amistad con otros usuarios, o aristas de publicación

Page 14: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Almacenamiento Orientado a Columnas: 

Su modelo de datos es definido como “un mapa de datos multidimensional poco denso, distribuido y persistente”.23 Se orienta a almacenar datos con tendencia a escalar horizontalmente, por lo que permite guardar diferentes atributos y objetos bajo una misma Clave. Permite agrupar columnas en familias y guardar la información cronológicamente, mejorando el rendimiento. Esta tecnología se acostuma a usar en casos con 100 o más atributos por clave.25 Su precursor es BigTable de Google, pero han aparecido nuevas soluciones como HBase o HyperTable.

Page 15: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Análisis de datos

Page 17: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Utilidad

Page 18: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

Redes Sociales. Las empresas utilizan esta información para cruzar los datos de los candidatos a un trabajo. Oracle ha desarrollado una herramienta llamada Taleo Social Sourcing,32 la cual está integrada con las APIsde Facebook, Twitter y LinkedIn. Gracias a su uso, los departamentos de recursos humanos pueden ver, entrando la identidad del candidato, su perfil social y profesional en cuestión de segundos.

Page 19: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

usuario. Consumo: Perfiles de consumoTrazabilidad al usar moviles

Big Data e intimidad: trazabilidad de los usuarios para ser analizado en su estilo de vida por corredores de datos que obtienen la informacion de Facebook la cual cede informacion personal de sus usuarios. Con la trazabilidad de los teléfonos móviles se pude hacer un mapa delas rutas que ha seguido el usuario que lleva el móvil encima , hora de llegada y salida de cada ubicación. Con esta informacion se crean algoritmos de recomendación de amigos en redes sociales y ubicaciones a visitar en base a este historial del usuario

Page 20: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

DeportesProfesional: El análisis de los partidos constituye una

parte fundamental en el entrenamiento de los profesionales, y la toma de decisiones de los entrenadores. Amisco43 es un sistema aplicado por los más importantes equipos de las ligas Española, Francesa, Alemana e Inglesa des del 2001. Consta de 8 cámaras y diversos ordenadores instalados en los estadios, que registran los movimientos de los jugadores a razón de 25 registros por segundo, y luego envían los datos a una central donde hacen un análisis masivo de los datos. La información que se devuelve como resultado incluye una reproducción del partido en dos dimensiones, los datos técnicos y estadísticas, y un resumen de los datos físicos de cada jugador, permitiendo seleccionar varias dimensiones y visualizaciones diferentes de datos.43

Page 21: Big Data LIC MANUEL BARRERA 689476 MAESTRIA EN TECNOLOGIAS DE INFORMACION DATA MINING

InvestigaciónSalud y medicina: Hacia mediados 2009, el mundo

experimentó una pandemia de gripe A, llamada gripe porcina o H1N1. El website Google Flu Trends fue capaz de predecirla gracias a los resultados de las búsquedas. Flu Trends usa los datos de las búsquedas de los usuarios que contienen Influenza-Like Illness Symptoms(Síntomas parecidos a la enfermedad de la gripe) y los agrega según ubicación y fecha, y es capaz de predecir la actividad de la gripe hasta con dos semanas de antelación más que los sistemas tradicionales..Defensa y seguridad: Se contempla la utilidad de la tecnología Big Data en escenarios como la vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el fraude, planes de seguridad ciudadana o planeamiento táctico de misiones e inteligencia militar.45