una visión de las técnicas y métodos de análisis en entornos big data utilizando tecnologías de...
DESCRIPTION
En esta charla, en primer lugar se realizará una introducción a los problemas del análisis masivo de datos (big-data analytics) y sus principales diferencias frente a los algoritmos de análisis de datos tradicionales. En particular, los algoritmos de machine learning, que son iterativos por naturaleza, hacen difícil su aplicación sobre grandes volúmenes de datos, debido principalmente a restricciones computacionales. Por tanto, a continuación se expondrán técnicas y métodos para implementar algoritmos escalables y/o aproximados, y de esta forma poder aplicarlos sobre grandes cantidades de datos. A continuación, se hará una breve introducción a las tecnologías de procesamiento distribuido actuales (Hadoop, Storm) y a la arquitectura Lambda. Finalmente, se expondrán casos prácticos de análisis de datos y modelos predictivos sobre big-data y su aplicación en diferentes áreas.TRANSCRIPT
![Page 1: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/1.jpg)
Una visión de las técnicas y métodos de análisis en entornos Big
Data u8lizando tecnologías de úl8ma generación
Federico Castanedo Chief Data Scien2st @WiseAthena.com
twi9er @overfit
![Page 2: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/2.jpg)
Índice
1. Introducción a los problemas de big-‐data analy2cs 2. Algoritmos aproximados
-‐ Flajolet-‐Mar2n. Alon-‐Ma2as-‐Szegedy Sketch -‐ Heavy Hi9ers: Space Saving Algorithm -‐ Bloom Filter, Count-‐Min Sketch
3. Tecnologías de procesamiento distribuido
-‐ Arquitecturas Lambda 4. Casos prác2cos
![Page 3: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/3.jpg)
![Page 4: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/4.jpg)
Cuantos más datos, mejor!
Alon Havely, Peter Norvig, Fernando Pereira. The Unreasonable Effec0veness of Data. IEEE Intelligent Systems. 2009.
"We don’t have beAer algorithms. We just have more data." Talk: h9p://youtu.be/yvDCzhbjYWs Michele Banko and Eric Brill. Scaling to Very Very Large Corpora for Natural Language Disambigua0on. ACL 2001 Deep Learning @Google. Q. V. Lee. et. al. Building High-‐level Features Using Large Scale Unsupervised Learning. ICML 2012.
![Page 5: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/5.jpg)
Cuantos más datos, ¿mejor?
D. Lazer, R. Kennedy, G. King and A. Vespignani. The Parable of Google Flu: Traps in Big Data Analysis. Science. 13 March 2014. Declan Butler. When Google got flu wrong. Nature. 13 Febrero 2103. h9p://www.tylervigen.com
![Page 6: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/6.jpg)
Curva de aprendizaje de alta varianza (Over-‐Fit)
Depende (sesgo vs varianza)
-‐ El error de test decrece a medida que m crece. Sugiere que un conjunto más grande es mejor. -‐ Hay un gap inicial muy grande entre el error en entrenamiento y test -‐ En estas situaciones añadir más datos ayuda.
![Page 7: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/7.jpg)
Depende (sesgo vs varianza)
Curva de aprendizaje de alto Sesgo (Under-‐Fit)
-‐ Incluso el error de entrenamiento es muy alto. -‐ El error de entrenamiento y test convergen a valores similares pero no muy buenos. -‐ En estas situaciones añadir más datos no suele ayudar.
![Page 8: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/8.jpg)
En general
-‐ Más datos de entrenamiento à Sol. Alta Varianza -‐ Menos features à Sol. Alta Varianza -‐ Conjuto grande de features à Sol. Alto Sesgo -‐ Queremos algoritmos que tengan baja varianza y bajo sesgo. El bajo sesgo se consigue con muchas features y la baja varianza con muchos datos (Ej. texto vs precios casa)
PERO...... Más datos à Mayor coste computacional
![Page 9: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/9.jpg)
![Page 10: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/10.jpg)
Medidas de Rendimiento
1. Tiempo de Procesamiento El 2empo necesario para procesar cada elemento desde que se recibe. 2. Tiempo de Computación El 2empo necesario para calcular las funciones en los datos. 3. Tamaño de Almacenamiento El espacio u2lizado para almacenar la estructura de datos.
![Page 11: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/11.jpg)
Complejidad Algoritmos
![Page 12: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/12.jpg)
Complejidad de Algoritmos
Punto de Vista Prác8co -‐ Algoritmo O(n^2) solo válido para Small Data -‐ Los datos caben en una máquina: Medium Data -‐ Los datos no caben en una máquina: Big Data Enlaces de Complejidad h9p://www.sco9aaronson.com/blog/?p=263 h9p://bigocheatsheet.com/ h9p://www.sor2ng-‐algorithms.com/
![Page 13: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/13.jpg)
Big Data != Hadoop
• Hadoop es una gran herramienta pero no siempre es la mejor.
• Hadoop es ú2l para trabajos/procesos en modo Batch que no tengan requisitos de 2empo real. (I/O Bound)
• Cuando se requiere trabajar sobre Streams de datos son mejores otras tecnologías. (Velocity de Big-‐Data)
• Un stream de datos es una secuencia de elementos que se reciben en 2empo real de forma con8nua y ordenada (bien de forma explícita por el 2mestamp o implícita por la posición).
• Siendo estrictos, además es imposible controlar el orden en que se reciben los elementos y tampoco es posible almacenar el stream completo de forma local.
![Page 14: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/14.jpg)
Funciones Hash
Mapeo h de un dominio X a un rango entero [1,...,N] Una función hash h() que toma una clave-‐hash como argumento y genera un número bucket como resultado. El bucket es un entero, normalmente entre 0 a B-‐1, donde B es el número de buckets. Obje8vo: Obtener una distribución uniforme. Para ser precisos si las claves-‐hash se ob2enen de una distribución uniforme. La función h() asignará el mismo número de claves-‐hash a cada uno de los buckets.
![Page 15: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/15.jpg)
![Page 16: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/16.jpg)
Tenemos un Stream de m items xi
Queremos calcular las estadís2cas de los mismos 1. #m pequeña (pocos millones items) Trivial de calcular: contadores agregados (diccionario) Memoria O(m) Coste computacional O(log m) para almacenamiento & búsqueda 2. #m grande Almacenamiento exacto de elementos: imposible Prueba exacta de elementos previos: imposible Son necesarios algoritmos y EDD aproximadas
Ejemplo Calentamiento
![Page 17: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/17.jpg)
Buscando el elemento que falta
Sequencia de N instancias [1..N] Se observan en un orden arbitrario y un elemento falta → Buscar cuál es (con el menor número de bits).
Algoritmo Calcular la suma Para cada elemento decrementar s Al final tenemos el elemento que falta ¿Cuantos bits necesitamos para almacenar?
O(N), O(2LogN) bits
![Page 18: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/18.jpg)
Faltan hasta K elementos
Secuencia de [1..N] Hasta k de ellos faltan. ¿como iden2ficarlos?
Algoritmo Calcular la suma de p hasta k Para cada elemento decrementar Sp Iden2ficar los elementos que faltan solucionando un sistema de polinomios.
![Page 19: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/19.jpg)
Algoritmo Flajolet-‐Mar2n
![Page 20: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/20.jpg)
Algoritmo Flajolet-‐Mar2n
Asume funciones hash perfectas que 2enen la siguiente propiedad
Algoritmo 1. Calculamos el hash como un string binario. 2. Obtenemos la posición del 0 más a la derecha; o el número de 0s después del úl2mo 1. 3. El valor J más grande es la es8mación del número del elementos dis8ntos.
![Page 21: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/21.jpg)
F-‐M Bounds
De forma intui2va esperamos Repe2ciones del mismo elemento no afectan Necesitamos O(log log |X|) bits para almacenar el contador (2^2^32 en el caso de 32 bits) Con gran probabilidad la aproximación está en el rango:
![Page 22: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/22.jpg)
Alon-‐Ma2as-‐Szegedy Sketch
Paper 1996. [AMS1996] Ganador 2005 Gödel Prize. Generaliza el algoritmo de Flajolet-‐Mar2n para funciones hash independientes 2-‐way. Permite calcular momentos de orden K (FK). 0 num elementos dis2ntos
1 num total de elementos (trivial) 2 Varianza 3 Asímetria
![Page 23: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/23.jpg)
Extrayendo Buenas Muestras
Obje2vo: Mantener las propiedades del dataset completo en la muestra. Algoritmo Naive: Elegir cada elemento del stream con una cierta probabilidad. Algoritmo "Reservoir Sampling": Dado un conjunto de datos de longitud desconocida, elegir un elemento del stream de forma que cada elemento único tenga la misma probabilidad de aparecer
![Page 24: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/24.jpg)
Heavy Hi9ers: Space Saving [MAE2005] Obje2vo: Buscar los k elementos más frecuentes (pesados)
Algoritmo -‐Inicializamos k pares en la lista T -‐ Obervamos una instancia -‐ If x está en T, incrementamos el contador -‐ else buscamos la e2queta con el menor contador y la actualizamos con Salida: Lista ordenada con dos índices (e2queta, contador)
![Page 25: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/25.jpg)
Heavy Hi9ers: Space Saving
El error está acotado al número de simbolos observados (n) entre el número de bins (k):
![Page 26: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/26.jpg)
Más allá de Heavy Hi9ers
-‐ Comprobar elementos vistos previamente: Pero no mantener contadores, solo su existencia. -‐ Comprobar la es2mación de frecuencia: Pero, no queremos almacenar e2quetas. Pero, queremos es2mar todos los items (no solo HH) Pero, queremos ser capaces de agregarlos. Algoritmos: Bloom Filters, Count-‐Min Sketch, Counter Braids
![Page 27: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/27.jpg)
Bloom Filters
Array de bits b de longitud n -‐ insert(x): para todo i set bit b[h(x,i)] = 1 -‐ query(x): devolvemos TRUE si para todo i b[h(x,i)] = 1 -‐ Solo devuelve TRUE si todos los k bits están a 1 -‐ No hay falsos nega2vos (si no está, no ha aparecido), pero si puede haber falsos posi2vos.
![Page 28: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/28.jpg)
Bloom Filters
Probabilidad que un bit arbitrario se ac2ve Probabilidad de Falsos Posi2vos Ejemplos de uso: HBase: h9p://bigdataanaly2csnews.com/bloom-‐filters-‐hbase-‐chrome/ Cassandra: h9p://wiki.apache.org/cassandra/ArchitectureOverview Tutorial en la web: h9p://billmill.org/bloomfilter-‐tutorial/
![Page 29: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/29.jpg)
Bloom Filters: aplicaciones
Unión de dos conjuntos por OR -‐Construcción paralela de Bloom Filters -‐Agregación dependiente del 2empo (ventanas temporales) -‐Unión de conjuntos de forma aproximada y rápida (operaciones de bitmap en lugar de operaciones de conjuntos) -‐También se u2liza para dividir la resolución de los bits de un Bloom Filter
![Page 30: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/30.jpg)
Bloom Filters: aplicaciones
Intersección de conjuntos con AND -‐ No hay falsos nega2vos -‐ Más falsos posi2vos que sin la intersección
![Page 31: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/31.jpg)
Coun2ng Bloom Filters
Bloom filter por defecto no permite eliminar elementos: -‐ insert(x): para todo i set bit b[h(x,i)] = 1. No sabemos si ya ha sido ac2vado antes. -‐ query(x): return TRUE si para todo i b[h(x,i)] = 1 Coun2ng Bloom Filter recuerda los inserts: query(x): return TRUE if for all i b[h(x,i)] > 0 insert(x): if query(x) = FALSE (no lo insertamos doble) for all i increment b[h(x,i)] = b[h(x,i)] + 1 remove(x): if query(x) = TRUE (no lo eliminamos) for all i decrement b[h(x,i)] = b[h(x,i)] – 1 Solo necesitamos log log m bits
![Page 32: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/32.jpg)
Count-‐Min Sketch
Similar a Bloom filters pero con contadores (Modelo Turns2le). Una fila por hash func2on. [CM2005]. h9ps://sites.google.com/site/countminsketch/
![Page 33: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/33.jpg)
![Page 34: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/34.jpg)
3. Tecnologías de Procesamiento Distribuido
![Page 35: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/35.jpg)
Propiedades Deseables de un Sistema de Big Data
1. Robusto y tolerante a fallos: En un sistema en producción es inevitable que alguien cometa un fallo en algún momento.
2. Baja latencia de lectura y actualización: Es necesario proporcionar latencias bajas de lectura y actualización sin comprometer la robustez del sistema.
3. Escalable: Capacidad para mantener el rendimiento a medida que crecen los datos de entrada.
4. General: Un sistema debería soportar diferentes 2pos de aplicaciones.
5. Extensible: Permite añadir nueva funcionalidad con bajo coste.
6. Permi8r queries ad-‐hoc: Consultas no definidas. 7. Mínimo mantenimiento 8. Depurable
![Page 36: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/36.jpg)
Problemas
¿Como escalar algoritmos en más de un maquina? Precisión (memoria limitada) Tolerancia a fallos Escalabilidad (más datos de entrada)
Herramientas: Consistent-‐Hashing (Dividir las claves X entre un pool de maquinas M)
Proporciona Balanceo de carga Se puede extender para proporcionar tolerancia a fallos
![Page 37: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/37.jpg)
Idea: -‐Asignar keys solo a un conjunto de maquinas -‐Sobre-‐replicarlas para la fiabilidad -‐Sobre-‐replicarlas para el paralelismo de queries -‐Insertar en K maquinas a la vez -‐Procesar pe2ciones de K' < K maquinas a la vez (usar set hashing en C(x) con Cliente ID)
Consistent Set Hashing
![Page 38: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/38.jpg)
Ejemplo AutoTagging Auto clasificador de imágenes @Flickr
![Page 39: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/39.jpg)
Ejemplo AutoTagging
10.000 mappers 1.000 reducers Pocos miles de clasificadores in 6 horas Mejoras: -‐ Actualizar los modelos de forma incremental según llegan nuevos datos Solución: -‐ Batch processing con Hadoop -‐ Stream processing con Storm
![Page 40: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/40.jpg)
Arquitecturas Lambda
![Page 41: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/41.jpg)
Arquitectura Lambda
-‐ Término acuñado por Nathan Marz. -‐ Descompone el problema de calcular funciones arbitrarias en conjuntos de datos arbitrarios usando 3 capas: (1) Capa Batch, (2) Capa Serving y (3) Capa Speed.
![Page 42: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/42.jpg)
![Page 43: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/43.jpg)
![Page 44: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/44.jpg)
Storm
Sistema de computación distribuido para procesar streams de datos en 2empo real y tolerante a fallos. h9p://storm.incubator.apache.org/ Tuplas: Unidad atómica de trabajo Topology: Grafo de Bolts y Spouts Spouts: La fuente de datos. "Emite" Tuplas. Bolts: Pequeños programas que procesan los datos.
TopologyBuilder builder = new TopologyBuilder(); builder.setSpout(“words”, new TestWordSpout(), 10); builder.setBolt(“exclaim1”, new Exclama2onBolt(), 3)
.shuffleGrouping(“words”); Builder.setBolt(“exclaim2”, new Exclama2onBolt(), 2)
.shuffleGrouping(“exclaim1”);
![Page 45: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/45.jpg)
Predicción Churn
Predic2ng Customer Churn in a Telecommunica2ons Network Environment. Patent Pending. US. 61/985,671
![Page 46: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/46.jpg)
Conclusiones
No todo Big Data es Hadoop-‐ish. No siempre más datos es mejor. Depende del problema. Cuando 2enes muchos datos, prác2camente cualquier patrón puede aparece (signal/noise) Muy importante tener en cuenta la complejidad de los algoritmos u2lizados. Escalar los procesos/sistemas de forma inteligente. (ala Consistent Hashing) La principal ventaja en los modelos predic2vos/ML suele venir por el esfuerzo en "Feature Engineering"
![Page 48: Una visión de las técnicas y métodos de análisis en entornos Big Data utilizando tecnologías de última generación](https://reader033.vdocuments.pub/reader033/viewer/2022051819/54c5e1f64a7959e4258b4615/html5/thumbnails/48.jpg)
Referencias