![Page 1: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/1.jpg)
Integrantes:
Jorge Herrera M.
Carlos Rodríguez R.
![Page 2: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/2.jpg)
Índice:Resumen ObjetivosDescripción del ProblemaFundamentos TeóricosDiseño e implementación Conclusiones y Recomendaciones
![Page 3: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/3.jpg)
Resumen
Actualmente el sitio web de la universidad no cuenta con un proceso de búsqueda propio que permita obtener resultados de contenidos referentes del sitio de la ESPOL, para lo cual se ha desarrollado un módulo que permita realizar búsquedas en los diferentes contenidos que están publicados en el sitio web de la universidad.
![Page 4: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/4.jpg)
ObjetivosImplementar una opción de búsqueda de calidad
con los contenidos de la página de la ESPOL usando Hadoop como plataforma de procesamiento masivo y escalable de datos.
Optimizar el tiempo de búsqueda utilizando los nodos del cluster de hadoop.
![Page 5: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/5.jpg)
ObjetivosComparar los tiempos de respuesta de las
búsquedas realizadas con Hadoop y el buscador actual que contiene el sitio de ESPOL.
Realizar recomendaciones y sugerencias en la opción de búsqueda a futuro dentro del sitio de ESPOL.
![Page 6: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/6.jpg)
Descripción del ProblemaLa opción de búsqueda de la página
de la ESPOL a pesar de que realiza su función gracias al API de Google, no optimiza sus resultados en las preferencias ni la presenta organizada por algún parámetro implícito como fecha u orden alfabético de las páginas coincidentes con la búsqueda.
![Page 7: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/7.jpg)
FUNDAMENTOS TEÓRICOS
Qué es Hadoop?
HDFS (Hadoop Distributed File System)
Map/Reduce
![Page 8: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/8.jpg)
HadoopPlataforma que permite desarrollar y ejecutar
aplicaciones que procesan grandes cantidades de datos.Modelo distribuido.Alta disponibilidad.Hardware de bajo costo.Alto rendimiento.
![Page 9: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/9.jpg)
Esquema HadoopModelo distribuido
![Page 10: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/10.jpg)
Hadoop CommonsConjunto de librerías y utilidades .jar y scripts.
Interactúa con el sistema de archivos distribuidos.
Gestiona el control de acceso a los nodos del FS.
![Page 11: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/11.jpg)
HDFSSistema de archivos distribuido, escalable y
tolerante a fallos.Escrito en Java.Reduce el impacto de un corte de energía.Nodo primario o "NameNode" que controla
los "DataNodes", donde finalmente se almacenan los datos.
![Page 12: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/12.jpg)
HDFSNamenode
Breplication
Rack1 Rack2
Client
Blocks
Datanodes Datanodes
Client
Write
Read
Metadata opsMetadata(Name, replicas..)(/home/foo/data,6. ..
Block ops
![Page 13: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/13.jpg)
MapReduceframework que nos permite desarrollar las
aplicaciones que son capaces de procesar en paralelo los datos.
Separan los datos de entradaLos datos de entrada son Tareas MAPLos datos de salida del map son enviados
como entradas de Tareas REDUCE.
![Page 14: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/14.jpg)
Map/Reduce
![Page 15: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/15.jpg)
Diseño e Implementación Herramientas:
Entorno de desarrollo: NetBeans IDE 6.9.1Lenguaje: JavaLenguajes de Páginas Web: JSPLenguaje de Scripts: JavaScript
![Page 16: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/16.jpg)
Arquitectura
![Page 17: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/17.jpg)
Diseño e Implementación
![Page 18: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/18.jpg)
Resultados Tiempo Vs Nodos
Nodos Tiempo de búsqueda hadoop
2 16 segundos
4 11 segundos
Tiempo Vs Nodos
Nodos Tiempo de búsqueda hadoop
2 12 segundos
4 10 segundos
Tiempo Vs Nodos
Nodos Tiempo de búsqueda hadoop
2 12 segundos
4 9 segundos
![Page 19: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/19.jpg)
ConclusionesHadoop es un framework muy potente y
realmente sencillo de utilizar, sin embargo, debemos tener muy claro que se quiere resolver y no intentar resolver todos nuestros problemas con él.
Se requiere mayor cantidad de nodos y datos para que hadoop pueda ser utilizado de manera eficiente.
![Page 20: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/20.jpg)
RecomendacionesSe recomienda que para futuras pruebas, se debe
extraer la información completa de cada uno de los sitios web de ESPOL y realizar búsquedas más exhaustivas.
También se debe realizar una actualización de las versiones de hadoop para ver las mejoras en el análisis escalable de datos en los diferentes nodos del cluster.
Se recomienda incorporar la opción de búsqueda personalizada de hadoop dentro del sitio web de ESPOL para que los usuarios puedan ver los resultados de su búsqueda más detallada y precisa. Y posiblemente la creación de sesiones para personalizar aun más las búsquedas.
![Page 21: Integrantes: Jorge Herrera M. Carlos Rodríguez R](https://reader036.vdocuments.pub/reader036/viewer/2022062309/5665b4811a28abb57c920ef9/html5/thumbnails/21.jpg)
Gracias