espinoza

Upload: jose-rafael-cruz

Post on 29-Feb-2016

3 views

Category:

Documents


0 download

DESCRIPTION

Data Mining

TRANSCRIPT

  • UNIVERSIDAD TCNICA PARTICULAR DE LOJALa Universidad Catlica de Loja

    Integrantes: Anglica Espinoza Marvin AgilaRodrigo Granda

    Inteligencia Artificial Avanzada

  • Introduccin Los rboles de clasificacin, es uno de los mtodos de aprendizaje inductivo supervisado no paramtrico bastante utilizado, estos se destacan por su sencillez y pueden utilizarse en diversas reasHay que mencionar que el anlisis de clasificacin basados en rboles de decisin que realizan los sistemas son tcnicas de explotacin de datos (data mining) que consisten en estudiar grandes masas de datos con el fin de descubrir patrones no triviales.En este trabajo analizamos la aplicacin de algunas tcnicas de Aprendizaje Automtico [10] a la Minera de Datos, y en particular en los algoritmos ID3 y C4.5 desarrollados por Quinlan, pertenecientes a la misma.

  • Ventajas y Desventajas

  • ALGORITMOS UTILIZADOS EN RBOLES DE CLASIFICACIN.Algoritmo C4.5 o J48 Permite trabajar con valores continuos para los atributos, separando los posibles resultados en dos ramas.Genera un rbol de decisin a partir de los datos mediante particiones realizadas recursivamente, segn la estrategia de profundidad-primero.Escoger un rango de medida apropiadoManejo de datos de entrenamiento con valores faltantes.

  • SISTEMA DE CREDITOS EN EL IECE (Instituto Ecuatoriano de Crditos Educativos y Becas).

    IECE. Es una entidad financiera de derecho pblico; entrelos fines para los que fue creado incluye los siguientes: Conceder crditos a ciudadanos ecuatorianos para que cursen estudios superiores en centros docentes nacionales o extranjeros.Contribuir a la promocin y desarrollo educativo, cultural, tcnico y profesional de los ecuatorianos en reas de prioridad nacional.Administrar las becas nacionales e internacionales de estudio, entrenamiento y perfeccionamiento en el exterior, otorgadas por organismos internacionales y gobiernos amigos.

  • Requisitos Para obtener un Crdito Educativo.

    Llenar el formulario de solicitud de crdito.Copia de la cdula de ciudadana y papeleta de votacin vigente en caso del estudiante sea mayor de edad.En caso de que el estudiante sea menor de edad, adjuntar copia de la cdula del padre o madre, el cual es representante legal y se constituye en deudor principal.Copia del pago del Impuesto Predial, en caso de tener vivienda propia; caso contrario, copia del contrato de arrendamientoEl garante debe Justificar un ingreso liquido mensual del 5% del monto solicitado

  • HERRAMIENTASWEKA. Es un entorno para experimentacin de anlisis de datos que permite aplicar, analizar y evaluar las tcnicas ms relevantes de anlisis de datos, principalmente las provenientes del aprendizaje automtico. Utiliza archivos de texto plano para describir los datos puede trabajar con una amplia variedad de archivos de datos incluido el suyo propio.RAPIDMINER. Es similar a WEKA en el flujo de conocimiento de procesos de minera de datos las rutinas son vistas como secuencial operadores. Utiliza XML para describir operador rboles en el proceso de KD.

  • DESARROLLO E IMPLEMENTACION

    Se ha escogido los siguientes datos:

  • Descripcin de variables.

    Las variables utilizadas para la realizacin de anlisis deasignacin de crditos se muestran a continuacin.

  • ANALISIS DE LOS RESULTADOS CON WEKA Y RAPIDMINER

    Rapidminer. Posee mayor visualizacin en cuanto a los resultados.Utiliza gran cantidad de memoria para inicializarse, y es un muy buenaherramienta en cuanto a clasificacin se refiere.

  • ANALISIS DE LOS RESULTADOS CON WEKA Y RAPIDMINERRapidminer En esta herramienta se puede visualizar todos los atributos relacionados con cada una de las clases.

  • ANALISIS DE LOS RESULTADOS CON WEKA Y RAPIDMINEREn el Rapidminer se puede generar diferentes tipos de algoritmos que posee.

  • ANALISIS DE LOS RESULTADOS CON WEKA Y RAPIDMINERrbol resultante en Rapidminer: se puede observar con realiza la clasificacin en diferentes tipos de clases se puede visualizar en la siguiente figura.

  • ANALISIS DE LOS RESULTADOS CON WEKA Y RAPIDMINERWEKA. Soporta un solo formato de archivo .arff. y llamados a Bases de Datos. No permite mostrar los resultados en 3D, No se visualiza de manera la matriz de confusin

  • ANALISIS DE LOS RESULTADOS CON WEKA Y RAPIDMINEREn WEKA se puede clasificar cada uno de la variables en diferentes clases.

  • ANALISIS DE LOS RESULTADOS CON WEKA Y RAPIDMINERTambin en WEKA se puede analizar la matriz confusin con sus respectivos atributos de cada uno de sus clases.

  • ANALISIS DE LOS RESULTADOS CON WEKA Y RAPIDMINERrbol resultante en WEKA: se puede observar con realiza la clasificacin en diferentes tipos de clases Se puede visualizar en la siguiente figura.

  • Trabajos RelacionadosAnlisis de la asignacin de Crdito. En este trabajo se enfoca a las instituciones financieras que ofrecen productos de crdito, enfrentan el problema de clasificar a sus clientes a travs de un anlisis, con el fin de establecer medidas que permitan mitigar el riesgo de crdito. rboles de clasificacin: una metodologa para el anlisis de crisis bancarias. En este trabajo comparamos el poder clasificatorio del rbol construido bajo determinadas especificaciones con el que se obtiene aplicando el anlisis logit, en el estudio de los determinantes de las crisis bancarias ocurridas en la ltima dcada del siglo pasado. Rating de pequeas y medianas empresas mediante rboles de clasificacin. En este trabajo se puede ver que mediante el algoritmo CART como construye el rbol y clasifica los nuevos casos de clasificacin, como los conceptos, principios y procedimientos para la elaboracin y aplicacin de un modelo de calificacin de crdito haba sido plenamente desarrollada

  • CONCLUSIONES En base al anlisis realizada entre las dos herramientas se puede observar que Rapidminer se acopla a las necesidades del usuario en lo referente a la visualizacin de los datos ya que posee tres vistas Meta Data View, Data View, Plot View.La herramienta WEKA nicamente permite exportar solo un formato de archivo (.arff ) mientras que Rapidminer puede exportar diferentes tipos de archivo como (.arff, .access, .bibtex, .dbase, .aml(.data), .excel entre otros).Se ah podido demostrar la gran utilidad que tiene los algoritmos de clasificacin al aplicarla a un caso real.

  • BIBLIOGRAFIA[1] Edgar Acua ,CLASIFICACIN USANDO ARBOLES DE DECISION visitada el 5 de mayo del2009. http://math.uprm.edu/~edgar/clasifall9.pdf[2]Srta. Magdalena SERVENTE ALGORITMOS TDIDT APLICADOS A LAMINERIA DE DATOS INTELIGENTE FEBRERO 2002 http://laboratorios.fi.uba.ar/lsi/servente-tesisingenieriainformatica.pdf[3] Jos Manuel Rojo Abun, RBOLES DE CLASIFICACIN Y REGRESIN, http://estadistica.ieg.csic.es/tutoriales/PDF/AnswerTree.pdf