universidade do vale do itajaÍ centro de ciÊncias …siaibib01.univali.br/pdf/diego de faveri...
Post on 09-Nov-2018
220 Views
Preview:
TRANSCRIPT
UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR
CURSO DE CIÊNCIA DA COMPUTAÇÃO
MINERAÇÃO DE DADOS NA INSTITUIÇÃO DE ENSINO SENAI TIJUCAS PARA IDENTIFICAR PADRÕES NA EVASÃO DE ALUNOS
por
Diego De Faveri Cristiano
Itajaí (SC), maio de 2013
UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR
CURSO DE CIÊNCIA DA COMPUTAÇÃO
MINERAÇÃO DE DADOS NA INSTITUIÇÃO DE ENSINO SENAI TIJUCAS PARA IDENTIFICAR PADRÕES NA EVASÃO DE ALUNOS
Área de Sistemas de Informação
por
Diego De Faveri Cristiano Relatório apresentado à Banca Examinadora do Trabalho Técnico-científico de Conclusão do Curso de Ciência da Computação para análise e aprovação. Orientador: Benjamin Grando Moreira, M.Sc.
Itajaí (SC), maio de 2013
Dedico este trabalho a minha esposa, Mariana Campos Cristiano, que soube incentivar e compreender a fase turbulenta da redação do TTC, que de mãos dadas a mim rezou para que
Deus desse sabedoria para me guiar neste projeto. Como o marcador de compasso dos velhos navios guiam os remadores no ritmo da remada, dedico esse trabalho a meu orientador M.Sc. Benjamin Grando Moreira, por ter marcado o
compasso para que eu encaminhasse esse projeto no ritmo e rumo certo.
AGRADECIMENTOS
Agradeço a todos que de algum forma contribuíram para a realização deste trabalho,
em especial a minha esposa pela paciência, compreensão e companheirismo, aos meus pais e
amigos próximos, por entenderem a minha ausência, ao meu orientador pela confiança,
empenho, atenção e amizade, ao coordenador do Núcleo de Tecnologia da Informação do
SENAI de Tijucas, pelo apoio e incentivo dado no desenvolvimento deste projeto, a equipe de
Tecnologia da Informação do Departamento Regional do SENAI de Santa Catarina, pelo
apoio dado com a base de dados e a Deus pela saúde e sabedoria concedida.
“Não pense em vencer, pense em não ser vencido.” Gichin Funakoshi
RESUMO
CRISTIANO, Diego De Faveri. Mineração de Dados na Instituição de Ensino SENAI Tijucas para Identificar Padrões na Evasão de Alunos . Itajaí, 2013. 82 f. Trabalho Técnico-científico de Conclusão de Curso (Graduação em Ciência da Computação) – Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2013. O presente projeto foi realizado com o objetivo de modelar um Data Warehouse com informações do SENAI Tijucas para aplicar o processo de mineração de dados no intuito de encontrar um padrão de aluno propício a evasão. Os objetivos específicos que se pretendeu atingir foram: estudar e descrever conceitos de descoberta de conhecimento com Mineração de Dados em uma base de dados; Estudar e entender as principais causas de evasão em instituições de ensino; Verificar existência de trabalhos similares e fazer a sua análise; Especificar e implantar o Data Warehouse; Validar os resultados com o sistema e coordenação pedagógica e, por fim, documentar os resultados obtidos. Constatou-se que os padrões retornados pela mineração de dados podem auxiliar no processo de ensino da instituição, pois será possível focar nas possíveis causas da evasão escolar. Foi utilizada a ferramenta WEKA, para facilitar o processo de mineração de dados e para a definição dos fatores de evasão. Acredita-se que este projeto irá contribuir para a instituição de ensino, no que diz respeito à melhora no acompanhamento do aluno. Os docentes, orientadores e coordenadores poderão trabalhar de modo focado em um aluno propício a evasão, ao invés de trabalhar de modo geral com todos os alunos de uma turma em um curso. Palavras-chave: Evasão Escolar. Mineração de Dados. Data Warehouse.
ABSTRACT
This project was carried out in order to model a Data Warehouse with information from SENAI Tijucas to apply the process of data mining, in order to find a pattern conducive to abandonment of the student. The specific objectives that were intended to achieve: to study and describe concepts of knowledge discovery with data mining in a database, study and understand the main causes of dropout in educational institutions; Check for similar work and make your analyze, specify and deploy Data Warehouse; validate the results with the system of training and coordination and, finally, to document the results. It was found that the patterns returned by data mining can help in the teaching institution, you can focus on the possible causes of truancy. WEKA tool was used to facilitate the process of data mining and define the factors evasion. It is believed that this project will contribute to the educational institution, with regard to improvement in student monitoring. Teachers, counselors and coordinators can work so focused on a student prone to evasion, instead of working in general with all students in a class of a course. Keywords: School Dropout. Data Mining. Data Warehouse.
LISTA DE FIGURAS
Figura 1. Etapas do Processo de KDD .................................................................................. 27 Figura 2. Representação de Data Warehouse e Data Mart em uma empresa......................... 39 Figura 3. Modelagem do Data Warehouse proposto pelo projeto.......................................... 47 Figura 4. Resultado da classificação do algoritmo JRIP ........................................................ 54 Figura 5. Resultado do JRip levando em consideração os dados do professor. ...................... 58
LISTA DE QUADROS
Quadro 1. Definição de categorias com valores ............................................................................. 28 Quadro 2. Separação de intervalo e quantidade de ocorrências ...................................................... 31 Quadro 3. Representação binária padrão das categorias ................................................................. 32 Quadro 4. Representação binária 1 para N das categorias .............................................................. 32 Quadro 5. Representação binária por temperatura dos valores ....................................................... 33 Quadro 6. Exemplo de normalização linear em valores de um atributo .......................................... 34 Quadro 7. Exemplo de normalização por desvio padrão em valores de um atributo ....................... 34 Quadro 8. Exemplo de normalização pela soma de elementos em atributos ................................... 35 Quadro 9. Exemplo de normalização por valor máximo em atributos ............................................ 36 Quadro 10. Caractísticas da ferramenta WEKA ............................................................................. 49 Quadro 11. Atributos utilizados no WEKA para mineração de dados. ........................................... 54 Quadro 12. Regras e valores obtidos do algoritmo JRip. ................................................................ 55 Quadro 13. Dados utilizado no WEKA para mineração de dados agregados dados dos professores. 57 Quadro 14. Resultados do algoritmo JRip com as regras criadas com os atributos do professor. .... 58
LISTA DE GRÁFICOS
Gráfico 1. Situação x quantidade de alunos nos anos de 2011 e 2012 ............................................ 51 Gráfico 2. Relação entre situação do aluno e a média das notas ..................................................... 52 Gráfico 3. Situação do aluno x cursos ofertados ............................................................................ 52 Gráfico 4. Relação entre situação do aluno e data da matrícula ...................................................... 53 Gráfico 5. Situação do aluno x faixa etária do professor ................................................................ 56 Gráfico 6. Situação do aluno x formação do professor ................................................................... 56 Gráfico 7. Relação entre situação do aluno e tipo de contrato do professor com a instituição ......... 57
LISTA DE ABREVIATURAS E SIGLAS
DW Data Warehouse FIESC Federação das Indústrias do Estado de Santa Catarina INEP Instituto Nacional de Pesquisas Educacionais KDD Knowledge-Discovery in Databases MD Mineração de Dados MEC Ministério da Educação PDE Programa de Desenvolvimento Escolar SENAI Serviço Nacional de Aprendizagem Industrial SQL Structured Query Language TTC Trabalho Técnico-científico de Conclusão de Curso UNIVALI Universidade do Vale do Itajaí WEKA Waikato Environment for Knowledge Analysis
SUMÁRIO
1 INTRODUÇÃO ................................................................................................. 15 1.1 PROBLEMATIZAÇÃO .................................................................................. 16 1.1.1 Formulação do Problema ............................................................................. 16 1.1.2 Solução Proposta .......................................................................................... 17 1.2 OBJETIVOS ..................................................................................................... 17 1.2.1 Objetivo Geral .............................................................................................. 17 1.2.2 Objetivos Específicos .................................................................................... 17 1.3 METODOLOGIA ............................................................................................ 18 1.4 ESTRUTURA DO TRABALHO ..................................................................... 18 2 FUNDAMENTAÇÃO TEÓRICA .................................................................... 20 2.1 O PROBLEMA DA EVASÃO NAS INSTITUIÇÕES DE ENSINO ............. 20 2.1.1 Fatores externos à escola para a evasão ...................................................... 21 2.1.2 Fatores internos à escola para a evasão ...................................................... 21 2.1.3 A causa do problema nas instituições .......................................................... 22 2.1.4 A visão de quem participa do processo de ensino ....................................... 23 2.2 INSTITUIÇÃO DE ENSINO SENAI TIJUCAS ............................................ 25 2.3 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS .............. 26 2.3.1 Seleção dos Dados ......................................................................................... 27 2.3.2 Limpeza ........................................................................................................ 28 2.3.3 Codificação ................................................................................................... 30 2.3.4 Enriquecimento ............................................................................................ 33 2.3.5 Normalização de Dados ................................................................................ 33 2.3.6 Mineração de Dados ..................................................................................... 36 2.3.7 Simplificação de Conhecimento Gerado ..................................................... 37 2.3.8 Visualização dos Modelos de Conhecimento ............................................... 38 2.4 DATA WAREHOUSE ..................................................................................... 38 2.4.1 Armazenando os dados ................................................................................ 40 2.4.2 Construindo um Data Warehouse ................................................................ 40 2.5 ESTUDOS SIMILARES .................................................................................. 41 2.5.1 Projeto de Mineração De Dados Aplicada à Identificação de Alunos Propensos à Evasão do CEULJI/ULBRA de Ji-Paraná/RO ................................ 41 2.5.2 Aplicação de Técnicas de Mineração de Dados na Previsão de Propensão à Evasão Escolar .................................................................................. 42 2.5.3 Minerando Dados Educacionais com foco na evasão escolar: oportunidades, desafios e necessidades ................................................................. 43 2.5.4 Considerações dos trabalhos similares ........................................................ 43 3 DESENVOLVIMENTO ................................................................................... 45 3.1 BASE DE DADOS ............................................................................................ 45 3.2 DATA WAREHOUSE ....................................................................................... 46 3.3 MINERAÇÃO DE DADOS ............................................................................. 47
3.3.1 A ferramenta WEKA ................................................................................... 48 3.3.2 Pré-processamento ....................................................................................... 49 3.3.3 Classificação ................................................................................................. 53 4 CONCLUSÕES ................................................................................................. 60 4.1 TRABALHOS FUTUROS ............................................................................... 61 APÊNDICE A. QUESTIONÁRIO APLICADO ................................ 65 APÊNDICE B. REGRAS DE CLASSIFICAÇÃO: DADOS ALUNOS ................................................................................................ 66 APÊNDICE C. REGRAS DE CLASSIFICAÇÃO: DADOS DO PROFESSOR. ........................................................................................ 71 APÊNDICE D. ESBOÇO DE TELA PARA VISUALIZAÇÃO DAS REGRAS CRIADAS PELO ALGORITMO JRIP NO WEKA. ................................................................................................... 74 ANEXO A. AUTORIZAÇÃO PARA UTILIZAÇÃO DA BASE DE DADOS COMO MODELAGEM E AVALIAÇÃO DAS TÉCNICAS FUNDAMENTADAS ....................................................... 75 ANEXO B. MODELAGEM DO BANCO DE DADOS ................... 76
15
1 INTRODUÇÃO
Segundo a Constituição Federal (artigo 205) a educação, através de ações do Estado,
da família e da sociedade, é um direito que deve ser garantido a todos, visando o seu
desenvolvimento para o exercício de cidadão.
Órgãos e instituições de ensino são ditos como responsáveis pela educação, mas está
nas ações do Estado, família e da sociedade o dever de garantir a educação a todos. De acordo
com Rocha (2012, não paginada): “a educação deixou de ser um tema exclusivo dos
trabalhadores da área para ser uma questão de interesse de toda a sociedade”.
A assiduidade das crianças e jovens na escola, está nos programas do governo e no
incentivo da família. Os projetos executados pelo Estado tem o objetivo de manter o aluno em
sala de aula, oferecendo oportunidades e vivências com estudo técnicos, profissionalizantes e
de graduação. Cabe, então, à família e à sociedade a tarefa de incentivar o aluno na
permanência em um curso. Porém, a educação, em sua plenitude, não está ao alcance de todos
os cidadãos e também não tem sido eficiente no que se refere à conclusão de todos os níveis
escolares (ROCHA, 2012).
A evasão escolar é um dos temas que, há algum tempo, integram a pauta dos debates e
reflexões referentes ao panorama da educação brasileira e ainda possui um espaço relevante
no cenário das políticas públicas a da educação em particular (MENEZES, 2010).
Evasão escolar ocorre quando o aluno deixa de frequentar a aula e fica caracterizado o
abandono escolar. Segundo o Ministério da Educação (BRASIL / MEC, 1997 apud
MARTINS, 2007), evasão é: a saída definitiva do curso de origem sem conclusão ou a
diferença entre ingressantes e concluintes, após uma geração completa.
Segundo pesquisa desenvolvida pela Fundação Getúlio Vargas – Rio de Janeiro (FGV-
RJ, 2009), Motivos da Evasão Escolar, o desinteresse relacionou 40% dos jovens com idade
entre 15 e 17 anos no que se refere à evasão escolar, estes relataram achar a escola
desinteressante. Dentre outros motivos temos a repetência, horário de trabalho, desmotivação,
desprestígio da profissão (graduação e técnicos).
Muitos profissionais da área pensam que não adianta o governo criar programas
educacionais sendo que a escola e a própria aula não se tornam mais atrativas. Os mesmos
acreditam que para diminuir a evasão escolar é necessário a união de ambas ações. (FGV-RJ,
2009).
16
Ter a possibilidade de prever que um aluno irá evadir de um curso ou escola é uma
tentativa desenvolvida pelas instituições de ensino para não aumentarem o seu índice de
evasão. Utilizar técnicas de inteligência artificial e estatística é a melhor forma dos
responsáveis encontrar o que estão procurando.
A mineração de dados é uma boa técnica para encontrar a possibilidade de evasão de
um aluno. As informações úteis em um banco de dados pode ser descoberta automaticamente.
Tan, Steinbach e Kumar (2009) dizem que as técnicas de mineração de dados são organizadas
para agir sobre grandes bancos de dados com o intuito de descobrir padrões úteis e recentes
que poderiam de outra forma, permanecer ignorados. Entre outras funções, elas também
fornecem capacidade de previsão do resultado de uma observação do futuro.
Mineração de dados não é comumente utilizada em sistemas para gerenciamento de
instituições, visto que a maioria dos softwares utilizam consultas tradicionais para
recuperação de uma informação na base de dados. Por mais que esta segunda opção utilize
algoritmos e estruturas de dados, servem somente como recuperação de dados. Já na
mineração de dados, é possível o retorno de padrões de dados com base na execução da tarefa.
(TAN; STEINBACH; KUMAR, 2009).
Para Braga (2005), há um processo maior na descoberta de dados, no qual a mineração
dados está inserida, chamada KDD (Knowledge Discovery in Database). A mineração de
dados é restrita para a obtenção de modelos, tornando-a instâncias para o KDD.
As instituições de ensino perdem com a evasão de seus alunos, seja ela particular ou
pública. Para as públicas, um investimento é feito sobre o aluno que interessa em um curso e
se esse evadir o dinheiro investido não terá retorno. Para as particulares, a situação se
complica ainda mais, pois além do investimento feito pela instituição, também perde-se a
mensalidade (TIGRINHO, 2008).
1.1 PROBLEMATIZAÇÃO
1.1.1 Formulação do Problema
Visto que as perdas das instituições são grandes, a descoberta de uma alta
probabilidade de um aluno evadir o curso possibilita os responsáveis pela instituição agir para
conter essa possível saída, interagindo melhor com o aluno. Com esse estudo, outras
descobertas podem ser feitas, considerando que o sistema terá uma base de conhecimento para
identificar novos padrões de dados e gerar informações.
17
Em várias instituições existe um banco de interessados por um curso. É possível
utilizar do conhecimento gerado para descobrir se existe a probabilidade de o aluno se
inscrever no curso e acabar evadindo no decorrer do mesmo. Caso o candidato tenha uma
probabilidade grande de evadir o curso, a instituição pode se programar para não fazer um
investimento inicial alto para o mesmo.
1.1.2 Solução Proposta
O projeto proposto teve por objetivo aplicar técnicas de mineração dados na base de
dados do sistema de gerenciamento de negócio da instituição de ensino SENAI Tijucas, com
base nos dados dos alunos, para identificar padrões de dados que determinem os fatores de
evasão escolar. Tais informações reconhecidas pela mineração de dados irão auxiliar no
processo de ensino dos docentes, pois estes poderão focar diretamente nas possíveis causas de
evasão. Sabe-se, ainda, que na obtenção dos padrões de alunos propensos à evasão, pode-se
encontrar outros padrões que auxiliem a instituição de ensino no seu processo de
aprendizagem.
1.2 OBJETIVOS
1.2.1 Objetivo Geral
Modelar um Data Warehouse com informações do SENAI Tijucas para utilizar a
técnica de mineração de dados no intuito de encontrar um padrão de aluno propício a evasão.
1.2.2 Objetivos Específicos
Estudar e descrever conceitos de descoberta de conhecimento com Mineração de
Dados em uma base de dados;
Estudar e entender as principais causas de evasão em instituições de ensino;
Verificar existência de trabalhos similares e fazer a sua análise;
Especificação e implantação do Data Warehouse;
Validar os resultados com o sistema e coordenação pedagógica;
Documentar os resultados obtidos no relatório final do TTC.
18
1.3 Metodologia
Para os objetivos propostos pelo projeto, foi realizada uma pesquisa direcionada sobre
o problema da evasão escolar nas escolas e na sociedade. Foi realizado também um
questionário aplicado para contextualizar a visão de evasão escolar por todos os atores do
processo de ensinamento em uma instituição de ensino. Entende-se que esse problema é um
assunto abordado por vários níveis, identificando um trabalho maior no nível macro, no qual
se encontra os governos e entidades maiores, com programas que tentam cada vez mais
manter os alunos dentro das salas de aula.
Para encontrar a solução proposta pelo projeto, foi feito um estudo com técnicas
computacionais para descoberta de conhecimento e padrões de alunos com o problema de
evasão. Realizou-se um levantamento bibliográfico sobre o assunto de técnicas e
característica específicas em mineração de dados e descoberta de conhecimento. A partir
deste, identificou-se a necessidade de utilizar a técnica de classificação de dados na mineração
dos mesmos e como visualização e análise dos resultados árvores e regras de decisão e a
matriz de confusão.
Uma pesquisa por projetos similares foi feita para que encontrasse algumas
características fundamentais para o início da pesquisa e análise de atributos necessários para
que a solução do problema fosse executada com confiabilidade.
Encontrou-se a necessidade de uma ferramenta que auxiliasse no estudo e análise dos
atributos da base de dados estudada. Foi feito então uma pesquisa direcionada sobre as
características do software WEKA e como se dá a utilização do mesmo, para que a ferramenta
auxiliasse a solução proposta pelo projeto.
1.4 Estrutura do trabalho
O projeto presente está dividido em quatro capítulos, citado como:
Capítulo 1: capítulo introdutório que sintetiza o que será apresentado pelo
projeto;
Capítulo 2: capítulo sobre a Fundamentação Teórica do assunto abordado pelo
projeto. Este capítulo está subdividido em quatro tópicos. No primeiro tópico
estão contidos os estudos feitos sobre a problemática do projeto (a evasão
19
escolar). O segundo tópico está reservado para fundamentar sobre as técnicas
de descoberta de conhecimento, no qual apresenta as etapas e técnicas. No
terceiro tópico estão fundamentados os estudos feitos sobre Data Warehouse,
visto que para a solução proposta necessitou-se desta tecnologia. No quarto e
último tópico, está presente a pesquisa feita em projetos similares, projetos que
estudaram técnicas semelhantes acerca de resolver a problemática principal,
evasão escolar;
Capítulo 3: capítulo destinado ao desenvolvimento. Nesta seção estão presentes
as técnicas que foram utilizadas para solução do problema, as ferramentas
auxiliaram na busca da obtenção do conhecimento, a estruturação da base de
dados em estudo e a modelagem do datawarehouse e também modelagem do
processo para descoberta de conhecimento e visualização da informação
reportada pela mineração de dados;
Capítulo 4: quarto e último capítulo, destina-se para as conclusões e abertura
de possibilidades de trabalhos futuros.
20
2 FUNDAMENTAÇÃO TEÓRICA
O projeto foi fundamentado teoricamente com base em algumas referências
específicas, citando elas, ten-se para a problemática como autor base Queiroz (2004) e
colaboradores da unidade escolar em estudo. O estudo baseou-se em identificar a evasão
escolar e suas causas, as consequências do problema para a sociedade e para auxiliar na
solução proposta. Para assessorar o desenvolvimento do projeto, aplicou-se um questionário
com intuito de verificar a visão dos atores do processo de ensino sobre o tema.
Para a fundamentação da técnica de mineração de dados, descoberta de conhecimento
e data warehouse, foi utilizado como base os autores Goldschmidt e Passos (2005), Tan,
Steinbach e Kumar (2009), Oliveira (2002) e projetos com temas de problemáticas e soluções
similares, na busca de uma iniciação para o projeto de desenvolvimento da solução proposta
por este projeto. Foi fundamentado como as técnicas que serão utilizadas funcionam e suas
características, como é criado um repositório de dados para que a mineração de dados possa
trabalhar e o que os outros autores de projetos semelhantes fizeram para resolver o problema e
os resultados obtidos.
2.1 O problema da evasão nas instituições de ensino
A evasão escolar é um dos temas que fazem parte de debates políticos referentes à
educação pública. O ponto central em debate é o papel que a família e o Estado têm na
orientação dos alunos quanto à vida escolar. A Lei de Diretrizes e Bases da Educação
(1997:2) é bem clara quanto ao papel do Estado e da família (QUEIROZ, 2004, não
paginada):
Art. 2°. A educação, dever da família e do Estado, inspirada nos princípios de liberdade e nos ideais de solidariedade humana, tem por finalidade o pleno desenvolvimento do educando, seu preparo para o exercício da cidadania e da qualificação para o trabalho.
Quanto ao alcance de todos os cidadãos à educação e na conclusão de todos os níveis
escolares, a educação não tem sido completa. Como fatores que causam a evasão escolar,
muitos estudos apontaram a desestruturação familiar, as políticas de governo, o desemprego, a
desnutrição e a própria criança, sem retirar a responsabilidade da escola no processo de
exclusão da criança no sistema educacional (QUEIROZ, 2004).
21
A evasão escolar atinge do nível micro (a escola) até o nível macro (o país). Muitas
ações são criadas no âmbito nacional para a erradicação da evasão escolar, como exemplo a
Escola Ciclada, o programa bolsa-escola, o Plano de Desenvolvimento Escolar (PDE), entre
outros, porém somente estes programas não são suficientes para eliminar de fato o problema
da evasão (QUEIROZ, 2004).
O problema da evasão escolar não atinge somente as unidades de ensino públicas, esse
problema é uma questão nacional e reflete nas unidades de ensino privadas também. Queiroz
(2004) afirma que muitos estudos são feitos para analisar o fracasso escolar quanto à
permanência dos alunos no processo educacional. Esses estudos são feitos a partir de duas
abordagens: a primeira a partir dos fatores externo as escolas, como o trabalho, as
desigualdades sociais, o aluno e a família, a segunda os fatores internos, como a própria
escola, a metodologia de ensino e o professor.
2.1.1 Fatores externos à escola para a evasão
Segundo Rocha (2010), para os alunos que estudam no período noturno, dentre os
principais fatores que levam o aluno a evadir do ensino estão: cansaço devido ao trabalho
precoce, desinteresse e desestruturação familiar. Para a autora, os alunos deste período são na
sua maioria de classe social mais desfavorecida financeiramente, normalmente os alunos
passam por uma jornada de trabalho diária cansativa, o que leva o desinteresse aos estudos.
Queiroz (2004) defende que o fator externo que mais causa a evasão dos alunos no
período diurno está na família. As condições de vida do aluno, a má alimentação, o não
acompanhamento dos pais ou responsáveis no ensino são determinantes no fracasso escolar
do aluno.
2.1.2 Fatores internos à escola para a evasão
Dos fatores internos como causadores do fracasso escolar dos alunos, o professor é
apontado como o principal fator causador. O professor é apontado como principal causador
devido às expectativas negativas que este tem perante os alunos ditados por ele como
deficientes, nos quais representam as diferenças sociais e culturais existentes e que, às vezes,
não respondem com as expectativas do professor (QUEIROZ, 2004).
22
Rocha (2010) aponta como principal fator interno no ensino noturno a estrutura
escolar, muitas vezes os alunos são esquecidos neste período devido as escolas não terem
responsáveis pelas áreas de coordenação e direção. A falta de estrutura como bibliotecas,
laboratórios, salas de vídeo tem um forte fator na causa do fracasso e desinteresse dos alunos.
2.1.3 A causa do problema nas instituições
O problema financeiro não atinge somente as instituições particulares, todos acham
que por um aluno evadir, a escola irá perder uma mensalidade, mais que isso, a escola perde
também todo investimento feito na estrutura para que o aluno possa concluir os estudos. Esse
investimento é feito tanto pela instituição privada quanto pelas instituições públicas, como
citado, o governo tenta manter os alunos em sala propiciando projetos que ajudem
financeiramente e socialmente o indivíduo (TIGRINHO, 2008).
As escolas particulares perdem mais, pois, além de perder o investimento feito,
perdem a mensalidade que dava o retorno ao investimento. Na instituição de ensino estudada
a taxa de evasão, contabilizada no ano de 2012, foi de 23%.
Triguinho (2008) mostra que a entrada do alunos nas instituições de ensino não
considera o êxito educacional do estudante, no caso em estudo os estudantes de ensino
superior. Os números de abandonos no decorrer de um curso são muito grande no que se
refere as perdas sociais e econômicas.
Em uma pesquisa aplicada pelo INEP (2005 apud TRIGUINHO, 2008), mostrou uma
evolução ao passar dos anos na inscrição de novos alunos no ensino superior. Como mostra a
Tabela 1, nem todos os alunos ingressantes concluem o curso. Os dados de ingressos dos anos
de 2001, 2002 e 2003 não foram informados pela referência.
Tabela 1. Percentual do número de alunos que ingressaram e não se titularam no período mínimo previsto - 1994 – 2003
Ingressos por processo seletivo % de não concluintes após 4 anos Ano Pública Privada Total Pública Privada Total 1994 159.786 303.454 463.240 38,5 44,3 42,4 1995 158.012 352.365 510.377 36,6 39,0 38,1 1996 166.494 347.348 513.842 35,1 43,9 40,8 1997 181.859 392.041 573.900 33,6 44,5 40,8 1998 196.365 454.988 651.353 33,3 44,5 41,1 1999 217.497 570.141 787.638 57,5 38,9 36,8 2000 233.083 664.474 897.557 35,9 39,9 38,6
23
Tabela 1. Percentual do número de alunos que ingressaram e não se titularam no período mínimo previsto - 1994 – 2003 – Continuação
Ingressos por processo seletivo % de não concluintes após 4 anos Ano Pública Privada Total Pública Privada Total 2001 32,5 42,1 39,2 2002 30,5 44,7 40,8 2003 27,5 46,0 41,2
Fonte: MEC/INEP/CAPES apud TIGRINHO, 2008
Em 2011 o Brasil teve uma perda de R$ 9 bilhões com o problema da evasão escolar.
No início de 2012 o número de evasões chegava a 896.455 alunos (20,9% dos alunos
ingressantes). Deste total de alunos que abandonaram os estudos 10,5% representam as
instituições de ensino superior públicas e 24,5% em instituições privadas, que concentram um
custo de R$ 9 mil por ano para manter o aluno estudando (G1, 2011).
2.1.4 A visão de quem participa do processo de ensino
Para auxiliar a fundamentação teórica deste item, foi aplicado um questionário,
(Apêndice A), referente o tema evasão escolar para determinados atores do processo de
ensino (diretores, professores, alunos, coordenadores e pais), tanto em escolas particulares
como em escolas públicas. Foram disponibilizados cinquenta questionários, porém obteve-se
o retorno somente de vinte.
O principal objetivo do questionário foi entender a visão de quem está no processo de
educação do jovem (professor, coordenador, diretor, aluno) e servir como fonte do processo
de seleção dos atributos na base de dados da instituição.
2.1.4.1 Na ótica dos professores
Nos questionários respondidos pelos professores, viu-se bastante interesse e
entendimento no assunto. Identificou-se que os professores estão por dentro do assunto e que
entendem que uma busca diária para manter o aluno dentro de sala de aula faz parte de seu
papel.
Apontaram que o fator externo, principalmente a falta de acompanhamento da família,
tem grande peso na evasão escolar dos alunos, que a parte social, onde por muitas vezes os
alunos precisam trabalhar e esquecem os estudos contribui muito para a desistência do aluno,
mas outro grande fator é o próprio professor, a falta de preparo, a metodologia utilizada são
fatores que instigam o desinteresse dos alunos pelos estudos.
24
Das propostas indicadas pelos professores, destacam-se: um suporte melhor da
estrutura da instituição de ensino, para diversificação na metodologia de ensino aplicada; a
preparação do professor para a aula; que os professores criem um diálogo com os alunos que
demonstre o interesse que o professor tem em fazer o aluno aprender e prepara-lo para o
mercado e a vida.
2.1.4.2 Na ótica do diretor e coordenadores
A ótica dos diferentes atores do processo mostra a diversidade no que se diz o
problema da evasão e os fatores causadores.
Para o diretor e coordenadores, o problema é muito preocupante, pois estão cientes
que não só a instituição perde, mas o aluno é o maior prejudicado. Para esses atores, o fator
predominante para a evasão está na escola. O problema está com a unidade de ensino. É dever
da unidade escolar despertar o interesse dos alunos para os estudos, mostrar aos alunos as
oportunidades que terão com estudo aprofundado de um assunto.
Dentre as soluções apontadas, destacam-se: um acompanhamento de perto dos alunos;
metodologia de ensino condizentes com a realidade; aulas práticas que mostrem ao aluno que
a teoria se põe na prática, assim, fazendo com que esse materialize as dúvidas do aprendizado
e fazendo com que ele crie uma expectativa futura profissional ou até mesmo educacional.
2.1.4.3 Na ótica dos pais ou responsáveis
Os pais entenderam de imediato o problema da evasão e ainda compreenderam o
esforço feito por todas as partes do processo para manter os alunos em sala de aula.
Os pais que responderam ao questionário não eximiram a culpa da família como fator
para o desinteresse do aluno, entendem que o desinteresse se dá por uma não participação da
família do processo. Mas apontaram também problemas com os docentes, que por muitas
vezes a não preparação do professor não cativa o interesse dos estudantes em prestar atenção
ao conteúdo, criando assim um desinteresse pelo estudo.
A solução predominante apontada pelos pais foi a de trazer a família para dentro da
instituição de ensino, que ela acompanhe o dia-a-dia do seu filho na escola e, assim, possa
cobrar da instituição uma preparação adequada do professor e fazendo com que o exemplo
deles passe aos alunos a vontade de aprender.
25
2.1.4.4 Na ótica dos alunos
Todos os alunos que responderam ao questionário estavam cientes do problema e de
sua gravidade quanto ao futuro educacional.
Dentre as respostas sobre qual fator é predominante no fracasso escolar dos
estudantes, o predominante foram os fatores externos, mais especificamente a família e o
desinteresse do próprio aluno. Entendem que a falta dos pais no processo de aprendizagem e
os meios de desatenção existentes hoje, como internet, eletrônicos, são artifícios que cada dia
mais os alunos se desinteressem pela figura do professor explicando conceitos em frente a um
quadro. Compreende-se que os alunos precisam ser estimulados.
Das soluções apontadas predominou o acompanhamento da família durante o percurso
da educação e uma motivação dos professores para instigar a vontade de aprender dos alunos.
2.2 Instituição de Ensino SENAI Tijucas
O SENAI (Serviço Nacional de Aprendizagem Industrial) existe no país desde 1942 e
iniciou suas atividades no município de Tijucas no ano de 1989, mantendo o foco em
qualificação profissional para o mercado de trabalho e aliando-se às iniciativas da indústria
nacional.
Nesta cidade o SENAI atende as modalidades de ensino médio com o ensino técnico
articulado (ensino médio e técnico cursados juntos), além de disponibilizar as qualificações
profissionais com cursos técnicos e de aprendizagem industrial nos setores de cerâmica,
metalmecânica, elétrica e tecnologia da informação.
Tratando-se dos cursos profissionalizantes, o público alvo para os cursos de
aprendizagem são pessoas com idade entre 14 à 24 anos enquanto que nos cursos técnicos os
requisitos são estar cursando o segundo ano do ensino médio ou ter o mesmo concluído.
Com incentivo do governo para qualificação profissional, desde o ano de 2012, os
cursos técnicos são subsidiados (os alunos não pagam mensalidade). Os cursos de
aprendizagem são mantidos com investimentos da indústria local. Neste caso, além dos alunos
se beneficiarem pela gratuidade do curso os mesmo recebem uma bolsa auxílio das empresas.
Os cursos de ensino médio e técnico articulado, por sua vez, possuem mensalidades que são
de responsabilidade do próprio aluno.
26
Para realização deste projeto, utilizou-se como base os dados dos cursos
profissionalizantes (técnicos e aprendizagens industriais). Buscou-se identificar os fatores que
indicam a evasão do aluno e, através destes, teve-se acesso a uma gestão da unidade (que não
era foco deste estudo), porém permitiu gerenciar a meta de 10% de evasão na instituição.
2.3 Descoberta de Conhecimento em Bases de Dados
A tecnologia evolui constantemente, o que permite que cada vez mais dados sejam
guardados. Empresas de grande porte têm um grande volume de dados armazenados com
informações comerciais, administrativas, governamentais. Humanamente é impossível fazer a
manipulação deste grande volume de dados sem a ajuda de um sistema computacional
(GOLDSCHMIDT; PASSOS, 2005).
Goldscmidt e Passos (2005) fazem as seguintes perguntas: “O que fazer como todos os
dados armazenados? Como utilizar o patrimônio digital em benefício das instituições? Como
analisar e utilizar de maneira útil todo o volume de dados disponível?”.
Existem tarefas de descoberta de informação que não estão dentro da descoberta de
conhecimento. A procura de uma informação em uma base de dados ou em um site é
simplesmente uma recuperação de dados para uma manipulação ou para mostrar ao usuário.
Embora essas informações sejam importantes, elas não utilizam de uma estrutura
computacional avançada, técnicas comuns de ciência da computação são utilizadas para essa
tarefa (TAN; STAINBACH; KUMAR, 2009).
O processo de descoberta de conhecimento (do inglês Knowledge Discovery in
Database – KDD) foi criado para indicar as etapas que geram o conhecimento sobre os dados
e declara a etapa da Mineração de dados (do inglês Data Mining) (FAYYAD, 1996 apud
GOUVEIA, 2009).
Segundo Fayaad (1996 apud MAMANI, 2011), o KDD é formado por 5 etapas
representadas na Figura 1: seleção de dados; pré-processamento e limpeza dos dados;
transformação dos dados; Mineração de Dados, interpretação e apreciação dos resultados.
27
Figura 1. Etapas do Processo de KDD Fonte: Fayaad (1996 apud MAMANI, 2011).
Para Fayyad (1996 apud DINIZ, 2009) a descoberta de conhecimento através do KDD
em bancos de dados é um processo iterativo, que pode retornar a qualquer etapa sempre que
necessário, sempre buscando o aprimoramento dos resultados a cada repetição. A Mineração
de Dados é a etapa principal no processo da descoberta, é nela que acontecem as relações dos
dados na base de dados, permitindo que um analista possa inferir as regras e fundamentar
hipóteses (Diniz, 2009).
2.3.1 Seleção dos Dados
Para Goldschmidt e Passos (2005 p. 26) a etapa de seleção de dados compreende: “a
identificação de quais informações, dentre as bases de dados existentes, devem ser
efetivamente consideradas durante o processo de KDD”. Normalmente, as informações estão
guardadas em bases transacionais e que sofrem alteração com o passar do tempo.
Diniz (2009 p. 7) enfatiza o seguinte: ”ocorre a seleção dos dados que serão utilizados
em todo o processo. Os dados não necessariamente estão em um banco de dados, eles podem
ser extraídos de planilhas eletrônicas, de formulários de pesquisa, tabelas, mapas entre outras
fontes.”.
Deve-se nesta etapa definir a população, podendo classificar em três categorias:
demográfico; comportamentais; e psicológicos (valores). Usando o exemplo de um homem
com idade de 45 anos, estado civil viúvo, que consome semanalmente no supermercado o
28
valor de R$ 200,00 em média e é contra o pagamento do estacionamento, temos representados
no Quadro 1 os tipos de dados (BRAGA, 2005).
Tipos de Dados
DEMOGRAFICAMENTE COMPORTAMENTAL PSICOLÓGICO Homem, 45 anos, viúvo Compras semanais em média
de R$ 200,00 Contra o pagamento de estacionamento
Quadro 1. Definição de categorias com valores Fonte: Braga (2005)
É recomentado que se utilize uma cópia desta base de dados ou, o mais indicado, criar
uma base de dados com a junção de todos os bancos necessários. Essa junção se da de duas
formas: Junção Direta é criada um banco de dados somente com a junção das bases que serão
utilizadas, sem análise crítica dos dados; e Junção Orientada, antes de se criar o banco de
dados com a junção das bases, é contatado um especialista de KDD e um especialista no
domínio da aplicação, retira-se dos bancos somente os atributos que serão úteis para o
processo da descoberta de dados (GOLDSCHMIDT; PASSOS, 2005).
2.3.2 Limpeza
É comum nas bases de dados aparecerem dados fora do padrão ou inconsistentes ou
ainda incompletos. Para tratar este problema, há rotinas com a especialidade de preencher
valores faltantes, padronizar os dados que se encontram fora do padrão e corrigir
inconsistências nos dados (HAN; KAMBER, 2001 apud CORTÊS; PORCARO; LIFSCHITZ,
2002). Essa limpeza de dados pode ser feita não necessariamente antes do processo de KDD,
pode ser iniciada assim que encontrar algum tipo de problema na mineração de dados ou
avaliação de padrões (ADRIAANS; ZANTINGE, 1996 apud CORTÊS; PORCARO;
LIFSCHITZ, 2002).
É imprescindível que os dados estejam organizados e sem inconsistência, isso irá
afetar positivamente no desempenho do processo de mineração. Esta fase tem como alvo
corrigir os dados, eliminando consultas inúteis que seriam feitas pela Mineração de Dados.
Como apoio a etapa de limpeza de dados, é o sistema de informação fazer um filtro melhor na
inserção dos dados evitando a poluição do banco de dados, mais nem sempre é encontrado
este tipo de rotina, para isso esta etapa do KDD utiliza de funções de limpeza de dados
(GOLDSCHMIDT; PASSOS, 2005).
29
2.3.2.1 Informações Faltantes
Informações faltantes se dão por diversas vezes existirem registros na base de dados
atributos que não têm valores atribuídos, valores dos quais são importantes para o processo de
mineração. Fazem parte de algumas técnicas de limpeza de valores faltantes as funções
(HAN; KAMBER, 2001 apud CORTÊS; PORCARO; LIFSCHITZ, 2002):
Exclusão de Registros: É o método menos indicado, pois a sua tarefa é excluir
todos os registros que contenham valores ausentes. Essa técnica é uma boa
opção para quando há vários atributos sem valores no registro. Se for utilizado
com ao menos um atributo sem valor o risco de sobrarem poucos registros para
a mineração será grande (GOLDSCHMIDT; PASSOS, 2005);
Inserção Manual dos Valores: Consiste em pesquisas em banco de dados com
informações originais, que por sua vez quando encontradas, serão inseridas
manualmente nos atributos sem valores (Ibidem);
Inserção de Valores Globais Constantes: Este método também não é o mais
indicado, seu trabalho é atribuir valores padrões nos campos onde se tem a
ausência do dado. Isso é limitado por alguns algoritmos de Mineração de
Dados utilizam valores padrões como importante, o que prejudicará no
resultado da mineração (Ibidem);
Inserção com Medidas Estatísticas: Este método utiliza de medidas estatísticas
para encontrar um valor para esses atributos com dados ausentes. Essa é uma
ótima técnica para substituir a Inserção de Valores Globais Constantes, pois
podemos utilizar a média para atributos numéricos e a moda para atributos
nominais para encontrar um valor para os campos sem informações. Em
problemas de classificação, podemos também utilizar essa técnica. Só que na
classificação não é considerado todos os registros e sim os registros a que
classe ele pertence. (Ibidem); e
Inserção Utilizando Métodos de Mineração de Dados: O mais indicado a ser
utilizado, utiliza de algoritmos de Mineração de Dados como Redes Neurais,
Árvores de Decisão, Modelos Bayesianos para prever o possível dado para o
atributo com valor em branco de um registro. Nota-se que é livre a utilização
30
de algoritmos de Mineração de Dados no processo de pré-processamento do
KDD (Ibidem).
2.3.2.2 Informações Inconsistentes
A inconsistência acontece quando um valor é divergente de outro no mesmo registro
ou em um conjunto de registros. Nesta fase é necessário de um especialista para a
identificação das inconsistências. Dois métodos são utilizados para resolver as inconsistências
(GOLDSCHMIDT; PASSOS, 2005):
Exclusão de Casos: Semelhante à exclusão de registros do de informações
faltantes, consiste em excluir as tuplas onde ocorrem os dados inconsistentes
(Ibidem); e.
Correção dos Erros: Neste método, é utilizado de técnicas manuais ou até
mesmo atualização em lote através de comandos em ambientes relacionais.
Esses dados podem ser valores predeterminados (Ibidem).
2.3.2.3 Informações que não pertencem ao problema
Essa situação ocorre devido aos dados dos atributos não pertencerem ao domínio do
problema. Para limpeza desta causa é necessário o conhecimento prévio do domínio de cada
atributo. Algumas técnicas são utilizadas para a limpeza desta causa (GOLDSCHMIDT;
PASSOS, 2005):
Remoção dos Casos: O melhor caso para esse problema, nada mais é de que
excluir os atributos que não pertencem ao problema (Ibidem);
Correção de Erros: Pode-se utilizar de métodos manuais ou comandos SQL
para trocar os valores inválidos (Ibidem).
2.3.3 Codificação
Na fase de pré-processamento do KDD, a codificação dos atributos é o responsável
por como os dados serão representados no processo de KDD. A codificação dos dados é feita
para atender as necessidades dos algoritmos de mineração, se um algoritmo necessita de
31
valores numéricos e a base de dados é nominal, esta deve ser codificada para transformar os
atributos nominais em numéricos (GOLDSCHMIDT; PASSOS, 2005).
A codificação dos dados influencia diretamente no conhecimento encontrado. A
codificação pode ser de duas formas: Numérica – Categórica ou Categórica – Numérica
(Ibidem).
2.3.3.1 Codificação Numérica – Categórica
Dividem os valores contínuos em intervalos codificados, algumas técnicas são
utilizadas para isso:
Mapeamento Direto: essa técnica é a simples troca de valores numéricos por
categóricos (Ibidem). Por exemplo:
Sexo:
1 = M
0 = F
Mapeamento em intervalos: precisa-se de duas tarefas para transformar o valor
de numérico para categórico, são elas: ordenar os valore e depois dividir em
intervalos, como mostra o Quadro 2, a segunda tarefa é colocar todos os
valores em suas categorias (TAN; STEINBACH; KUMAR, 2009).
Intervalo Frequência (número de valores no intervalo) 1000 |- 1600 3
1600 |- 4400 5 4400 |- 5400 2
Quadro 2. Separação de intervalo e quantidade de ocorrências Fonte: Goldschmidt e Passos (2005).
2.3.3.2 Codificação Categórica – Numérica
Representação de valores numéricos para atributos categóricos, as técnicas utilizadas
para essa tarefa são:
Representação Binária Padrão: O valores das categorias são representados por
valores numéricos binários, identificado no Quadro 3, aonde vão de 1 até N
categorias mapeadas (GOLDSCHMIDT; PASSOS, 2005).
32
Valores Originais Representação Binária Padrão Casado 001
Solteiro 010 Viúvo 100
Divorciado 011 Outro 110
Quadro 3. Representação binária padrão das categorias Fonte: Goldschmidt e Passos (2005).
Representação binária 1 de N: Nesta representação, como mostra o Quadro 4, a
cadeia de bits é igual o número de categorias, cada bit representa um item na
categoria e somente o bit que representa o valor categórico é 1, os demais
ficam com o valor 0 (Ibidem).
Valores Originais Representação Binária Padrão
Casado 00001 Solteiro 00010
Viúvo 00100 Divorciado 01000
Outro 10000 Quadro 4. Representação binária 1 para N das categorias Fonte: Goldschmidt e Passos (2005).
Representação binária por temperatura: Essa representação é utilizada quando
os valores representados têm uma relação de algum modo, indicado pelo
Quadro 5. Possíveis valores de um atributo podem ser: fraco, regular, bom e
ótimo, os valores têm uma relação e uma representação binária é aplicada aos
valores, onde fraco indica a pior situação, logo terá o menor valor e ótimo
indica a melhor situação. A representação dos valores deve ser proporcional a
diferença entre as duas categorias e os valores adjacentes devem ter sua
representação proporcional ao seu estado na categoria (Ibidem).
Valores Originais Representação Binária por Temperatura
Fraco 0001
Regular 0011
Bom 0111
33
Ótimo 1111 Quadro 5. Representação binária por temperatura dos valores Fonte: Goldschmidt e Passos (2005).
2.3.4 Enriquecimento
O enriquecimento consiste em buscar valores que agreguem mais informação a base
de dados original. Diferente da limpeza de dados, essas informações não substituem e nem
corrigem as informações já existente, o enriquecimento serve para agregar valores a base de
dados a ser trabalhada. Não muito utilizado devido ao custo agregado de operação, pode ter
duas formas (GOLDSCHMIDT; PASSOS, 2005):
Pesquisas: na base de dados originais, captar novos valores a fim de enriquecer
os dados existentes, isso pode gerar novos atributos ou até mesmo novas
tabelas na base de dados.
Consulta em Base de Dados Externas: esta técnica engloba ter informações
agregadas a base de dados de fontes externas. Outras bases de dados
adicionando informação em novos atributos ou até mesmo novas tabelas. Na
sua maioria são informações para completar os registros com poucos dados.
2.3.5 Normalização de Dados
A técnica de normalização de dados é utilizando quando temos valores fora de escala
para um atributo, essa técnica permite que possa atribuir um valor permitindo ele estar em
uma mesma faixa que os demais onde pode ser de -1 a 1 ou 0 a 1 (CORTÊS; POORCARO;
LIFSCHITZ, 2002). Existem duas técnicas para trabalhar a normalização, são elas:
Normalização Linear: Para esta técnica utiliza-se do valor máximo e mínimo
possíveis e conhecidos, e com base nestes valores representados 1 e 0
respectivamente, Quadro 6, os valores existente são colocados em escala com
base nos valores máximo e mínimos propostos (GOLDSCHMIDT; PASSOS,
2005). O seguinte cálculo é utilizado:
A’ = (A – Min) / (Max – Min), onde:
A’ = valor normalizado;
A = valor original do atributo;
34
Min = valor mínimo possível do valor original;
Max = valor máximo possível do valor original.
CPF Despesa_Normalizada
99999999999 0,14 11111111111 0,43
33333333333 0,71 55555555555 0,29
22222222222 0,29 Quadro 6. Exemplo de normalização linear em valores de um atributo Fonte: Goldschmidt e Passos (2005).
Normalização por Desvio Padrão: considerando a posição média dos valores do
atributo, essa técnica normaliza o valor através de um desvio padrão, Quadro 7.
Essa técnica é muito útil quando não se sabe o valor máximo nem o mínimo de
um atributo (Ibidem).
A’ = (A – X) / σ, onde:
A’ = valor normalizado;
A = valor original do atributo;
X = média entre os valores do atributo;
σ = desvio padrão.
CPF Despesa_Normalizada
99999999999 -0,75 11111111111 0,13
33333333333 1,02 55555555555 -0,31
22222222222 -0,31 Quadro 7. Exemplo de normalização por desvio padrão em valores de um atributo
35
Fonte: Goldschmidt e Passos (2005).
Normalização pela Soma dos Elementos: O problema de se utilizar essa técnica
é que determinados valores podem ser mapeados em valores muito pequenos.
Ela consiste em dividir o valor de um atributo pela soma de todos os valores
deste atributo, Quadro 8. O cálculo é dado por:
A’ = A / X, onde:
A’ = valor normalizado;
A = valor original do atributo;
X = somatório dos valores do atributo.
CPF Despesa_Normalizada
99999999999 0,05 11111111111 0,11
33333333333 0,16 55555555555 0,08
22222222222 0,08 Quadro 8. Exemplo de normalização pela soma de elementos em atributos Fonte: Goldschmidt e Passos (2005).
Normalização pelo Valor Máximo dos Elementos: essa técnica consiste na
simples divisão do valor a ser normalizado pelo valor máximo conhecido do
atributo, Quadro 9.
A’ = A / Max, onde:
A’ = valor normalizado;
A = valor original do atributo;
Max = maior valor encontrado do atributo.
36
CPF Despesa_Normalizada 99999999999 0,25
11111111111 0,50 33333333333 0,75
55555555555 0,38 22222222222 0,38
Quadro 9. Exemplo de normalização por valor máximo em atributos Fonte: Goldschmidt e Passos (2005).
2.3.6 Mineração de Dados
A técnica de Mineração de Dados (MD) é um processo para descoberta de
informações úteis em uma base de dados com um volume de dados grande. O intuito é retirar
padrões dos dados para gerar um conhecimento. Com essa técnica é possível prever um
resultado futuro. (TAN; STEINBACH; KUMAR, 2009).
Essa técnica é inserida dentro do processo da descoberta do conhecimento como uma
instância e não como um processo todo. Ela é restrita exclusivamente na obtenção dos padrões
(BRAGA, 2005).
Segundo Goldschmidt e Passos (2005 p. 52): “A execução da etapa de Mineração de
Dados compreende a aplicação de algoritmos sobre os dados procurando abstrair
conhecimento”.
O algoritmo utilizado é quem irá representar o conhecimento, então o processo é
dependente do algoritmo utilizado na mineração dos dados. Esses algoritmos procuram
sempre, através de paradigmas, a exploração dos dados para a produção do conhecimento
(GOLDSCHMIDT; PASSOS, 2005).
O conhecimento obtido pela mineração de dados pode ser classificado como dedutivo
ou indutivo. O conhecimento dedutivo compreende em deduzir novas informações através das
informações já existentes aplicando regras lógicas de dedução nos dados. O conhecimento
indutivo é o apoiado pela mineração de dados, que retira os padrões de dados existentes. O
conhecimento gerado pode ser através de regras, árvore de decisão, redes neurais ou redes
semânticas (ELMASRI; NAVATHE, 2005).
Para a etapa de MD no processo de descoberta de conhecimento, Elmasri e Navathe
(2005) diz que existem cinco modos para a obtenção do conhecimento:
37
Regras de associação: é o relacionamento dos valores conhecidos com uma
faixa de valores determinadas;
Hierarquias de classificação: trabalha em transações ou em um conjunto de
eventos para criar uma hierarquia de classes;
Padrões sequenciais: é feita uma investigação em uma séria de eventos ou
ações;
Padrões com séries temporais: uma série de dados temporais é analisada as
suas similaridades;
Clustering (Agrupando): é segmentado os dados obtidos entre dados similares.
2.3.6.1 Tarefas da Mineração de Dados
A mineração de dados tem duas tarefas básicas, uma responsável por, baseados em
outros atributos, prever novos valores de um atributo, é denominada de Tarefas de Previsão.
Essa denomina o atributo a ser previsto como atributo alvo, os atributos utilizados para fazer a
previsão são chamados de atributos explicativos. A outra tarefa é a de Descrição que é a
derivação dos padrões, resumindo o relacionamento dos dados subjacentes. Esses padrões
podem ser grupos, trajetórias, correlações, anomalias e tendências (TAN; STEINBACH;
KUMAR, 2009).
2.3.7 Simplificação de Conhecimento Gerado
Segundo Goldschmidt e Passos (2005), essa etapa requer o trabalho do analista e o
especialista da área, pois trata da classificação dos conhecimentos gerados pela mineração de
dados. Remove os detalhes complexos e simplifica o modelo de conhecimento gerado.
Para esta etapa, é comum encontrar limites mínimos de acurácia e abrangência nas
regras, a fim de eliminar as regras que não atendem ao modelo projetado (GOLDSCHMIDT;
PASSOS, 2005).
Goldschmidt e Passos (2005) dizem que esta etapa tem relação com a técnica de poda
de árvore de decisão, que as regras têm uma relação com a árvore de decisão, por isso é
possível a simplificação por meio da poda.
38
2.3.8 Visualização dos Modelos de Conhecimento
Nesta etapa está a visualização dos dados gerados pela mineração de dados. A tarefa é
basicamente dispor os dados de uma forma que possa ser visualizada e interpretada por uma
pessoa e formar mentalmente o modelo das informações (TAN; STEINBACH; KUMAR,
2009).
Para Goldschmidt e Passos (2005), as informações podem ser visualizadas de qualquer
forma, mas o tipo comum utilizado é a árvore de decisão. Através dela a visualização do
modelo de conhecimento e os dados ficam mais bem distribuídos, pois pela árvore ser
montada nas condições de SE <condição> ENTÃO <conclusão> é possível de forma mais
rápida visualizar a regra criada.
2.4 Data Warehouse
Oliveira (2002 p. 7) diz que DW é “um ambiente especializado que filtra, integra e
disponibiliza informações gerenciais a partir de sistemas operacionais e fontes externas”.
Teorey (2007 apud PERING, 2010) define o Data Warehouse (DW) como um
repositório de dados com intuito de auxiliar nas tomadas de decisão com um tamanho
significativo permitindo o usuário tomar decisões rápidas, seguras e com precisão.
Para Trepper (2000 apud PEROTTONI et. al., 2001 p. 6) DW “é um grande banco de
dados históricos resumidos em diversos níveis de detalhamento”.
Os registros do DW são obtidos através de processamento de informações em base de
dados operacionais de empresas ou companhias. O tamanho do DW é definido pelo tamanho
da organização e o número de setores que compõem a mesma (SARTORI, 2012).
Em certos momentos é necessário ter uma base de dados menor, contendo informações
que englobem um setor ou área de atuação da corporação relevante a um período de tempo
mais enxuto, os Data Marts (Ibidem).
Basicamente, os Data Marts são repositórios de dados de uma grande empresa
divididos em diferentes locais, separando os setores da empresa conforme representa a Figura
2. (OLIVEIRA, 2002 apud PERING, 2011).
39
Figura 2. Representação de Data Warehouse e Data Mart em uma empresa Fonte: Oliveira (2002 apud PERING, 2011).
Não há diferenças entre Data Marts e Data Warehouse em questão de problemas a
resolver e requisitos a atender, o que difere os dois são o tamanho e o escopo que eles
atendem. Enquanto o Data Warehouse atende a corporação como num todo, onde todos os
setores devem se envolver para tratar um problema, o Data Mart envolve somente um setor
ou grupo de pessoas para a tomada de decisões. Como o escopo e tamanho do Data
Warehouse são maiores, necessitam de um esforço maior quanto a tempo, dados e
investimentos maiores (SELEGATTO et. al., 2005).
Os DW devem atender a dois requisitos que são:
Ser temático: atender as necessidades específicas de negócio, onde os dados
particulares para tomada de decisão estão dispostos em um ambiente único e
específico. Nesse requisito entra o conceito de Data Mart (OLIVEIRA, 2002).
Prover Suporte à Multidimensionalidade: O DW deve permitir uma perspectiva
dos dados multidimensional, criando assim uma flexibilidade grande na análise
das informações. Geralmente é utilizada a forma de cubo para associar a
multidimensionalidade, onde se tem a visualização dos dados nas dimensões de
comprimento, largura e altura (OLIVEIRA, 2002).
40
2.4.1 Armazenando os dados
As bases de dados relacionais das companhias apresentam muitas tabelas com
relacionamentos complexos e múltiplas uniões entre elas. Uma base de dados mais simples
significa a utilização mais fácil dos usuários para consultas e acessos as informações. As
necessidades dos usuários devem ser compreendidas pelo projetista do Data Warehouse (DW)
para facilitar a atualização do DW e indicar facilmente os termos do negócio (OLIVEIRA,
2002).
O principal modelo de dados é o modelo estrela. Neste, tem-se uma tabela central
(denominada Tabela de Fatos) com junções a outras tabelas e ligadas a essa existem as
Tabelas de Dimensões. Cada tabela de dimensão tem somente uma junção a tabela de fatos
(OLIVEIRA, 2002).
A tabela de fatos é composta por valores e medidas do negócio do problema ou da
empresa. Esses valores ou medidas são conhecidos através da interseção de todas as
dimensões. Os valores para os fatos melhores e mais úteis são valores numéricos, facilitando a
geração das respostas (OLIVEIRA, 2002).
A função das tabelas de dimensões é de armazenar as descrições das dimensões do
negócio. O tipo de dados utilizados para essa tabela é o de caracteres. Outra função da tabela
de dimensão é servir como fonte de restrição para consultas ou como cabeçalho para resposta
para usuário (OLIVEIRA, 2002).
2.4.2 Construindo um Data Warehouse
Singh (2001) define a etapa de construção do Data Warehouse (DW) como um
processo cuidadoso. “O planejamento do negócio define todos os elementos da organização”.
Define ainda que as empresas devem considerar alguns critérios para que obtenha uma
solução tecnicamente correta, são eles:
Identificar e analisar atividades essenciais para a missão do negócio;
Consultar o planejamento do negócio para orientação;
Criar ferramentas de acesso que conectem o processo aos dados;
Construir modelos de dados que suportem o processo.
41
Os processos das funções do negócio devem ser estudados para a criação de um DW
global de uma companhia (SINGH, 2001). Elmasri e Navathe (2005) dizem que para formar o
DW é necessário seguir os seguintes passos:
Os dados devem ser extraídos de fontes múltiplas e heterogêneas;
Os dados devem ser formatados visando a consistência dentro do DW;
Os dados precisam ser limpos para assegurar a validade;
Os dados precisam ser ajustados ao modelo de dados do DW;
Os dados precisam ser carregados e atualizados no DW. Para a atualização é
necessário responder algumas perguntas:
o Quão atualizado os dados devem estar?
o Pode o DW ficar fora de serviço, e por quanto tempo?
o Quais são as interdependências dos dados?
o Qual é a disponibilidade de armazenamento?
o Quais são os requisitos de distribuição?
o Qual é o tempo de carga?
2.5 Estudos Similares
2.5.1 Projeto de Mineração De Dados Aplicada à Identificação de Alunos Propensos à Evasão do CEULJI/ULBRA de Ji-Paraná/RO
Em um projeto para desenvolvimento de um software para identificar alunos
propensos a evasão, Cestaro (2006), utilizou das técnicas de mineração de dados para
obtenção de padrões de alunos com probabilidade de evasão na base de dados do curso de
Sistemas de Informação do CEULJI/ULBRA de Ji-Paraná.
Baseado em uma aplicação de uma instituição, conseguiu resultados significantes,
chegando a marca de 80% para os estudos de caso real e 100% na aplicação simulada.
42
Obtendo a regra relevante para evasão como alunos entre a faixa etária de 18 a 21 anos, de
ambos os sexos, moradores ou não da região (CESTARO, 2006).
Romeu utilizou do software WEKA como ferramenta de auxílio para a obtenção das
regras e padrões de alunos evadidos. Utilizou os algoritmos IB1, IBK, KSTAR no WEKA
para a descoberta dos padrões. Como o autor teve problemas com a obtenção da modelagem
de dados, a base de dados teve poucos atributos, os que ele utilizou foram: sexo, idade,
totalRep (total de reprovações), medTotal (soma das médias gerais de todas as disciplinas
cursadas), viveJP (morador de Jí-Paraná) e situação (evadido) (CESTARO, 2006).
2.5.2 Aplicação de Técnicas de Mineração de Dados na Previsão de Propensão à Evasão Escolar
Milani e Camargo (2010) estudaram modos de obter e manipular informações
automaticamente para identificar a probabilidade de um aluno evadir de um curso, criando
assim um trabalho dirigido sobre o aluno propenso a sair do curso. Além de identificar a
possibilidade de o aluno evadir, identificar os fatores que contribuem para a evasão.
Após a mineração de dados realizada diversos resultados foram obtidos. Em relação
aos resultados obtidos que levam em consideração a idade dos alunos, foram obtidas as
seguintes regras (MILANI; CAMARGO, 2010):
Alunos com idade maior que 37 anos têm um percentual crítico de evasão, em
um patamar entre 40 e 50%, o que representa em torno do dobro da média de
evasão do instituto;
Alunos entre Alunos com idade menor que 22 anos têm baixo percentual de
evasão, inferior a 10%, o que representa metade da média de evasão do
Instituto;
Alunos entre 22 e 27 anos tem percentual de evasão acima de 20%, valor que
está alinhado com a média de evasão do instituto.
Em relação aos resultados obtidos que levam em consideração o curso do aluno, foram
obtidas as seguintes regras (MILANI; CAMARGO, 2010):
43
Alunos do curso técnico em mecânica têm alta probabilidade de evasão,
próxima a 30%;
Alunos do curso técnico em informática têm probabilidade de evasão em torno
de 20%, o que está levemente abaixo da média geral;
Alunos do curso superior em tecnologia para internet têm baixa probabilidade
de evasão, em torno de 10%.
Os autores do estudo apontado por este tópico utilizaram de algoritmos da mineração
de dados que geraram regras ou padrões de informação e árvores de decisão para estudo dos
resultados (MILANI; CAMARGO, 2010).
2.5.3 Minerando Dados Educacionais com foco na evasão escolar: oportunidades, desafios e necessidades
Rigo, Cazella e Cambruzzi (2012) fizeram um estudo sobre melhorias em aplicações
de mineração de dados educacionais, com o foco na evasão escolar e para que o conhecimento
gerado pela técnica pudesse apoiar no processo de detecção de alunos propensos a evasão. Os
autores pretendiam definir um perfil desses alunos através de padrões e regras obtidas pela
mineração de dados.
Em alguns experimentos feitos, foi identificado com cerca de 90% de acerto, perfis
relacionados à evasão. Os dados utilizados foram de poucas semanas (RIGO; CAZELLA;
CAMBRUZZI, 2012).
Para o processo de mineração de dados foi utilizado redes neurais. Os dados que os
autores utilizaram foram exclusivos de aulas, dados históricos e socioeconômicos seriam
inseridos em uma segunda versão dos estudos (RIGO; CAZELLA; CAMBRUZZI, 2012).
2.5.4 Considerações dos trabalhos similares
Os trabalhos similares mostraram onde será o início dos estudos para a criação do
Data Warehouse (DW), que tipos de atributos devem ser considerados como responsáveis
pela obtenção de um conhecimento. Ajudaram também a identificar as melhores técnicas para
serem utilizadas como conhecimento encontrado pelo processo de descoberta de
44
conhecimento. Através dos trabalhos similares, identificou-se que a melhor resposta do
processo de descoberta de conhecimento seria por regras ou árvore de decisão.
Os projetos estudados mostraram que, pela base de dados utilizada, foi possível
encontrar um conhecimento e de forma visual ou por regras, é possível indicar a probabilidade
de evasão de um aluno.
45
3 DESENVOLVIMENTO
Fundamentado os conceitos da técnica de descoberta de conhecimento e mineração de
dados e diagnosticado o problema e referenciado, serão apresentados neste tópico o que se
espera do projeto:
a base de dados a ser estudada;
a ferramenta WEKA; e
a modelagem dos dados a serem trabalhados.
O foco central do projeto será a obtenção de padrões e regras que possibilitem um
sistema auxiliar trabalhar com as informações a partir de um Data Warehouse (DW)
mensagens e alertas aos docentes e coordenadores da possibilidade de um aluno evadir do
curso, passando a trabalhar esse aluno não mais de modo reativo, quando o aluno necessita,
para modo proativo.
Caberá ao sistema identificar os padrões dos alunos propensos a evasão e avisar o
professor de uma possível evasão do aluno consultado. Após o resultado apresentado, caberá
ao professor tomar as atitudes pedagógicas para ajudar no processo de aprendizagem do
aluno.
3.1 Base de dados
O banco de dados é gerenciado por um sistema único de gestão de negócio na unidade
de ensino, este sistema contempla todos os setores da instituição, possibilitando, assim, que no
projeto sejam trabalhados vários atributos.
Um trabalho manual foi feito para criação do DW e a manipulação dos dados foi feita
a partir desta base de dados. Aproveitando que o banco de dados foi dividido em esquemas,
foram priorizados os esquemas que manipulam:
Acompanhamento pedagógico;
Cliente;
Colaborador;
Educação;
Matrícula;
46
Processo Seletivo;
Produto Padronizado;
Senai;
Turma.
Após selecionar os atributos das entidades a serem trabalhados, foram importados para
a ferramenta WEKA, apresentada no próximo tópico, a obtenção das regras. Foram então
utilizado dados históricos da instituição de ensino estudada.
No (ANEXO B) encontra-se a modelagem do banco de dados da instituição, separadas
por esquemas.
Da base de dados foram retirados 4811 instâncias com os dados dos alunos. Os dados
consultados no banco de dados representam os anos de 2011 e 2012, nos quais os índices de
evasão foram 42% e 23% respectivamente.
3.2 Data Warehouse
A partir da pré-seleção dos dados, foi modelado um Data Warehouse (DW), e
conforme a Figura 3. Para o projeto desenvolvido houve a necessidade de criação pois a base
de dados era grande e com muitos dados desnecessários, então após o filtro dos dados, eles
foram retirados da base de dados original e inseridos na base de dados do data warehouse, o
que permitiu que a ferramenta WEKA fizesse as consultas necessárias direto na base de
dados.
47
Figura 3. Modelagem do Data Warehouse proposto pelo projeto.
Na modelagem do DW, para a definição das dimensões, foi levado em consideração os
estudos feitos e conforme alinhado nos fatores relevantes a evasão do alunos as dimensões
foram separadas por categorias de causas. Na dimensão aluno os atributos selecionas são
dados relevantes ao aluno, como por exemplo, sexo, faixa de idade, se mora na cidade. A
dimensão desempenho tem como atributos dados relevantes ao desempenho do aluno no
curso, como exemplo temos: advertências, nota e frequência.
3.3 Mineração de dados
Após ter identificado os atributos a serem trabalhados pela mineração de dados, foram
aplicadas as tarefas de seleção dos dados e limpeza, apresentadas na fundamentação teórica, o
que tornou possível que o resultado fosse alcançado.
Foram aplicados algoritmos encontrados na ferramenta WEKA para obtenção de um
conhecimento útil. Os algoritmos para classificação dos dados que tiveram maior relevância
foram o JRip e J48.
Foi utilizado a tarefa de classificação pois percebeu-se a necessidade de categorizar os
atributos com relação a evasão. Como já existia o atributo que determina se o aluno evadiu ou
não a classificação pode ser aplicada.
48
3.3.1 A ferramenta WEKA
A WEKA (Waikato Environment for Knowledge Analysis), é uma ferramenta
desenvolvida pela Universidade de Waikato, Nova Zelândia (FRANKLIM; FILHO, 2007).
A ferramenta é de uso livre, distribuída sob a licença de GPL (GNU General Public
License), construída na linguagem de desenvolvimento Java. Um software completo que não
se limita somente a mineração de dados, mas ao processo completo de descoberta de
conhecimento (SARTORI, 2012).
Do funcionamento para a mineração de dados e descoberta de conhecimento, a
ferramenta é constituída por um conjunto de algoritmos para implementar diversas técnicas de
mineração de dados que resolvem problemas reais (FRANKIM; FILHO, 2007).
É possível pela ferramenta o analista manipular os dados que estão sendo trabalhados,
podendo incluir e excluir métodos, por exemplo. Outra característica da ferramenta é os
diversos métodos de associação, classificação e clusterização existentes. Os formatos de
arquivos para leituras são ARFF, CSV e C45. A visualização dos dados pode ser feita por
histogramas ou apresentação em árvores de decisão. O Quadro 10 mostra uma tabela de
características da ferramenta (JACOMINI, 2008).
49
Características Valores Acesso a Fonte de Dados Heterogêneas Sim Integração de Conjunto de Dados Não Facilidade para Inclusão de Novas Operações Sim Facilidade para a Inclusão de Novos Métodos Sim Recursos para Planejamento de Ações Sim Processamento Paralelo/Distribuído Não
Operações / Métodos Disponíveis
Visualização de Dados Distribuição de Frequências; Medidas de Disperção; Histogramas
Redução de Dados Amostragem Limpeza de Dados Substituição Codificação dos Dados Discretização automática e
manual Classificação Árvores de Decisão; Bayes;
Redes Neurais Clusterização Simple-Kmenas; Cobweb;
FarthesFirst Simplificação dos Resultados N/D Organização dos Dados Agrupamento de Padrões;
Ordenação de Padrões Apresentação dos Resultados Conjunto de Regras; Árvores
de Decisão Estruturas para Armazenamento de Modeos de Conhecimento Sim Estruturas para Acompanhamento de História de Ações Sim Quadro 10. Caractísticas da ferramenta WEKA Fonte: Passos (2005 apud JACOMINI, 2008).
Nesta pesquisa foi utilizada a versão 3.6.9, executando em plataforma Mac OS
Montain Lion e a inserção dos dados na ferramenta foi feita utilizando comandos SQL em
uma base de dados PostgreSQL.
Encontrou-se alguns problemas com a ferramenta devido ao número de dados ser
muito grande, o que acarretava em paradas e falhas na mineração. Houve a necessidade de
aumentar o espaço de memória para a ferramenta para que os resultados fossem alcançados.
3.3.2 Pré-processamento
No processo de seleção de dados houve a necessidade de criar alguns atributos para
que esses auxiliassem na obtenção de um conhecimento preciso.
Percebeu-se que um atributo que se destacou o conhecimento dos fatores da evasão foi
a nota do aluno em uma unidade curricular e sua frequência na mesma. Com os atributos
50
originais, o conhecimento gerado não teve um valor significativo. Após este teste estes
atributos foram transformados para notas maiores que 7,0 (sete) e o valor do atributo era “s”
para se a nota fosse maior ou igual a 7,0 (sete) ou “n” se a nota fosse menor que 7,0 (sete), no
qual 7,0 (sete) é a diretriz da unidade de ensino para aprovação. Após a transformação do
atributo, o conhecimento gerado tornou-se muito mais interessante.
Outros atributos também foram transformados, como por exemplo a idade do
professor (distribuiu-se estes por faixa etária), a idade do aluno (também distribuída em faixa
de idades) e o endereço do aluno (para verificar se ele mora na cidade onde a instituição tem
sede).
Como a base de dados utilizada engloba todos os setores da instituição, alguns dados
estavam incompletos ou faltantes. Assim, foi trabalhado somente com instâncias que
continham todos os atributos preenchidos. Teve-se um cuidado especial para que na obtenção
dos dados para criação do Data Warehouse, não viessem dados faltantes e inconsistentes.
Nesta etapa foi realizado um trabalho manual junto a base de dados da instituição, no
processo de captação das informação para o Data Warehouse.
Com o auxílio da ferramenta, foi possível ter uma pré-visualização dos atributos
utilizados e sua distribuição. Nessa pré-visualização, foi possível fazer uma análise mais
profunda notando algumas relações, antes mesmo da ferramenta aplicar um algoritmo de
mineração.
Para análise dos dados obtidos no pré-processamento foram determinadas algumas
situações (atributo) para identificar os alunos. Estas, que seguem abaixo, devem ser
consideradas para um melhor entendimento dos gráficos:
Evadido/Eliminado: quando o aluno abandonou o curso sem regularização na
secretaria da unidade;
Evadido/Transf. Curso: quando o aluno solicita saída do curso para
transferência de escola;
Evadido/Desistente: quando o aluno formaliza o abandono do curso na
secretaria da unidade;
51
Finalizado/Concluinte: quando o aluno completa o curso e é aprovado; e
Finalizado/Não Concluinte: quando o aluno completa o curso, porém não
alcança a aprovação.
Sobre a situação dos alunos nos anos de 2011 e 2012, percebe-se no Grafico 1 que a
taxa de evasão neste período foi muito alta, aproximadamente 42% do total.
Gráfico 1. Situação x quantidade de alunos nos anos de 2011 e 2012 Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)
Com relação a influência das notas do aluno como um fator para a evasão, observa-se
no Gráfico 2 que a porcentagem dos alunos evadidos é maior para a média da nota menor que
7,0 (sete). Ou seja, este atributo realmente pode ser considerado como significante para
obtenção do conhecimento.
52
Gráfico 2. Relação entre situação do aluno e a média das notas Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)
Quanto a situação do aluno em relação ao curso que o mesmo se matriculou tem-se o
Gráfico 3:
Gráfico 3. Situação do aluno x cursos ofertados Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)
53
Nota-se por meio deste que alunos matriculados nos cursos técnicos tendem a evadir
mais que alunos matriculados em aprendizagens industriais.
No que se refere a data da matrícula no curso, ou seja, se o aluno matriculou-se antes
ou após o início do curso, percebe-se no Gráfico 4 que o percentual de aluno que abandonam
o curso é maior nos casos em que o aluno faz a matrícula após o inicio do curso.
Gráfico 4. Relação entre situação do aluno e data da matrícula
Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)
3.3.3 Classificação
Na primeira etapa realizada da classificação, utilizando o algoritmo JRip, o resultado
esperado era uma regra que classificasse o aluno como evadido ou não utilizando dados que
envolviam o seu desempenho, disciplinas e dados pessoais. No Quadro 11 mostra as
informações utilizadas para a primeira análise dos dados.
54
Banco datawarehouse
Query
SELECT pessoa_genero, formacao_situacao,formacao_curso, raca_descricao, matricula_situacao, mora_tijucas, mes_nascimento_aluno, faixa_idade_aluno, faixa_mes_matricula, regime_disciplinar_tipo, maior_sete, maior_frequencia, periodo_unidade_curricular_codigo, produto_apelido, turno_nome FROM fatos_alunos AS ft JOIN dimensao_aluno AS dmal ON ft.id_aluno = dmal.id_aluno JOIN dimensao_desempenho AS dmde ON ft.id_desempenho = dmde.id_desempenho JOIN dimensao_disciplina AS dmdi ON ft.id_disciplina = dmdi.id_disciplina
Objetivo Classificar os alunos dos cursos técnicos e de aprendizagem industrial matriculados no sistema.
Algoritmo weka.classifiers.rules.JRip -F 3 -N 2.0 -O 2 -S 1 Quadro 11. Atributos utilizados no WEKA para mineração de dados.
Após a realização do algoritmo, foi apresentado o resultado da Figura 4, na qual
percebe-se que na Matriz de Confusão a classificação foi bem sucedida, mesmo contento
poucas classificações incorretas das situações do aluno. Nota-se também que as instancias
classificadas corretamente correspondem à 98% dos registros do Data Warehouse.
Figura 4. Resultado da classificação do algoritmo JRIP
Percebe-se na Matriz de Confusão, que na sua maioria, os erros gerados pela
classificação está entre situações da mesma espécie, como exemplo tem-se a classificação da
situação Evadido/Eliminado que é confundida com a situação Evadido/Desistente em 22
instâncias, isso torna o erro desprezível por as situações indicarem a evasão do aluno.
No Quadro 12 apresentam-se algumas regras consideradas mais relevantes.
55
Regra Encontradas Erros (maior_frequencia = n) and (maior_sete = n) => matricula_situacao=Evadido / Eliminado
1009 33
(faixa_mes_matricula = n) and (mora_tijucas = n) and (produto_apelido = TELM) => matricula_situacao=Evadido / Eliminado
142 0
(maior_sete = n) and (produto_apelido = AIEM) and (formacao_curso = Médio) => matricula_situacao=Evadido / Eliminado
72 5
(produto_apelido = TSEG) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Eliminado
120 0
(produto_apelido = ASMR) and (faixa_idade_aluno = -15) and (regime_disciplinar_tipo = Advertência) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte
95 0
(faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 4) and (pessoa_genero = M) => matricula_situacao=Evadido / Desistente
42 0
=> matricula_situacao=Finalizado / Concluinte 2364 9 Quadro 12. Regras e valores obtidos do algoritmo JRip.
Analisando o resultado obtido, percebe-se que o algoritmo classificou, na sua maioria,
instâncias com a situação do aluno finalizado (completou o curso). Entretanto algumas regras
geradas foram relevantes para determinar a evasão do aluno, identificando atributos das
dimensões aluno, desempenho e disciplina. Notou-se também que foram geradas regras que
determinaram a desistência do aluno, conforme a sua dimensão, o que permitiu verificar a
influência dos fatores internos e/ou externos.
Ao validar estes resultados, a coordenação pedagógica da instituição de ensino
afirmou que considera como fator predominante para a evasão do aluno o próprio docente
(formação do professor, área de atuação, prática pedagógica, entre outras).
Aproveitando o parecer da coordenação uma nova análise inicou-se, porém, com foco
no professor. Buscou-se com uma nova mineração de dados, levantar atributos que
relacionem o docente com a evasão do aluno. Nesta foi utilizado novamente o algoritmo JRip.
Observa-se no Gráfico 5, que no que diz respeito a relação existente entre a idade do
professor e probabilidade do aluno evadir, não deve-se considerar este atributo como fator
importante.
56
Gráfico 5. Situação do aluno x faixa etária do professor Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)
No Gráfico 6, que relaciona a situação do aluno com a formação do professor, também
não indica grandes relevâncias para evasão do aluno.
Gráfico 6. Situação do aluno x formação do professor Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)
57
Outro atributo analisado no pré-processamento foi o tipo de contrato do docente com a
instituição de ensino, demonstrado no Gráfico 7, mostra que este atributo não é relevante para
constatar se existe a possibilidade de o aluno evadir.
Gráfico 7. Relação entre situação do aluno e tipo de contrato do professor com a instituição Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)
No pré-processamento não foi possível para definir um perfil de professor que fosse
significativo para a desistência do aluno. Uma nova classificação foi feita com o algoritmo
JRip, para encontrar uma regra que justificasse o argumento da coordenação pedagógica. Os
dados utilizados para essa classificação estão representados no Quadro 13.
Banco datawarehouse
Query
SELECT pessoa_genero, formacao_situacao,formacao_curso, raca_descricao, matricula_situacao, mora_tijucas, mes_nascimento_aluno, faixa_idade_aluno, faixa_mes_matricula, regime_disciplinar_tipo, maior_sete, maior_frequencia, periodo_unidade_curricular_codigo, produto_apelido, turno_nome, area_atuacao_nome, professor, colaborador_funcao, tipo_contrato_nome, nivel_educacao_nome, faixa_idade_professor FROM fatos_alunos AS ft JOIN dimensao_aluno AS dmal ON ft.id_aluno = dmal.id_aluno JOIN dimensao_desempenho AS dmde ON ft.id_desempenho = dmde.id_desempenho JOIN dimensao_disciplina AS dmdi ON ft.id_disciplina = dmdi.id_disciplina JOIN dimensao_colaborador AS dmco ON ft.id_colaborador = dmco.id_colaborador
Objetivo Classificar os alunos dos cursos técnicos e de aprendizagem industrial matriculados no sistema agregando informações do professor.
Algoritmo weka.classifiers.rules.JRip -F 3 -N 2.0 -O 2 -S 1 Quadro 13. Dados utilizado no WEKA para mineração de dados agregados dados dos professores.
58
Após a execução do algoritmo, foi apresentado o resultado que segue abaixo,
representado na Figura 5.
Figura 5. Resultado do JRip levando em consideração os dados do professor.
O Quadro 14 apresenta as regras com mais relevâncias ou que tenham o professor
como parte da regra.
Regra Encontradas Erros (maior_frequencia = n) and (professor = Lauren Schultz Gadotti) and (formacao_situacao = Completo) => matricula_situacao=Evadido / Eliminado
4 0
(professor = Fabio Moreira de Oliveira) and (periodo_unidade_curricular_codigo = MAEL) => matricula_situacao=Evadido / Eliminado
2 0
(faixa_mes_matricula = n) and (mora_tijucas = n) and (area_atuacao_nome = Metalmecânica) => matricula_situacao=Evadido / Eliminado (142.0/0.0)
142 0
produto_apelido = ASMR) and (faixa_idade_aluno = -15) and (regime_disciplinar_tipo = Advertência) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte
95 0
=> matricula_situacao=Finalizado / Concluinte 2367 13 Quadro 14. Resultados do algoritmo JRip com as regras criadas com os atributos do professor.
Com o resultado da mineração da segunda etapa, identificou-se que o professor não
tem fator direto na evasão de um aluno. Os dados retirados do sistema, que vinculavam o
professor ao aluno, não criaram nenhum conhecimento novo.
59
Após o retorno da coordenação pedagógica, passou-se o resultado do KDD e o mesmo
informou que o papel do professor na desistência do aluno é indireto, mas que as regras
permitem ajudar o professor no que diz respeito a gestão educacional de um aluno.
60
4 CONCLUSÕES
A Evasão escolar ocorre quando um aluno deixa de frequentar a escola e fica
caracterizado o abandono escolar. Este é um tema que normalmente integra a pauta dos
debates referentes a educação e se constitui como um problema que cresce cada dia mais.
Levando-se em conta que estes fatores são de interesse do acadêmico, por ser docente
da instituição em questão, o mesmo elaborou o presente projeto, com o objetivo geral de
modelar um Data Warehouse com informações do SENAI Tijucas para utilizar a técnica de
mineração de dados, no intuito de encontrar um padrão de aluno propício a evasão. Os
objetivos definidos foram alcançados a partir da técnica de mineração de dados, que de
maneira eficiente, contribuiu para a solução da problemática.
Muitas ações são criadas para tentar resolver o problema da evasão escolar, na sua
maioria de modo macro (programas do governo federal). Neste projeto pensou-se em focar
no modo micro, no qual o docente ou orientador poderá acompanhar diariamente a
probabilidade de um aluno evadir. Notou-se que algumas instituições fazem este
acompanhamento, porém, na maioria dos casos, é feita uma análise manual das informações,
fazendo com que o objetivo do processo seja encontrado de forma mais demorada. Ao
contrário, a técnica definida para ser utilizada neste projeto, permite que a resposta desejada
seja obtida/analisada de forma mais ágil.
Além da problemática apontada, evasão escolar, o número de atributos existentes na
base de dados contribuiu para a confiabilidade do resultado, considerando que um possível
resultado negativo poderia ser encontrado, pois, por ter muitas particularidades no processo de
descoberta de conhecimento, a técnica aplicada poderia não retornar os resultados esperados.
Aprofundando as técnicas de mineração de dados, identificou-se a necessidade de uma
ferramenta para auxiliar no processo e, por questões de utilização, documentação e processos,
foi escolhida a ferramenta WEKA.
Afim de melhorar o processo de consulta, foi estabelecida como forma de resposta da
mineração de dados as regras de classificação, nas quais pode-se identificar os fatores que
propiciam a evasão do aluno.
61
Identificou-se que o processo de montagem do Data Warehouse foi muito específico,
para que os atributos certos fossem escolhidos e o processo de mineração de dados
apresentasse as regras de decisão, que permitem a credibilidade ao indicador de o aluno evadir
ou não do curso.
Com a escolha dos atributos corretos, foi possível encontrar alguns fatores que
propiciam a evasão e com o auxílio da ferramenta WEKA, criar uma regra que mostre estes
fatores.
Muitas dificuldades quanto a obtenção dos dados foram encontrados, pois a
modelagem do sistema da instituição era muito grande e complexa, tornando uma consulta de
dados na maioria das vezes lenta e falha. Identificou-se que é possível retirar da base de dados
mais informações para auxiliar no gerenciamento da unidade. Entretanto, deve-se agir com
cautela em relação a falta de dados e não padronização de alguns, pois um dos fatores de
retardo no projeto foi a limpeza e seleção dos dados.
Como sugestão para a instituição e para uma melhor visualização dos fatores
relevantes para evasão de um aluno (objetivo deste projeto), pensou-se em um esboço de uma
interface de sistema (APÊNDICE D).
4.1 Trabalhos Futuros
Ao concluir este trabalho acadêmico, foi possível constatar que o processo de
mineração de dados contribui muito nas atividade de gestão da unidade de ensino,
principalmente na gestão do aluno, agregando agilidade nas tomadas de decisão e redução da
perda financeira.
Esse estudo mostrou que outros conhecimentos e descobertas podem ser encontrados,
somando valor ao resultado do aluno evadir ou não do curso. Algumas sugestões são:
descobrir se o aluno será aprovado ao final do curso ou mostrar o perfil ideal do professor
para uma disciplina. Para tanto há necessidade da unidade de ensino trabalhar os dados e
preencher devidamente os cadastros e informações institucionais no sistema, permitindo que
os resultados obtidos não sejam manipulados.
62
REFERÊNCIAS
BRAGA, Luis Paulo Vieira. Introdução à mineração de dados. E-Papers, Rio de Janeiro. 2005
CARVALHO, Luís A Vidal de. A mineração de sados no marketing, medicina, economia, engenharia e administração. São Paulo: Érica, 2001
CESTARO, Romeu; PIVETTA, Letícia Carvalho. Mineração De Dados Aplicada À Identificação De Alunos propensos À Evasão Do CEULJI/ULBRA De Ji-Paraná/RO. 2006. Disponível em: <https://docs.google.com/viewer?a=v&q=cache:xpJu5BNp9tIJ:www.revista.ulbrajp.edu.br/seer/inicia/ojs/include/getdoc.php%3Fid%3D691%26article%3D249%26mode%3Dpdf+&hl=pt-BR&gl=br&pid=bl&srcid=ADGEESgS3ZQpmEf_GyLJrl52D8LRKs48awwDbkGwuzPoWvmOsSB_erqCDHp0YySMAqbSk92AYc6xlNlfse0_Yd2wjRbtTOEQBRBm3d4KP6X_MLDCnQQz09xbjzenNTXNEwdCCQT_SOiy&sig=AHIEtbSPYJdL9tDDde2_S7zl8gwFnGBZig>. Acesso em: 01 nov. 2012.
CORTÊS, Sergio da Costa; PORCARO, Rosa Maria; LIFSCHTZ, Sérgio. Mineração de Dados – Funcionalidades, Técnicas e Abordagens. 2002. Disponível em: < ftp://ftp.inf.puc-rio.br/pub/docs/techreports/02_10_cortes.pdf>. Acesso em: 27 out. 2012.
DINIZ, Roberta B. Nunes. Uso de Técnicas de Mineração de Dados na Identificação de Áreas Hidrologicamente Homogêneas. 2009. Disponível em: <http://www.ppgi.di.ufpb.br/wp-content/uploads/2009robertabrito.pdf> Acesso em: 27 out. 2012.
ELMASRI, Ramez; NAVATHE, Shamkant B. Sistemas de banco de dados. São Paulo: Pearson, 2005.
FGV-RJ. Desinteresse é o principal motivo da evasão escolar dos jovens, afirma pesquisa da FGV-RJ. 2009. Disponível em: <http://www.anj.org.br/jornaleeducacao/noticias/pesquisa-da-fgv-mostra-causas-da-evasao-escolar-no-pais/>. Acesso em: 19 ago. 2012.
FRANKLIN, Harrison M. dos Santos; FILHO, Luis A. da Silva. Utilização De Sistemas De Informação Para Apoiar A Tomada De Decisão Na Segurança Pública Do Estado Do Pará. UFPA, Belém. 2007
G1, País perde R$ 9 bilhões com evasão no ensino superior, diz pesquisador. 2011. Disponível em: <http://g1.globo.com/educacao/noticia/2011/02/pais-perde-r-9-bilhoes-com-evasao-no-ensino-superior-diz-pesquisador.html>. Acesso em: 18 ago. 2012.
GOLDSCMIDT, Ronaldo; PASSOS, Emmanuel. Data mining: um guia prático. Rio de Janeiro: Elsevier, 2005.
GOUVEIA Roberta M. M. Mineração de Dados em Data Warehouse para Sistema de Abastecimento de Água. João Pessoa. 2009. Dissertação (Mestrado em Informática) –
63
Centro de Ciências Exatas e da Natureza, Universidade Federal da Paraíba, João Pessoa, 2009.
JACOMINI, Diego. Análise Da Base De Dados Dos Ingressantes Na Unidavi Em 2008 Com A Ferramenta WEKA. 2008. Disponível em: <http://www.unidavi.edu.br/?pagina=FILE&id=56962>. Acesso em: 06 nov. 2012.
MAMANI, Alexander V. Ocsa. Soluções aproximadas para algoritmos escaláveis de mineração de dados em domínios de dados complexos usando GPGPU. 2011. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22112011-132339/pt-br.php >. Acesso em: 27 out. 2012
MARTINS, Cleidis B. N. Evasão de Alunos nos Cursos de Graduação em uma Instituição de Ensino Superior. Pedro Leopoldo. 2007. Dissertação (Mestrado Profissional de Administração) – Fundação Cultural Dr. Pedro Leopoldo, Pedro Leopoldo, 2007.
MENEZES, José Dércio. A problemática da evasão escolar e as dificuldades da escolarização. 2010. Disponível em: < http://www.artigonal.com/ensino-superior-artigos/a-problematica-da-evasao-escolar-e-as-dificuldades-da-escolarizacao-2761092.html >. Acesso em: 18 ago. 2012.
MILANI, Fernanda; CAMARGO, Sandro da Silva. Aplicação de Técnicas de Mineração de Dados na Previsão de Propensão à Evasão Escolar. 2010. Disponível em: <http://periodicos.unesc.net/index.php/sulcomp/article/viewArticle/363>. Acesso em: 01 nov. 2012.
OLIVEIRA, Wilson José de. Data warehouse. Florianópolis: Visual Books, 2002.
PERING, Elton Adriano. Um Data Mart para previsão de vendas anual da empresa Quimisa S/A. Itajaí, 2010. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação)– Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2010.
QUEIROZ, Lucileide Domingos. Um estudo sobre evasão escolar: para se pensar na inclusão escolar. Mato Grosso: UFMT, 2004.
RIGO, Sandro J; CAZELLA, Silvio C; CAMBRUZZI, Wagner. Minerando Dados Educacionais com foco na evasão escolar: oportunidades, desafios e necessidades. 2012. Disponível em: <http://www.lbd.dcc.ufmg.br/colecoes/desafie!/2012/0022.pdf>. Acesso em: 27 out. 2012.
ROCHA, Luciane da. Evasão escolar no ensino médio noturno. Porto Alegre: UFRGS, 2010.
ROCHA, Simone Mariano. Compromisso com a inclusão escolar. 2012. Disponível em: <http://www.mp.rs.gov.br/infancia/doutrina/id156.html>. Acesso em: 18 ago. 2012.
SANTOS, Franklin Harrison M. dos; FILHO, Luis A. da Silva. Utilização De Sistemas De Informação Para Apoiar A Tomada De Decisão Na Segurança Pública Do Estado Do Pará. 2007. Disponível em: <https://docs.google.com/viewer?a=v&q=cache:BWijfhlqg2cJ:www.portaltcc.icen.ufpa.br/portaltcc/principal/Tcc/action.do%3Bjsessionid%3D4CBC6232210722A5E8649996C2243819
64
%3Fact%3Ddownload%26id%3D90+&hl=pt-BR&gl=br&pid=bl&srcid=ADGEESgsixv7_uHO5XZb2S8ieuQYoGYxsOqSOUCDmxFalyKX_7zI3kycXmxyCv47f-ol3G2YKjdGxYEgG-rL0nsSmLC9MhqNsAzbxFcZgWmfdAC2M37xh-r7f2JSkXirjDMf-TNTIoJO&sig=AHIEtbQe4I7quV_MvDkc0YH46zQIN2pvJw>. Acesso em: 06 nov. 2012.
SARTORI, Ricardo. Mineração dos dados da Polícia Militar de Santa Catarina no município de Balneário Camboriú para geração de informação e conhecimento na área de Segurança Pública. Itajaí. 2012. Trabalho Técnico-científico de Conclusão de Curso (Graduação em Ciência da Computação) – Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2012.
SELEGATTO, Denis Augusto; GENEROSO, Fábio Henrique; ZENERATTO, Luis Antonio; SILVA, Renato Demarco C. Business Intelligence. Campinas. 2005. Trabalho Acadêmico (Graduação em Engenharia da Computação) – Pontifícia Universidade Católica de Campinas, 2005.
SINGH, Harry; ROSEMBERG, Monica. Data warehouse. São Paulo: Makron, 2001
TAN, Pang-Ning; STEINBACH, Michael; KUMAR, Vipin. Introdução ao data mining: mineração de dados. Rio de Janeiro: Ciência Moderna, 2009.
TIGRINHO, Luiz Maurício V. Evasão escolar nas instituições de ensino superior. 2008. Disponível em: <http://www.gestaouniversitaria.com.br/index.php?option=com_content&view=article&id=649:evasao-escolar-nas-instituicoes-de-ensino-superior&catid=135:173&Itemid=21 >. Acesso em: 19 ago. 2012.
65
APÊNDICE A. QUESTIONÁRIO APLICADO
Prezado Senhor (a), solicitamos sua colaboração para o preenchimento deste
questionário, que será analisado e aplicado no Trabalho Técnico-científico, da Universidade
do Vale do Itajaí (UNIVALI), intitulado: Mineração de Dados de Instituições de Ensino para
Controle de Evasão e Oferta de Curso. Não é necessária a identificação do respondente e as
respostas são de opinião própria.
Em casos de dúvidas, favor entrar em contato pelo telefone (048) 9129-9820 ou
através do e-mail ddefaveri@gmail.com. Desde já agradecemos.
1 – Qual o seu entendimento referente ao tema Evasão Escolar?
2 – Muitos estudos apontam duas abordagens diferentes como principais causas da
evasão escolar: fatores internos (infraestrutura, metodologia, professor) e fatores externos
(desigualdade social, família, desinteresse do aluno). Na sua opinião, qual desses fatores é
mais influente na causa da evasão escolar e por quê?
3 – Levando em conta a complexidade da questão evasão escolar (causas e
consequências) conclui-se que não há uma rápida solução para o tema, porém algumas ações
podem amenizar o problema. Qual a sua sugestão?
66
APÊNDICE B. REGRAS DE CLASSIFICAÇÃO: DADOS ALUNOS
Abaixo segue as regras geradas pela ferramenta para compreensão dos fatores que levam à
evasão. Para melhor interpretar as regras é necessária conhecer os atributos, o que eles
significam e valores podem ser atribuidos à eles.
Dicionário de Dados – Dimensão Aluno Atributo Descrição Valor Observações id_aluno Identificador do aluno Numérico pessoa_genero Sexo do aluno M ou F Valor M para sexo
masculino ou F para sexo feminino
formacao_situacao Situação do aluno na escola regular ao entrar no SENAI.
Trancado, Incompleto ou Completo
formacao_curso Formação do aluno ao entrar no SENAI
Técnico, Ensino Médio, Ensino Fundamental
raca_descricao Raça do aluno Branca, negro, parda
mora_tijucas Indica se o aluno mora em Tijucas, cidade sede da instituição
S ou N Valor S se o aluno mora em Tijucas ou N se ele não mora em Tijucas.
mes_nascimento_aluno Mês de nascimento do aluno
Numérico Valor numérico do mês de nascimento do aluno.
faixa_idade_aluno Faixa de idade dos alunos
-15, 16, 17, 18-19, +20
faixa_mes_matricula Atributo que identifica se o aluno fez sua matrícula antes de iniciar o curso ou depois
S ou N Valor S se ele fez a matrícula antes de iniciar o curso ou N para se ele não fez a matrícula antes
67
Dicionário de Dados – Dimensão Desempenho Atributo Descrição Valor Observações id_desempenho Identificador do
desempenho Numérico
regime_disciplinar_tipo Atributo que identifica se o aluno tem algum tipo de advertência
Advertência Escrita e Verbal, Suspenção ou Expulsão
maior_sete Atributo que identifica se a nota média do aluno é maior que 7,0
S ou N Valor S se a nota for maior ou igual a 7,0 ou N se a nota for abaixo da diretriz
maior_frequencia Atributo que identifica se o aluno tem o mínimo de 75% de presença na disciplina
S ou N Se o valor for S identifica que o aluno tem a frequência maior ou igual a 75%
Dicionário de Dados – Dimensão Disciplina Atributo Descrição Valor Observações id_disciplina Identificador da
disciplina Numérico
período_unidade_curricular_codigo
Código da unidade curricular em estudo
Código alfanumérico
produto_apelido Código do curso de estudo do aluno
Código alfanumérico
turno_nome Período de estudo do aluno
Matutino, Vespertino e Noturno
Dicionário de Dados – Dimensão Colaborador Atributo Descrição Valor Observações id_colaborador Identificador do
colaborador Numérico
area_atuacao_nome Área de atuação do professor
Nome da área técnica
professor Nome do professor da unidade curricular
Nome próprio
colaborador_funcao Função do colaborador na unidade de ensino
Técnico, analista, especialista, assistente, instrutor
tipo_contrato_nome Tipo de contrato do docente com a unidade de ensino
Mensalista ou Horista
68
nivel_educacao_nome Nível de escolaridade do professor
Ensino médio, superior, especialista e mestrado.
faixa_idade_professor Faixa de idade do professor
20-24, 25-28, 29-30, 31-34, 35-37, 38-40 e +41
Dicionário de Dados –Fatos Alunos Atributo Descrição Valor matricula_situacao Situação da matricula
do aluno na unidade de ensino
Evadido/Eliminado, Evadido/Transf. Curso, Evadido/Desistente, Finalizado/Concluinte e Finalizado/Não Concluinte
Para a leitura da regra, deve-se interpretar da seguinte forma:
Regra JRIP do WEKA: (maior_frequencia = n) and (produto_apelido = AICE) and
(faixa_idade_aluno = 17) and (maior_sete = n) and (mes_nascimento_aluno = 6) =>
matricula_situacao=Evadido / Transferido de Curso (21.0/0.0)
Regra interpretada: Se a frequência do aluno não for maior ou igual à 75% e o nome
do curso for AICE (Aprendizagem Industrial em Ceramista) e a idade do aluno for
igual a 17 (dezessete) anos e a nota média não for maior ou igual a 7,0 (sete) e o mês
do seu nascimento for 6 (junho) então a situação da matricula do aluno é Evadido /
Transferência de Curso. (21 (vinte e uma) instâncias classificadas corretas e 0 (zero)
instâncias classificadas erradas)
JRIP rules: (maior_frequencia = n) and (produto_apelido = AICE) and (faixa_idade_aluno = 17) and (maior_sete = n) and (mes_nascimento_aluno = 6) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 9) and (turno_nome = Noite) and (maior_sete = n) => matricula_situacao=Evadido / Transferido de Curso (24.0/0.0) (maior_frequencia = n) and (produto_apelido = AICE) and (mes_nascimento_aluno = 7) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (maior_frequencia = n) and (faixa_idade_aluno = 16) and (produto_apelido = AICE) => matricula_situacao=Evadido / Transferido de Curso (21.0/1.0) (maior_frequencia = n) and (mes_nascimento_aluno = 5) and (faixa_mes_matricula = n) and (turno_nome = Noite) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (maior_frequencia = n) and (mora_tijucas = s) and (faixa_idade_aluno = 17) and (mes_nascimento_aluno = 8) and (pessoa_genero = F) => matricula_situacao=Evadido / Transferido de Curso (19.0/0.0)
69
(maior_frequencia = n) and (faixa_idade_aluno = 16) and (mes_nascimento_aluno = 6) => matricula_situacao=Evadido / Transferido de Curso (17.0/0.0) (formacao_situacao = Completo) and (mes_nascimento_aluno = 5) and (produto_apelido = ASMR) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (turno_nome = Noite) and (pessoa_genero = F) and (maior_sete = s) and (raca_descricao = Parda) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (mes_nascimento_aluno = 10) and (produto_apelido = AICE) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (turno_nome = Noite) and (mora_tijucas = s) and (mes_nascimento_aluno = 2) and (pessoa_genero = F) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (produto_apelido = TMSI) and (mes_nascimento_aluno = 3) => matricula_situacao=Evadido / Transferido de Curso (16.0/0.0) (produto_apelido = TELT) and (faixa_idade_aluno = 18-19) and (mes_nascimento_aluno = 5) => matricula_situacao=Evadido / Transferido de Curso (8.0/0.0) (mes_nascimento_aluno = 10) and (pessoa_genero = F) and (faixa_idade_aluno = 16) and (turno_nome = Tarde) and (produto_apelido = ASMR) => matricula_situacao=Evadido / Transferido de Curso (19.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (produto_apelido = TELM) and (mes_nascimento_aluno = 10) => matricula_situacao=Evadido / Desistente (36.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 4) and (pessoa_genero = M) => matricula_situacao=Evadido / Desistente (42.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 2) and (produto_apelido = AICE) => matricula_situacao=Evadido / Desistente (19.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 1) and (pessoa_genero = F) => matricula_situacao=Evadido / Desistente (19.0/0.0) (turno_nome = Noite) and (faixa_mes_matricula = n) and (formacao_situacao = Completo) => matricula_situacao=Evadido / Desistente (16.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 9) and (produto_apelido = TSEG) => matricula_situacao=Evadido / Desistente (18.0/0.0) (faixa_idade_aluno = +20) and (mes_nascimento_aluno = 11) and (formacao_curso = Médio) => matricula_situacao=Evadido / Desistente (38.0/4.0) (turno_nome = Noite) and (mora_tijucas = s) and (mes_nascimento_aluno = 5) => matricula_situacao=Evadido / Desistente (18.0/0.0) (produto_apelido = CTRC) and (faixa_idade_aluno = 17) and (maior_sete = s) => matricula_situacao=Evadido / Desistente (23.0/0.0) (turno_nome = Noite) and (formacao_situacao = Incompleto) and (mes_nascimento_aluno = 2) and (formacao_curso = Médio) => matricula_situacao=Evadido / Desistente (20.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 12) and (maior_sete = s) => matricula_situacao=Evadido / Desistente (24.0/2.0) (mes_nascimento_aluno = 3) and (maior_sete = n) and (produto_apelido = AICE) and (maior_frequencia = n) and (faixa_idade_aluno = 17) => matricula_situacao=Evadido / Desistente (21.0/0.0) (produto_apelido = TELT) and (mora_tijucas = s) => matricula_situacao=Evadido / Desistente (16.0/4.0) (periodo_unidade_curricular_codigo = ARE1) and (regime_disciplinar_tipo = Advertência) => matricula_situacao=Evadido / Desistente (8.0/0.0) (produto_apelido = ASMR) and (faixa_idade_aluno = -15) and (regime_disciplinar_tipo = Advertência) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte (95.0/0.0) (turno_nome = Manhã) and (faixa_idade_aluno = -15) and (faixa_mes_matricula = n) => matricula_situacao=Finalizado / Não Concluinte (54.0/0.0) (turno_nome = Manhã) and (regime_disciplinar_tipo = Advertência) and (faixa_idade_aluno = 16) => matricula_situacao=Finalizado / Não Concluinte (72.0/0.0) (produto_apelido = ASMR) and (pessoa_genero = M) and (faixa_idade_aluno = 16) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte (38.0/0.0) (turno_nome = Manhã) and (faixa_idade_aluno = -15) and (pessoa_genero = F) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (turno_nome = Manhã) and (pessoa_genero = M) and (formacao_situacao = Completo) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (turno_nome = Manhã) and (mes_nascimento_aluno = 7) and (formacao_curso = Médio) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0)
70
(produto_apelido = AICE) and (mora_tijucas = n) and (pessoa_genero = M) => matricula_situacao=Finalizado / Não Concluinte (21.0/0.0) (turno_nome = Manhã) and (raca_descricao = Negra) and (formacao_curso = Médio) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (faixa_idade_aluno = -15) and (mes_nascimento_aluno = 10) and (turno_nome = Manhã) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (mes_nascimento_aluno = 2) and (faixa_idade_aluno = 16) and (maior_frequencia = n) and (produto_apelido = ASMR) => matricula_situacao=Finalizado / Não Concluinte (19.0/0.0) (mes_nascimento_aluno = 12) and (faixa_idade_aluno = -15) and (produto_apelido = AICE) and (formacao_situacao = Incompleto) => matricula_situacao=Finalizado / Não Concluinte (21.0/0.0) (maior_frequencia = n) and (maior_sete = n) => matricula_situacao=Evadido / Eliminado (1009.0/33.0) (faixa_mes_matricula = n) and (mora_tijucas = n) and (produto_apelido = TELM) => matricula_situacao=Evadido / Eliminado (142.0/0.0) (produto_apelido = TSEG) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Eliminado (120.0/0.0) (maior_sete = n) and (produto_apelido = AIEM) and (formacao_curso = Médio) => matricula_situacao=Evadido / Eliminado (72.0/5.0) (maior_sete = n) and (produto_apelido = TELM) and (periodo_unidade_curricular_codigo = METR) => matricula_situacao=Evadido / Eliminado (4.0/0.0) (produto_apelido = TMSI) => matricula_situacao=Evadido / Eliminado (22.0/0.0) (maior_sete = n) and (turno_nome = Manhã) and (formacao_curso = Fundamental) => matricula_situacao=Evadido / Eliminado (17.0/1.0) (produto_apelido = AIEM) and (raca_descricao = Parda) => matricula_situacao=Evadido / Eliminado (19.0/0.0) (maior_frequencia = n) and (faixa_mes_matricula = n) => matricula_situacao=Evadido / Eliminado (13.0/0.0) (produto_apelido = AIEM) and (formacao_curso = Médio) and (mes_nascimento_aluno = 4) => matricula_situacao=Evadido / Eliminado (10.0/0.0) (produto_apelido = TELT) => matricula_situacao=Evadido / Eliminado (6.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 4) and (produto_apelido = ASMR) => matricula_situacao=Evadido / Eliminado (3.0/0.0) (produto_apelido = CTRC) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Eliminado (12.0/1.0) (mes_nascimento_aluno = 7) and (maior_frequencia = n) and (produto_apelido = ASMR) => matricula_situacao=Evadido / Eliminado (3.0/0.0) (mes_nascimento_aluno = 10) and (produto_apelido = AIEM) and (regime_disciplinar_tipo = Advertência) => matricula_situacao=Evadido / Eliminado (6.0/0.0) (periodo_unidade_curricular_codigo = COOE) => matricula_situacao=Evadido / Eliminado (2.0/0.0) => matricula_situacao=Finalizado / Concluinte (2364.0/9.0) Number of Rules : 57
Time taken to build model: 1.21 seconds
71
APÊNDICE C. REGRAS DE CLASSIFICAÇÃO: DADOS DO PROFESSOR.
Para interpretação das regras do APÊNDICE C, considerar as especificações do
APÊNDICE B.
JRIP rules: =========== (maior_frequencia = n) and (area_atuacao_nome = Minerais não Metálicos) and (faixa_idade_aluno = 17) and (mes_nascimento_aluno = 6) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (maior_frequencia = n) and (area_atuacao_nome = Minerais não Metálicos) and (pessoa_genero = M) and (mes_nascimento_aluno = 10) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 9) and (area_atuacao_nome = Minerais não Metálicos) => matricula_situacao=Evadido / Transferido de Curso (21.0/1.0) (maior_frequencia = n) and (formacao_curso = Médio) and (produto_apelido = ASMR) and (mes_nascimento_aluno = 8) => matricula_situacao=Evadido / Transferido de Curso (19.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 5) and (pessoa_genero = M) and (faixa_idade_aluno = 16) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 9) and (maior_sete = n) => matricula_situacao=Evadido / Transferido de Curso (26.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 7) and (area_atuacao_nome = Minerais não Metálicos) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (turno_nome = Noite) and (faixa_mes_matricula = n) and (area_atuacao_nome = Tecnologia da Informação) => matricula_situacao=Evadido / Transferido de Curso (16.0/0.0) (turno_nome = Noite) and (pessoa_genero = F) and (maior_sete = s) and (raca_descricao = Parda) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 5) and (faixa_mes_matricula = n) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (faixa_idade_aluno = 16) and (mes_nascimento_aluno = 6) and (area_atuacao_nome = Eletroeletrônica) => matricula_situacao=Evadido / Transferido de Curso (17.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 2) and (pessoa_genero = F) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (mes_nascimento_aluno = 10) and (pessoa_genero = F) and (faixa_idade_aluno = 16) and (turno_nome = Tarde) and (produto_apelido = ASMR) => matricula_situacao=Evadido / Transferido de Curso (19.0/0.0) (produto_apelido = TELT) and (faixa_idade_aluno = 18-19) and (mes_nascimento_aluno = 5) => matricula_situacao=Evadido / Transferido de Curso (8.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (area_atuacao_nome = Metalmecânica) and (mes_nascimento_aluno = 10) => matricula_situacao=Evadido / Desistente (36.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 4) and (pessoa_genero = M) => matricula_situacao=Evadido / Desistente (42.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 2) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Desistente (18.0/0.0) (faixa_idade_aluno = +20) and (mes_nascimento_aluno = 11) and (formacao_curso = Médio) and (raca_descricao = Branca) => matricula_situacao=Evadido / Desistente (34.0/0.0) (faixa_idade_aluno = +20) and (turno_nome = Tarde) and (mes_nascimento_aluno = 2) => matricula_situacao=Evadido / Desistente (21.0/0.0) (turno_nome = Noite) and (faixa_mes_matricula = n) and (formacao_situacao = Completo) => matricula_situacao=Evadido / Desistente (16.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 9) => matricula_situacao=Evadido / Desistente (18.0/0.0) (faixa_idade_aluno = +20) and (produto_apelido = ASMR) and (pessoa_genero = F) => matricula_situacao=Evadido / Desistente (19.0/0.0) (produto_apelido = CTRC) and (faixa_idade_aluno = 17) => matricula_situacao=Evadido / Desistente
72
(38.0/6.0) (turno_nome = Noite) and (mora_tijucas = s) and (mes_nascimento_aluno = 5) => matricula_situacao=Evadido / Desistente (18.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 12) and (maior_sete = s) and (formacao_situacao = Completo) => matricula_situacao=Evadido / Desistente (22.0/0.0) (mes_nascimento_aluno = 3) and (area_atuacao_nome = Minerais não Metálicos) and (maior_frequencia = n) and (faixa_idade_aluno = 17) => matricula_situacao=Evadido / Desistente (21.0/0.0) (produto_apelido = ASMR) and (faixa_idade_aluno = -15) and (regime_disciplinar_tipo = Advertência) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte (95.0/0.0) (turno_nome = Manhã) and (faixa_mes_matricula = n) and (mora_tijucas = n) and (maior_frequencia = s) => matricula_situacao=Finalizado / Não Concluinte (54.0/0.0) (turno_nome = Manhã) and (mes_nascimento_aluno = 4) and (regime_disciplinar_tipo = Advertência) => matricula_situacao=Finalizado / Não Concluinte (36.0/0.0) (turno_nome = Manhã) and (faixa_idade_aluno = -15) and (pessoa_genero = F) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (turno_nome = Manhã) and (pessoa_genero = M) and (formacao_situacao = Completo) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (produto_apelido = ASMR) and (pessoa_genero = M) and (faixa_idade_aluno = 16) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte (38.0/0.0) (turno_nome = Manhã) and (pessoa_genero = M) and (faixa_idade_aluno = 16) and (maior_sete = s) => matricula_situacao=Finalizado / Não Concluinte (24.0/1.0) (turno_nome = Manhã) and (mes_nascimento_aluno = 1) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (turno_nome = Manhã) and (raca_descricao = Negra) and (formacao_curso = Médio) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (turno_nome = Manhã) and (faixa_idade_aluno = -15) and (mes_nascimento_aluno = 10) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (area_atuacao_nome = Minerais não Metálicos) and (mes_nascimento_aluno = 12) and (faixa_idade_aluno = -15) and (formacao_situacao = Incompleto) => matricula_situacao=Finalizado / Não Concluinte (21.0/0.0) (mes_nascimento_aluno = 5) and (faixa_idade_aluno = 18-19) and (formacao_curso = Fundamental) => matricula_situacao=Finalizado / Não Concluinte (21.0/0.0) (faixa_idade_aluno = 16) and (mes_nascimento_aluno = 2) and (maior_frequencia = n) and (area_atuacao_nome = Tecnologia da Informação) => matricula_situacao=Finalizado / Não Concluinte (19.0/0.0) (mes_nascimento_aluno = 7) and (turno_nome = Manhã) and (formacao_curso = Médio) => matricula_situacao=Finalizado / Não Concluinte (12.0/0.0) (maior_frequencia = n) and (maior_sete = n) => matricula_situacao=Evadido / Eliminado (1015.0/39.0) (faixa_mes_matricula = n) and (mora_tijucas = n) and (area_atuacao_nome = Metalmecânica) => matricula_situacao=Evadido / Eliminado (142.0/0.0) (maior_sete = n) and (area_atuacao_nome = Eletroeletrônica) and (formacao_curso = Médio) => matricula_situacao=Evadido / Eliminado (74.0/5.0) (area_atuacao_nome = Segurança no Trabalho) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Eliminado (120.0/0.0) (maior_sete = n) and (area_atuacao_nome = Metalmecânica) and (turno_nome = Tarde) => matricula_situacao=Evadido / Eliminado (4.0/0.0) (maior_frequencia = n) and (faixa_mes_matricula = n) => matricula_situacao=Evadido / Eliminado (13.0/0.0) (produto_apelido = TMSI) => matricula_situacao=Evadido / Eliminado (22.0/0.0) (maior_sete = n) and (area_atuacao_nome = Tecnologia da Informação) and (mes_nascimento_aluno = 5) => matricula_situacao=Evadido / Eliminado (25.0/2.0) (area_atuacao_nome = Eletroeletrônica) and (raca_descricao = Parda) => matricula_situacao=Evadido / Eliminado (23.0/0.0) (area_atuacao_nome = Eletroeletrônica) and (mes_nascimento_aluno = 4) and (faixa_idade_aluno = 17) => matricula_situacao=Evadido / Eliminado (10.0/0.0) (area_atuacao_nome = Eletroeletrônica) and (mes_nascimento_aluno = 10) and (regime_disciplinar_tipo = Advertência) => matricula_situacao=Evadido / Eliminado (6.0/0.0) (maior_frequencia = n) and (professor = Lauren Schultz Gadotti) and (formacao_situacao = Completo) => matricula_situacao=Evadido / Eliminado (4.0/0.0)
73
(periodo_unidade_curricular_codigo = QSMS) and (mora_tijucas = n) => matricula_situacao=Evadido / Eliminado (4.0/0.0) (produto_apelido = CTRC) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Eliminado (3.0/0.0) (professor = Fabio Moreira de Oliveira) and (periodo_unidade_curricular_codigo = MAEL) => matricula_situacao=Evadido / Eliminado (2.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 4) and (area_atuacao_nome = Tecnologia da Informação) => matricula_situacao=Evadido / Eliminado (3.0/0.0) => matricula_situacao=Finalizado / Concluinte (2367.0/13.0) Number of Rules : 57 Time taken to build model: 1.35 seconds
74
APÊNDICE D. ESBOÇO DE TELA PARA VISUALIZAÇÃO DAS REGRAS CRIADAS PELO ALGORITMO JRIP NO WEKA.
75
ANEXO A. AUTORIZAÇÃO PARA UTILIZAÇÃO DA BASE DE DADOS COMO MODELAGEM E AVALIAÇÃO DAS TÉCNICAS FUNDAMENTADAS
76
ANEXO B. MODELAGEM DO BANCO DE DADOS
77
78
79
80
81
82
83
top related