estudo bibliomÉtrico em mineraÇÃo de dados e … · mineração de dados educacionais, como...
TRANSCRIPT
ESTUDO BIBLIOMÉTRICO EM MINERAÇÃO DE DADOS E
EVASÃO ESCOLAR
Área temática: Gestão Estratégica e Organizacional
Roger Douglas Machado
Elpidio Oscar Benitez Nara
Jacques Nelson Corleta Schreiber
Guilherme Augusto Schwingel
Resumo: A pesquisa visa apresentar um estudo bibliométrico com o objetivo de identificar os trabalhos que abordam
o problema da evasão escolar utilizando técnicas de mineração de dados. Para o presente estudo, foi tomado como
fonte de dados os artigos publicados até Março de 2015 nas bases Scopus, Web Of Science, ScienceDirect e Scielo.
Este artigo apresenta e justifica a utilização de mineração de dados no contexto da educação e como esta pode ser
aplicada ao problema da evasão escolar. Foram encontrados 19 trabalhos de várias partes do mundo, dos quais
36,84% foram publicados nos últimos 2 anos. Assim, pode-se concluir que o tema é global, atual e pertinente. O estudo
também permitiu identificar os principais métodos utilizados.
Palavras-chaves: mineração de dados, educação, evasão escolar
ISSN 1984-9354
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
2
1. INTRODUÇÃO
Segundo Rigo et al. (2014), “o termo evasão escolar permite diversas interpretações e é
utilizado em diferentes contextos com significados ligeiramente diversos”. Para Favero (2006), evasão
consiste na desistência do curso pelo estudante, independentemente da quantidade de participações em
aula. Já Silva Filho et al. (2007) diferenciam a evasão de acordo com períodos anuais ou períodos
médios para conclusão do curso. Rigo et al. (2014) citam ainda outros autores e diferentes conceitos
para evasão, que pode estar associada a situações de desistência definitiva após determinado contato
com o curso ou a ocorrências de simples interrupção no ciclo de estudos, independentemente do nível
do estudante dentro do curso ou da duração da interrupção.
A evasão no ensino superior brasileiro atinge diversas instituições de ensino, sendo considerada
uma preocupação muito grande para empresários, diretores, reitores, pesquisadores, pais e alunos
(BITTENCOURT, I. M.; MERCADO, L. P., 2014). O fenômeno da evasão escolar é visto como um
dos maiores problemas de qualquer nível de ensino (LOBO, 2012). No ensino superior, seja público ou
privado, este problema afeta o resultado dos sistemas educacionais e Instituições de Ensino Superior
(IES). As perdas ocasionadas pelo abandono do aluno são desperdícios sociais, acadêmicos e
econômicos. Enquanto que no setor público, recursos públicos são investidos sem o devido retorno, no
setor privado as taxas de evasão representam uma importante perda de receita (SILVA FILHO et al.,
2007).
Segundo Silva Filho et al. (2007), não é possível afirmar que os índices nacionais são melhores
ou piores quando comparados aos índices internacionais, visto que a evasão no Brasil não difere muito
das médias internacionais. Além disso, os índices de evasão variam muito de um país para outro. No
entanto, segundo diversos estudos, citados por Rigo et al. (2014), é consenso afirmar que o problema
relacionado à evasão escolar é um desafio a ser superado na área da Educação.
Ciente deste desafio, o governo federal brasileiro, através do Programa de Apoio a Planos de
Reestruturação e Expansão das Universidades Federais (REUNI), estabelece, dentre outras diretrizes, a
“redução das taxas de evasão, ocupação de vagas ociosas e aumento de vagas de ingresso,
especialmente no período noturno”. Assim sendo, o governo tem como objetivo não somente a
ampliação do acesso ao ensino superior, mas também promover a permanência do aluno na educação
superior, no nível de graduação (MEC, 2007). No entanto, segundo Silva Filho et al. (2007), são
raríssimas as IES brasileiras que desenvolvem programas de combate à evasão. Portanto, fica evidente
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
3
a necessidade de se realizar estudos sistemáticos com o objetivo de reduzir os índices de evasão, a fim
de evitar desperdícios, tanto do ponto de vista social quanto do financeiro.
Conforme Tontini e Walter (2014), embora existam estudos que abordam os fatores que levam
o aluno a se evadir, não são encontrados na literatura nacional estudos que tenham como objetivo
identificar métodos que auxiliem as IES no diagnóstico do real risco de evasão. Segundo Silva (2013),
as metodologias encontradas na maior parte dos trabalhos nacionais tratam da evasão em casos
específicos, impedindo que os resultados sejam generalizados ou replicados em outras IES. Como
exemplo, são citados os trabalhos que se apoiam na coleta de dados através da aplicação de
questionários aos alunos evadidos ou por meio de entrevistas individuais.
Com a difusão do uso de sistemas informatizados nas universidades, o volume de dados
gerados e armazenados em bases de dados vem crescendo diariamente (RIGO et al., 2014). Entretanto,
o acesso a bases de dados torna-se pouco útil sem o auxílio de ferramentas adequadas à análise e
interpretação dos dados, a fim de que professores e gestores possam extrair informações úteis
(GOTTARDO, 2014). Técnicas de mineração de dados, através do processo de descoberta de
conhecimento, podem ser utilizadas para a extração de informações úteis, visando gerar modelos de
apoio aos gestores universitários, permitindo ações baseadas no diagnóstico precoce dos fatores
relacionados ao fenômeno da evasão (RIGO et al., 2014; MANHÃES et al., 2012).
Neste contexto, o presente estudo bibliométrico visa identificar trabalhos que abordam o
problema da evasão escolar utilizando mineração de dados. O estudo é parte de um trabalho a ser
desenvolvido em uma universidade privada do estado do Rio Grande do Sul, Brasil. O trabalho, por
sua vez, visa estudar, com o auxílio de técnicas de mineração de dados educacionais, o problema da
evasão escolar nos cursos de graduação presenciais e tem como objetivo gerar modelos de apoio aos
gestores universitários, permitindo ações proativas e preventivas com efeitos diretos ou indiretos nas
taxas de evasão.
2. Metodologia
Com o objetivo de identificar os trabalhos que abordam o problema da evasão escolar
com a utilização de técnicas de Mineração de Dados, bem como de apresentar uma visão da produção
científica nacional e internacional dentro deste contexto, foi realizado um estudo bibliométrico,
tomando como fonte de dados os artigos científicos publicados nos últimos 10 anos, incluindo os
trabalhos publicados até Março de 2015, nas bases Scopus, Web Of Science, ScienceDirect e Scielo.
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
4
Inicialmente, buscou-se pelo termo “educational data mining”, o qual se refere à utilização de
técnicas de mineração de dados no contexto da educação. Na Scopus, a busca pelo termo “educational
data mining” retornou 111 artigos científicos publicados até Março de 2015, sendo que nenhuma das
publicações possui autoria ou coautoria de pesquisadores brasileiros. Na Web of Science foram
encontrados apenas 56 artigos publicados, não havendo participação brasileira. A ScienceDirect
retornou 27 publicações, enquanto que a Scielo não retornou nenhum resultado para o termo
pesquisado.
Embora seja evidente a carência de trabalhos na área, vale ressaltar o aumento no interesse pela
mesma, tendo como base o crescente número de publicações registradas nos últimos anos, conforme
ilustrado na Figura 1. Com base nos dados da Scopus, mais da metade (54,04%) dos artigos
encontrados foram publicados nos últimos dois anos, entre 2013 e 2014. Situação semelhante pode ser
observada nos artigos encontrados na Web of Science, dos quais 66,07% foram publicados entre 2012 e
2014.
Figura 1 – Artigos encontrados para o termo “educational data mining”.
Fonte: Figura elaborada pelo autor a partir de dados consultados nas bases Scopus, disponível em <http://www-scopus-
com.ez127.periodicos.capes.gov.br>, Web of Science, disponível em
<http://apps.webofknowledge.com.ez127.periodicos.capes.gov.br>, ScienceDirect, disponível em <http://www-
sciencedirect-com.ez127.periodicos.capes.gov.br> e SciELO.ORG, disponível em <http://www.scielo.org>, acesso em 7 de
Abril de 2015.
A
Tabela 1 apresenta a relação dos países com o maior número de publicações no que se refere à
pesquisa pelo termo “educational data mining”. Para a análise a seguir, são tomados como fontes de
dados os artigos encontrados nas bases Scopus e Web Of Science, haja visto que não é possível
segregar geograficamente os resultados encontrados na ScienceDirect e que a busca pelo termo de
pesquisa na Scielo não retornou nenhum resultado. Para efeito de análise, cabe adiantar que não foram
encontradas publicações com colaboração de pesquisadores brasileiros.
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
5
Tabela 1 – Análise dos artigos encontrados para o termo “educational data mining” com relação ao país de origem dos
autores.
O gráfico abaixo apresenta a relação dos dez países com maior número de artigos encontrados para o termo de pesquisa
“educational data mining”, segundo os dados indexados pela base Scopus, dentro do período que compreende os últimos
10 anos, incluindo os artigos publicados até Março de 2015. Embora os Estados Unidos se mantenha na 1ª posição com 29
publicações (26,12%), a Espanha ganha destaque ao ultrapassar a China, com apenas 7 artigos (6,30%), e assumir a 2ª
colocação, com 20 artigos (18,01%) publicados na área de mineração de dados educacionais. A consulta não retornou
publicações sob autoria ou coautoria de pesquisadores brasileiros.
Conforme ilustrado pelo gráfico abaixo, o ranking com base nos dados indexados pela Web Of Science confirma a
hegemonia dos Estados Unidos e Espanha, como sendo os países com o maior número de trabalhos desenvolvidos na área
da mineração de dados educacionais. Juntos, Estados Unidos e Espanha representam 60,71% das publicações na área. Com
base no termo de pesquisa, o Brasil não aparece no ranking abaixo. Isto é, não foram encontrados trabalhos com
participação de pesquisadores brasileiros.
Fonte: Tabela elaborada pelo autor a partir de dados consultados nas bases Scopus, disponível em <http://www-scopus-
com.ez127.periodicos.capes.gov.br>, Web of Science, disponível em
<http://apps.webofknowledge.com.ez127.periodicos.capes.gov.br>, ScienceDirect, disponível em <http://www-
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
6
sciencedirect-com.ez127.periodicos.capes.gov.br> e SciELO.ORG, disponível em <http://www.scielo.org>, acesso em 7 de
Abril de 2015.
Visando encontrar artigos inseridos na área de Mineração de Dados Educacionais com foco no
problema da evasão escolar, foram utilizadas as palavras-chave “educational data mining” e algumas
palavras associadas a evasão escolar. A palavra “attrition”, termo inglês que designa “evasão” no que
se refere à evasão de alunos, é melhor conhecida como “student dismissal”, no sentido de desistência
por parte do estudante (SANGODIAH et al., 2015). Para este significado, também é amplamente
adotado o termo “drop out” e as diferentes grafias (“dropout” e “drop-out”) observadas em trabalhos
científicos sobre o tema. Para a presente pesquisa bibliométrica, também foi utilizada a palavra
“evasion”, visto que esta também designa o ato de evadir, embora menos comum em trabalhos
científicos no contexto da evasão escolar. Desta forma, para a pesquisa que se segue, foram adotados
os seguintes termos para evasão escolar: "attrition", "dismissal", "dropout", "drop-out", "drop out" e
“evasion”.
No entanto, conforme ilustrado no gráfico da Figura 2, a consulta na Scopus retornou apenas 6
artigos científicos, enquanto que a Web of Science e a ScienceDirect retornaram, respectivamente, 2 e
1 artigos com base nos termos pesquisados. Portanto, embora o tema de pesquisa esteja inserido dentro
da área denominada Educational Data Mining, optou-se por utilizar o termo mais abrangente (data
mining), uma vez que foi constatada uma perda substancial de artigos relevantes retornados para o
termo mais específico (educational data mining). Assim sendo, a busca por artigos na base Scopus
retornou 49 registros, enquanto que na Web of Science e na ScienceDirect foram encontrados,
respectivamente, 29 e 12 registros.
Entretanto, observou-se que muitos artigos estavam inseridos em outras áreas que não a área de
Mineração de Dados Educacionais, como Fiscal, Biologia e áreas da Saúde. Como exemplo, algumas
publicações estavam relacionadas à sonegação de imposto (do inglês tax evasion), enquanto que outras
faziam referência a mecanismos do sistema imune (do inglês evasion mechanisms, immune evasion,
entre outros termos) ou perda de clientes (do inglês customer attrition).
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
7
Figura 2 – Artigos encontrados para o termo “educational data mining” no contexto da evasão escolar.
Fonte: Figura elaborada pelo autor a partir de dados consultados nas bases Scopus, disponível em <http://www-scopus-
com.ez127.periodicos.capes.gov.br>, Web of Science, disponível em
<http://apps.webofknowledge.com.ez127.periodicos.capes.gov.br>, ScienceDirect, disponível em <http://www-
sciencedirect-com.ez127.periodicos.capes.gov.br> e SciELO.ORG, disponível em <http://www.scielo.org>, acesso em 7 de
Abril de 2015.
Portanto, visando retornar somente os artigos inseridos no contexto da educação, foi incluída
uma nova condicional na consulta inicial. Para tanto, foi adicionada a palavra-chave “student” e sua
equivalente “learner”, de modo que a consulta retornasse somente os trabalhos relacionados à evasão
de estudantes ou alunos. Assim sendo, a nova consulta retornou 16 ocorrências na base Scopus. Na
Web of Science foram encontrados 6 artigos enquanto que na ScienceDirect foram encontradas 3
publicações ao longo dos últimos 10 anos, conforme Figura 3. A consulta na base da Scielo não
retornou nenhum trabalho científico com base nos termos pesquisados.
Figura 3 – Artigos encontrados para o termo “data mining” no contexto da evasão escolar.
Fonte: Figura elaborada pelo autor a partir de dados consultados nas bases Scopus, disponível em <http://www-scopus-
com.ez127.periodicos.capes.gov.br>, Web of Science, disponível em
<http://apps.webofknowledge.com.ez127.periodicos.capes.gov.br>, ScienceDirect, disponível em <http://www-
sciencedirect-com.ez127.periodicos.capes.gov.br> e SciELO.ORG, disponível em <http://www.scielo.org>, acesso em 7 de
Abril de 2015.
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
8
Observando o gráfico das publicações ao longo dos últimos 10 anos, é possível notar dois picos de
interesse pelo tema de estudo, que compreendem os intervalos entre 2009 e 2010, com 8 publicações,
bem como o intervalo que compreende os últimos 2 anos, entre 2013 e 2014, também com 8
publicações sobre o tema. Dentre os artigos publicados, destacam-se os trabalhos de Delen (2010),
com 24 citações, Cocea e Weibelzahl (2009), com 18 citações, Moseley e Mead (2008), com 15
citações e Ayesha et al. (2010), com 12 citações. Os autores que mais publicaram sobre o tema são
Delen (2010 e 2011), Rajagopalan e Shyamala (2006 e 2007).
A Tabela 2 lista os 16 artigos correlatos inseridos no contexto do presente estudo, encontrados
na base de dados Scopus:
Tabela 2 – Relação dos trabalhos correlatos encontrados na base Scopus.
Authors Title Year Cited
SANGODIAH, A. et al. Minimizing student attrition in higher learning institutions in
Malaysia using support vector machine
2015 0
GARCIA-SAIZ, D. et al. Data mining and social network analysis in the educational field:
An application for non-expert users
2014 1
TEKIN, A. Early prediction of students' grade point averages at graduation: A
data mining approach
2014 0
STRECHT, T. et al. Merging decision trees: A case study in predicting student
performance
2014 0
YASMIN, D. Application of the classification tree model in predicting learner
dropout behaviour in open and distance learning
2013 1
MARQUEZ-VERA, C. et al. Predicting school failure and dropout by using data mining
techniques
2013 3
DELEN, D. Predicting student attrition with data mining methods 2011 2
JADRIC, M. et al. Student dropout analysis with application of data mining methods 2010 3
DELEN, D. A comparative analysis of machine learning techniques for student
retention management
2010 24
AYESHA S. et al. Data mining model for higher education system 2010 12
COCEA, M.; WEIBELZAHL, S. Log file analysis for disengagement detection in e-Learning
environments
2009 18
MEINANDA, M. H. et al. Prediksi masa studi sarjana dengan artificial neural network 2009 0
MOSELEY, L. G.; MEAD, D. M. Predicting who will drop out of nursing courses: A machine
learning exercise
2008 15
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
9
SHYAMAL, K.; RAJAGOPALAN,
S. P.
Mining student data to characterize drop out feature using
clustering and decision tree techniques
2007 0
SHYAMAL, K.; RAJAGOPALAN,
S. P.
Data mining model for a better higher educational system 2006 6
RIGOU, M.; SIRMAKESSIS, S. Bringing personalization to online learning communities 2005 2
Fonte: Elsevier's Scopus (Abril de 2015).
A Tabela 3 lista os artigos correlatos inseridos no contexto do presente estudo, encontrados na base de
dados Web of Science:
Tabela 3 – Relação dos artigos correlatos encontrados na base Web of Science.
Authors Title Year Cited
YASMIN, D. Application of the classification tree model in predicting learner
dropout behaviour in open and distance learning
2013 1
MARQUEZ-VERA, C. et al. Predicting student failure at school using genetic programming and
different data mining approaches with high dimensional and
imbalanced data
2013 6
NANDESHWAR, A. et al. Learning patterns of university student retention 2011 3
DELEN, D. A comparative analysis of machine learning techniques for student
retention management
2010 15
COCEA, M.; WEIBELZAHL, S. Log file analysis for disengagement detection in e-Learning
environments
2009 8
MOSELEY, L. G.; MEAD, D. M. Predicting who will drop out of nursing courses: A machine
learning exercise
2008 12
Fonte: Thomson Reuter's Web of Science (Abril de 2015).
Dos 6 artigos encontrados na Web of Science, 2 diferem das publicações encontradas na base
Scopus (MARQUEZ-VERA et al., 2013; NANDESHWAR et al., 2011). A seguir, a Tabela 4 lista as 3
publicações encontradas na base ScienceDirect. Destas, apenas um artigo difere das publicações
encontradas nas consultas anteriores (LARA, J. A. et al., 2014). Portanto, somados os artigos
encontrados em ambas as bases de dados, obteve-se um total de 19 trabalhos inseridos no tema de
pesquisa do presente estudo.
Tabela 4 – Relação dos trabalhos correlatos encontrados na base ScienceDirect
Authors Title Year
LARA, J. A. et al. A system for knowledge discovery in e-learning environments within the
European Higher Education Area – Application to student data from Open
University of Madrid, UDIMA
2014
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
10
DELEN, D. A comparative analysis of machine learning techniques for student retention
management
2010
MOSELEY, L. G.; MEAD, D. M. Predicting who will drop out of nursing courses: A machine learning
exercise
2008
Fonte: ScienceDirect (Elsevier) (Abril de 2015).
A Figura 4 traz a sumarização dos dados, referente aos artigos encontrados em todas as bases
consultadas (Scopus, Web Of Science, ScienceDirect e Scielo), ao longo dos últimos 10 anos, incluindo
os artigos publicados até Março de 2015.
Exceto pelo baixo número de publicações observadas entre os anos de 2011 e 2012, fica
evidente o crescente interesse pelo tema, principalmente quando analisadas as publicações nos últimos
2 anos. Isto porque mais de 1/3 dos artigos encontrados (36,84%) foram publicados entre 2013 e 2014.
Figura 4 – Total de artigos encontrados para o termo “data mining” no contexto da evasão escolar.
Fonte: Figura elaborada pelo autor a partir de dados consultados nas bases Scopus, disponível em <http://www-scopus-
com.ez127.periodicos.capes.gov.br>, Web of Science, disponível em
<http://apps.webofknowledge.com.ez127.periodicos.capes.gov.br>, ScienceDirect, disponível em <http://www-
sciencedirect-com.ez127.periodicos.capes.gov.br> e SciELO.ORG, disponível em <http://www.scielo.org>, acesso em 7 de
Abril de 2015.
Analisando a origem das publicações encontradas, também é possível concluir que a evasão
escolar é um problema global, uma vez que este é tema de estudo em países como Índia, Paquistão,
México, Estados Unidos e países da Europa, como Itália, Espanha e Croácia.
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
11
Figura 5 – Países com maior índice de publicação na área de interesse do presente estudo.
Fonte: Figura elaborada pelo autor a partir de dados consultados nas bases Scopus, disponível em <http://www-scopus-
com.ez127.periodicos.capes.gov.br> e Web of Science, disponível em
<http://apps.webofknowledge.com.ez127.periodicos.capes.gov.br>, acesso em 7 de Abril de 2015.
A seguir, são apresentados os resumos dos trabalhos encontrados, visando identificar possíveis
lacunas, bem como fornecer subsídios para que se possa evitar o mais do mesmo e, assim, contribuir
para a produção científica através de um estudo que será conduzido durante o ano de 2015 numa
universidade privada do Brasil.
3. Trabalhos relacionados
Segundo Sangodiah et al. (2015), na Malásia, a evasão escolar é um problema
predominantemente observado em Instituições de Ensino Superior (IES). Existem vários fatores
atribuídos às altas taxas de evasão em IES. Embora os índices de evasão variem de uma instituição
para outra, em geral, o problema é visto com preocupação pelas IES devido ao consequente
desperdício de recursos acadêmicos e administrativos, bem como pelos efeitos adversos no que tange
aspectos sociais. Conforme o autor, embora haja inúmeras abordagens que visam minimizar o
problema da evasão escolar, estas não são eficazes em prever quais os alunos com maior probabilidade
de evadir. Nos últimos anos, abordagens que se utilizam de técnicas de mineração de dados vêm sendo
adotadas com o objetivo de prever os alunos com potencial risco de evasão. Entretanto, nem todas as
técnicas de previsão, bem como dados relevantes sobre os alunos, foram completamente exploradas.
Assim sendo, o estudo se concentra na utilização de máquinas de vetores de suporte (Support Vector
Machines - SVMs) visando predizer a probabilidade dos alunos ficarem em exame (probation status),
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
12
o que, segundo os autores, na maioria dos casos leva o aluno a se desligar do curso. O estudo também
aborda outros fatores relevantes que contribuem para a evasão escolar na Malásia. Os resultados são
tidos como satisfatórios, visto que atingem bons índices de acurácia mesmo trabalhando com pequenos
conjuntos de dados.
Lara et al. (2014) propõem o uso de descoberta de conhecimento em bases de dados (KDD)
para extrair informações úteis a partir da análise dos dados gerados pela interação de alunos em
ambientes e-learning, como o Moodle, por exemplo. Para isso, os autores desenvolveram modelos
baseados em dados históricos, tanto de alunos que se evadiram quanto de alunos que concluíram o
curso. Os modelos gerados foram, então, usados para classificar os estudantes dentro de um dos
grupos.
Nossa proposta foi avaliada em dados acadêmicos reais para alunos matriculados em diversos cursos,
gerando resultados muito satisfatórios no que diz respeito à representatividade dos modelos de
referência resultantes.
Garcia-Saiz et al. (2014) abordam a análise de redes sociais (social network analysis - SNA)
afirmando haver uma rede social inerente a qualquer contexto de aprendizagem, onde professores,
alunos e recursos de aprendizagem se comportam como atores, entre os quais diferentes
relacionamentos podem ser definidos. A partir da análise destes relacionamentos, é possível obter
informações sobre coesão de grupo e conexões entre indivíduos. O trabalho ressalta a importância de
ferramentas que auxiliem profissionais envolvidos no processo de ensino-aprendizagem, citando a
descoberta de perfis comportamentais de alunos, bem como a descoberta de padrões relacionados ao
desempenho de alunos e/ou abandono de curso, como possíveis aplicações. Por fim, os autores
apresentam e descrevem uma ferramenta e-learning baseada em Mineração de Dados Web (Web
Mining) e suas novas funcionalidades apoiadas em técnicas de SNA e classificação.
Tekin (2014) destaca o recente interesse pela extração de informações ocultas em bancos de
dados educacionais visando ajudar alunos com baixo rendimento a melhorar seu desempenho
acadêmico. Através de técnicas de mineração de dados educacionais, como agrupamento (clustering),
classificação e métodos de regressão, bem como de redes neurais (Neural Networks – NN), máquina
de aprendizagem extrema (Extreme Learning Machine – ELM) e máquinas de vetores de suporte
(Support Vector Machines - SVM), é possível extrair informações valiosas a partir dos dados
educacionais. O estudo implementa diversas técnicas de predição em mineração de dados, com o
objetivo de prever a média final do aluno (Grade Point Average – GPA) e, assim, permitir que sejam
realizadas ações proativas com foco nos alunos com maior probabilidade de obter médias baixas.
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
13
Seguindo a mesma linha de pesquisa, Strecht et al. (2014) afirmam que prever o fracasso dos
alunos universitários pode ser de grande interesse para os gestores de cursos e programas, bem como
para explicar o fenômeno da evasão escolar. Embora seja importante se ter modelos a nível de curso, o
desafio maior consiste em se obter modelos que possam ser usados para extrair conhecimento útil a
nível de IE. Portanto, para apoiar a tomada de decisão neste nível, é preciso generalizar o
conhecimento contido nos modelos individuais. Neste contexto, o trabalho propõe uma abordagem que
permita agrupar e mesclar modelos interpretáveis, a fim de substituí-los por modelos genéricos, sem
comprometer a qualidade do desempenho preditivo. Embora os resultados obtidos sejam promissores,
eles sugerem abordagens alternativas para o problema.
O trabalho desenvolvido por Yasmin (2013) demonstra a aplicação de análise da aprendizagem
(Learning Analytics) visando determinar preditores de abandono escolar na Índia, no contexto do
ensino aberto e à distância. O estudo, de caráter quantitativo, utilizou árvores de classificação para
examinar a relação preditiva entre as variáveis demográficas dos alunos com o seu comportamento de
abandono. As variáveis demográficas e acadêmicas dos alunos, como sexo, estado civil, situação
empregatícia, tema escolhido, condição social, idade e nível de rendimentos foram tomados como
variáveis independentes ou explicativas para prever as variáveis de resposta. A análise dos dados
mostrou que alunos casados e empregados, bem como alunos pertencentes a uma faixa etária mais
elevada, constituem um grupo relativamente desfavorecido e fortemente inclinado à evasão. A
pesquisa, por sua vez, indicou que os homens empregados e as mulheres casadas são mais propensos a
evadir devido a fatores como gestação ou realocação, e que residir em locais remotos contribui para a
alta taxa de evasão.
Marquez-Vera et al. (2013a) propôs a aplicação de técnicas de mineração de dados para prever
tanto o insucesso escolar quanto a evasão escolar. Foram utilizados os dados de 670 estudantes do
ensino médio de Zacatecas, México, e aplicados métodos de classificação, como regras de indução e
árvores de decisão. Inicialmente, utilizando todos os atributos disponíveis, os experimentos visavam
melhorar a precisão ou acurácia no que tange a predição dos alunos mais propensos ao insucesso ou
abandono escolar. Em seguida, foram selecionados os melhores atributos e, por fim, foram utilizadas
técnicas de balanceamento dos dados em conjunto com uma abordagem de classificação sensível ao
custo. Os resultados foram então comparados a fim de identificar os modelos com os melhores
resultados.
Segundo os autores, prever a reprovação na escola tornou-se um desafio difícil devido ao
elevado número de fatores que podem afetar o baixo desempenho dos alunos, bem como a natureza
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
14
desequilibrada destes conjuntos de dados. Em um outro trabalho, Marquez-Vera et al. (2013b) aplicam
um algoritmo genético, bem como diferentes abordagens baseadas em mineração de dados, com base
nos mesmos dados utilizados no estudo anterior. Inicialmente, foram selecionados os melhores
atributos, a fim de resolver o problema da alta dimensionalidade. Em seguida, foi aplicada a técnica de
classificação sensível a custo e os dados foram então rebalanceados, visando resolver o problema de
classificação de dados não balanceados. Por fim, os resultados de cada abordagem foram apresentados
e comparados, a fim de identificar o modelo com a maior acurácia no que tange a classificação dos
alunos, especificamente com relação àqueles com tendência a reprovar.
Para Delen (2011), o número de alunos mantidos na universidade tornou-se uma das medidas
mais importantes de sucesso para as IES, uma vez que este índice impacta diretamente na reputação,
bem estar financeiro e classificação da universidade. Do ponto de vista institucional, para reter os
alunos é preciso uma profunda compreensão das causas por trás da evasão escolar. Esta compreensão é
a base para predizer com precisão alunos em risco e, assim, intervir de forma adequada. Neste estudo,
foram utilizados 8 anos de dados institucionais e três técnicas de mineração de dados: redes neurais
artificiais, árvores de decisão e regressão logística. As técnicas permitiram desenvolver modelos
analíticos para prever a evasão de calouros universitários. O modelo que utilizou redes neurais
artificiais obteve o melhor resultado, com uma acurácia de 81%. A análise de importância das
variáveis revelou que as variáveis educacionais e financeiras são as mais importantes entre as
preditoras.
Após uma revisão da literatura, Nandeshwar et al. (2011) afirmam que identificar os atributos
preditores, no contexto do problema da evasão e/ou retenção de alunos, é uma tarefa muito difícil.
Assim sendo, concluem que há uma enorme lacuna de conhecimento que abre espaço para melhorias
no estado atual da arte. Segundo os autores, as melhorias são possíveis se o estudo (a) explorar uma
ampla gama de métodos de aprendizagem; (b) tomar cuidado ao selecionar os atributos; (c) avaliar a
eficácia do modelo não apenas pelo seu desempenho mediano, mas também pela variância de
desempenho; (d) estudar o delta dos fatores entre aqueles estudantes que permanecem e os que são
mantidos. Usando essas técnicas, visando prever se os alunos permaneceriam durante os três primeiros
anos de um curso de graduação, os seguintes fatores foram encontrados: antecedentes familiares e
situação socioeconômica da família, média de notas (GPA, do termo inglês grade point average) e a
nota das provas.
O estudo conduzido por Jadric et al. (2010) parte do pressuposto de que um dos indicadores de
potenciais problemas no sistema de ensino superior pode estar relacionado ao grande número de
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
15
desistências dos alunos nos anos iniciais. Uma análise dos dados existentes forneceu informações
sobre os alunos. Para entender melhor o problema da evasão escolar, os dados foram processados
através da aplicação dos seguintes métodos de mineração de dados: regressão logística, árvores de
decisão e redes neurais. Os modelos foram construídos de acordo com a metodologia SEMMA
(acrônimo para Sample, Explore, Modify, Model and Assess) e, em seguida, comparados a fim de
selecionar aquele que melhor predizia o abandono dos alunos. Por fim, o trabalho sugere um modelo,
útil para o planejamento estratégico de mecanismos adicionais que visam a melhoria dos processos de
ensino-aprendizagem.
Ayesha et al. (2010) aplicou o algoritmo de clusterização denominado K-means para analisar o
comportamento de aprendizagem dos alunos. Foram estudados os resultados obtidos nas avaliações
dos alunos, incluindo o exame final. O estudo conclui que todas as informações correlacionadas devam
ser encaminhadas ao professor responsável pela turma antes da realização do exame final, visando
ajudar os professores a reduzir os índices de evasão a um nível significativo, bem como melhorar o
desempenho dos alunos.
Cocea e Weibelzahl (2009) partem da afirmação de que, em ambientes e-learning, o fator
motivacional é fundamental para a qualidade no processo de aprendizagem, tendo consequências
diretas nos índices de evasão. Um dos aspectos da motivação é o envolvimento, uma condição
necessária para uma aprendizagem eficaz. A maioria dos sistemas de e-learning armazenam as ações
do aluno em arquivos de log, que nos dão informações detalhadas sobre o comportamento do aluno.
Técnicas de mineração de dados e de aprendizado de máquina podem dar significado a esses dados, ao
fornecer informações úteis e, com isso, possibilitar melhorias no processo de ensino-aprendizagem.
Usando técnicas de mineração de dados para análise de arquivo de log, a pesquisa investiga a
possibilidade de prever o nível de envolvimento dos alunos. Assim sendo, a evasão pode ser prevista
através do monitoramento das ações dos alunos. Neste trabalho, os autores apresentam os resultados
compilados de três estudos desenvolvidos a partir desta abordagem, com o objetivo de identificar
padrões comportamentais que possam melhorar a acurácia das previsões.
A capacidade de prever a duração dos estudos é vista como uma ferramenta valiosa para as instituições
de ensino superior, a fim de se antecipar aqueles alunos que podem vir a abandonar os estudos e,
assim, tomar ações preventivas. Neste contexto, o estudo de Meinanda et al. (2009) tem como objetivo
descobrir fatores que impactam na duração dos estudos por parte dos alunos e desenvolver um modelo
capaz de representá-los usando técnicas de mineração de dados. Como critério para a escolha do
melhor modelo, foi adotada a Soma dos Erros ao Quadrado (do inglês Sum Square Error - SSE). O
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
16
modelo construído para prever a duração dos estudos é baseado em uma rede neural artificial
utilizando uma arquitetura Perceptron Multicamadas (MLP). Verificou-se que o principal fator que
afeta a duração dos estudos dos estudantes são o Índice de Desempenho Cumulativo, o número de
disciplinas cursadas, o número de disciplinas repetidas e o número de estudantes matriculados em
determinadas disciplinas.
Os conceitos de causalidade e previsão são diferentes e, na prática, possuem diferentes
implicações. Estes conceitos são aplicados nos estudos sobre evasão escolar nos cursos de
enfermagem, conduzidos por Moseley e Mead (2008). Segundo os autores, estudos sobre evasão
escolar tendem a se concentrar no conceito de causalidade, tentando, sem muito sucesso, identificar as
causas da evasão. No entanto, os autores argumentam que é possível obter melhores resultados quando
o problema é trabalhado utilizando-se do conceito de previsão. Isto é, prever quais os alunos com
maior probabilidade de evadir. Um dos métodos utilizados para este fim é denominado Indução de
Regras. Neste trabalho, os autores adotaram o software IBM SPSS e utilizaram Árvores de Respostas
(Answer Trees) para realizar as previsões. O principal conjunto de dados consistiu de 3.978 registros,
abrangendo 528 estudantes de enfermagem, divididos em um conjunto de treinamento e um conjunto
de teste. O método obteve 84% de sensibilidade, 70% de especificidade e acurácia de 94% em casos
inéditos. Os autores afirmam que o método requer grandes quantidades de dados de alta qualidade e
concluem que, de posse destes dados, a indução de regras oferece uma forma de reduzir as taxas de
evasão.
De forma semelhante, Shyamala e Rajagopalan (2007) utilizam árvores de decisão visando
encontrar o melhor modelo preditivo, isto é, capaz de prever o abandono do aluno de forma individual.
A lista de alunos propensos a abandonar os estudos é então entregue a professores e gestores a fim de
promover intervenções diretas ou indiretas. Em um outro estudo, Shyamala e Rajagopalan (2006)
justificam a aplicação de técnicas de mineração de dados no contexto do ensino superior, oferecendo
um modelo de mineração de dados para o sistema de ensino superior dentro das universidades. O
trabalho apresenta uma abordagem baseada na classificação de alunos, visando prever a nota final do
aluno com base em certas características extraídas a partir de bases de dados educacionais. Desta
forma, é possível identificar precocemente os estudantes abaixo da média e, consequentemente,
propensos a evadir, permitindo ao professor auxiliar, no momento apropriado, aqueles alunos que
apresentam maior dificuldade.
Já o estudo conduzido por Rigou e Sirmakessis (2005) visa personalizar a experiência do aluno
dentro de um Ambiente Virtual de Aprendizagem (AVA), adaptando a interface do usuário, conteúdos
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
17
e cenários de aprendizagem com base nas preferências do usuário, buscando motivar a participação do
aluno e, desta forma, mantê-lo dentro do ambiente.
Muitas técnicas de mineração de dados vêm sendo recentemente aplicadas no contexto da educação:
classificação, predição, regras de associação, clustering (agrupamento), visualização, entre outras.
Além destas, outras abordagens e algoritmos vêm sendo aplicados na resolução de problemas na área
da educação: redes neurais, redes bayesianas, k-means, lógica fuzzy, agentes inteligentes, entre outras
(LARA, J. A. et al., 2014).
Com base nos artigos encontrados, foi possível identificar os principais métodos utilizados
pelos trabalhos que exploram o problema da evasão escolar. A Tabela 5 lista os métodos utilizados
nos trabalhos encontrados. Métodos menos usuais, variações e combinações de métodos foram
agrupados para facilitar a visualização da tabela seguinte.
Tabela 5 – Listagem dos métodos de mineração de dados encontrados.
Method Abbreviation
Decision Trees (Árvores de Decisão) DT
Neural Network (Redes Neurais) NN
Logistic Regression (Regressão Logística) LR
Clustering (Clusterização) C
Rule Induction (Indução de Regras) RI
Bayesian Networks (Redes Bayesianas) BN
Support Vector Machine (Máquina de vetores de suporte) SVM
Association Rules (Regras de Associação) AR
Naïve Bayes NB
Social Network Analysis (SNA); Extreme Learning Machine (ELM); Simple Logistic Classification
(SL); Instance based classification with IBk algorithm (IBk); Attribute Selected Classification using
J48 classifier and Best First search (ASC); Bagging using REP (reduced-error pruning) tree
classifier (B); Classification via Regression (CvR);
Others
Fonte: Tabela elaborada pelo autor a partir dos artigos encontrados.
A Tabela 6 relaciona os métodos encontrados e os trabalhos nos quais estes foram utilizados. A
primeira coluna faz referência ao trabalho no qual o método foi adotado. Cada uma das demais colunas
representa um método (o nome do método pode ser obtido na Tabela 5). Cabe destacar que muitos dos
trabalhos adotam dois ou mais métodos, visando complementar a análise ou comparar os resultados
obtidos. A última linha da tabela apresenta o total de trabalhos encontrados que utilizam o respectivo
método.
Observando a tabela abaixo, é possível afirmar que os principais métodos utilizados no que
tange o problema da evasão escolar são: árvores de decisão (Decision Trees – DT), redes neurais
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
18
(Neural Network – NN), regressão logística (Logistic Regression – LR) e clusterização ou
agrupamento (Clustering – C).
Tabela 6 – Relação dos métodos utilizados nos trabalhos encontrados.
Authors DT NN LR C RI BN SVM AR NB Others
(SANGODIAH, A. et al., 2015)
X
(GARCIA-SAIZ, D. et al., 2014)
X
(TEKIN, A., 2014)
X
X
X
(STRECHT, T. et al., 2014) X
(LARA, J. A. et al., 2014)
X
(YASMIN, D., 2013) X
(MARQUEZ, C. et al., 2013b) X
X
(MARQUEZ, C. et al., 2013a) X
X
(DELEN, D., 2011) X X X
(NANDESHWAR, A. et al., 2011) X X
X
X
(JADRIC, M. et al., 2010) X X X
(DELEN, D., 2010) X X X
(AYESHA S. et al., 2010)
X
(COCEA, M. et al., 2009) X
X
X
X
(MEINANDA, M. H. et al., 2009)
X
(MOSELEY, L. G. et al., 2008)
(SHYAMALA, K. et al., 2007) X
X
(SHYAMALA, K. et al., 2006) X
(RIGOU, M. et al., 2005)
X
11 6 4 3 2 2 2 1 1 3
Fonte: Tabela elaborada pelo autor a partir dos artigos encontrados.
4. Conclusões
O presente estudo permitiu encontrar 19 artigos científicos abordando o problema da evasão
escolar com a utilização de técnicas de mineração de dados. Com base nestes, é possível concluir que a
evasão escolar é um tema global, uma vez que foram encontrados trabalhos de várias partes do mundo.
Tendo em vista que 36,84% dos trabalhos encontrados foram publicados nos últimos 2 anos, entre
2013 e 2014, conclui-se que o tema é, também, atual e pertinente.
O estudo também permitiu identificar os principais métodos utilizados no que tange o problema
da evasão escolar: árvores de decisão (Decision Trees – DT), redes neurais (Neural Network – NN),
regressão logística (Logistic Regression – LR) e clusterização ou agrupamento (Clustering – C).
Com base no presente estudo bibliométrico, dada a importância do problema da evasão frente
ao crescente interesse pelo tema, bem como a carência por trabalhos correlatos, tanto nacionais quanto
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
19
internacionais, conclui-se que o presente trabalho contribui para a produção científica, o que justifica
sua relevância acadêmica.
Referências
AYESHA S. et al.Data mining model for higher education system.European Journal of Scientific
Research, v. 43, i. 1, p. 24-29, 2010.
BITTENCOURT, I. M.; MERCADO, L. P. Evasão nos cursos na modalidade de educação a distância:
estudo de caso do Curso Piloto de Administração da UFAL/UAB. Ensaio: Avaliação e Políticas
Públicas em Educação, v. 22, n. 83, Rio de Janeiro, apr-jun 2014.
CHADEGANI, A. A. et al. A Comparison between Two Main Academic Literature Collections: Web
of Science and Scopus Databases. Asian Social Science, v. 9, n. 5, p. 18-26, 2013.
COCEA, M.; WEIBELZAHL, S. Log file analysis for disengagement detection in e-Learning
environments. User Modeling and User-Adapted Interaction, v. 19, i. 4, p. 341-385, 2009.
DELEN, D. Predicting student attrition with data mining methods. Journal of College Student
Retention: Research, Theory and Practice, v. 13, i. 1, p. 17-35, 2011.
DELEN, D. A comparative analysis of machine learning techniques for student retention management.
Decision Support Systems, v. 49, i. 4, p. 498-506, 2010.
FAVERO, R. V. M. Dialogar ou evadir: Eis a questão!: Um estudo sobre a permanência e a evasão na
Educação a Distância, no Estado do Rio Grande do Sul. Novas Tecnologias na Educação. Porto
Alegre: CINTED-UFRGS, v. 4, n. 2, dec 2006.
GARCIA-SAIZ, D. et al. Data mining and social network analysis in the educational field: An
application for non-expert users. Studies in Computational Intelligence, v. 524, p. 411-439, 2014.
GOTTARDO, E.; et al. Estimativa de desempenho acadêmico de estudantes: análise da aplicação de
técnicas de mineração de dados em cursos a distância. Revista Brasileira de Informática na Educação,
v. 22, n. 1, p. 45-55, 2014.
JADRIC, M. et al. Student dropout analysis with application of data mining methods. Management, v.
15, i. 1, p. 31-46, 2010.
LARA, J. A. et al. A system for knowledge discovery in e-learning environments within the European
Higher Education Area – Application to student data from Open University of Madrid, UDIMA.
Computers & Education, v. 72, p. 23-36, mar 2014.
LOBO, Maria Beatriz de Carvalho Melo. Panorama da evasão no ensino superior brasileiro: aspectos
gerais das causas e soluções. ABMES Cadernos, n. 25, sep-dec 2012.
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
20
MANHÃES, L. M. B. et al. Identificação dos Fatores que Influenciam a Evasão em Cursos de
Graduação Através de Sistemas Baseados em Mineração de Dados: Uma Abordagem Quantitativa. In:
Anais do VIII Simpósio Brasileiro de Sistemas de Informação (SBSI 2012), São Paulo, 2012.
MARQUEZ-VERA, C. et al. Predicting school failure and dropout by using data mining techniques.
Revista Iberoamericana de Tecnologias del Aprendizaje, v. 8, i. 1, p. 7-14, feb 2013a.
MARQUEZ-VERA, C. et al. Predicting student failure at school using genetic programming and
different data mining approaches with high dimensional and imbalanced data. Applied Intelligence, v.
38, i. 3, p. 315-330, apr 2013b.
MEC – Ministério da Educação e Cultura. Diretrizes Gerais do Programa de Apoio a Planos de
Reestruturação e Expansão das Universidades Federais – REUNI. 2007. Disponível em:
<http://portal.mec.gov.br/sesu/arquivos/pdf/diretrizesreuni.pdf>. Acesso em: abr. 2015.
MEINANDA, M. H. et al. Prediksi masa studi sarjana dengan artificial neural network.
Internetworking Indonesia Journal, v. 1, i. 2, p. 31-35, 2009.
MOSELEY, L. G.; MEAD, D. M. Predicting who will drop out of nursing courses: A machine
learning exercise. Nurse Education Today, v. 28, i. 4, p. 469-475, 2008.
NANDESHWAR, A. et al. Learning patterns of university student retention. Expert Systems with
Applications, v. 38, i. 12, p. 14984-14996, nov-dec 2011.
RIGO, S. J. et al. Aplicações de Mineração de Dados Educacionais e Learning Analytics com foco na
evasão escolar: oportunidades e desafios. Revista Brasileira de Informática na Educação, v. 22, n. 1,
2014.
RIGOU, M.; SIRMAKESSIS, S. Bringing personalization to online learning communities. WSEAS
Transactions on Information Science and Applications, v. 2, i. 12, p. 2160-2167, 2005.
SANGODIAH, A. et al. Minimizing student attrition in higher learning institutions in Malaysia using
support vector machine. Journal of Theoretical and Applied Information Technology, v. 71, i. 3, p.
377-385, 2015.
SHYAMALA, K.; RAJAGOPALAN, S. P. Mining student data to characterize drop out feature using
clustering and decision tree techniques. International Journal of Soft Computing, v. 2, i. 1, p. 150-156,
2007.
SHYAMALA, K.; RAJAGOPALAN, S. P. Data mining model for a better higher educational system.
Information Technology Journal, v. 5, i. 3, p. 560-564, 2006.
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015
21
SILVA, Glauco Peres da. Análise de evasão no ensino superior: uma proposta de diagnóstico de seus
determinantes. Revista da Avaliação da Educação Superior (Campinas), v. 18, n. 2, p. 311-333, jul
2013.
SILVA FILHO, Roberto Leal Lobo et al. A evasão no ensino superior brasileiro. Cadernos de
Pesquisa, v. 37, n. 132, p. 641-659, sep-dec 2007.
STRECHT, T. et al. Merging decision trees: A case study in predicting student performance. Lecture
Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture
Notes in Bioinformatics), v. 8933, p. 535-548, 2014.
TEKIN, A. Early prediction of students' grade point averages at graduation: A data mining approach.
Egitim Arastirmalari - Eurasian Journal of Educational Research, i. 54, p. 207-226, 2014.
TONTINI, G.; WALTER, S. A. Pode-se identificar a propensão e reduzir a evasão de alunos? Ações
estratégicas e resultados táticos para instituições de ensino superior. Revista da Avaliação da
Educação Superior (Campinas), v. 19, n. 1, p. 89-110, mar 2014.
YASMIN, D. Application of the classification tree model in predicting learner dropout behaviour in
open and distance learning. Distance Education, v. 34, i. 2, p. 218-231, 2013.