教育数据挖掘技术 在高校课程建设中的应用...

6
高教专区 [email protected] 92 中国信息技术教育 摘要: 通识教育课程和学科基础课程是学生进入大学后最先接触到的课程,教师和学生如果能发现这两类 课程之间的关联性,就可以利用规则更科学有效地指导后面专业课程的学习。本文主要运用教育数据挖掘技术 中的关联规则方法,借助Weka平台中的Apriori算法,探寻通识教育课程和学科基础课程之间的关联规则,从而改 善教师的教学效果以及学生的学习效果,为高校课程建设提供决策和意见,进一步提高学校的教学质量。 关键词: 课程成绩;关联规则;Apriori算法;Weka 中图分类号: G40-057 文献标识码: A 论文编号: 1674-2117(2018)02-0092-06 教育数据挖掘技术 在高校课程建设中的应用研究 吴文玲 顾倩颐 四川师范大学计算机科学学院 引言 随着高校教育信息化的推进, 高校各教育系统中的数据日益增加, 但大多数学校对这些数据的利用 仍停留在简单的数据查询、增加、删 除、修改等状态,并没有意识到大量 数据背后隐藏的信息价值。其实,这 些数据潜在的规律不仅能为教学决 策提供科学的依据,还能给学生的 学习提供针对性指导。 教育数据挖掘技术在这样的 背景下应运而生,并在高校的教学 和科研领域内应用广泛。以教务系 统的成绩数据为例,管理人员很难 直接根据学生表面的成绩数据找出 参考文献: [1]成亚玲,谭爱平,杨幸. MOOC视角下高职院校学生学习素养现状与提升路径研究[J].职业教育研究,2017(4):49-54. [2]吴志丹.基于翻转课堂的混合学习模式重构研究[J].现代教育科学,2016(3):75-78. [3]陈卫东,刘欣红,王海燕. 混合学习的本质探析[J].现代远距离教育,2010(5):30-33. [4]赵建华.混合学习应用的理论与方法[M].北京:中央广播电视大学出版社,2015. [5]李振超,陈琳,郑旭东.大数据理念下的发展性学习评价系统设计研究[J].现代教育技术,2015(6):108-114. 作者简介: 成亚玲(1981—),女,副教授,硕士,主要研究方向是人工智能、教育信息化。 基金项目:湖南省“十三五”教育科学规划课题“职业教育混合式学习中学习满意度影响因素的模型构建研究”(项目 编号:XJK016BZY007);湖南省职业院校教育教学改革研究项目“基于MOOC的‘融创式’混合学习教学模式研究与实践”(项 目编号:ZJGB2016039)。

Upload: others

Post on 21-May-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 教育数据挖掘技术 在高校课程建设中的应用 ...library.ttcdw.com/uploadfiles/zk/1518399548.pdf · 除、修改等状态,并没有意识到大量 数据背后隐藏的信息价值。其实,这

高教专区 [email protected]

92 中国信息技术教育

摘要:通识教育课程和学科基础课程是学生进入大学后最先接触到的课程,教师和学生如果能发现这两类

课程之间的关联性,就可以利用规则更科学有效地指导后面专业课程的学习。本文主要运用教育数据挖掘技术

中的关联规则方法,借助Weka平台中的Apriori算法,探寻通识教育课程和学科基础课程之间的关联规则,从而改

善教师的教学效果以及学生的学习效果,为高校课程建设提供决策和意见,进一步提高学校的教学质量。

关键词:课程成绩;关联规则;Apriori算法;Weka

中图分类号:G40-057 文献标识码:A 论文编号:1674-2117(2018)02-0092-06

教育数据挖掘技术在高校课程建设中的应用研究

吴文玲 顾倩颐 四川师范大学计算机科学学院

● 引言

随着高校教育信息化的推进,

高校各教育系统中的数据日益增加,

但大多数学校对这些数据的利用

仍停留在简单的数据查询、增加、删

除、修改等状态,并没有意识到大量

数据背后隐藏的信息价值。其实,这

些数据潜在的规律不仅能为教学决

策提供科学的依据,还能给学生的

学习提供针对性指导。

教育数据挖掘技术在这样的

背景下应运而生,并在高校的教学

和科研领域内应用广泛。以教务系

统的成绩数据为例,管理人员很难

直接根据学生表面的成绩数据找出

参考文献:

[1]成亚玲,谭爱平,杨幸. MOOC视角下高职院校学生学习素养现状与提升路径研究[J].职业教育研究,2017(4):49-54.

[2]吴志丹.基于翻转课堂的混合学习模式重构研究[J].现代教育科学,2016(3):75-78.

[3]陈卫东,刘欣红,王海燕. 混合学习的本质探析[J].现代远距离教育,2010(5):30-33.

[4]赵建华.混合学习应用的理论与方法[M].北京:中央广播电视大学出版社,2015.

[5]李振超,陈琳,郑旭东.大数据理念下的发展性学习评价系统设计研究[J].现代教育技术,2015(6):108-114.

作者简介: 成亚玲(1981—),女,副教授,硕士,主要研究方向是人工智能、教育信息化。

基金项目:湖南省“十三五”教育科学规划课题“职业教育混合式学习中学习满意度影响因素的模型构建研究”(项目

编号:XJK016BZY007);湖南省职业院校教育教学改革研究项目“基于MOOC的‘融创式’混合学习教学模式研究与实践”(项

目编号:ZJGB2016039)。

Page 2: 教育数据挖掘技术 在高校课程建设中的应用 ...library.ttcdw.com/uploadfiles/zk/1518399548.pdf · 除、修改等状态,并没有意识到大量 数据背后隐藏的信息价值。其实,这

高教专区[email protected]

93JAN 2018 NO.02

先行课程和后续课程之间的关系,

也很难利用这些数据进行教学规划

和教学决策,学生也不能直接根据

这些数据进行合理的选课或者掌握

自己的学习规律。因此,笔者借助数

据挖掘技术,基于现有的大量学生

成绩数据进行教育数据挖掘[1],发现

数据之间隐藏的课程关联规律,以

期提高课程管理水平、教学水平以

及学生的学习能力,并为科学决策

提供科学依据。

就目前各高校的课程设置来

看,大多数学校都是按照普通课程

(通识课程或基础课程)、专业课程

和选修课程[2]来安排知识板块。但

学生在学习时往往过分注重专业课

的学习,而忽略通识课程的学习,没

有注重每个板块间知识的相互联

系。在本文中,笔者主要通过数据挖

掘的关联规则方法,对某本科高校

教育技术学专业的历届学生的通识

教育课程成绩和学科基础课程成

绩进行关联规则分析,找到各门课

程之间的依赖和联系,这样有助于

高校进行有效的课程建设,包括课

程师资和学时安排、课程开设情况

及课程顺序安排等,也可以为学生

更好地学习提供针对性指导。

● 教育数据挖掘技术

1.教育数据挖掘

一般来说,教育数据挖掘是指

应用数据挖掘技术从来自教育系统

中的数据中提取有意义的过程,用于

指导和改善学习,提高教学质量。[3]

本研究主要采用数据挖掘技术中的

关联规则技术,用于找到课程之间

的关联性。

2.关联规则技术

关联规则的是从大量数据中

挖掘出满足用户设置的最小支持

度(min-support)和最小置信度

(min-confidence)的规则。其中

支持度(support)是指关联规则

能够正确预测的实例数量,也称

为覆盖量(coverage),所以在统

计意义上的支持度也就是所需要

覆盖事件样本的数量下限。而置

信度(confidence)则是指关联规

则能正确预测的实例数在关联规

则所涉及的全部实例中所占据的

比例,也称为正确率(accuracy),

它表明了规则用于推理的强度。[4]

例如,在200条学生成绩数据中,

有80条显示《计算机基础》成绩

为优,在这80条记录中,又有40条

《教育技术导论》成绩为优,则

关联规则《计算机基础》(优秀)

《教育技术导论》(优秀),支持度

(support)=40÷200=0.2,置信度

(confidence)=40÷80=0.5。

Apriori算法是一种关联规则

算法,它系统地控制了候选项集的

指数增长。该算法的过程主要由两

个步骤来完成:①扫描事务数据库

依次生成满足最小支持度的频繁

项集(包括单项集、二项集、三项集

等);②从每个项集中找到达到指定

最小置信度的规则,也就是产生强

关联规则。

3.数据挖掘平台Weka

数据挖掘有很多软件,常用的

有SPSS公司的Clementine以及新

西兰怀卡托大学开发的Weka开源软

件,前者测重统计分析,后者主要是

用Java编写的开源的非商业的数据

挖掘软件。笔者选择了Weka开源软

件,它不仅包含了许多数据预处理的

方法,还提供了大量的数据挖掘方

法,如决策树、关联规则、聚类等,还

有着许多数据可视化的工具。

Weka支持多种数据格式文

表1 学生原始成绩数据

学期 课程来源 ... 课程类型 课程名称 学生学号 姓名 成绩 ...

12131 教学计划 ... 通识教育课 大学语文 20161101 张 ** 73 ...

12131 补考 ... 通识教育课 中国文化史 20161101 张 ** 60 ...

12131 教学计划 ... 学科基础课 计算机应用基础 20161101 张 ** 77 ...

12131 重修 ... 学科基础课 大学数学 (二 )1 20161101 张 ** 75 ...

... ... ... ... ... ... ... ... ...

Page 3: 教育数据挖掘技术 在高校课程建设中的应用 ...library.ttcdw.com/uploadfiles/zk/1518399548.pdf · 除、修改等状态,并没有意识到大量 数据背后隐藏的信息价值。其实,这

高教专区 [email protected]

94 中国信息技术教育

件,主要包括Weka ARFF格式、

C4.5数据格式、CSV格式等,所以如

果是.xls的数据格式,可以先另存

为.csv格式,再通过Weka软件读取

数据文件。

● 课程相关数据

1.数据准备

为了挖掘出课程之间有价值

的关联规则,本研究选取了某高校

教育技术学专业的12级、13级、14级

学生在校的学习成绩作为数据源,

该成绩库主要包含了学生的基本信

息(学号、学院、班级、专业等)、课程

的基本属性(课程代码、名称、学分、

任课教师等)、学生的学习状况(补

考、重修、缓考等状态)以及大学四

年各课程的学习成绩。由于本研究

主要挖掘通识课程与学生专业基础

课程的关联规则,所以最终选取了

《大学语文》《大学英语》《思想道

德修养与法律基础》《教育技术学

导论》《计算机应用基础》《大学数

学(二)》等15门具有代表性的课程,

总共182名学生,2730条数据。根据

挖掘出的有意义的关联规则,对学

校的课程设置进行优化,对学生的

知识学习进行补充。

2.数据预处理

从教务处导出的数据不能直

接用于数据分析,它既不符合关联

规则算法对数据的要求,又存在

数据冗余等问题,具体数据如表1

所示。所以必须要经过数据预处

理阶段,把纵向结构的成绩数据库

转换为Apriori算法常用的横向结

构,并对数据进行选择、清洗、转

换等。

(1)数据选择

由于本研究的重点在于寻找

通识教育课程和学科基础课程之

间的关联性,所以在成绩库中只选

择了这15门课程的成绩,删除了无

关的属性。对于同一门课程由于补

考或重修存在多个成绩的情况,笔

者选取学生第一次考试的成绩,删

除转专业或降级学生的数据,从而

解决了数据源的重复、杂乱、不完

整等问题。

(2)数据清洗

数据清洗的主要目的是填补数

据的缺失值,本研究对成绩缺失过

多的学生的数据直接删除,对于个

别成绩的空缺值,采用临近点的线

性趋势方法来填补。

(3)数据集成

在选择的数据中,由于《大学

英语》分为A、B、C三等,每个等级的

学生修习的时间长短不一致,其中A

班学生英语修习两个学期,B班学

生英语修习三个学期,C班学生英语

修习四个学期,所以最终选择英语

的平均成绩作为其《大学英语》课

程的成绩。《体育》课程也分为四个

学期,也取其平均值作为《体育》课

程的成绩,其他的依此类推。最后,

把多个数据源集中放在一个数据

表中,形成新的数据挖掘的数据源,

集成后的数据如表2所示。

(4)数据转换

集成后的数据还不能直接用

于关联规则分析,还需要转换为数

据挖掘软件Weka所支持的文件格

式,数据转换既包括数据的离散化

处理,又包括数据格式的转化。

由于课程性质不同,课程的考

核方式也不一样,成绩评定的标准

也有所差别,有的成绩采用百分制,

有的成绩采用等级制(优、良、中、及

格、不及格)。对于等级制的成绩,

先转换为百分制成绩(有个别课程

还需要取其平均值),即成绩≥90为

表2 集成后的数据源

学号 姓名中国近现

代史纲要大学语文 ...

教育技术

导论

计算机

应用基础

大学数学

(二 )1...

2012110601 张 ** 67 73 ... 72 77 75 ...

2012110602 李 ** 60 63 ... 60 85 76 ...

2012110603 陈 ** 69 79 ... 80 81 73 ...

2012110604 代 ** 79 69 ... 77 85 92 ...

... ... ... ...... ... ... ... ... ...

Page 4: 教育数据挖掘技术 在高校课程建设中的应用 ...library.ttcdw.com/uploadfiles/zk/1518399548.pdf · 除、修改等状态,并没有意识到大量 数据背后隐藏的信息价值。其实,这

高教专区[email protected]

95JAN 2018 NO.02

优,80≤成绩<90为良,70≤成绩<80

为中,60≤成绩<70为及格,成绩<60

为不及格。对于百分制成绩,首先,为

了消除不同课程之间的打分差别,

就需要先把成绩标准化处理[5],标准

化处理后的数据服从标准正态分

布,这样的处理方法无论考生的成

绩是否出现普遍偏高或偏低,都会

保证每个等级的划分是合理、科学

的,具体如公式(1)所示。

标准分成绩=(每位考生的成

绩-对应课程成绩的平均分)÷该课

程成绩的标准方差 公式(1)

然后,再把Excel中数据文件

另存为CSV格式,并通过Weka软件

中的“Tools”菜单栏下的“ARFF-

Viewer”工具,把CSV格式的数据

转换为ARFF格式的数据文件。最

后,Weka中提供了很多数据预处理

方法,本研究根据成绩数据的特点,

选择了无监督的数值标准化方法,

具体过程通过“Weka—Filters—

unsuperv i s ed—at tr ibute—

Standardizes”来完成,标准化后的

成绩如图1所示。

根据标准化后的成绩符合正

态分布的“两头小,中间大”类似

于“钟行”的特点,把各课程成绩

按照比例进行离散,其中A(优)占

10%,B(良)占40%,C(中)占40%,D

(差)占10%。[6]离散化后的成绩如

图2所示。

● 关联规则在大学课程中的

应用

1.建立关联规则挖掘模型

经过预处理后的数据,就可以

直接用于关联规则分析。将最终的数

据源导入到Weka中,选择“Associate”

工具面板,然后通过“Choose”选项,

选择Apriori算法,并对算法设置相应

的参数。为了不丢失有价值的规则,又

为了避免产生偶然的规则,经过多次

试验,最终设置最小支持度为0.22,最

小置信度为0.54,最终的参数设置如

下页图3所示。

参数设置好后,直接点击

“Start”按钮,就可以进行关联规

则分析。在本研究设置的最小支持

图1 标准化后的成绩

图2 离散化后的数据

Page 5: 教育数据挖掘技术 在高校课程建设中的应用 ...library.ttcdw.com/uploadfiles/zk/1518399548.pdf · 除、修改等状态,并没有意识到大量 数据背后隐藏的信息价值。其实,这

高教专区 [email protected]

96 中国信息技术教育

度和最小置信度下,最终产生了42

条关联规则,其中部分规则如图4

所示。

上面挖掘出的规则并不是每一

条都对本研究有现实意义。例如,某

一课程的学习效果好反而导致另一

课程学习效果不好,以及本研究侧

重研究通识教育课程与学科基础课

的相互影响,所以还需要对规则进

行进一步的筛选和整理,得到最后

的挖掘结果。

2.实验结果分析

通过对整理后的规则进行分

析,可以得到三类规则:一是通识教

育课程之间的关联规则,这类规则

主要揭示了通识课程内各门课程之

间的相互影响;二是学科基础课程

之间的关联规则,这类规则主要是

学科基础课程内部其他课程之间的

相互影响;三是通识教育课程和学

科基础课程之间相互影响的规则,

这类规则体现了不同类型课程间的

相互影响。

然而,学生在学习的时候往往

只会注意同一类型课程内部的相

互影响,不会关注不同类型课程间

的相互影响。尤其是在大学的课程

学习中,通识教育课程更不容易引

起学生的注意,很多学生只把大量

的时间花在了学科专业课程的学习

上,认为通识教育课程的开设只是

为了修满学分,但通过此次关联规

则分析,不仅得到了同一类型课程

内之间的联系,还得到了不同类型

课程间的关系,所以学生在学习课

程的时候,不仅要注意同一类别课

程间的横向关联,还要注意不同类

别课程间的纵向关联。分析上述关

联规则,最终得到具体结果如下:

①通过分析通识教育课程之

间的规则,可以得到《思想道德修养

与法律基础》《马克思主义基本原

理》《大学语文》《毛泽东思想概论》

《信息检索》《形势与政策》这六门

课程之间的关联性较大,在《思想

道德修养与法律基础》课程学习效

果不理想的学生中,59%的学生《马

克思主义基本原理》课程的学习效

果也可能不理想,而

《马克思主义基本

原理》的成绩又影

响着《形势与政策》

课程的成绩,《形势

与政策》的成绩还受

《信息检索》成绩的

影响。

②通过分析学

科基础课程之间的

规则,可以得到《程

序设计基础》不仅要受《大学数学

(二)1》《大学数学(二)2》课程学习

效果的影响,还要受《电脑美术》成

绩的影响,而数学类课程《大学数

学(二)1》和《大学数学(二)2》也相

互影响。

③通过分析通识教育课程与

学科基础课程之间的规则,可以得

到《教育技术导论》课程成绩与《大

学语文》和《大学英语》的成绩都相

关,其中《大学语文》课程学习效果

好的学生,有58%的可能性专业课程

《教育技术导论》的学习效果也不

错。同时,《计算机应用基础》课程的

成绩也对《马克思主义基本原理》

和《思想道德修养与法律基础》的

成绩有着很大的影响。

3.对课程建设的建议

通过对挖掘出的关联规则进

行进一步解释和分析,可以得到以

下有助于教与学的结论:

①通识教育课程和学科基础课

程之间有很大的关联,所以学生在课

程学习的时候不应该只为了修满学

图3 Apriori算法的参数 图4 部分关联规则

Page 6: 教育数据挖掘技术 在高校课程建设中的应用 ...library.ttcdw.com/uploadfiles/zk/1518399548.pdf · 除、修改等状态,并没有意识到大量 数据背后隐藏的信息价值。其实,这

高教专区[email protected]

97JAN 2018 NO.02

参考文献:

[1]Bokde D,Girase S,Mukhopadhyay D.Matrix Factorization Model in Collaborative Filtering Algorithms:A Survey[J].Procedia Computer

Science,2015,49:136-146.

[2]张忠华.关于大学课程设置的三个问题[J].大学教育科学,2011(06):30-34.

[3]李婷,傅钢善.国内外教育数据挖掘研究现状及趋势分析[J].现代教育技术,2010,20(10):21-25.

[4](新西兰)Ian H. Witten,(新西兰)Eibe Frank(原书第2版).数据挖掘:实用机器学习技术[M].董琳,等.译.北京:机械工业出

版社,2006.

[5]姜侠,杜宝军.统计学主要课程相关性分析[J].数学教学研究,2012(12):66-68.

[6]姜晚云.关联规则在学生成绩管理中的应用研究[D].合肥:合肥工业大学,2006.

作者简介:吴文玲(1994—),女,四川南充人,四川师范大学计算机科学学院硕士研究生,研究方向为教育数据挖掘

和智能教学系统;顾倩颐(1977—),男,四川成都人,博士,四川师范大学计算机科学学院副教授、硕士生导师,研究方向

为人工智能和知识工程。

分,而忽视了通识教育课程的作用。

教师在教学时也应该注意这类课程

对后面专业课程学习的影响。

②学生在学习大学课程时,不

应该只关注专业课程的学习效果,

而应该纵向关注不同课程间的相互

影响。例如,在刚开始学习大学课程

时,学生就要先在某些通识教育课

程中花足够的时间和精力,达到较

好的学习效果,才可能真正地为专

业基础课学习夯实基础。

③对学科专业课程有影响的通

识教育课程,学校可以加强该通识课

程的教学,如适当增加学时,或者安

排经验丰富的教师担任此课程,同时

注意课堂的管理以及学生兴趣度的

调动,让学生真正学到知识。

④某些学科基础课程的学习

成绩也会影响到大二的通识教育

课程的成绩,所以对于前期课程学

习效果不好的学生,更要利用课程

间的相互影响来有针对性地弥补

缺漏的知识,否则就可能造成后面

的课程的学习效果也不理想甚至

不及格。

⑤教师在教学时,也可以多注

意同类课程内和不同类别课程间的

相互影响,多留意学生在其他课程

的学习状态,然后对不同学生进行

有针对性的指导。

● 总结

本文主要运用关联规则中经典

的Apriori算法,借助Weka数据挖掘

平台,对某本科高校的学生实际学

习成绩数据进行挖掘,旨在发现看

似没有关联的通识教育课和学科基

础课程之间的关系,然后把这些规

则用于指导学生的学习以及教师的

教学。笔者通过分析这些关联规则,

最终得到通识教育课程和学科基

础课程有较强的关联性。所以学生

在学习的时候不仅要注意同类别课

程内横向的关联性,还要注意不同

类别课程间的纵向关联性,同时要

改变通识课程不重要的学习思想;

教师在教学过程中也要较好的地把

握与本课程相关的其他课程的学习

情况,才能更好地指导学生学习;学

校管理者也可以进一步利用这些规

则,用于指导学生选课以及学校的

课程设置安排等,从而进一步提高

教学质量,让学生全面发展。