moocにおける大規模学習履歴データ からの受講者 …...i...
TRANSCRIPT
特別研究報告書
MOOCにおける大規模学習履歴データからの受講者の学習様態獲得
指導教員 椋木 雅之 准教授
京都大学工学部情報学科
永田 裕太郎
平成 27年 1月 30日
i
MOOCにおける大規模学習履歴データからの受講者の学習様態獲得
永田 裕太郎
内容梗概
教育における ICT活用が普及し、学校現場での活用も進みはじめている。初
等教育・中等教育では、モデル校における実証研究が行われており、高等教育
においては、従来から取り組まれてきた eラーニングやLMSに加えて、MOOC
と呼ばれる大規模なオンライン公開授業が注目を集めている。各種システムを
通じて、個人の学習過程が記録されたデータ (学習履歴データ)を取得・収集す
ることが可能になったことによって、「テーラーメイド教育」と呼ばれる個人の
学習履歴に基づいた教育が可能になるのではないか、といった「教育ビッグデー
タ」に対する期待が高まってきている。
本研究では、MOOCにおける学習履歴データ (アクセスログデータ)から、受
講者間で多くみられる学習様態、および、あまりみられない学習様態を獲得す
るための手法を提案する。ここで学習様態とは、受講者が「学習にどのように
取り組んでいるか」を類型化したものである。
eラーニングやMOOCのような通信教育では、途中で学習をやめてしまう受
講者 (ドロップアウト)が多いことが問題となっており、より有用な学習支援が
必要である。学習支援には大きく分けて二つの方向性がある。一つは、受講者
が実際にどのように学習したのかを分析し、分析結果を教材コンテンツや、教
育プロセスそのものの改善に生かすという方向性である。もう一つは、ドロッ
プアウトの兆候がみられる受講者に対して状況に応じた適切な介入を行い、ド
ロップアウトを防ぐという方向性である。実際のアクセスログデータから獲得
した多くみられる学習様態が、教材作成者が想定したものとどれぐらい一致し
ているかを確認することは、教材・教育プロセスの改善において重要である。ま
た、獲得した学習様態を用いて受講者がドロップアウトしそうであると判断で
きたならば、ドロップアウトを防ぐような介入が可能となる。このように学習
様態の獲得は、改善・介入の双方に役立つ。
本研究では特に、MOOCのアクセスログデータに含まれる情報のうち、受講
者があるページからあるページへ遷移したというイベント (コンテンツ遷移)に
着目して、学習様態を獲得する。同じようなコンテンツ遷移をした受講者は、
ii
教材コンテンツに対して同じように取り組んだとみなすことができ、似たよう
な学習様態を有していると考えることができる。
荒らの先行研究では、MOOC受講者には様子見的学習者・知識獲得型・学習
活動完遂型・既有知識確認型の 4類型があることが示唆されている。この 4類
型に基づいて考えれば、学習支援が必要なのは「学習活動完遂型」の、講義動
画・テストの双方に取り組む受講者である。提案手法ではまず、アクセスした
講義動画の割合、および、回答したテストの割合の 2つの特徴を用いて、荒ら
の 4類型に対応するクラスタを得る。受講者の個々のコンテンツ遷移にラベル
付けを行い、ラベルの生起頻度によって受講者の遷移特徴ベクトルを定義する。
この遷移特徴ベクトルの集合をクラスタリングすることによって、コンテンツ
遷移の傾向が似たような受講者からなるクラスタを得る。得られたクラスタの
コンテンツ遷移の傾向と修了率をもとに、学習様態の分析を行う。
実験ではまず、閲覧数によるフィルタリングを行った。この過程において、す
べてのセットにおいて、講義動画にもテストにもほとんどアクセスしていない
受講者、講義動画にだけアクセスしている受講者、テストにだけアクセスして
いる受講者、講義動画・テストの双方にアクセスしている受講者、が多かった
ことをあらわすクラスタが得られた。この結果は、荒らの先行研究において存
在が示唆されていた 4類型と対応するものである。
実験ではさらに、より詳細な学習様態を獲得するため、それぞれのセットに
おいて講義動画・テストの双方にアクセスしている受講者を対象とし、提案手
法による分析を行った。得られたクラスタの解釈を通じて、動画ページから 1つ
次の動画ページへと進む遷移の数と最終的な修了率との間、および、動画ペー
ジから 1つ前の動画ページへと戻る遷移の数と最終的な修了率との間に、それ
ぞれ正の相関がみられることがわかり、このコースでは「ひとつひとつ順番に
進み」「きちんと戻って確認する」受講者は修了率が高い傾向がある、というこ
とがわかった。
本稿ではコンテンツ遷移が多い受講者の群のみに絞って分析を行ったが、他
の群については未検討である。また、他のMOOCコースではどのような学習
様態が得られるのか、および、得られた学習様態を用いて実際にどのように受
講者を支援するのかは、今後の課題である。
iii
Acquisition of learning style of MOOC learners
from large-scale learning log-data
Yutaro NAGATA
Abstract
Information and communication technologies are becoming popular in ed-
ucation and widely used in schools. In primary and secondary education, em-
pirical researches have been carried out in model schools. In higher education,
massive open online courses (MOOC) have been attracting attention. Learning
log-data have been recorded through various educational systems and a lot of
devices, and expectation for the“ educational big-data” is growing.
In this paper, we consider a method for acquiring learning style of MOOC
learners from large-scale learning log-data. Learning style is a pattern on how
learners learn, and appears on“ transition events” of the log-data.
In the distance learning such as e-learning and MOOC, there are too many
students who stop learning in the middle of courses (dropout). More useful
assistance is necessary for their learning. There are two directions in the assis-
tance: One is improving the learning materials and learning process itself by
using results of analysis how they actually learned. The other one is interven-
ing learners not to dropout from the course. When we assess that a learner is
likely to fail, we’ll be able to support the learner not to dropout. In this way,
acquisition of learning style is important for the both directions.
When a learner learns on a MOOC system, the log-data are recorded on
the system, such as the learner’s operations and system’s responses. We focus
on transition events that occur when the learner moves from a page to another
page. Each of transition events is described by“ transition-feature” which
consists of a 3-tuple:“ quantity”,“ from page-type” and“ to page-type”.
Proposed method is composed of three steps. Firstly, we cluster all learners
by two features: what percentage of the videos are watched and what percentage
of the problems are solved, then we extract only the learners who watched almost
all videos and solved almost all problems. Secondly, we divide the extracted
learners into several groups according to the number of transition-features. The
learners in each group are similar in the number of transition-features but dif-
iv
ferent in the trend of occurrence of transition-features each other. Thirdly, we
analyze each group to get learning styles.
In our experiment, we extracted the clusters of learners which a previous
research had been suggested to be exist: who access neither videos nor problems,
who access only videos, who access only problems, and who access both videos
and problems.
Furthermore, we analyzed learners who access both videos and problems.
We clustered the learners with transition-feature vector and compared the gen-
erated clusters based on the pass rate of the course. The results of our analyses
indicated: 1) there was a correlation between the pass rate and the number of
transition from a video-page to the next video-page. 2) There also was a cor-
relation between the pass rate and the number of transition from a video-page
to the previous video-page. Then we obtained the hypothesis that the learners
who watch video-pages more were less likely to dropout.
A consideration whether our hypothesis can be applied on other MOOC
courses and a discussion how to assist MOOC learners with the acquired learning
style are left as future works.
MOOCにおける大規模学習履歴データからの受講者の学習様態獲得
目次
第 1章 序論 1
第 2章 学習履歴データの分析に関する従来研究 3
2.1 eラーニング・LMSにおける従来研究 . . . . . . . . . . . . . . . . . . 3
2.2 MOOCにおける従来研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 学習様態に関する従来研究 . . . . . . . . . . . . . . . . . . . . . . . . . . 6
第 3章 受講者の学習様態獲得 7
3.1 コンテンツ遷移に基づく学習様態の獲得 . . . . . . . . . . . . . . . . . 7
3.2 閲覧数によるフィルタリング . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.3 遷移特徴ベクトルによるクラスタリング . . . . . . . . . . . . . . . . . 9
第 4章 分析対象の概要 10
4.1 コンテンツ構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2 受講者数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.3 edXプラットフォームの仕様 . . . . . . . . . . . . . . . . . . . . . . . . . 12
第 5章 実験 15
5.1 閲覧数によるフィルタリング . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.2 遷移特徴ベクトルによるクラスタリング . . . . . . . . . . . . . . . . . 16
5.3 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
第 6章 結論 22
謝辞 23
参考文献 24
付録
A.1 コンテンツ閲覧数の分布
第1章 序論
「情報爆発」と呼ばれる現象が、あらゆる分野において起こっている。情
報爆発とは、情報・データへの社会的なニーズが高まり、それに応えるように
ICT(Information and Communications Technology; 情報通信技術)が急速に普
及・発展するにつれて、情報・データの量が指数関数的に増えていく状況を指
した言葉である。EMCコーポレーションの調査 1)によれば、地球上で生成され
る情報・データの量は 2年ごとに倍増しているという。このように増えゆく情
報・データは「ビッグデータ」と呼ばれ、近年注目を浴びている。この「ビッ
グデータ」を活用しようとする動きも盛んになってきている。
一方、教育における ICT活用も普及してきており、学校現場での活用も進み
はじめている。総務省は「ICT利活用の促進」の一環として「教育情報化の推
進」を掲げ、2010年度から 2013年度にかけて「フューチャースクール推進事
業」2) を実施している。また、文部科学省は 2011年度から 2014年度にかけて
「学びのイノベーション事業」3) に取り組んでいる。これらの事業では、初等
教育・中等教育を対象にして、モデル校において、全児童生徒 1人 1台のタブ
レットPC、全ての普通教室へのインタラクティブ・ホワイト・ボードの配備、
無線 LAN環境、クラウドコンピューティング技術の活用等による ICT環境を
構築したうえで、実証研究が実施され、普及展開が図られている。「学びのイ
ノベーション事業」の報告書では、「小中学校の ICT活用に関する取組」「特別
支援学校の ICT活用に関する取組」「ICTを活用した指導方法の開発」「ICTを
活用した教育の効果」「学習者用デジタル教科書・教材の開発」などについて取
りまとめられている。一方、高等教育においては、従来から取り組まれてきた
eラーニングや LMS(Learning Management System; 学習管理システム)に加え
て、MOOC(Massive Open Online Course)と呼ばれる大規模なオンライン公開
授業が注目を集めている。
各種システムを通じて、個人の学習過程が記録されたデータ (学習履歴デー
1) 「急増するセンサーにより、デジタル ユニバースが拡大」(2015年 1月 17日閲覧)
http://japan.emc.com/about/news/press/japan/2014/20140410-1.htm2) 「総務省|教育情報化の推進|フューチャースクール推進事業」(2015年 1月 17日閲覧)
http://www.soumu.go.jp/main sosiki/joho tsusin/kyouiku joho-ka/future school.html3) 「学びのイノベーション事業実証研究報告書:文部科学省」(2015年 1月 17日閲覧)
http://www.mext.go.jp/b menu/shingi/chousa/shougai/030/toushin/1346504.htm
1
タ)を取得・収集することが可能となったことによって、「テーラーメイド教育」
と呼ばれる個人の学習履歴に基づいた教育が可能になるのではないか、といっ
た「教育ビッグデータ」に対する期待が高まってきている [1]。
一般に、受講者の学習を支援するうえで、学習状況を把握し、それに応じて
支援を行うことは、きわめて重要である。特に、eラーニングに代表される通信
教育では、途中で学習をやめてしまう受講者 (ドロップアウト)が多いことが問
題となっている。通信教育の場合、対面授業と比較して受講者の学習状況を把
握することが難しく、また状況に応じたフィードバックも困難であるため、そ
うしたことを考慮したうえでの学習支援が必要である [2]。学習支援には大きく
分けて、二つの方向性がある。一つは、ドロップアウトの兆候がみられる受講
者に対して状況に応じた適切な介入を行い、ドロップアウトを防ぐという方向
性である。もう一つは、受講者が実際にどのように学習したのかを分析し、分
析結果を教材コンテンツや、教育プロセスそのものの改善に生かすという方向
性である。
2010年代に入って急速に注目を集めているのがMOOCである。MOOCの教
材コンテンツは、講義動画とテストからなるものが一般的であり、これは従来の
eラーニングとほとんど変わらない。MOOCの特筆すべき点は、従来の eラー
ニングに比べてきわめて大規模なことであり、コース受講者が数千人、数万人
にのぼることも珍しくないということである。コース受講者が国籍の面でも、
年齢層や学歴の面でも多様であることもまた、MOOCの特徴である。そのよう
なMOOCの有効性を高め、普及させていくためには、受講者の学習状況の把
握、および、適切な学習支援が重要となる。
そこで本研究では、MOOCにおける学習支援を目的として、MOOC受講者
の学習履歴データ (アクセスログデータ)から学習様態を獲得する手法について
検討する。ここで学習様態とは、受講者が「学習にどのように取り組んでいる
か」を類型化したものである。
本稿では、MOOCのアクセスログデータに含まれる情報のうち、受講者のコ
ンテンツ遷移 (受講者があるページからあるページへ遷移したことが記録され
たイベント)に着目して、学習様態を獲得する。同じようなコンテンツ遷移をし
た受講者は、教材コンテンツに対して同じように取り組んだとみなすことがで
き、似たような学習様態を有していると考えることができる。また、コンテン
ツ遷移の分析は、学習支援にあたって介入・改善の双方に役立つ。
2
提案手法ではまず、アクセスした講義動画の割合、および、回答したテスト
の割合の 2つの特徴を用いて、講義動画・テストの双方に取り組んでいる受講
者からなるクラスタを得る。それぞれの受講者について、個々のコンテンツ遷
移にラベル付けを行い、ラベルの生起頻度を用いて受講者の遷移特徴ベクトル
を定義する。この遷移特徴ベクトルの集合をクラスタリングすることによって、
コンテンツ遷移の傾向が似たような受講者からなるクラスタを得る。得られた
クラスタのコンテンツ遷移の傾向と修了率をもとに、クラスタを分析し、考察
を行うことにより、学習様態を獲得する。
第2章 学習履歴データの分析に関する従来研究
2.1 eラーニング・LMSにおける従来研究1990年代、インターネットが一般へと普及するに従って、インターネットを
介した教育プログラムが提供されるようになった [3]。このような取り組みを e
ラーニングという。2000年代にかけて、大学や企業などさまざまな教育機関が
eラーニングを取り入れた。
日本国内における高等教育での事例を 2つ挙げる。2003年に開設された早稲
田大学人間科学部「eスクール」は、ほとんどの課程を eラーニングで行う通信
教育課程として日本初のものである。2014年現在、約 700名が在籍し 1)、これ
までに約 900名が卒業している 2)。また、熊本大学大学院 社会文化科学研究科
教授システム学専攻は、「eラーニング専門家養成のための eラーニングによる
大学院」である。2006年から修士課程が、2008年から博士前期課程・博士後期
課程が設置された。2014年現在、学生・科目等履修生あわせて約 100名が在籍
し 3)、これまでに 80名以上が修了している 4)。両者はともに、eラーニングの
非同期性を利用していつでも・どこからでも学習できるようにすることで、有
1) 「基礎データ|早稲田大学人間科学部 eスクール」(2015年 1月 17日閲覧)
http://www.waseda.jp/e-school/e data.html2) 「eスクールとは|早稲田大学人間科学部 eスクール」(2015年 1月 17日閲覧)
http://www.waseda.jp/e-school/e about.html3) 「全国から受講可能なオンライン大学院|教授システム学専攻について|教授システム学専攻」(2015年 1月 17日閲覧)
http://www.gsis.kumamoto-u.ac.jp/concept/concept 4/4) 「これまでの取組実績 — 教授システム学 (Instructional Systems)の研究普及拠点の形成」
(2015年 1月 17日閲覧)
http://www.gsis.kumamoto-u.ac.jp/kyoten h26/achievements/
3
職社会人の受講を可能にしている。
eラーニング教材の無償公開も進んでいる。そのきっかけとなったのが、MIT(マ
サチューセッツ工科大学)によるOCW(Open Course Ware)構想である。MIT
は 2001年にOCW構想を提唱し、2003年にMIT OCWを正式公開した。2007
年には、MITのほぼすべてのコースがMIT OCW上で公開された [3]。世界中
の多くの大学がOCW構想に賛同し、2005年にはOCW Consortium(現: Open
Education Consortium)が設立された。日本からも多くの大学がOCWに参加
し、2006年には JOCW(日本オープンコースウェア・コンソーシアム)が発足し
た。OCW以外の形態も含め、世界中で多くの大学・教育機関が、eラーニング
教材を無償公開している。
高等教育においてはLMS(学習管理システム)の普及も進んでおり、2013年度
の調査によれば国立大学の 78.4%で全学導入がなされている [4]。
こうした背景のもと、eラーニングや LMSのシステム上に蓄積された学習履
歴データを利用した研究が行われている [5]。研究目的は大きく二つに分けるこ
とができる。一つは受講者への介入を支援することを目的とした研究であり、
もう一つは教材・教育プロセスを改善することを目的とした研究である。
植野 [6]は、eラーニングにおける学習所要時間を用いて受講者の能力と課題
の難易度を推定することで、飛ばし読み・他事をしている・行き詰まり状態など
の異常学習プロセスを検知する手法を提案している。向後ら [7][8][9]は、eラー
ニングにおける確認テストの通過率を用いて、ドロップアウトの兆候を発見し
ようとしている。先延ばし行動を制御し、学習を促すための介入を行うことで、
ドロップアウトを減らすことができる可能性が示唆されたとしている。また合
田ら [10]は、eラーニングにおける受講者の学習行動を分類し、各タイプの特
徴を整理している。これらは受講者への介入を行い、ドロップアウトを防ぐこ
とを支援するための研究である。
上田ら [11]は CMS利用者の操作履歴に着目し、学習状況を視覚化するツー
ルを教材改善に利用することを提案している。高橋ら [12]は eラーニングの受
講状況を分析し、合田ら [10]のタイプへ当てはめを試みることで、オンライン・
オリエンテーションの設計に役立てようとしている。これらは、教材・教育プ
ロセスを改善するための研究である。
また、近年では Learning Analytics(LA)というキーワードが注目を浴びてい
る。2011年からは、LAに特化した国際会議であるThe International Learning
4
Analytics and Knowledge(LAK)が毎年開催されており [13]、研究への期待の高
まりが窺える。加藤 [14]は、LAのもたらすメリットとして、「学習者の傾向と行
動パターンの解読」「理解度不足の学習内容と行き詰まり原因の推定」「到達学
力の推定」を挙げている。多川ら [15]は、LAと教学 IR(Institutional Research)
との相互補完について述べたうえで、学習コミュニティの分析・把握の必要性
を主張している。
適切な介入を支援するためにも、教材・教育プロセスを改善するためにも、学
習履歴データの利用・分析は不可欠である。
2.2 MOOCにおける従来研究2010年代に入って急速に注目を集めているのがMOOCである。MOOCの特
筆すべき点は従来の eラーニングに比べてきわめて大規模 (Massive)なことで
あり、コース受講者が数千人、数万人にのぼることも珍しくない。コース受講
者が国籍の面でも、年齢層や学歴の面でも多様であることもまた、MOOCの特
徴である。重田 [3]はMOOCの特徴として、「学習コースの無償提供」「認定証
の交付」「自主的な受講」「学習コミュニティへの参加」の 4点を挙げている。
MOOCプラットフォームとして代表的なものに、Courseraと edXがある。
Courseraはスタンフォード大学を母体とするベンチャー企業が設立したMOOC
プラットフォームであり、edXはMIT・ハーバード大学を中心とする大学連合
が設立したMOOCプラットフォームである。他にも、Apple社による iTunes U
や、非営利団体TEDが主催するTED-Edなど、多くのMOOCプラットフォー
ムがある。日本ではMOOCの普及を目指す産学連携団体である JMOOCが、日
本初のMOOCプラットフォームである gacco(ガッコ)を立ち上げている。
MOOCの修了率は数%程度で、ドロップアウトが非常に多いことが知られて
いる 1)。荒ら [16][17]は、東京大学がCourseraへ提供した 2コースから得られた
データの分析を行っている。最後まで受講した受講者のうち約半数が、「受講当
初から修了証の取得を目指していなかった」と回答したことを指摘し、MOOC
の教育効果を評価する際には、修了率だけではなく、受講者のもつ多様性を考慮
に入れる必要がある、と主張している。安武ら [18]は、従来の限定的な学習環境
を分析対象とした研究で得られてきた知見がMOOCに適用可能かどうか、明確
1) 「MOOC Completion Rates: The Data」(2015年 1月 17日閲覧)
http://www.katyjordan.com/MOOCproject.html
5
なことはほとんど何も言えない、と断ったうえで、関連諸領域からMicroscopic・
Macroscopic両面のアプローチを取り入れるべきだ、と主張している。
このように、MOOCの受講者は複雑かつ多様であるため、多様性を考慮して
受講者を適切に分類したうえで、それぞれについて分析する必要がある。
2.3 学習様態に関する従来研究本稿で学習様態と呼んでいるものの一部については、欧米では以前から「学
習スタイル」として盛んに研究が行われてきた [19]。これらは教育・心理学・経
営などの分野において、学びの個人差という観点から行われてきたものである。
近年では大学教育のみならず、eラーニングへの適用・応用に関する研究も多く
行われている [20]。大山ら [21]は、FELDERによってモデル化された学習スタ
イルのうち<活動–内省>の軸と<順次–全体>の軸に注目している。活動的傾
向のある学習者を 2名、内省的傾向のある学習者を 2名、あわせて 4名選定し、
それぞれに教材構造の異なる 2つの eラーニング教材に取り組ませたうえで、イ
ンタビューおよびログの分析・可視化を行った。その結果、活動的傾向のある
学習者と内省的傾向のある学習者とでは、異なる学習様態があらわれ、教材構
造に対する嗜好にも違いがみられる、という可能性が示唆されたとしている。
上記のような学習理論に則ったアプローチでの研究とは別に、学習履歴デー
タから学習様態を発見・獲得しようというアプローチでの研究も増えてきてい
る。孫ら [22]は、eラーニング受講者のコンテンツ遷移に注目し、ルールベース
に照合することによって、受講者の学習様態を推定している。荒ら [16][17]は、
東京大学がCourseraへ提供した 2コースから得られたデータを分析し、MOOC
受講者の学習様態として、様子見的学習者 (コース登録はしたものの、ほとんど
何もしない受講者)・知識獲得型 (講義動画はみるがテストには取り組まない受
講者)・既有知識確認型 (講義動画をみずにテストにのみ取り組む受講者)・学習
活動完遂型 (講義動画・テストの双方に取り組む受講者) の 4類型があることを
示唆している。ここで、「様子見的学習者」の受講者はコースから離れた状態に
あり、学習への意欲が低いと考えられる。「知識獲得型」「既有知識確認型」に
あたる受講者は、教材コンテンツを学習することでコースを修了しようとして
いるとは考えにくく、むしろ、学習支援がいらぬお節介となりかねない。従っ
て、「学習活動完遂型」にあたる、講義動画・テストの双方に取り組む受講者を
学習支援の主なターゲットとするべきであり、以下本稿では、このタイプの受
6
講者に関する分析・考察を行う。
第3章 受講者の学習様態獲得
3.1 コンテンツ遷移に基づく学習様態の獲得本研究では、学習履歴データとして、MOOCのアクセスログデータを利用す
る。MOOCシステム上で受講者が学習を進めると、それに伴って生起したイベ
ントと、それに対するシステムのレスポンスとが、アクセスログデータとして
記録される。
アクセスログデータに記録されている情報のうち、受講者があるページから
あるページへ遷移したというイベント (コンテンツ遷移)に着目する。同じよう
なコンテンツ遷移をした受講者は、教材コンテンツに対して同じように取り組
んだとみなすことができる。本研究での学習様態とはすなわち、MOOC受講者
が教材コンテンツに対して「どのように取り組んでいるか」を類型化したもの
である。
MOOCの典型的な教材コンテンツは、講義動画とテストからなる。個々のコ
ンテンツ間を受講者がどう遷移するかという情報は、学習様態の手がかりとな
る。コンテンツ遷移にドロップアウトの兆候がみられると判断できれば、シス
テム上での介入を行うことができる。また、受講者間で多くみられるコンテン
ツ遷移を分析することで、よくみられるコンテンツ遷移に合わせてコンテンツ
を再配置したり、多くの受講者が再確認する (そこでつまづいている可能性が高
い)コンテンツを改善したりすることができる。
提案手法の処理の流れを、図 1に示す。まず 2次元の閲覧数特徴を用いて、受
講者全体からなる集合をクラスタリングする (閲覧数によるフィルタリング)。
アクセスした講義動画の割合、および、回答したテストの割合を用いてクラス
タリングすることで、荒らの 4類型に対応するクラスタを得る。
次に、得られたクラスタのうち「学習活動完遂型」に対応する受講者のクラ
スタから、コンテンツ遷移が多い受講者の群のみを取り出し、さらにクラスタ
リングを行う (遷移特徴ベクトルによるクラスタリング)。受講者の個々のコン
テンツ遷移にラベル付けを行い、T 種類のラベルが受講者ごとにそれぞれ何度
ずつ現れたかを用いて、受講者の遷移特徴ベクトルを定義する。遷移特徴ベク
トルの集合をクラスタリングすることで、コンテンツ遷移の傾向が似たような
7
受講者からなるクラスタが生成できる。つまり、クラスタリングによって、多
くみられるコンテンツ遷移をしている受講者からなるクラスタや、あまりみら
れないコンテンツ遷移を同じようにしている受講者からなるクラスタが得られ
る。こうして得られたクラスタの中心、すなわちクラスタごとのコンテンツ遷
移の傾向と、最終的な修了率との相関を調べることによって、クラスタの分析、
考察を行い、学習様態を獲得する。
���H!4,�7��!
/�"���'�0725.=GAG@)�7�1%#7!78:9�4!
%#��C;BF:$ 3.!*��;D>?EG<:(�!
�;D>?7��6!�+�� :�&!
���7-1/�1!;D>?7��:�&!
受講者の遷移特徴ベクトルを計算し、
図 1: 提案手法の処理の流れ
3.2 閲覧数によるフィルタリング2次元の閲覧数特徴 (アクセスした講義動画の割合、および、回答したテスト
の割合)を用いてクラスタリングを行ったところ、荒らの 4類型に対応するクラ
スタが得られた。
ある単元Dにおいて、受講者 iがアクセスした講義動画の個数を vi,D、回答し
たテストの個数を pi,Dとする。但し、同じ講義動画へ複数回アクセスした場合
や、同じテストに複数回回答した場合については、重複しては数えず、1個とし
て数える。単元Dに属する講義動画の個数を VD、テストの個数を PDとして、
8
単元Dにおける受講者 iの閲覧数特徴ベクトル ri,D(∈ R2)を次式で定義する。
ri,D =(vi,DVD
,pi,DPD
)単元Dにおける全受講者の閲覧数特徴ベクトル ri,Dの集合RD = {ri,D | 1 ≤
i ≤ N} (N は受講者数)をクラスタリングすることによって、荒らの 4類型に
対応するクラスタが得られる。
3.3 遷移特徴ベクトルによるクラスタリングコンテンツ遷移の傾向が似た受講者のクラスタを獲得するため、受講者の個々
のコンテンツ遷移にラベル付けを行い、受講者ごとにラベルL1, L2, ..., LT がそ
れぞれ何回ずつ現れたかを数えることによって、受講者 iの単元Dにおける遷
移特徴ベクトル si,Dを定義する。
個々のコンテンツ遷移を、次の 3つ組からなるラベルで表現する。
(遷移量,遷移元ページ,遷移先ページ)
本稿では、遷移量は { 1つ次へ進む (ordered+1), 1つ前へ戻る (reverse-1),
2つ以上次へ進む (ordered+n), 2つ以上前へ戻る (reverse-n) } のいずれかであり、遷移元ページ・遷移先ページはそれぞれ { 動画ページ (video), テス
トページ (problem) } のいずれかであるとする。このとき、ラベルの種類はT = (2× 2× 4 =)16種類である。
受講者 iの単元Dにおける各ラベルLt(t = 1, 2, ..., T )の出現数をxi,D,t(∈ Z)とし、この出現数の分布を、受講者 iの単元Dにおける遷移特徴ベクトルsi,D(∈ ZT )
とする。
si,D = (xi,D,1, xi,D,2, ..., xi,D,T )
|si,D| =t=T∑t=1
xi,D,t
コンテンツ遷移の数が近い受講者K 名の単元Dにおける遷移特徴ベクトル
si,Dの集合 SD = {si,D | 1 ≤ i ≤ K}をクラスタリングすることによって、ラベルの出現数の総和 |si,D|は近いがラベルの出現数の分布傾向 si,Dが相異なる受
講者のクラスタ、すなわちコンテンツ遷移の傾向が似た受講者のクラスタが得
られる。
9
第4章 分析対象の概要
以下では、京都大学がMOOCプラットフォームの一つである edXに提供し、
2014年 4月から 7月まで開講された”The Chemistry of Life”コースのアクセス
ログデータを分析する。
4.1 コンテンツ構成”The Chemistry of Life”コースは、上杉志成教授 (京都大学 物質–細胞統合
システム拠点 / 京都大学 化学研究所 ケミカルバイオロジー) らによる”idea
generation”と”integration of chemistry and biology”についてのコースである。
教材コンテンツはすべて英語で提供されている。図 2に示すように、講義動画
の横には、教示者の発話内容に対応したテキストスクリプトが表示される。
コースは講義セクション・試験セクション・課題セクション・参考資料セク
ション・アンケートその他のセクションからなる。講義セクションは、講義動
画コンテンツを中心とするページ (動画ページ)と、テストコンテンツ (小テス
ト・試験)を中心とするページ (テストページ)からなる。前者の例を図 2に、後
者の例を図 3に示す。
各セクション、各ページには図 2、図 3に示すようなナビゲーションがある。
受講者は画面左端にある垂直方向のナビゲーションを利用し、学習したいセク
ションへ遷移する。セクション内では画面上部にある水平方向のナビゲーション
を利用して、個々のページへアクセスすることができる。水平方向のナビゲー
ションには、動画やテストを示すアイコンが表示されており、受講者はいま自
分がいるページがどのあたりなのかを把握できる。また、特定の動画だけをみ
たり、テストだけをたどったりすることも可能である。
表 1: セクションの内訳
講義セクション 141)
試験セクション 8
課題セクション 3
参考資料セクション 13
アンケートその他 12
合計 50
10
”The Chemistry of Life”コースは合計 50セクションからなり、その内訳は表
1の通りである。
本研究では、講義セクションと試験セクションのみを分析対象とする。但し、
講義セクションのうち最終週に公開されたもの (”Lecture 15”)については、講
義を目的とした内容ではなかったため、分析対象から除外する。よって、本研
究での分析対象は、講義セクションのうち 13セクションと、試験セクションの
8セクション、あわせて 21セクションである。この 21セクションを、その内容
と公開日に基づいて 8セットに分割した。分割した内容を表 2に示す。
4.2 受講者数”The Chemistry of Life”コースに登録し、最終成績が記録された受講者は
16,834名であった。うち、最終成績が 20%以上であった受講者は 1,113名、修
了認定の条件である 65%以上に達した受講者は 447名であった。最終成績の分
布を図 4に示す。横軸は最終成績 (5%刻み)、縦軸は受講者数である。但し、最
終成績が 5%未満である受講者が 11,238名と多かったため、その部分について
はグラフを打ち切っている。
2014年 4月 1日から 7月 31日までの、1日ごとのログデータの件数を図 5に、
1日ごとの受講者数を図 6に示す。記録されたログデータの量は、JSON形式で
約 750万レコード、サイズにして約 5.9GBであった。
受講者の性別の比率を図 7に、生年の分布を図 8に示す。また、最終学歴の
図 2: 動画ページの例 図 3: テストページの例
1) ”Lecture 1”から”Lecture 15”までのうち”Lecture 10”が無いため、講義セクションは全 14
セクションである。
11
表 2: セット番号とセクション名、ページ数とその内訳
セット番号 セクション名 ページ数 講義動画 小テスト 試験
セット 1 Lecture 1 6ページ 5 1 –
Problem 1 1ページ – – 1
セット 2 Lecture 2 11ページ 7 4 –
Lecture 3 9ページ 6 3 –
Problems 2-3 2ページ – – 2
セット 3 Lecture 4 5ページ 5 0 –
Lecture 5 1ページ 1 0 –
Lecture 6 8ページ 6 2 –
Problems 4-6 3ページ – – 3
セット 4 Lecture 7 13ページ 9 3 –
Problems 7-8 2ページ – – 2
セット 5 Lecture 8 8ページ 5 3 –
Problems 9-10 2ページ – – 2
セット 6 Lecture 9 7ページ 5 2 –
Lecture 11 7ページ 4 3 –
Lecture 12 8ページ 5 3 –
Problem 11 1ページ – – 1
セット 7 Lecture 13 8ページ 6 2 –
Problem 12 1ページ – – 1
セット 8 Lecture 14 11ページ 8 3 –
Problems 13-14 2ページ – – 2
比率を図 9に示す。
4.3 edXプラットフォームの仕様edXプラットフォームでは、受講者が学習を進める際に生起するイベントと、
それに対するシステムのレスポンスとが、アクセスログデータとして記録・蓄
積される。イベント・レスポンスともに、膨大な種類があるため、ここでは主
12
図 4: 最終成績の分布
なイベントのみを挙げる 1)。
受講者が講義動画に対して以下のような操作を行うと、イベントが記録され
る:play video(再生する)、seek video(シークする)、pause video(一時停止する)、
show transcript(字幕を表示する)、hide transcript(字幕を非表示にする)、など。
受講者がテストに対して以下のような操作を行うと、イベントが記録される:
problem check(テストの回答を送信する)、show answer(テストの正解を表示す
る)、など。
受講者がセクション内を遷移すると、イベントが記録される:seq goto(水平
方向のナビゲーションを利用して、セクション内を遷移する)、seq next(リンク
をクリックして、1つ次のページへ進む)、seq prev(リンクをクリックして、1
つ前のページへ戻る)、など。
アクセスログデータの一例を図 10に示す。図中の改行およびインデントは、
内容を把握しやすいよう筆者が適宜加えたものである。実際のアクセスログデー
タでは、1つのイベントが 1行の JSONレコードとして記録・蓄積されている。
1) アクセスログデータに関する仕様を含む、edXプラットフォームの情報はウェブで公開されている。「Tracking Logs ― edX Research Guide documentation」(2015年 1月 17日閲覧)
http://edx.readthedocs.org/en/latest/internal data formats/tracking logs.html
13
number of event record per day
date (2014/04/01−2014/07/31)
num
ber
of e
vent
rec
ord
0e+
001e
+05
2e+
053e
+05
4e+
05
図 5: 1日ごとのイベント件数
number of user log−in per day
date (2014/04/01−2014/07/31)
num
ber
of u
ser
log−
in
050
010
0020
0030
00
図 6: 1日ごとの受講者数
図 7: 受講者の性別
year of birth of 16,834users
year(1914−2014)
Fre
quen
cy
1920 1940 1960 1980 2000
050
010
0015
00
図 8: 受講者の生年
図 9: 受講者の最終学歴
14
図 10: edXプラットフォームのアクセスログデータの例
第5章 実験
5.1 閲覧数によるフィルタリング2次元の閲覧数特徴 (アクセスした講義動画の割合、および、答えたテストの
割合)を用いて受講者全体をクラスタリングし、「講義動画はみるがテストには
取り組まない受講者」「講義動画をみずにテストにのみ取り組む受講者」および
「講義動画・テストの双方に取り組む受講者」のクラスタを取り出すことを目指
した。
全 16,834名の受講者について、セット 1からセット 8までのそれぞれにおけ
る閲覧数特徴ベクトルを計算し、それぞれのセットごとにクラスタリングを行っ
た。クラスタリングにはMean Shift法を用い、バンド幅パラメータは h = 0.1
とした。それぞれのセットごとに閲覧数特徴ベクトルをクラスタリングした結
果を、図 11、図 12に示す。図中の■はクラスタ中心を表す。図の横軸は各セットにおいてどれだけ講義動画をみたかに対応しており、縦軸は各セットにおい
てどれだけ問題に答えたかに対応している。
すべてのセットにおいて下記の 4点にはクラスタ中心があらわれ、以下のよ
うな受講者が多かったことがわかった。
• (0.0, 0.0) : 何もやっていない [Neither型]
• (1.0, 0.0) : 講義動画はみたが、テストには一切回答しなかった [Video型]
• (0.2, 1.0) : テストにのみ回答し、講義動画はみていない [Problem型]
15
• (1.0, 1.0) : 講義動画、テストの双方に目を通している [Both型]
この結果は、荒らの 4類型と対応しているとみなすことができる。
各セットでのそれぞれのクラスタに属する受講者数を表 3に示す。比較のた
め、各セットにおいてどの動画ページへもアクセスせず、かつ、どのテストに
も回答を送信しなかった (0%, 0%)の受講者数と、各セットにおいてすべての動
画ページへアクセスし、かつ、すべてのテストに回答を送信した (100%, 100%)
の受講者数を表 4に示す。(0%, 0%)の受講者はNeither型クラスタに、(100%,
100%)の受講者は Both型クラスタに含まれるが、これに近い閲覧数の受講者
も、クラスタリングによってそれぞれの型に分類できていることが図 11、図 12、
表 3、表 4からわかる。
表 3: それぞれのクラスタに属する受講者数
セット番号 1 2 3 4 5 6 7 8
Neither型 8994 13537 14833 15865 15965 16241 16247 16330
Video型 993 187 140 125 130 65 55 45
Problem型 239 170 32 67 41 33 34 27
Both型 4414 2180 841 777 698 448 343 354
表 4: (動画 0%, テスト 0%), (動画 100%, テスト 100%)の受講者数遷移
セット番号 1 2 3 4 5 6 7 8
(0%, 0%) 6496 11245 13980 15587 15772 15834 16138 16184
(100%, 100%) 4217 1495 536 585 532 291 303 236
5.2 遷移特徴ベクトルによるクラスタリングセット 1で Both型クラスタに属した受講者 4,414名のうち、コンテンツ遷
移が多い受講者の群について、遷移特徴ベクトルを計算し、クラスタリングを
行った。
セット 1では、Neither型クラスタに 8,994名、Video型クラスタに 993名、
Problem型クラスタに 239名、Both型クラスタに 4,414名の受講者が分類され
16
セット 1 セット 2
セット 3 セット 4
図 11: Mean Shift法によるクラスタリング結果 (セット 1~セット 4)
17
セット 5 セット 6
セット 7 セット 8
図 12: Mean Shift法によるクラスタリング結果 (セット 5~セット 8)
18
た。このうちBoth型クラスタの 4,414名のうち、コンテンツ遷移が多い受講者
の群 (遷移が 15回以上; 受講者 697名, うち修了者 102名)について各受講者の
遷移特徴ベクトルを計算し、階層的クラスタリングを行った。ここで、遷移特
徴ベクトル同士の距離はユークリッド距離を用いて、集合間の距離はウォード
法を用いて定義した。受講者 697名の群を C1 1~C1 5の 5クラスタに分けた場
合の、それぞれのクラスタに属する受講者数 (s)と修了者数 (p)、および修了率
(p/s, 小数第 4位以下を切り捨て)を表 5に示す。また、得られたデンドログラ
ムを図 13に示す。クラスタ C1 1に対応する部分を青色で、クラスタ C1 3に対
応する部分を緑色で、クラスタC1 4に対応する部分を赤色で、クラスタC1 2お
よびクラスタC1 5に対応する部分を黒色で示している。
表 5: 各クラスタの修了率 (セット 1 - 遷移数 15以上の群)
クラスタ番号 C1 1 C1 2 C1 3 C1 4 C1 5 小計
受講者数 42 250 127 139 139 697
うち修了者数 14 31 30 7 20 102
修了率 0.3333 0.124 0.2362 0.0503 0.1438 0.1463
020
4060
80
559 2
5233
2648
2051 36
910
66 68 997
2020 35
245
2829
2250
67 32 64 316
2202
4986 95
827
39 415
899
1937
1707
2296 78 30
947
40 5347
2919
7151
16 407
4873 24
822
0511
5321
9047
45 381
3325 26
625
8012
07 529
628
2916
3027
1823
2732 49
126
21 857
6076
4607 26
2682
2224
2230
1894
5433
5781
2504
5986
3089
3893
9321
1882
5874 72
640
17 144
175
1209 13
620
7839
59 200
1250
1403
1471
3817 27
316
76 10 487
4567
2940
5695
1961 79
711
525
03 206
5497 36
826
71 740
301
3319 88
1693
3238
1464
3110 41
656
73 913
2669 23 51
253
99 392
619
205
1085
2399
1864 67
865
616
9242
8911
0561
78 327
1116
1322
1376
4655 21 21
587
990
445
417
98 717 7
4272
1358
5457 30
730
77 186
564
3820 38
358
57 5926
2221
0639
0038
6712
73 730
2036 48
239
2214
7737
20 165
398
2725
3694 42
617
060
55 2718
03 233
5133 50
616
0323
09 139
2881
4603
2999
4836
5551
3049
4912 14
012
44 544
4856
4867
6221
2683
4103
1491
3673
1967
1119
1187
1988
2738
3486
2082
3615
4857 28
326
53 541
4956
2405
1127
2747
5010
5868
1415
2177 49
885
516
9643
1310
3220
26 738
1126
2641
2325
4107
1735
4793
1152
5143 45
2093 17
1 6545
24 355
991
659
1484
4649
1193
2627
5539
5066
4811
4843 36
3949
5047 49
039
3440
5656
6946
21 467
194
841
2917
1975
2265
4356
4618 40
643
250
0153
4332
1550
8118
4047
3831
6543
5139
4650
5317
1711
059
4442
5164
1170
4667
1892
2536
1636 65
274
842
6722
2123
30 462
4059
2623 55
823
01 648 11
1463 14
950
37 315
4785
3118
5509
2513
3291 90
611
3111
33 158
697
823
2979
1668
4816
5680 18
4117
1461
3687
3792 71
921
942
7940
22 744
280
4788
4824
4965
2243
4555
6169
6073 13
142
5818
9328
0052
7526
3036
30 751
1516
1281
2462
1478
1555
4327
3342
4909
1468
1746
3270
1090 75
011
6625
43 260
2028
5775
2651
6219
4202
1453
1923 15
550
014
3721
68 763
153
1531
2983
4166
5325 67
1059
1712
5287
4255
2490
2710
1200
2968 45
537
924
1110
1924
5525
7538
8051
63 460
1529
2027 6
3838
4952 78
812
9759
8541
9546
3218
63 167
5479 14
823
2923
52 322
4617
1826
4970
1394
4317
4821 14
356
314
2146
3120
5452
80 385
4001
5115 49
643
0647
86 480
5159 88
915
0342
2444
8327
4850
8650
90 239
637
312
4072
3385
3872
5223 58
421
8560
00 941
4453
5454
1215
1316
4879
2890 33
419
1216
3837
29 2956
2012
9826
3713
5938
92 138
5168
4098
4812
5622
2077
3036
2675
3173
5969 90
092
456
222
6317
2926
08 179
1452
1510 77
326
70 396
1523 66
2347
2109
2453 20
428
581
016
0153
8610
1025
8751
77 699
5550
6044
2357
5529
2254
2100
1502
1520
4203
1407
4250 14
655
7926
0357
6713
62 666
3035 31
2175
6170
2568
2611
2478
1793
2316
1821
3652
1223
3237
5088
3463 15
920
13 9712
828
375
1058 43
050
9550
9654
5013
1733
5210
7524
15 152
109
1888
2839
4981
1137
4941
4894
1230 13
527
746
8523
3839
3162
0344
0045
54 476
883
4743 79
976
425
9323
7011
3449
1843
9632
9752
7651
1012
0426
43 944
4766 23
718
1713
6758
83 970
4134
4136
1002
3956 69
125
6322
5852
0351
0220
9546
4555
3327
0743
90 811
4957 89
026
8046
26 481
4794
2722 85
624
6153
6327
0555
8126
7249
1624
4131
9024
1810
8222
1047
1646
1655
2215
4443
9511
2117
2431
0461
7527
1553
9714
36 268
2174 97
922
7833
3645
51 595
1492
2063
1939
3779
3967 61
829
8945
0945
79 166
4041 40
937
2439
2414
8745
9210
1319
1925
0721
9242
4539
6222
3955
43 802
1715
2493
5157 23
034
673
274
110
45 735
1432
2422
2354
2520
4634
5880
6179
1257
4183
1396 19 91
129
5348
2350
9337
1122
3554
0453
7044
5752
4918
9646
5117
4251
2550
9854
8258
8651
9053
37
図 13: デンドログラム (セット 1 - 遷移数 15以上の群)
19
表 6: 各クラスタの中心 (セット 1 - 遷移数 15以上の群) (本文中で言及した箇所
を太字および斜字で記載)
クラスタ番号 C1 1 C1 2 C1 3 C1 4 C1 5 群全体
ordered+1_vv 13.7 6.5 8.8 3.6 4.4 6.3
ordered+1_vp 5.9 3.7 2.9 4.2 1.8 3.4
ordered+1_pv 3.6 2.1 1.8 2.1 1.8 2.1
ordered+1_pp 0 0 0 0 0 0
reverse-1_vv 3.5 1.4 1.3 0.3 1.9 1.4
reverse-1_vp 1.5 0.8 0.5 1.2 1.0 0.9
reverse-1_pv 2.2 1.3 0.6 2.6 0.9 1.4
reverse-1_pp 0 0 0 0 0 0
ordered+n_vv 1.8 0.3 1.0 0.5 0.5 0.6
ordered+n_vp 1.9 0.8 1.2 1.0 2.2 1.3
ordered+n_pv 0 0 0 0 0 0
ordered+n_pp 0.5 0.2 0.2 0.4 0.3 0.3
reverse-n_vv 3.9 1.0 2.0 0.8 0.8 1.3
reverse-n_vp 0 0 0 0 0 0
reverse-n_pv 1.6 1.0 1.0 0.8 1.6 1.1
reverse-n_pp 0.1 0.1 0.1 0.4 0.2 0.2
計 40.8 19.8 21.8 18.5 17.9 20.8
5.3 考察受講者 697名 (うち修了者 102名)の群全体と比べて、修了率に有意な差がみ
られたクラスタ C1 1、C1 3、C1 4に関して考察を行う (t検定, p < 0.05)。クラ
スタC1 1~C1 5の中心と、受講者 697名の群全体での平均値を表 6に示す (小数
第 2位以下を切り捨て)。表の各列は、それぞれのクラスタに属する受講者が平
均して何回の遷移をしたかをあらわす。
クラスタ C1 1(図 13の青色部分に対応; 受講者 42名, うち修了者 14名)は、
5クラスタ中でも修了率が飛び抜けて良いクラスタである。クラスタ中心の値
を群全体での平均と比べると、ほぼすべての遷移が多く、動画ページから動画
ページへの遷移数が特に多い (ordered+1_vv, reverse-1_vv, ordered+n_vv,
20
reverse-n_vv)。一方で、動画ページからテストページへの遷移 (ordered+1_vp,
reverse-1_vp, ordered+n_vp)や、テストページから動画ページへの遷移 (ordered+1_pv,
reverse-1_pv, reverse-n_pv) は、それほど多くはない。このクラスタに属す
る受講者は、教材コンテンツに熱心に取り組み、特に動画ページを集中して閲
覧する姿勢が、最終成績の良さにつながったと解釈できる。
クラスタC1 4(図13の赤色部分に対応;受講者139名,うち修了者7名)は、5ク
ラスタ中で修了率が最も低く、遷移数が多い割には伸び悩んでいるクラスタであ
る。クラスタ中心の値を群全体での平均と比べると、動画ページから動画ペー
ジへの遷移が全体的に少ない (ordered+1_vv, reverse-1_vv, ordered+n_vv,
reverse-n_vv)。動画ページから1つ前の動画ページへ戻る遷移 (reverse-1_vv)
や、テストページから 2つ以上前の動画ページへ戻る遷移 (reverse-n_pv)など
は、5クラスタ中で最も少ない。このクラスタに属する受講者は、理解が不十分
なまま学習を進めてしまい、結果として最終成績が落ち込んだ可能性がある。
クラスタ C1 3(図 13の緑色部分に対応; 受講者 127名, うち修了者 30名)は、
修了率が比較的良いクラスタである。クラスタ中心の値を群全体での平均と比
べると、動画ページからテストページへの遷移 (ordered+1_vp, reverse-1_vp,
ordered+n_vp)や、テストページから動画ページへの遷移 (ordered+1_pv, reverse-1_pv,
reverse-n_pv) は群全体での平均より少ないものの、一方で、動画ページから
1つ次の動画ページへ進む遷移の数 (ordered+1_vv)や、動画ページから 2つ以
上次の動画ページへ進む遷移の数 (ordered+n_vv)、動画ページから 2つ以上前
の動画ページへ戻る遷移の数 (reverse-n_vv)は群全体での平均よりも多い。
これらの結果から、
• 動画ページから 1つ次の動画ページへの遷移 (ordered+1_vv)が多いほど、
最終的な修了率が高い
• 動画ページから 1つ前の動画ページへの遷移 (reverse-1_vv)が多いほど、
最終的な修了率が高い
という 2 つの傾向がみられた。C1 1~C1 5 の 5 クラスタで、遷移の数と修了
率の相関を調べたところ、ordered+1_vvと修了率の相関係数が r = 0.956、
reverse-1_vvと修了率の相関係数が r = 0.875 であり、ともに強い正の相関が
あった。また、最も修了率の高かったクラスタであるC1 1と、最も修了率の低
かったクラスタであるC1 4では、ordered+1_vv、reverse-1_vvともに有意な
差があった (t検定, p < 0.01)。
21
他のセットにおいても同様に、Both型クラスタに属した受講者のうちコンテ
ンツ遷移が多い群について各受講者の遷移特徴ベクトルを計算し、階層的クラ
スタリングを行った。それぞれ 5クラスタに分け、同じく ordered+1_vvと修
了率との相関、reverse-1_vvと修了率との相関を調べた。得られた相関係数の
値を表 7に示す。ordered+1_vvについては 8セットすべてで 、reverse-1_vv
については 8セット中 7セットで正の相関があった。第 7セットではクラスタリ
ングの結果、受講者 1人のクラスタと受講者 2人のクラスタが生じ、この 3人
の受講者は揃って reverse-1_vvが小さかったために、強い負の相関となった。
以上の結果から、このコースでは「ひとつひとつ順番に進み」「きちんと戻っ
て確認する」受講者は修了率が高い傾向がある、ということがわかった。
表 7: クラスタ中心の値と修了率の相関係数の値
セット番号 1 2 3 4 5 6 7 8
ordered+1_vv 0.956 0.625 0.948 0.465 0.428 0.996 0.532 0.383
reverse-1_vv 0.875 0.642 0.919 0.888 0.456 0.693 -0.791 0.578
第6章 結論
本研究では、MOOC受講者のコンテンツ遷移に着目し、学習履歴データ (MOOC
のアクセスログデータ)に類型としてあらわれる受講者の学習様態を獲得する
ことを目指した。個々のコンテンツ遷移にラベル付けを行い、ラベルごとの生
起頻度によって受講者の遷移特徴ベクトルを定義し、この遷移特徴ベクトルの
集合をクラスタリングする手法を示した。得られたクラスタのコンテンツ遷移
の傾向と修了率をもとに、学習様態に関してクラスタの分析、考察を行った。
実験ではまず、閲覧数によるフィルタリングを行った。この過程において、す
べてのセットで共通して、講義動画にもテストにもほとんどアクセスしていな
い受講者、講義動画にだけアクセスしている受講者、テストにだけアクセスし
ている受講者、講義動画・テストの双方にアクセスしている受講者、が多かっ
たことをあらわすクラスタが得られた。この結果は、荒ら [16][17]による先行研
究で示唆されていた 4類型と対応するものである。
本稿ではさらに、より詳細な学習様態を獲得するため、それぞれのセットに
22
おいて講義動画・テストの双方にアクセスしている受講者を対象とし、提案手
法による分析を行った。その結果、このコースでは「ひとつひとつ順番に進み」
「きちんと戻って確認する」受講者は修了率が高い傾向がある、ということがわ
かった。
本稿ではコンテンツ遷移が多い受講者の群のみに絞って分析を行ったが、他
の群については未検討である。また、他のMOOCコースではどのような学習
様態が得られるのか、および、得られた学習様態を用いて実際にどのように受
講者を支援するのかは、今後の課題である。
謝辞
美濃導彦教授には、時に優しく時に厳しく、あたたかく見守っていただきま
した。楽しく充実した研究生活を送ることができたのは、先生の人徳によると
ころが大きいと感じております。心より御礼申し上げます。
椋木雅之准教授には、たいへん辛抱強く御指導いただきました。我ながらじ
つに反抗的、かつ粗忽な学生だったとは思いますが、それもまた一興、と面白
がっていただけておりましたら、せめてもの救いです。
京都外国語大学の村上正行准教授、京都大学 学術情報メディアセンターの森
村吉貴助教には、研究を進めるうえで有益なコメントを多々いただきました。
また、研究・執筆にあたって、美濃研究室のメンバーには何度となく励まさ
れました。なかでも平井聡平氏には、まだ拙い初稿の段階からレビューをして
いただきました。御礼申し上げます。
本研究には edXプラットフォームのログデータを利用しました。データの提
供に御協力くださいました、京都大学の土佐尚子教授、飯吉透教授、上杉志成
教授に謝意を表します。
修学にあたって、主治医である岸本卓三先生、山形高明先生、そして京都大
学 学生総合支援センター 障害学生支援ルーム コーディネーターの村田淳氏、
市川友佳子氏にはたいへんお世話になりました。この場をお借りして、厚く御
礼申し上げます。
最後に、長い学生生活を支えてくれた、母・ひろ美と妻・利菜に感謝します。
23
参考文献
[1] 美濃導彦: 大学教育とビッグデータ:その可能性, 情報処理学会研究報告
(教育学習支援情報システム)(2014-CLE-13, No.5) (2014).
[2] 佐藤卓己, 井上義和 (編): ラーニング・アロン, 新曜社 (2008).
[3] 重田勝介: オープンエデュケーション:知の開放は大学教育に何をもたら
すか, 東京電機大学出版局 (2014).
[4] 京都大学:平成25年度文部科学省先導的大学改革推進委託事業高等教育機
関等における ICTの利活用に関する調査研究 委託業務成果報告書 (2014).
[5] 植野真臣: eラーニングにおけるデータマイニング, 日本教育工学会論文誌,
Vol. 31, No. 3, pp. 271–283 (2007).
[6] 植野真臣: eラーニングにおける所要時間データの異常値オンライン検出,
電子情報通信学会論文誌, Vol. J90-D, No. 1, pp. 40–51 (2007).
[7] 向後千春, 野嶋栄一郎: eLearningにおける自己制御学習, 日本心理学会第
68回大会発表論文集, p. 1157 (2004).
[8] 向後千春, 野嶋栄一郎: eラーニングにおけるドロップアウトとその兆候,
日本教育工学会第 20回全国大会, pp. 997–998 (2004).
[9] 向後千春, 中井あづみ, 野嶋栄一郎: eラーニングにおける先延ばし傾向と
ドロップアウトの関係, 日本教育工学会研究報告集 (JSET04-5), pp. 39–44
(2004).
[10] 合田美子,山田政寛,松田岳士,加藤浩,齋藤裕,宮川裕之: eラーニングにお
ける学習行動の分類,日本教育工学会第 29回全国大会, pp. 867–868 (2013).
[11] 上田真由美, 梶田将司, 間瀬健二: 学習操作履歴を用いた利用者コンテキス
トアウェアなCMSツールに関する検討, 電子情報通信学会第 17回データ
工学ワークショップ (DEWS2006, 6C-i3) (2006).
[12] 高橋暁子, 金西計英: eラーニングにおける受講状況の分析: 学習行動の 7
分類を用いて, 日本教育工学会第 30回全国大会, pp. 191–192 (2014).
[13] 隅谷孝洋, 多川孝央, 井上仁, 山川修: LAK14 報告, 情報処理学会研究報告
(教育学習支援情報システム)(2014-CLE-13, No.9) (2014).
[14] 加藤利康: 授業支援システムにおける学習分析の展開, 情報処理学会研究
報告 (コンピュータと教育)(2014-CE-124, No.23) (2014).
[15] 多川孝央, 山川修, 安武公一, 隅谷孝洋, 井上仁: 複数のデータに基づく多
24
面的な学習履歴情報分析について, 日本教育工学会第 29回全国大会, pp.
71–72 (2013).
[16] 荒優, 藤本徹, 一色裕里, 山内祐平: MOOC 実証実験の結果と分析: 東京大
学の 2013 年の取り組みから, 東京大学大学院情報学環紀要, Vol. 86, pp.
83–100 (2014).
[17] 荒優, 藤本徹, 一色裕里, 山内祐平: MOOC受講者の多様性を考慮した教育
効果分析観点の提案,日本教育工学会第 30回全国大会, pp. 747–748 (2014).
[18] 安武公一, 山川修, 中村泰之, 隅谷孝洋, 多川孝央, 井上仁: データ・サイエ
ンスとしての Learning Analyticsの方向性と研究上のフレームワークにつ
いて, 情報処理学会研究報告 (教育学習支援情報システム)(2014-CLE-13,
No.10) (2014).
[19] 青木久美子:学習スタイルの概念と理論―欧米の研究から学ぶ,メディア教
育研究, Vol. 2, No. 1, pp. 197–212 (2005).
[20] 合田美子, 山田政寛: 海外のリメディアル教育における eラーニングの研究
動向と適用・応用される学習理論, リメディアル教育研究, Vol. 7, No. 2,
pp. 205–215 (2012).
[21] 大山牧子, 村上正行, 田口真奈, 松下佳代: e-Learning語学教材を用いた学
習行為の分析:学習スタイルに着目して, 日本教育工学会論文誌, Vol. 34,
No. 2, pp. 105–114 (2010).
[22] 孫勝国, 甘泉瑞応, Tongjun, H., AIGUO, H., 程子学: 学習者の学習順序や
反応パターンに基づいた学習状態推論法を用いるWeb-based教育支援シ
ステム, 情報処理学会論文誌, Vol. 46, No. 2, pp. 327–336 (2005).
25
付録
A.1 コンテンツ閲覧数の分布
表A.1: コンテンツ閲覧数の分布 セット 1
video-page accessed
セット 1 0 1 2 3 4 5
problem 0 6496 1742 503 253 459 534
checked 1 326 717 106 63 166 816
2 0 146 93 71 126 4217
表A.2: コンテンツ閲覧数の分布 セット 2
video-page accessed
セット 2 0 1 2 3 4 5 6
problem 0 11245 941 217 86 46 33 31
checked 1 30 36 163 140 29 13 12
2 73 21 21 26 110 22 13
3 0 6 7 5 15 46 11
4 0 18 8 10 11 10 36
5 0 7 7 1 2 1 13
6 0 18 11 13 4 8 2
7 0 0 12 2 5 2 3
8 0 0 52 17 9 11 12
video-page accessed
セット 2 7 8 9 10 11 12 13
p.c. 0 73 17 13 14 5 13 118
1 26 8 6 3 3 6 16
2 25 4 3 1 2 0 24
3 22 5 3 1 1 1 9
4 235 128 64 12 3 9 51
5 14 3 16 42 18 15 30
6 10 17 10 14 10 11 175
7 2 7 5 7 6 5 110
8 17 35 31 22 37 43 1495
表A.3: コンテンツ閲覧数の分布 セット 3
video-page accessed
セット 3 0 1 2 3 4 5 6
problem 0 13980 447 176 113 66 243 245
checked 1 23 6 7 2 4 4 3
2 6 3 3 5 1 5 5
3 73 18 8 12 5 9 13
4 0 4 1 1 1 1 3
5 0 13 2 14 3 4 10
video-page accessed
セット 3 7 8 9 10 11 12
p.c. 0 61 32 9 4 29 94
1 5 7 13 2 3 8
2 6 9 5 16 24 51
3 7 9 3 8 22 41
4 4 2 3 3 6 24
5 20 24 22 28 152 536
表A.4: コンテンツ閲覧数の分布 セット 4
video-page accessed
セット 4 0 1 2 3 4 5 6 7 8 9
problem 0 15587 15 18 25 5 6 8 5 7 96
checked 1 24 6 2 4 5 4 2 2 1 6
2 129 10 6 5 5 4 8 6 10 23
3 0 2 4 1 2 5 0 1 2 43
4 0 3 1 0 1 1 2 7 7 34
5 0 42 9 6 6 6 7 9 14 585
表A.5: コンテンツ閲覧数の分布 セット 5
video-page accessed
セット 5 0 1 2 3 4 5
problem 0 15772 9 22 16 12 105
checked 1 21 1 0 4 9 4
2 101 12 4 4 8 32
3 0 3 0 2 2 47
4 0 4 1 2 1 46
5 0 33 3 10 12 532
表A.6: コンテンツ閲覧数の分布 セット 6
video-page accessed
セット 6 0 1 2 3 4 5 6 7
problem 0 15834 16 22 18 9 42 0 1
checked 1 55 7 10 12 5 12 2 2
2 0 8 1 6 6 72 5 1
3 0 6 1 1 2 11 2 8
4 0 2 1 1 0 1 1 1
5 0 0 0 0 1 0 2 0
6 0 0 1 0 0 1 2 0
7 0 0 5 6 0 0 1 1
8 0 0 0 17 0 3 1 5
video-page accessed
セット 6 8 9 10 11 12 13 14
p.c. 0 1 14 0 2 2 3 42
1 2 3 0 2 0 0 8
2 3 3 0 1 2 0 4
3 7 13 1 1 1 1 8
4 2 5 1 2 1 0 4
5 3 10 7 5 1 1 10
6 1 5 4 4 8 6 13
7 0 2 3 0 2 6 39
8 6 6 3 5 6 18 291
表A.7: コンテンツ閲覧数の分布 セット 7
video-page accessed
セット 7 0 1 2 3 4 5 6
problem 0 16138 1 9 3 3 4 48
checked 1 95 1 11 41 3 3 21
2 0 3 5 11 7 4 46
3 0 28 6 13 16 11 303
表A.8: コンテンツ閲覧数の分布 セット 8
video-page accessed
セット 8 0 1 2 3 4 5 6 7 8
problem 0 16184 2 4 3 5 0 0 2 42
checked 1 21 5 4 3 2 1 0 1 0
2 91 6 12 25 4 3 3 2 17
3 0 2 2 4 1 2 0 1 20
4 0 5 5 15 2 2 2 1 20
5 0 16 6 2 13 8 12 15 236