ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью...

144
Общество с ограниченной ответственностью «ГлобалЛаб» (ООО «ГлобалЛаб») УДК: 371.64/.69 Регистрационный №: АААА-А17-117122990066-8 Инв. №: 1 УТВЕРЖДАЮ Президент _____________ Т.В. Крупа "___" _____________ 2017г. М.П. ОТЧЁТ О ПРИКЛАДНЫХ НАУЧНЫХ ИССЛЕДОВАНИЯХ Разработка технологической модели применения методов машинного обучения для предсказания оптимальной образовательной траектории учащегося на основе больших массивов данных о его поведении, накопленных в различных электронных образовательных системах по теме: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ ИССЛЕДОВАНИЙ (промежуточный) ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы» Соглашение о предоставлении субсидии от 26.09.2017 г. № 14.576.21.0100 Руководитель работ, ___________________ подпись, дата

Upload: others

Post on 12-Sep-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

Общество с ограниченной ответственностью «ГлобалЛаб»

(ООО «ГлобалЛаб»)

УДК: 371.64/.69

Регистрационный №: АААА-А17-117122990066-8

Инв. №: 1

УТВЕРЖДАЮ

Президент

_____________ Т.В. Крупа

"___" _____________ 2017г.

М.П.

ОТЧЁТ О ПРИКЛАДНЫХ НАУЧНЫХ ИССЛЕДОВАНИЯХ

Разработка технологической модели применения методов машинного обучения для

предсказания оптимальной образовательной траектории учащегося на основе больших

массивов данных о его поведении, накопленных в различных электронных

образовательных системах

по теме: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ ИССЛЕДОВАНИЙ

(промежуточный)

ФЦП «Исследования и разработки по приоритетным направлениям

развития научно-технологического комплекса России на 2014-2020 годы»

Соглашение о предоставлении субсидии от 26.09.2017 г. № 14.576.21.0100

Руководитель работ,

___________________

подпись, дата

Page 2: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

2

Москва 2017

Оглавление

ВВЕДЕНИЕ .......................................................................................................... 5

1. АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННОЙ НАУЧНО-

ТЕХНИЧЕСКОЙ, НОРМАТИВНОЙ, МЕТОДИЧЕСКОЙ ЛИТЕРАТУРЫ,

ЗАТРАГИВАЮЩЕЙ НАУЧНО-ТЕХНИЧЕСКУЮ ПРОБЛЕМУ,

ИССЛЕДУЕМУЮ В РАМКАХ ПНИ. ......................................................... 16

2 ВЫБОР И ЕГО ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ РАЗНОВИДНОСТИ

РЕКУРРЕНТНОЙ СЕТИ, КОТОРАЯ БУДЕТ ИСПОЛЬЗОВАТЬСЯ В

КАЧЕСТВЕ ОСНОВНОЙ ПРИ РЕШЕНИИ ЗАДАЧИ ПРЕДСКАЗАНИЯ

ОПТИМАЛЬНОЙ ОБРАЗОВАТЕЛЬНОЙ ТРАЕКТОРИИ....................... 53

3. ВЫБОР И ЕГО ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЯ

АЛЬТЕРНАТИВНОГО (КОНТРОЛЬНОГО) МЕТОДА ПРЕДСКАЗАНИЯ

ОПТИМАЛЬНОЙ ОБРАЗОВАТЕЛЬНОЙ ТРАЕКТОРИИ....................... 65

4. ВЫБОР И ЕГО ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ МЕТОДА

ПОЛУЧЕНИЯ НАБОРА СИМУЛИРОВАННЫХ ДАННЫХ, НА

КОТОРЫХ БУДЕТ ПРОВОДИТЬСЯ ВЕРИФИКАЦИЯ РЕЗУЛЬТАТОВ

ЭКСПЕРИМЕНТОВ ...................................................................................... 67

5. РАЗРАБОТКА МАТЕМАТИЧЕСКОЙ МОДЕЛИ ПРИКЛАДНОГО

ПРИМЕНЕНИЯ РЕКУРРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ

ПРЕДСКАЗАНИЯ ОПТИМАЛЬНОЙ ОБРАЗОВАТЕЛЬНОЙ

ТРАЕКТОРИИ ............................................................................................... 71

6. АНАЛИЗ ДАННЫХ ОБ УЖЕ ЗАФИКСИРОВАННЫХ В БАЗЕ

ДАННЫХ ГЛОБАЛЛАБ СОБЫТИЯХ, ОТРАЖАЮЩИХ РАЗЛИЧНЫЕ

АСПЕКТЫ ОБРАЗОВАТЕЛЬНЫХ ТРАЕКТОРИЙ ПОЛЬЗОВАТЕЛЕЙ.

.......................................................................................................................... 76

7. СБОР ДАННЫХ О ПАРАМЕТРАХ ВЗАИМОДЕЙСТВИЯ УЧАЩЕГОСЯ

С ПОЛЬЗОВАТЕЛЬСКИМ ИНТЕРФЕЙСОМ. .......................................... 80

8. ЭКСТРАГИРОВАНИЕ ДОПОЛНИТЕЛЬНЫХ ДАННЫХ О

ПОВЕДЕНИИ ПОЛЬЗОВАТЕЛЕЙ И СВОЙСТВАХ УЧЕБНЫХ

ЕДИНИЦ. ........................................................................................................ 86

9. СБОР ДАННЫХ ОБ АКАДЕМИЧЕСКОЙ УСПЕВАЕМОСТИ

ПОЛЬЗОВАТЕЛЕЙ ИЗ ВНЕШНЕГО ИСТОЧНИКА. ............................. 110

10. ФОРМИРОВАНИЯ КОРПУСА ДАННЫХ О ПОВЕДЕНИИ

ПОЛЬЗОВАТЕЛЕЙ В ЭЛЕКТРОННЫХ ОБРАЗОВАТЕЛЬНЫХ

СИСТЕМАХ ................................................................................................. 131

Page 3: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

3

11. РАЗВОРАЧИВАНИЕ, НАСТРОЙКА И СИСТЕМНОЕ

АДМИНИСТРИРОВАНИЕ ОБЛАЧНОЙ ИНФРАСТРУКТУРЫ ДЛЯ

ФОРМИРОВАНИЯ КОРПУСА ДАННЫХ О ПОВЕДЕНИИ

ПОЛЬЗОВАТЕЛЕЙ В ЭЛЕКТРОННЫХ ОБРАЗОВАТЕЛЬНЫХ

СИСТЕМАХ ................................................................................................. 132

ЗАКЛЮЧЕНИЕ ................................................................................................ 136

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ...................................... 138

Page 4: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

4

СПИСОК ИСПОЛНИТЕЛЕЙ

Научный руководитель

работ,

к.п.н.

подпись

Т.В. Крупа

(раздел Введение, 1, 2, 3)

Исполнители:

Методолог

подпись

Ю.В. Аляева

(разделы 6 - 10)

Руководитель проекта

подпись

Н.А. Васильева

(разделы 2 - 5)

Методолог

подпись

Я.О. Злочевская

(разделы 1, 6)

Эксперт

подпись

О.Ю. Минаенко

(раздел 1 – 5, 10)

Разработчик

подпись

О.В. Сидоров

(раздел 11)

Page 5: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

5

ВВЕДЕНИЕ

Целью Проекта является исследование и разработка комплекса научно-

технических решений, направленных на создание и вывод на рынок новой

технологии автоматизированного формирования и корректировки

(адаптации) индивидуальных образовательных траекторий учащихся.

Достижение указанной цели и использование научно-технических

результатов Проекта обеспечат ряд полезных технических, технологических и

технико-экономических эффектов.

Целью отчетного этапа является выбор и обоснование направления

исследований, а также теоретические исследования поставленных перед ПНИ

задач. Для достижения указанной цели на данном этапе были решены

следующие задачи:

1) Выбрана и теоретически обоснована разновидность рекуррентной

сети, которая будет использоваться в качестве основной при решении задачи

предсказания оптимальной образовательной траектории.

2) Выбран и теоретически обоснован альтернативный (контрольный)

метод предсказания оптимальной образовательной траектории.

3) Выбран и теоретически обоснован метод получения набора

симулированных данных, на которых будет проводиться верификация

результатов экспериментов.

4) Разработана математическая модель прикладного применения

рекуррентных нейронных сетей для предсказания оптимальной

образовательной траектории.

5) Проведены патентные исследования в соответствии с ГОСТ Р 15.011-

96, результаты которых представлены в Приложении А к настоящему

промежуточному отчету.

6) Проведен анализ данных об уже зафиксированных в базе данных

ГлобалЛаб событиях, отражающих различные аспекты образовательных

траекторий пользователей.

Page 6: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

6

7) Выполнено экстрагирование дополнительных данных о поведении

пользователей и свойствах учебных единиц.

8) Собраны данные об академической успеваемости пользователей из

внешнего источника.

9) Собраны данные о параметрах взаимодействия учащегося с

пользовательским интерфейсом.

10) Сформирован корпус данных о поведении пользователей в

электронных образовательных системах.

11) Составлен аналитический обзор современной научно-технической,

нормативной, методической литературы, затрагивающей научно-техническую

проблему, исследуемую в рамках ПНИ.

12) Выполнено разворачивание, настройка и системное

администрирование облачной инфраструктуры для формирования корпуса

данных о поведении пользователей в электронных образовательных системах.

Проведенные в отчетный период работы позволили:

1) Изучить различные подходы к решению задачи по автоматизации

предсказания оптимальной образовательной траектории, описанные в

современной научно-технической литературе, включая подходы, основанные

на методах машинного обучения.

2) Выбрать и обосновать базовую архитектуру рекуррентной нейронной

сети, которая будет применяться для предсказания оптимальной

образовательной траектории и станет основной при проведении

экспериментальных исследований на Этапе 3 настоящего проекта.

3) Разработать математическую модель применения выбранной

архитектуры рекуррентной сети, которая будет использована при реализации

опытного образца программного комплекса, являющегося объектом

экспериментальных исследований на Этапе 3.

Page 7: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

7

4) Сформировать корпус входных данных рекуррентной сети,

включающий в себя сведения об академической успеваемости и о поведении

учащихся в электронной образовательной среде ГлобалЛаб.

Применение нейронных сетей для изучения и предсказания свойств

образовательной траектории предоставит в распоряжение научно-

исследовательских организаций и коллективов новые и эффективные методы

проведения исследований в области теории обучения, моделирования

когнитивных процессов, связанных с формированием различных

компетенций у учащихся, создания более точных методов оценки

образовательных результатов учащихся.

Применение методов машинного обучения для формирования личных

образовательных траекторий позволит за счет полной или частичной

автоматизации существенно снизить себестоимость индивидуализации

обучения, которое, как показывают многие отечественные и зарубежные

педагогические исследования, положительно влияет на уровень

образовательных результатов. Формирование и оптимизация индивидуальных

траекторий является важной и достаточно дорогостоящей частью

организации обучения по так называемой «смешанной» модели (blended-

learning) и «перевернутой» модели (flipped learning), завоевывающим все

большую популярность в связи с развитием средств дистанционного

образования.

Продукт, планируемый к созданию с использованием научно-

технических результатов, полученных в ходе выполнения ПНИ, будет

соответствовать мировому уровню, а по некоторым параметрам превосходить

аналоги на мировом рынке (Knewton, ALEKS). Это в свою очередь позволит

укрепить экспортный потенциал отечественных разработок в области

производства продуктов для электронного образования.

Большая часть изменений, наблюдаемых сейчас в сфере образования,

обусловлены тенденциями, ведущими, по мнению многих специалистов, к

Page 8: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

8

Четвертой промышленной революции1. Однако, многие изменения в

образовании, фиксируемые сегодня, наметились еще раньше — в конце 80-х

— начале 90-х годов XX века и в настоящий момент уже

институализировались во многих странах через национальные

образовательные стандарты и программы развития образования (в частности,

через Федеральный государственный образовательный стандарт в Российской

Федерации). К числу таких долгосрочных изменений может быть, в частности

отнесен постепенный переход от «знаниевой» модели, сложившейся еще в

эпоху Возрождения, к «компетентностной» модели. Традиционная знаниевая

модель предполагает, что основным смыслом образования является

увеличение объема информированности в различных предметных областях, в

то время как компетентностная модель ставит во главу угла развитие у

учащихся способности самостоятельно решать проблемы в различных сферах

и видах деятельности.

На общую смену модели обучения, как основной процесс,

накладывается вторая очень важная тенденция — возрастающий спрос на

постоянное, так называемое «пожизненное» обучение (lifelong learning).

Быстрое развитие новых технологий в области работы с данными и

робототехники, ставит под угрозу существование многих профессий уже в

ближайшем будущем. В этих условиях конкурентные преимущества на рынке

труда получают те работники, которые способны в краткие сроки освоить

новые компетенции. Это подтверждается рядом исследований запросов

1 см. материалы доклада А.М. Кондакова «Школа эпохи четвертой промышленной

революции», на семинаре Высшей Школы Экономики в феврале 2017 г.

(https://ioe.hse.ru/data/2017/02/06/1167355033/%D0%9F%D1%80%D0%B5%D0%B7%D0

%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F%20%D0%90%D0%9C%20

%D0%9A%D0%BE%D0%BD%D0%B4%D0%B0%D0%BA%D0%BE%D0%B2%D0%B0

%20_%20%20(%D1%81%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80%20%

D0%92%D0%A8%D0%AD).pdf)

Page 9: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

9

работодателей, называющими «навык решения проблем» - основным для

будущих соискателей2.

Обозначенные тенденции выдвигают ряд методологических,

методических и технических вызовов, в ответ на которые происходит

стремительный поиск, внедрение и массовое распространение новых

образовательных технологий, продуктов и услуг, многие из которых

базируется на использовании информационно-коммуникационных

технологий (ИКТ).

Ярким примером применения ИКТ для создания новых форм

образования являются массовые открытые онлайн курсы (Massive Open

Online Course, MOOC), первоначально представлявшие возможность

широкому кругу пользователей просмотреть видео-записи лекций по

традиционным дисциплинам от ведущих вузов. На сегодняшний день

технология и модель MOOC серьезно расширилась и включает в себя,

помимо видео-лекций, почти все формы традиционной учебной деятельности

(лекции, семинары, выполнение проверочных работ, самостоятельная

практическая работа, групповая работа), а также новые формы — выполнение

проектов, проведение учебных исследований, участие в онлайн-обсуждениях,

работа с виртуальными учебными моделями, дистанционная работа на

сложном лабораторном оборудовании и многое другое.

Модель MOOC распространилась далеко за пределы изучения

традиционных дисциплин. На современных платформах MOOC пользователи

могут пройти обучения по курсам, связанным с очень узкими и

специальными областями. Показателен пример платформы Udacity

(https://www.udacity.com), предложившей концепцию «нано-степеней» (nano-

degrees) — аттестации отдельных и специализированных компетенций,

которые пользователь получает в результате прохождения отдельного курса

(например, нано-степень в области разработки виртуальной реальности или

2 Развитие навыков для инновационного роста в России. – М.: «Алекс», 2015. –172 с.

Page 10: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

10

создания автомобилей без водителя). Дробление и специализация курсов в

модели MOOC постепенно меняет представление об образовательной

деятельности, как выстроенной в рамках ограниченного набора дисциплин

или образовательных программ с заранее спроектированной траекторией

прохождения.

Модель MOOC стала оказывать влияние на формы обучения в

традиционных образовательных институтах — школе и вузе. Задуманные

первоначально как облегченная, во многом суррогатная форма обучения в

вузе, работа по модели MOOC сегодня активно используется для повышения

эффективности очных занятий через применение метода «перевернутого»

класса (flipped classroom). Основная идея данного метода состоит в том,

чтобы деятельность по ознакомлению с новым материалом и

самостоятельной проверке знаний была вынесена за рамки очного занятия —

в форме MOOC, а наиболее ценный ресурс – время преподавателя – был

потрачен на дискуссии, разбор сложных вопросов, выполнение проектов.

Концепция применения средств электронного обучения (и прежде всего

MOOC) для повышения эффективности очных форм обучения получило

название смешанного обучения (blended learning).

Распространение обучение по модели MOOC уже принимает массовый

характер. Так, по данным совместного аналитического доклада крупнейших

на российском рынке онлайн-образования компаний Coursera, "Открытое

образование" и "Лекториум" в 2016 году число россиян, выбравших хотя бы

один образовательный курс на одной из этих платформ, достигло 1 млн

человек. Это в два раза больше, чем в 2015 году3. Одной из основных

проблем, с которой сталкивается как поставщики, так и потребители

образовательных услуг по модели MOOC является проблема низкого

процента учащихся, успешно завершивших прохождения образовательной

3 Данные отчета цитируются по публикации газеты «Коммерсант»,

12.01.2017, https://www.kommersant.ru/doc/3188539

Page 11: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

11

траектории в MOOC (процент завершения, completion rate). В исследовании

Jordan, K. (2013). MOOC Completion Rates4, были представлены результаты

анализа данных о проценте завершения для 13 платформ MOOC. Так на

момент исследования (май 2014 год) процент пользователей, завершивших

обучение по выбранному курсе на платформе Coursera, составлял в среднем

6%, на платформе Open2Study — 30%, на платформе edX — 8%. Среди

причин столь низкого процента завершения называются:

1) Отсутствие достаточно мотивации (многие пользователи

записываются на курс без серьезного намерения пройти его).

2) Недостаток времени (слишком крупные учебные единицы, на

которые пользователи не могут выделить достаточно длительные временные

промежутки).

3) Резкое возрастание сложности материала по мере прохождения

курса.

4) Отсутствие нужной подготовки.

5) Неудачно составленные домашние задания.

6) Неофициальный статус аттестации у онлайн-курсов.

По крайней мере причины 1 - 4 могут быть сведены к общей проблеме

недостаточной степени индивидуализации траектории в MOOC, ее гибкости

по отношению к возможностям учащегося.

Проблема низкого процента завершения, выявленная в MOOC, является

частным проявлением гораздо более масштабной и общей проблемы низких

образовательных результатов. В MOOC, где участие часто бывает

добровольным, низкий образовательный результат фиксируется как факт

незавершения курса (drop-out). При обучении в школе или вузе та же самая

проблема проявляется как низкий средний балл на уровне конкретных

учащихся и низкие позиции образовательной организации в различных

4 http://www.katyjordan.com/MOOCproject.html

Page 12: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

12

национальных и международных рейтингах, а также утеря доверия к системе

аттестации со стороны работодателей.

Гипотеза о том, что различные формы индивидуализации

образовательной траектории оказывают положительно влияние на

образовательные результаты, была подтверждена множество раз в ходе

совершенно разных педагогических экспериментов еще в начале 80-х годов

XX века5. В традиционных формах образования индивидуализация

производится прежде всего преподавателем, который осуществляет подбор

учебного материала и выстраивает последовательность его изучения на

основе анализа поведения и промежуточных образовательных результатов

учащегося. В ситуации массовых, разнообразных и чрезвычайно

специализированных образовательных продуктов типа MOOC, где

количество обучающихся может достигать сотен тысяч и даже миллионов

человек, любой метод индивидуализации, основную роль в котором играет

преподаватель, не может быть реализован по объективным причинам. При

этом электронный характер обучения в MOOC открывает новые —

технические возможности для автоматизации индивидуализации

образовательных траекторий. Огромное число данных о поведение

пользователей, накапливающееся в электронных образовательных системах

(ЭОС), и развитие методов машинного обучения могут привести к созданию

совершенно новых технологий индивидуализации. При этом эти новые

технологии могут быть использованы не только в MOOC, но и во всех

формах образования, включая традиционные.

Направление использования различных методов автоматизации

построения индивидуальных образовательных траекторий на базе данных,

накапливающихся в электронных образовательных системах, получило

5 см., например, мета-анализ по индивидуализации при преподавании математики в Horak

V. M. A meta-analysis of research findings on individualized instruction in mathematics //The

Journal of Educational Research. – 1981. – Т. 74. – №. 4. – С. 249-253.

Page 13: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

13

название адаптивное обучение (Adaptive Learning). На международный рынок

выведено уже несколько продуктов, предлагающих различные сервисы по

построению индивидуальных образовательных траекторий в области

электронного обучения. К числу лидеров на этом рынке в настоящий момент

могут быть отнесены компании ALEKS и Knewton.

Метод индивидуализации траектории, применяемых в продукте

компании ALEKS, основан на теории пространства знания (Knowledge Space

Theory, KST), разрабатывающейся исследовательской командой компании

уже в течение более 25 лет6. Теория KST базируется на построении модели

произвольной области знаний на основе вычленения входящих в ее состав

отдельных концепций и описание их общности как стохастического процесса,

обладающего свойствами цепи Маркова. Подход ALEKS в этой связи

обладает двумя существенными недостатками:

1. Он требует большого объема ручного труда эксперта по

эмпирическому выделению и описанию связей и зависимостей отдельных

тематических блоков, входящих в состав изучаемой предметной области

(например, как связаны с точки зрения порядка изучения блоки

«Арифметические операции над дробями» и «Наименьший общий

знаменатель» в курсе математики). При этом выделение этих связей должно

отвечать ограничениям, накладываемым на цепи Маркова.

2. Процесс обучения описан как цепь Маркова — то есть

последовательность событий или состояний с конечным числом исходов. При

этом переход к следующему событию обусловлен исключительно текущим

событием и не учитывает прошлую траекторию движения.

В основе метода индивидуализации образовательной траектории

компании Knewton лежит теория IRT (Item Response Theory, в отечественной

литература имеет несколько вариантов перевода: «Теория моделирования и

параметризации педагогических тестов» (ТМППТ), «Математико-

6 см. список публикаций https://www.aleks.com/about_aleks/publications_kst

Page 14: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

14

статистическая теория оценки латентных параметров заданий теста и уровня

подготовленности испытуемых»), разработка которой была начата еще в 50-х

годах XX века7. За время существования теории IRT было разработано целое

семейство математических моделей, описывающих вероятность успешного

прохождения учащимся очередного тестового задания как нелинейную

функцию (чаще всего сигмоидальную) от уровня подготовленности студента,

уровня сложности задания и уровня различающей способности задания.

Компания Knewton предложила собственную версию математической модели

IRT, призванную преодолеть два традиционных ограничения этой теории8:

1) Допущение о том, что уровень подготовленности учащегося остаётся

постоянным.

2) Допущение о возможности представления уровня подготовленности

учащегося в виде небольшого числа параметров (одного — в классическом

IRT, двух — в версии 2PL IRT).

Несмотря на то, что версия IRT Knewton учитывает темпоральный и

многофакторный характер уровня подготовленности учащегося, подход

Knewton обладает целом рядом других недостатков, связанных с базовыми

ограничениями теории IRT:

1) В качестве шагов образовательной траектории могут использоваться

исключительно проверочные задания (тесты). Учебная деятельность

пользователя, не связанная с оценкой знание, никак не учитывается моделью.

2) Как и в случае подхода ALEKS, подход Knewton требует большого

объема работы эксперта по определению параметров сложности заданий. Во

многих случаях требуется составление заданий с учетом ограничений IRT.

7 Lord, F. M. (1952). A Theory of Test Scores. Number 7 in Psychometric Monograph. Psychometric

Corporation

8 Knewton. The knewton platform: A general-purpose adaptive learning infrastructure. Technical

report, 2015, https://www.knewton.com/wp-content/uploads/knewton-technical-white-paper-

201501.pdf

Page 15: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

15

Краткий анализ лидирующих продуктов на рынке адаптивного

обучения показывает, что имеющиеся на сегодняшний момент коммерческие

решения обладают двумя основными недостатками, препятствующими их

широкому применению в области индивидуализации образовательных

траекторий:

1) Необходимость привлечения экспертов для формирования модели

предметной области или проверочных заданий. Как следствие — сохраняется

высокая себестоимость индивидуализации образовательной траектории.

2) Ограниченная модель процесса обучения, слабо учитывающая

историю прохождения траектории (в случае ALEKS) или ограничивающая

траекторию только событиями, связанными с проверкой уровня

подготовленности (в случае Knewton).

Предлагаемый к реализации ПНИ и его запланированные результаты

позволят создать коммерческий продукт, преодолевающий указанные выше

недостатки.

Page 16: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

1. Аналитический обзор современной научно-технической,

нормативной, методической литературы, затрагивающей научно-

техническую проблему, исследуемую в рамках ПНИ9.

Одними из первых, кто начал экспериментально исследовать и

описывать формально (математически) процесс обучения, стали психологи, и,

прежде всего, они занимались не обучением как таковым, а научением (в

английском языке оба термина часто переводятся одинаково, как «learning», но

ближе все-таки понятие «training»), или, еще более конкретно, итеративным

научением. При научении человек, или, в общем случае, некоторая обучаемая

система, которая может быть живой или неживой (технической или

кибернетической) многократно повторяет некоторые действия (пробы,

попытки) для достижения определенной цели при неизменном комплексе

условий.

Для того, чтобы понять, как же происходит процесс научения,

существуют ли какие-либо общие законы для его описания, было проведено

огромное количество психологических экспериментов, как с людьми, так и с

животными. В. М. Аллахвердов определяет научение как «процесс повышения

эффективности деятельности в результате упражнения, т.е. многократного

повторения одних и тех же действий», и отмечает, что можно выделять как

сенсомоторное научение, так и научение как процесс заучивания в памяти [11].

Пионерскими работами по экспериментальному исследованию научения

считают работы Эббингауза и Торндайка, после которых многие другие

ученные стали изучать научение [12]. На основе обработки экспериментальных

данных пытались построить так называемую «кривую обучения» - «график,

изображающий, как в условиях заданного эксперимента от пробы к пробе

9 В разделах 1 и 11 представлены работы, выполненные за счет средств

Индустриального партнера.

Page 17: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

17

изменяются характеристики испытуемого или группы испытуемых» [12].

Например, Л.Терстоун предложил так называемый гиперболический закон

обучения:

,)(

)(

bcn

cnay

где y – усвоения, n – число испытаний, a и c – константы, b – скорость

обучения.

Дальнейшим развитием формализации обучения стали предложенные Г.

Бушем и Ф. Мостеллером в середине прошлого столетия так называемые

стохастические модели обученности. Таким образом, для формализации

обучения стал применяться аппарат, использующий вероятности событий, и

теорию стохастических процессов, в частности, представление данных в виде

цепей Маркова.

Модели теории педагогических измерений

Теории педагогических измерений (педагогическому тестированию,

ТМППТ - теории моделирования и параметризации педагогических тестов; в

англоязычных источниках – «Evaluation», «Educational Measurement»)

посвящено большое количество научных публикаций и книг [2, 8, 9, 10, 13, 14].

Большой вклад в развитие этой теории внесли Аванесов В.С., Майоров А.Н.,

Шмелев А.О., Татур А.О., Нейман Ю.М., Челышкова М.Б., Рудинский И.Д.,

Васильев В.И. и другие ученые. Не претендуя на полноту обзора, рассмотрим

здесь некоторые положения и математические модели этой теории, опираясь, в

основном, на работу [2].

По определению Аванесова В.С., «Педагогические измерения – это

прикладная научная теория, сформировавшаяся на стыке педагогики,

психологии, теории измерений, статистики, математики, логики и философии»

[8]. Более частное определение гласит, что «педагогическое измерение – это

(1)

Page 18: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

18

процесс установления соответствия между оцениваемыми характеристиками

обучаемых и точками эмпирической шкалы, в которой отношения между

различными оценками характеристик выражены свойствами числового ряда»

[2].

Особенно важно отметить, что процесс конструирования

педагогического теста – это всегда итеративный процесс: «возникает

своеобразный цикл, так как после чистки теста разработчику приходится

возвращаться к этапу сбора эмпирических данных, причем, как правило, не

один раз, а два, три и более» [2]. Атанов Г.А. отмечает, что «на отработку

теста, т.е. на доведение его до уровня инструмента, может потребоваться

несколько лет!» [1].

Для обработки эмпирических данных тестирования в рамках теории

педагогических измерений часто выделяются два класса методов – обработка в

рамках классической теории тестирования и обработка в рамках так

называемой современной теории тестирования IRT (Item Response Theory).

Классическая теория тестирования предполагает, что существует

некоторое истинное значение интересующего качества у каждого

испытуемого, но при измерении всегда с неизбежностью присутствует

некоторая погрешность. Этот постулат можно выразить следующей формулой:

Xi=Ti+Ei.

Поскольку обработка эмпирических данных тестирования в рамках

классической теории, фактически, мало отличается от традиционного способа

обработки статистических данных в рамках базовых методов параметрической

статистики (построение вариационного ряда, различных гистограмм,

вычисление оценок математического ожидания, дисперсии, корреляционный и

регрессионный анализ), останавливаться подробно на этих процедурах не

будем.

Теория IRT, в свою очередь, основана на применении математической

статистики и теории латентно-структурного анализа (ЛСА). Основной

(2)

Page 19: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

19

гипотезой IRT является утверждение о существовании взаимосвязи между

наблюдаемыми результатами тестирования и латентными (скрытыми от

непосредственного наблюдения) характеристиками испытуемых, причем

латентный параметр испытуемого рассматривается не как некоторое

постоянное число, а как переменная.

Введем два множества: i (i = 1, 2, .., N) – множество значений

латентного параметра, определяющего уровень подготовки N испытуемых; j (j

= 1, 2, …, n) – множество значений латентного параметра, определяющего

трудность (сложность) n заданий теста. Датский математик Г. Раш предложил

оценивать эти два параметра в одной шкале, и рассматривать разность ( - ).

В этом случае можно ввести:

.,...,2,1),(}|1{ NifxPiiiji

– условная вероятность правильного выполнения i-м испытуемым с

уровнем подготовки i различных по трудности заданий теста, причем i

рассматривается как параметр i-го ученика, а – как независимая переменная.

.,...,2,1),(}|1{ njxPjjijj

– условная вероятность правильного выполнения j-го задания с

трудностью j различными испытуемыми группы, когда независимой

переменной является , а j – параметр, определяющий трудность j-го задания.

Здесь xij = 1, если ответ i-го испытуемого на j-е задание верный; xij = 0,

если ответ i-го испытуемого на j-е задание неверный.

Эти функции f() и () в теории IRT обозначают аббревиатурой IRF

(Item Response Functions). График функции Pj называют характеристической

кривой j-го задания (ICC), а график функции Pi – индивидуальной кривой i-го

испытуемого (PCC).

(3)

(4)

Page 20: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

20

Если считать, что значения параметров и имеют нормальное

распределение, то в качестве описанных выше функций можно взять

логистическую функцию (x), которая очень близка к интегральной функции

нормированного нормального распределения Ф(x), однако, в отличие от нее,

имеет простое аналитическое выражение. В частности, выполняется

следующее соотношение:

|Ф(x) - (1,7x)| < 0,01.

Среди логистических функций IRF различают:

однопараметрическую модель Г. Раша

,

1

)()(7,1

)(7,1

j

j

e

eP

j

.1

)()(7,1

)(7,1

i

i

e

eP

i

двухпараметрическую модель А. Бирнбаума

,

1

)()(7,1

)(7,1

jj

jj

a

a

j

e

eP

.1

)()(7,1

)(7,1

ii

ii

a

a

i

e

eP

Здесь введены дополнительные параметры ai и aj. Параметр aj

характеризует дифференцирующую способность задания при измерении

различных значений ; параметр ai – мера структурированности знаний

испытуемого.

Трехпараметрическую модель А. Бирнбаума

(5)

(6)

(7)

Page 21: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

21

,

1

)1(}|1{)(7,1

)(7,1

jj

jj

a

a

jjjijj

e

eccxP

где cj характеризует вероятность правильного ответа на задание j, если

ответ угадан, а не основан на знаниях испытуемого.

Во всех трех моделях параметры и измеряются в общей шкале

логитов. При отношении двух величин, равном е, их различие составит 1

логит. В шкале логитов, например, можно говорить о том, что знания одного

испытуемого лучше знания другого на столько-то логитов.

Некоторые простые модели формирования оценки знаний

Ниже приведены некоторые простые модели формирования оценки

знаний. Обзор опирается, в основном, на работу [2].

Модель «Процент правильных ответов». Пожалуй, это самая часто

используемая модель, основанная на отношении числа правильных ответов к

общему числу вопросов:

.1

n

R

R

k

i

i

Здесь R – оценка; Ri – число баллов, полученное за выполнение i-го

задания (обычно, неправильный ответ – 0 баллов, правильный – один или

более баллов); к – число правильно выполненных заданий; n – общее число

заданий (k <= n). Затем окончательная оценка вычисляется по следующей

формуле:

(8)

(9)

Page 22: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

22

.1

21

1

,

...

,,2

,,1

McRM

cRc

cR

I

Здесь I – окончательная оценка, {c1, c2, …, cM} – вектор граничных

значений, M – максимально возможная оценка (для пятибалльной шкалы M =

5). Понятно, что эта модель достаточно примитивная, но в то же время

максимально прозрачная.

Модель, учитывающая время выполнения. Здесь число баллов,

начисляемых за правильные ответы, рассчитывается по формуле:

.,0

,1

max

max

tt

ttR

i

Фактическое время выполнения задания t сравнивается с некоторым

максимальным порогом tmax. Окончательная оценка определяется так же, как и

для модели «Процент правильных ответов».

Модель на основе уровней усвоения. Для каждого задания здесь вводится

специальная характеристика – уровень усвоения (понимание, опознание,

воспроизведение, применение, творческая деятельность), и указывается набор

существенных операций, т.е. операций, выполняемых на проверяемом уровне

(в число существенных не включаются операции, относящиеся к более низким

уровням). Для каждого уровня вычисляется коэффициент К [0, 1]:

,

2

1

P

PK

(10

)

(11

)

(12

)

Page 23: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

23

где P1 – количество правильно выполненных существенных операций; Р2

– общее количество существенных операций; a = 0, 1, 2, 3, 4 – уровни

усвоения. Оценка выставляется на основе граничных значений:

K < 0.7 – неудовлетворительно;

0.7 <= K < 0.8 – удовлетворительно;

0.8 <= K < 0.9 – хорошо;

K >= 0.9 – отлично.

Метод линейно-кусочной аппроксимации. В этом методе для каждого

задания указываются три характеристики: значимость (z), трудность (d),

спецификация (s). На основе этих характеристик вводится вектор весовых

коэффициентов заданий W = {wi}. Тогда число баллов, которое получает

испытуемый в результате выполнения n заданий, можно определить так:

,1

n

i

iixy

где xi – число баллов, полученных испытуемым за выполнение i-го

задания.

Затем определяется средний балл А испытуемого за выполнение n

заданий (A = y / kn, где kn – количество попыток выполнения n заданий, kn >= n )

и уточненный средний балл A':

,4321

n

ka

n

ka

n

nkaraAA

bcn

где r – ранг обучаемого (1, 2, или 3);

kn – количество попыток выполнения n заданий;

kc – количество обращений к справочной информации;

kb – количество заданий, выполненных с превышением отведенного времени

(13

)

(14

)

Page 24: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

24

(kb <= n);

a1, a2, a3, a4 - коэффициенты.

Далее значения уточненного среднего балла с помощью вектора

граничных значений переводятся в обычную пятибалльную шкалу.

Значения весовых коэффициентов wi, коэффициентов ai и значения

элементов вектора граничных значений определяются экспериментально.

Краткий обзор моделей представления знаний и моделей рассуждений

Представление знаний. В области искусственного интеллекта понятие

«знание» часто определяют через понятие «логический вывод», например:

«знания – это формализованная информация, на которую ссылаются и которую

используют в процессе логического вывода» [14]. Однако, пожалуй, наиболее

конструктивным для создания компьютерных систем является определение

категории знания через категорию данных. Наиболее четкое и строгое

определение с точки зрения соотношения данных и знаний ввел Д.А.

Поспелов: он выделил следующие шесть характеристик, усложняющие данные

и превращающие их в знания: внутренняя интерпретируемость,

структурированность, связность, шкалирование, семантическая метрика,

наличие активности [4, 15].

В [15] Д.А. Поспелов выделяет следующие задачи, решаемые

представлением знаний как ведущим направлением искусственного

интеллекта: «а) как собрать знания о проблемной области и, в частности, как

получить с помощью опроса эти знания от специалистов в данной области; б)

как представить эти знания в базе знаний в форме, удобной для последующей

обработки на ЭВМ; в) как сохранить непротиворечивость и достичь полноты

знаний при объединении знаний, получаемых из различных источников; г) как

классифицировать собранные знания и как обобщать их в процессе

накопления; д) как их использовать при решении различных задач.». В свою

очередь, Э.В. Попов в [2] и [16] особый акцент делает на выделение двух

Page 25: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

25

проблем, связанных с представлением знаний: ЧТО представлять и КАК

представлять, и подчеркивает, что в искусственном интеллекте основной

акцент делался на второй проблеме в ущерб первой; также он отмечает, что эти

две проблемы не независимы друг от друга, так как «в некотором выбранном

способе представления невозможно (либо в принципе, либо эффективно)

выразить некоторое ЧТО» [7].

Предлагаемая в работе классификационная схема способов

представления знаний изображена на рисунке 1.

Логические Эвристические

Критерий 3. Базовые модели (формализмы)

ПРЕДСТАВЛЕНИЕ ЗНАНИЙ

Символьный

Коннекционистский

(нейронные сети)

Эмерджентный

(эволюция, социум)

Смешанный

Критерий 1. Концептуальный подход

"Обычный" поход

(не используется ни

тезаурус, ни онтология)

Тезаурусный подход

Онтологический подход

Тезаурус+Онтология

(ТЕОН)

Критерий 2. Использование парадигм

"тезаурус" и "онтология"

Классические

логики

"Нетрадиционные"

логики

Сетевые модели

(семантические сети)

Продукции

Объектно-

ориентированные модели

Специальные

Фреймы

Рисунок 1 - Классификационная схема представления знаний

Первым критерием классификации является концептуальный подход к

представлению знаний, при этом можно выделить следующие подходы:

символьный (это традиционные модели, такие как фреймы, семантические

Page 26: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

26

сети, продукции), коннекционистский подход (нейронные сети),

эмерджентный подход (применение принципов эволюции и самоорганизации –

эволюционные вычисления, генетические алгоритмы и т.д.; применение

моделей социальных систем – решение задачи сообществом интеллектуальных

агентов), а также смешанный подход, когда в одной модели объединяются,

например, нейронные сети и продукционные системы.

Такое деление не очень принято в отечественной литературе, но, тем не

менее, достаточно распространено в иностранной (см., например, [2]). Часто в

качестве одной из ключевых современных проблем представления знаний

называют объединение символьных и коннекционистских подходов. Одной из

концепций, объединяющей разные подходы (нечеткую логику, нейронные

сети, генетические алгоритмы) является концепция «мягких вычислений» [18].

Второй критерий связан с понятиями тезауруса и онтологии. А.С.

Нариньяни даже ввел аббревиатуру ТЕОН, которая символизирует

необходимость объединения этих двух подходов для разработки систем,

реализующих в той или иной степени понимание естественного языка.

Как определено в [19], «формализацию знаний путем именования

предметов и отношений между ними словами-понятиями естественного языка

называют тезаурусным описанием, а результаты такого описания –

тезаурусами». Иначе говоря, тезаурус можно рассматривать как модель

парадигматической структуры плана содержания языка [20]. Основная идея

словаря-тезауруса заключается в том, что он как бы «противоположен»

обычному толковому словарю: в толковом словаре входами являются слова,

упорядоченные по тому или иному признаку (обычно по алфавиту), а

выходами толкования этих слов; в тезаурусе все наоборот – входом являются

«идеи» («смыслы», «когнитивные области»), упорядоченные тем или иным

способом, а выходом – слова, выражающие данные «смыслы» [20].

Что касается онтологии, то единого мнения о том, что это такое, нет.

Рассмотрим определения, данные в работе [21]: 1) онтология – явная

спецификация концептуализации; 2) онтология – некоторая теория

Page 27: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

27

(совокупность) понятий, или словарь понятий, используемых в качестве

строительных кирпичиков систем обработки информации; 3) онтология –

соглашение о совместно используемых (shared) концептуализациях.

Формально модель онтологии задается следующей тройкой [49]:

O = (X, R, Ф),

где X – конечное множество концептов предметной области, R –

конечное множество отношений между концептами, Ф – конечное множество

функций интерпретации, которые задаются на множестве X и/или R.

Третий критерий связан с традиционным делением моделей

представления знаний на логические и эвристические, и рассмотрением

базовых формализмов представления знаний, таких как семантические сети,

логика предикатов, продукции и т.д.

В логических моделях представления знаний отношения, существующие

между отдельными единицами знаний, выражаются исключительно

средствами того логико-математического языка, который используется для

представления знаний. В основе всех логических моделей лежит понятие

формальной логической системы (теории):

M = <T, P, A, F>,

Здесь T – множество базовых элементов, P – множество синтаксических

правил, позволяющих строить из T синтаксически правильные выражения, A –

множество априорно истинных выражений (аксиом), F – семантические

правила или правила вывода, которые используются для формального вывода

из аксиом и ранее выведенных истинных выражений других истинных

выражений.

Эвристические модели представления знаний, в отличие от логических,

имеют разнообразный набор средств, передающих специфические особенности

(15

)

(16

)

Page 28: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

28

конкретной предметной области [16]. Следуя [16], к эвристическим моделям в

данной работе отнесены сетевые, продукционные, фреймовые и объектно-

ориентированные модели; также дополнительно добавлен класс специальных

эвристических моделей представления знаний – сюда можно отнести,

например, алгебраические подходы к представлению знаний [22].

В основе сетевых моделей лежит понятие сети, образованной

помеченными вершинами и дугами; вершины сети представляют некоторые

сущности (объекты, события, процессы, явления), а дуги – семантические

отношения между сущностями, которые они связывают (например, отношения

«часть-целое», «причина – следствие», «объект – свойство объекта», и многие

другие) [16].

Фрейм-представления были предложены М. Минским [23]. Фрейм

можно понимать как структуру данных, предназначенную для представления

некоторой стандартной, стереотипной ситуации. Каждый фрейм имеет слоты, в

свою очередь каждый слот может иметь определенное значение; можно

выделять фреймы-прототипы и фреймы-экземпляры, реализуя таким образом

отношение обобщения/конкретизации. К слотам могут быть привязаны

условия, которые должны выполняться, чтобы произошло означивание слота,

или процедуры (демоны), которые вызываются при обращении к слоту для

получения его значения, также слоты могут иметь значения по умолчанию.

Объектно-ориентированный подход, фактически, является развитием

фреймового; в его основе лежат понятия объекта и класса [16]. В качестве трех

китов, на которых основан объектно-ориентированный подход, или, более

конкретно, объектно-ориентированное программирование, часто называют

инкапсуляцию, наследование и полиморфизм. Гради Буч выделяет 7 главных

элементов объектной модели: абстрагирование, инкапсуляция, модульность,

иерархия, типизация, параллелизм, сохраняемость [24].

В продукционном подходе знания представляются в виде множества

правил «ЕСЛИ, ТО». Такое представление знаний для моделирования на

компьютере процесса принятия решений первым предложил использовать А.

Page 29: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

29

Ньюэлл. В архитектуре программных систем продукций традиционно

выделяют три основных компонента: базу данных, в которой хранится текущая

информация о решаемой задаче; базу знаний – множество продукций;

интерпретатор (машину вывода), выполняющий преобразование базы данных

на основе продукций с использованием некоторой стратегии вывода [25].

Моделирование рассуждений. В толковом словаре по искусственному

интеллекту под редакцией А.Н.Аверкина, М.Г.Гаазе-Рапопорта и

Д.А.Поспелова дается следующее толкование: «Рассуждение – способ

получения заключения на основе посылок и вспомогательных соображений.

Крайним случаем рассуждения является логический вывод, в котором воля

субъекта не играет роли. В других случаях рассуждение отражает личностные

мотивы и интересы того, кто проводит рассуждение» [26]. В [9] утверждается,

что под рассуждением понимается «построение последовательности

аргументов, вынуждающих принятие некоторого утверждения, которое и

является целью рассуждения. Особенностями рассуждения, отличающими его

от логического вывода, и в частности, от доказательства, в стандартном

понимании являются: открытость множества возможных аргументов;

использование метатеоретических, и, в частности, металогических средств, с

помощью которых осуществляется управление логическими выводами,

применяемыми в процессе рассуждения; использование правил не только

достоверного, но и правдоподобного вывода» [4].

Термин «правдоподобные рассуждения», как и, пожалуй, попытка

впервые построить математическую теорию таких рассуждений, принадлежит

Д. Пойа. В своей классической работе [27] он противопоставляет

доказательные и правдоподобные рассуждения: первые являются надежными,

неоспоримыми и окончательными, вторые – рискованными, спорными и

условными; доказательные рассуждения, безусловно, важны, но сами по себе

они не могут дать существенно новое знание об окружающем нас мире: это

новое всегда дают человеку правдоподобные рассуждения [27]. Достоверными

являются рассуждения, в которых из истинности посылок с неизбежностью

Page 30: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

30

следует истинность заключения; соответственно, правдоподобными называют

рассуждения, не обладающие таким свойством.

На рисунке 6 представлена классификационная схема моделей

рассуждений – безусловно, эта схема далеко не полна, и дает лишь некоторое

поверхностное представление о типах рассуждений и техниках для их

моделирования. Рассмотрим эту схему более подробно.

О делении на достоверные и правдоподобные рассуждения (критерий 1

на рисунке 2) уже было сказано выше.

Дедукция, индукция и абдукция (критерий 2) – это наиболее

фундаментальные, базовые формы рассуждений, играющие особую роль в

научном познании. Ч. Пирс считал, что каждой из этих форм соответствует

определенный этап научного исследования: сначала ученый наблюдает и

сопоставляет различные явления реального мира и, на основании этих

наблюдений, генерирует гипотезы (абдукция), затем из полученных гипотез

выводятся некоторые заключения, причем из истинности гипотез должна с

необходимостью следовать истинность этих заключений (дедукция), и,

наконец, дается оценка тому, насколько данные заключения соответствуют

реальности (индукция) [4].

Page 31: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

31

Подходы в рамках

автоматического

доказательства

теорем

Иные

подходы

Критерий 3. Использование

автоматического

доказательства теорем

МОДЕЛИ РАССУЖДЕНИЙ

Достоверные

Правдоподобные

Критерий 1. Достоверность

Дедукция

Индукция

Абдукция

Иное

Критерий 2. Отношение к базовым

формам рассуждений по Ч. Пирсу

Классические

логики

"Нетрадиционные"

логики

Классический вывод

в продукционной системе

(Rule-Based Reasoning)

Вероятностные

рассуждения

(Probabilistic Reasoning)

Рассуждения по аналогии

(Analogical Reasoning)

Другие модели

Нечеткие рассуждения

(Fuzzy Reasoning)

Рассуждения на основе

прецедентов

(Case-Based Reasoning)

Аргументационные

системы

Системы поддержки

истинности

ДСМ-метод В.К. Финна

Деревья решений (ID3)

Нейросетевые модели

Критерий 4. Распространенные

техники ИИ для

моделирования рассуждений

Экономика

Математическая логика

Психология

Биология

Теория вероятностей и

мат. статистика

Критерий 5. Области знаний (науки),

которые являются первоисточниками

разных моделей рассуждений (эта

классификация приведена в [278])

Рисунок 2 - Классификационная схема моделей рассуждений

Автоматическое доказательство теорем (критерий 3) является старейшей

областью искусственного интеллекта, и, пожалуй, первой попыткой

автоматизировать рассуждения человека. Модели в рамках этого подхода

основаны на понятии формальной логической системы (теории), которое уже

было дано выше. На сегодняшний день уже очевидно, что такой подход

является слишком ограниченным, т.к. в большинстве предметных областей

достигнуть такой высокой степени «формализованности» рассуждений,

которая соответствует доказательству теорем, едва ли возможно.

В соответствии с критерием 4 на рисунке 2 выделены некоторые

наиболее распространенные техники моделирования рассуждений,

Page 32: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

32

применяемые в области искусственного интеллекта. Ниже дается краткое

описание для каждой из этих техник.

В основе классического вывода в продукционной системе (Rule-Based

Reasoning) лежит применение правила вывода Modus Ponens: из посылок «A»,

«Если A, то B» выводится заключение «B». Как уже упоминалось выше, любая

продукционная система содержит базу данных, текущее состояние которой,

фактически, есть множество некоторых утверждений «A», «B», «C» и т.д.;

базу знаний, содержащую множество продукций вида «Если А, то B»; машину

вывода, которая, используя некоторую стратегию, исходя из текущего

состояния базы данных выбирает применяемое на данном шаге правило

(продукцию), затем применяет его, что приводит к обновлению состояния базы

данных, затем выбирает новое правило для применения и т.д. Возможен как

прямой вывод, когда происходит переход от левых частей правил к правым,

так и обратный, выявляющий, исходя из каких посылок можно было прийти к

некоторому заключению.

Основной идеей вероятностных рассуждений (Probabilistic Reasoning)

является расширение классического продукционного подхода, при котором

каждому утверждению ставится в соответствие определенная количественная

мера, характеризующая степень соответствия этого утверждения реальной

действительности (степень достоверности, уверенности, истинности и т.п.), и

определяются алгоритмы вычисления значений этой меры для заключений

правил вывода исходя из ее значений для посылок. В рамках данного подхода

известны такие модели, как байесовские рассуждения (Bayesian Reasoning),

подход Демпстера-Шейфера (Dempster-Shafer theory), модель коэффициентов

уверенности в MYCIN и др. [4].

Нечеткие рассуждения (Fuzzy Reasoning) могут пониматься достаточно

широко – как расширения продукционного подхода, использующие те или

иные модели представления нечеткости утверждений: модель коэффициентов

уверенности в MYCIN, теория свидетельств Шейфера, лингвистическая модель

в MILORD и др. [4]. Однако, прежде всего, нечеткие рассуждения

Page 33: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

33

ассоциируются с применением понятий нечеткого множества, нечеткого

отношения, лингвистической переменной и нечеткой логики, т.е. в целом всей

теории «нечеткости», предложенной Л. Заде [7]. Здесь можно выделить, в

первую очередь, рассуждения на основе композиционного правила вывода Л.

Заде, и рассуждения в рамках систем нечеткого логического вывода с

использованием лингвистических переменных. На сегодняшний день доказано,

что системы нечеткого логического вывода способны (при соблюдении ряда

условий) аппроксимировать любую непрерывную функцию с произвольной

точностью, т.е. являются универсальными аппроксиматорами [29].

Построить математическую модель рассуждения по аналогии (Analogical

Reasoning) впервые попытался Лейбниц, который предложил понятие

пропорции для отношения аналогии [30]. Пропорция Лейбница может быть

сформулирована так: «Вещь A так относится к вещи B, как вещь A′ к вещи B′»

[30]. В качестве примеров выводов по аналогии можно привести следующие

[4]:

Посылки: «φ аналогично ψ», «ψ истино».

Заключение: «φ более правдоподобно».

Посылки: «φ аналогично ψ», «ψ более правдоподобно».

Заключение: «φ несколько более правдоподобно».

Рассуждения на основе прецедентов (Case-Based Reasoning, CBR) также

основаны на использовании аналогии – их центральной идеей является

решение новой задачи на основе адаптации решения сходной с ней старой

задачи, уже найденного в прошлом. В данной модели выделяют 4 базовых

стадии, составляющих так называемый CBR-цикл [8]:

1) Поиск и извлечение из базы прецедентов системы прецедента,

наиболее релевантного текущей задаче (прецедент включает описание задачи,

ее решения, и, возможно, некоторую дополнительную информацию о том, как

получается решение задачи);

Page 34: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

34

2) Попытка решить текущую задачу на основе повторного

использования извлеченного на предыдущей стадии прецедента;

3) Тестирование полученного решения, и, если это необходимо, его

модификация и адаптация в соответствии с текущей задачей;

4) Сохранение полученного решения в базе прецедентов как части

нового прецедента.

Аргументационные системы позволяют моделировать принятие или

отклонение некоторого утверждения, учитывая множество аргументов в

пользу или против этого утверждения, сложным образом взаимосвязанных и

конфликтующих между собой. Как утверждается в [4], «основная идея

аргументационного вывода состоит в том, что утверждению можно доверять,

если оно может быть аргументированно защищено от атак аргументов». На

сегодняшний день разработано уже множество различных систем

аргументации, отличающихся по уровню абстракции и способам задания

базовых элементов. Обстоятельный обзор таких систем приведен в [50].

Системы поддержки истинности (Truth-Maintenance System, TMS)

позволяют поддерживать согласованность (непротиворечивость) базы знаний –

множества заключений, полученных внешней по отношению к TMS системой

вывода. Основной принцип построения TMS состоит в том, что для каждого

выведенного заключения хранится список обоснований (предположений),

связанные с этим заключением. В дальнейшем, при поступлении новой

информации текущее состояние базы знаний пересматривается, и при

возникновении противоречия происходит поиск множества предположений,

которое является источником этого противоречия. В результате определенное

предположение и все следствия из него удаляются, и тем самым

обеспечивается согласованность базы знаний с учетом новой информации.

Такой процесс называется пересмотром убеждений (belief revision).

Существуют различные виды систем поддержки истинности; в качестве

базовых можно назвать системы, основанные на обоснованиях (Justification-

Page 35: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

35

Based TMS, JTMS) и системы, основанные на предположениях (Assumption-

based TMS, ATMS) [4].

ДСМ-метод автоматического порождения гипотез, предложенный В.К.

Финном [30], фактически, представляет собой отдельную теорию

автоматизации рассуждений; назван метод в честь Джона Стюарта Милля,

известного британского философа и экономиста, предложившего методы

индукции, однако рассуждения в рамках ДСМ-метода являются синтезом

познавательных процедур индукции, аналогии и абдукции. На сегодняшний

день ДСМ-метод успешно применяется в самых разных предметных областях.

Алгоритм ID3 для формирования деревьев решений, разработанный Р.

Куинланом (Induction of Decision trees), является примером автоматизации

индуктивных рассуждений, и относится к классу так называемых алгоритмов

«обучения с учителем» [4]. Этот алгоритм позволяет на основе обучающей

выборки, содержащей положительные и отрицательные примеры некоторого

понятия, построить дерево решений, которое, фактически, само является

алгоритмом, с помощью которого для любого примера из обучающей выборки

можно определить, принадлежит данный пример понятию или нет.

Проведенное «обучение» считается успешным, если построенное дерево

решений корректно распознает те ситуации, которые не входили

первоначально в обучающую выборку.

Нейросетевые модели также можно отнести к концепции «обучения с

учителем», т.е. к формализации индукции, но, в отличие от деревьев решений,

здесь используется не символьный, а коннекционистский подход к

представлению знаний о некотором понятии. Можно рассматривать

нейросетевые модели и более широко – как модели рассуждений, подходящие

для тех ситуаций, когда невозможно сформулировать правила (продукции),

которые используются при решении задачи.

Безусловно, помимо описанных выше моделей рассуждений, существуют

и другие, поэтому для классификации по критерию 4 на рисунке 6 указан

отдельный класс «Другие модели». Например, в рамках концепции «мягких

Page 36: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

36

вычислений» предлагаются различные варианты интеграции нечетких

рассуждений, нейронных сетей и эволюционных вычислений.

Классификация по критерию 5 взята из работы [32]: по мнению ее

авторов, основными источниками различных моделей рассуждений являются

следующие пять наук (областей знания): математическая логика, психология,

биология, теория вероятностей и математическая статистика, экономика.

Обзор моделей представления знаний и моделей рассуждений,

применяемых в существующих интеллектуальных системах обучения и

контроля знаний.

На сегодняшний день, спектр применяемых в обучающих и

контролирующих системах моделей представления знаний и имитации

рассуждений отличается значительным разнообразием. Ниже сделана попытка

обзора некоторых моделей; конечно, здесь затрагиваются только основные

идеи, и не дается подробного описания соответствующих формализмов.

Представление знаний.

В этом обзоре рассматриваются как базовые, фундаментальные

формализмы, такие как фреймы, семантические сети и т.д., так и конкретные,

более специфические подходы, например, метод анализа формальных понятий

(Formal Concept Analysis) или теория пространств знаний (Knowledge Space

Theory).

Сетевые модели: семантические сети, онтологии, Semantic Web.

Сетевые модели, являются, пожалуй, наиболее очевидным и широко

используемым подходом к представлению знаний в обучающих и

контролирующих системах. Фактически, иерархическая структура глав,

параграфов и других тематических единиц любого учебника представляет

собой семантическую сеть, использующую отношение «является частью» («is

part of»); на сетевой модели основаны гипертекстовые системы, в которых

связям между отдельными Web-страницами, задаваемым соответствующими

гиперссылками, можно поставить в соответствие определенные семантические

отношения. В работе [33] учебный материал представляется в виде

Page 37: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

37

семантической сети, в которую входят понятия, связанные с ними тестовые

задания, и варианты ответа для этих заданий; между понятиями определяются

отношения «определения» и «уровень сложности». Предлагается использовать

представление в виде семантической сети эталонной структуры знаний

предмета и структуры знаний обучаемого. В литературе можно найти

достаточно много других примеров применения сетевых моделей

представления знаний в области обучения и контроля знаний. Отдельно нужно

отметить использование онтологий предметной области, в том числе

онтологий в Internet, в рамках концепции Semantic Web [34].

Классическая продукционная модель. Продукции являются очень

прозрачным и эффективным способом представления знаний, и могут

применяться как для описания предметной области, так и для моделирования

хода рассуждений преподавателя и обучаемого. Одним из классических

примеров интеллектуальной обучающей системы, использующей

продукционный подход, является GUIDON, которая разработана на основе

широко известной медицинской экспертной системы MYCIN. В GUIDON

знания эксперта, т.е. знания о предметной области, представлены с помощью

продукций; для построения модели обучаемого также используется вывод в

продукционной системе, который исходя из расхождений между правильным,

экспертным поведением, и поведением обучаемого, выявляет, какие именно из

«эталонных» продукций были использованы, либо, наоборот, не были

использованы обучаемым [4].

Фреймовые модели. Фреймы используются, как правило, в сочетании с

другими моделями представления знаний, для моделирования предметной

области [5]. Например, в работе [5] предлагается использовать иерархию

фреймов, в которой каждый фрейм представляет связь «вопрос-ответ»,

включая как сами данные о вопросе и ответе, так и данные о способе их

отображения в виде элементов управления пользовательского интерфейса. При

этом на верхнем уровне иерархии находятся базовые вопросы, которые будут

заданы обучаемому при опросе в любом случае, независимо от его ответов; к

Page 38: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

38

каждому из базовых вопросов может быть привязано дерево вопросов,

состоящее в общем случае из уточняющих, переводящих и развивающих

вопросов (эти вопросы уже задаются в зависимости от ответов обучаемого). На

основе этой иерархии моделируются некоторые особенности обычного

«человеческого» диалога. Также нужно отметить, что фреймы являются одним

из эффективных средств семантического анализа естественного языка. Так, в

системе тестирования знаний на основе свободных естественно-языковых

ответов обучаемого на вопросы, предлагаемой в [5], для анализа семантики

языка применяется разновидность метода падежных фреймов.

Тезаурусы. Использование тезаурусов позволяет в гораздо большей

степени, по сравнению с другими подходами, отразить в компьютерной

системе знание о языке (конечно, о естественном языке), и, так как знание о

языке невозможно без знания о мире, моделировать те или иные способы

выражения знаний о мире с помощью языка. Например, в работе [4] автор

предлагает концепцию системы контроля теоретических знаний, в которой

тезаурус семантических полей используется для построения концептуальной

модели свободного естественно-языкового ответа обучаемого на вопрос.

Метод анализа формальных понятий (Formal Concept Analysis). Данный

метод формализации знаний о предметной области был предложен R. Wille в

1984 году [37]; он успешно применяется в различных областях. Суть метода

состоит в следующем. Вводится два множества: множество объектов V и

множество признаков A, на которых задается отношение I V×A,

определяющее, какие признаки к каким объектам относятся: pIa, где p V, a

A a является признаком объекта p. Тройку K = (V, A, I) называют

формальным контекстом; его можно задать бинарной матрицей, где строкам

соответствуют имена объектов, а столбцам – значения признаков. Пусть

заданы соотношения: P′: {y A | xIy для всех x P}, где P V; и G′: {x V | xIy

для всех y G}, где G A. Тогда формальное понятие (концепт) контекста K =

(V, A, I) определяется как пара (P, G), где P V, G A, удовлетворяющая

условиям: P′ = G, G′ = P. При этом множество P представляет объем понятия, а

Page 39: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

39

множество G – содержание понятия. Множество формальных понятий (P, G), с

заданным на нем отношением частичного порядка (P1, G1) ≤ (P2, G2), если P1

P2 и G2 G1, является полной решеткой L(K), которую называют

концептуальной решеткой контекста'

Интеллектуальная система обучения, основанная на методе анализа

формальных понятий, предлагается в работе [38]. Основная идея этой системы

состоит в следующем: на основании данных, вводимых в систему экспертом,

формируется эталонная концептуальная решетка; в процессе контроля знаний,

отвечая на вопросы, обучаемый тем самым создает свою, персональную

концептуальную решетку; исходя из изоморфизма этих двух концептуальных

представлений, можно определить, насколько правильно и в каком объеме

обучаемый усвоил систему понятий предметной области. При этом эталонная

концептуальная решетка также используется для автоматической генерации

вопросов (тестовых заданий).

Нечеткое моделирование. Представление знаний на основе различных

формальных моделей, обобщающих традиционные математические теории с

помощью введения «нечеткости», является достаточно распространенным

подходом в системах обучения и контроля знаний. В работе [14] предлагается

модель нечеткого оценивания знаний, суть которой состоит в следующем:

используется закрытая форма заданий с выбором одного ответа из нескольких

предложенных, но, в отличие от традиционного подхода, степень истинности

каждого ответа не определяется в категориях бинарной логики «правильно – не

правильно»; вместо этого для каждого j-го задания задается нечеткое

множество возможных ответов Aj = {(aij; µij)}, i = 1..Lj, где Lj – количество

ответов на задание j, aij – i-ый ответ на j-е задание, µij – функция

принадлежности, которая задает степень истинности ответа aij.

Функция принадлежности µij задается в виде µij = {O1/I1, O2/I2, …, ON/IN},

где Ok, k = 1..N – степень соответствия ответа aij оценочной категории Ik. В

качестве одного из возможных вариантов предлагается шкала оценивания

истинности ответов из пяти оценочных категорий «правильно – не совсем

Page 40: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

40

правильно – неполно – неточно – неправильно». В дальнейшем в [14] вводится

шкала итоговых оценок, также в виде нечеткого множества, и описывается

алгоритм расчета итоговой оценки по результатам тестирования на основе

аппарата нечеткой алгебры. В работе [39] предлагаются математические

модели представления предметных и персональных знаний на основе теории

нечетких множеств и отношений.

Сети Петри. Формализм сетей Петри получил свое название в честь

немецкого математика Карла А. Петри, впервые описавшего этот новый класс

сетей в 1962 г. Прежде всего, сети Петри рассматриваются как средство

моделирования асинхронных, параллельных, распределенных процессов. Тем

не менее, существует и способ применения этой модели в системах обучения и

контроля знаний. Обобщенная маркированная сеть Петри задается пятеркой C

= (P, T, I, O, m0), где: P = {p1, p2, …, pn} – конечное множество позиций; T = {t1,

t2, …, tn} – конечное множество переходов; I: P×T→N0 – входная функция

переходов; O: T×P→N0 – выходная функция переходов; m0 = (m10, m2

0, …, mn0)

– вектор начальной маркировки сети: mi0 – компонент вектора начальной

маркировки сети, соответствующий позиции pn P, при этом mi0 N0 для i

{1, 2, …, n}; здесь N0 = {0, 1, 2, 3, …} – множество натуральных чисел с

добавлением нуля [13]. В простейшем случае ординарной маркированной сети

Петри N0 = {0, 1}, т.е. каждая позиция либо является маркированной, либо не

является.

Текущее состояние сети определяется ее маркировкой; в зависимости от

этого состояния по определенному условию выделяются активные переходы

сети; срабатывание одного из активных переходов приводит к новой

маркировке, компоненты вектора которой вычисляются по определенному

правилу. Рассмотрим общую идею использования данного формализма в

обучающих/контролирующих системах на примере работы [40]. Для

представления знаний о предметной области на основе сети Петри множество

понятий (концептов) этой области рассматривается как множество позиций

сети; множеству переходов сети ставится в соответствие множество

Page 41: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

41

контролирующих воздействий (вопросов, задач), предназначенных для

проверки знаний об этих понятиях.

Входные позиции некоторого перехода, т.е. вопроса, представляют собой

понятия, которые необходимо изучить до ответа на данный вопрос.

Аналогично, выходные позиции перехода – это понятия, знание которых

проверяется данным вопросом. Для каждого понятия на основании ответов на

вопросы вычисляется степень его знания. Начальная маркировка сети

отражает, знание каких понятий должно быть у обучаемого до начала

контроля. Текущая маркировка сети задает степени усвоения понятий

предметной области обучаемым на данный момент времени. Условие

срабатывание некоторого перехода сети, т.е. выдача вопроса обучаемому,

формулируется следующим образом: все входные позиции перехода должны

быть маркированы, т.е. соответствующие понятия проконтролированы, а хотя

бы одна выходная позиция должна быть немаркирована, т.е. соответствующее

ей понятие не проконтролировано. Срабатывание перехода меняет маркировку

сети: маркируются выходные позиции перехода, заново вычисляются степени

знания понятий.

Теория пространств знаний (Knowledge Space Theory, KST). Эта теория

была предложена для решения задач представления и оценки знаний [11], и

дает эффективный метод моделирования обучаемого. Рассмотрим кратко суть

формализма KST. Элементарной единицей знаний в этой теории является

задание (item), которое может являться как вопросом, так и задачей, т.е.

использоваться для проверки и теоретических знаний, и умений. Предметная

область (в терминологии KST – область знаний, domain) описывается как

множество заданий Q, которые являются достаточно тесно связанными между

собой. Фактически, в множество Q входят задания, полученные подстановкой

некоторых конкретных значений в шаблон, содержащий в общем случае набор

переменных, значения которых указываются для генерации задания. В

качестве простого примера множества заданий вводится множество Q = {a, b,

Page 42: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

42

c, d}, состоящее из следующих заданий на проверку выполнения простейших

арифметических действий:

4 × 7 = ? 1/4 × 1/7 = ? 0.4 × 7 = ? 40% от 7 = ?

Состояние знаний обучаемого (student’s knowledge state) представляет

собой набор заданий, которые он может выполнить, т.е. дать них правильный

ответ; формально оно является некоторым подмножеством множества Q. При

этом предполагается, что во время выполнения заданий нет каких-то

временных ограничений, обучаемый находится в «нормальном» состоянии и

не подвержен влиянию каких-либо неблагоприятных условий. Множество всех

возможных (правдоподобных, реально осуществимых) состояний K называется

в KST структурой знаний (knowledge structure). На рисунке 3 приведен пример

структуры знаний для заданий a, b, c, d.

{a, b, c, d} = Q{a}

{a, b}

{a, c}

{a, b, d}

{a, b, c}

{a, c, d}

Рисунок 3 - Пример структуры (пространства) знаний.

В данном случае K = { , {a}, {a, b}, {a, c}, {a, b, d}, {a, b, c}, {a, c, d},

Q}. Пустое множество в этой структуре символизирует полное невежество, а

множество Q – наоборот, абсолютное знание. Важный особый случай

структуры знания возникает, когда для любых двух состояний S K и S′ K

их объединение также является состоянием, т.е. (S S′) K; иначе говоря,

семейство множеств K замкнуто относительно операции объединения.

Структуру знаний, удовлетворяющую этому свойству, в KST называют

пространством знаний (knowledge space). Описание пространства знаний для

данного множества Q может быть получено как на основе экспертных

суждений, так и путем обработки эмпирических данных, полученных в

Page 43: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

43

процессе контроля знаний выборки обучаемых. Изображенная на рис. 7

структура знаний, очевидно, также является и пространством знаний.

Генетические алгоритмы. Генетические алгоритмы используются,

прежде всего, для решения сложных оптимизационных задач, как правило, NP-

полных, не поддающихся решению другими методами в случае большой

размерности, или же слабо формализуемых задач. Существуют и способы

применения этого подхода в компьютерных системах обучения и контроля

знаний. Например, в работе [12] с помощью генетического алгоритма решается

задача моделирования обучаемого, а в работе [43] – задача выбора

оптимального сценария обучения. В [40] генетический алгоритм применяется

для настройки системы нечеткого логического вывода формирования итоговой

оценки обучаемого.

Логические модели. Логические модели относятся к «старому доброму

искусственному интеллекту» [1]; безусловно, на сегодняшний день, концепция

логического программирования используется не так часто. В качестве примера

использования логических моделей в области обучающих/контролирующих

систем можно привести работу [44]: в ней как знания о предметной области

(модель эксперта), так и знания о знаниях обучаемого (модель обучаемого)

формализуются в виде набора логических выражений (формул) на языке

логики предикатов первого порядка.

Моделирование рассуждений. Поскольку многие формализмы

представления знаний, фактически, включают в себя и вводят в рассмотрение и

способ формализации рассуждений, некоторые модели, упоминавшиеся ранее

как модели представления знаний в обучающих/контролирующих системах,

будут описаны и здесь, но уже «с акцентом» на автоматизацию рассуждений.

Байесовские рассуждения (Bayesian Reasoning). Этот подход достаточно

широко применяется в системах обучения и контроля знаний. Его основу

составляет применение теории вероятностей, а именно, различных формул

расчета одних вероятностей на основе других. Фундаментом подхода является

Page 44: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

44

знаменитая теорема Байеса, позволяющая пересчитывать значение вероятности

некоторого события при поступлении новой информации, неизвестной ранее:

n

j

jj

ii

i

HPHSP

HPHSPSHP

1

)()(

)()()( .

Здесь H1, H2, Hn – множество попарно несовместимых событий, одно из

которых непременно наступает; эти события называются гипотезами; P(Hi) –

априорные (известные заранее) вероятности гипотез; P(Hi|S) – апостериорные

(вычисленные после наступления события S) вероятности гипотез; S – событие

с вероятностью P(S) > 0, которое называется симптомом. При этом P(S|Hi)

называют вероятностями подтверждения гипотез Hi симптомом S; а P(S|~Hi) –

вероятностями опровержения гипотез Hi симптомом S. В монографии [1]

предлагается методика создания экспертных систем диагностики знаний на

основе байесовского вывода.

В качестве еще одного примера применения рассматриваемого подхода в

системах обучения и контроля знаний можно привести интеллектуальные

обучающие системы серии МОНА. Также, в рамках этого подхода, для

решения задачи моделирования обучаемого используется формализм

байесовских сетей доверия (Bayesian Belief Network)

Нечеткие рассуждения (Fuzzy Reasoning). Рассмотрим некоторые

примеры использования этого подхода. В работе [45] предлагается процедура

оценки знаний на основе применения схем правдоподобных рассуждений с

нечеткими квантификаторами. Все тестовые задания разбиваются на K = 3

типа, в зависимости от уровня (класса) сложности задания. Ответ на каждое

задание оценивается в порядковой шкале, состоящей из трех значений:

«правильный», «неправильный», «неточный». Для каждого i-го типа заданий

задаются пять нечетких квантификаторов, каждый из которых может быть

представлен в виде нечеткого множества: Qr = {(z, µQr(z))}, r = 1..5, z Zi, µQr:

(17)

Page 45: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

45

Zi → [0, 1], где Zi – универсальное множество. Также вводятся предикаты,

задающие правильность, неточность и оценку выполнения заданий i-го типа:

Ai – «правильно»; Сi – «неточно»; Bi – «отлично»; Di – «хорошо»; Fi –

«удовлетворительно»; Ji – «неудовлетворительно». Затем для каждого из типов

заданий используются следующие четыре правила вывода: 1) Q1Ai → Bi; 2)

Q2Ci Q4Ai → Di; 3) Q3Ai Q5Ci → Fi; 4) (Ai Ci) → Ji. Например, первое

из этих правил означает следующее: «если большинство задач данного класса

сложности решены правильно, то оценка «отлично» для данного класса

сложности» [45]. На основе этих четырех правил и применения операции

свертки нечетких квантификаторов, происходит автоматическая генерация

трех различных схем рассуждений [45]:

В работе [39] нечеткий логический вывод используется для

формирования сценария обучения и адаптации в процессе контроля знаний, в

[40] – для формирования итоговой оценки обучаемого. В [13] предлагается

нечеткое обобщение теории IRT – Fuzzy IRT.

Классический вывод в продукционной системе (Rule-Based Reasoning).

Этот подход также уже рассматривался при описании моделей представления

знаний в обучающих и контролирующих системах. В данном случае

представление знаний и организация вывода с помощью этих знаний очень

органично сочетаются друг с другом. Необходимо отметить, что особое

значение с точки зрения решения задачи диагностики знаний имеет

абдуктивный вывод с помощью продукций, когда из посылок «Если A, то B» и

«B» выводится утверждение «A». При этом из наблюдаемых фактов об

обучаемом, т.е., прежде всего, из результатов выполнения обучаемым тестовых

заданий, выводится состояние его знаний. Одним из распространенных

вариантов этого подхода является составление так называемого каталога

ошибок («bug library», «bug catalogue»), и диагностика наличия этих ошибок,

исходя из решения обучаемым специально подобранных задач, на основе

применения продукций. Более подробное рассмотрение применения каталогов

Page 46: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

46

ошибок и различных теорий ошибок к решению задачи моделирования

обучаемого можно найти в [4].

Вывод на основе систем аргументации (Argumentation systems). Этот

подход к моделированию рассуждений применяется в обучающих и

контролирующих системах редко, хотя на сегодняшний день уже существует

целый спектр аргументационных систем. В качестве примера можно привести

работу [47], в которой предлагается аргументационная система контроля

знаний. Ключевая идея работы [47] состоит в том, что, исходя из решения

обучаемым учебных задач, система формирует аргументы относительно

утверждений о знаниях/умениях обучаемого; эти аргументы строятся на

основании фактов, доводов и допущений. В множестве аргументов могут

присутствовать так называемые конфликтующие аргументы, которые атакуют

друг друга; при этом выделяются следующие типы атак: опровергающая и

подрезающая. На основании специального механизма, учитывающего

отношения между различными элементами знаний предметной области, одни

аргументы оцениваются как обоснованные, а другие – как временно

отмененные. Статус аргументов пересматривается при поступлении новой

информации, т.е. после того, как обучаемый дал ответ для очередной задачи. В

[47] отмечается, что «использование аргументационных систем в качестве

основы для контролирующих систем позволяет имитировать рассуждения

преподавателя при проверке знаний ученика».

Рассуждения по аналогии (Analogical Reasoning). В качестве примера

использования этого подхода для решения задачи контроля знаний рассмотрим

работу [46], уже упоминавшуюся ранее. Схема вывода по аналогии, лежащая в

основе [46], формулируется следующим образом: пусть даны объекты x и y;

объект x имеет описание G1 и обладает свойством W*; объект y имеет описание

G2 и на данный момент не изучен относительно свойства W*; тогда, если

между описаниями G1 и G2 есть аналогия, то для объекта y характерно

свойство W* в степени, не превышающей степень аналогии G1 и G2. Для

применения этой схемы рассуждений к задаче контроля знаний вводятся

Page 47: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

47

следующие объекты: объект A с описанием в виде графа G = (X, U),

представляющий собой эталонную модель структуры предмета, и обладающий

кроме внутренней формы и содержания, еще и внешним содержанием W, а

именно, максимальной оценкой («отлично») по предмету; объект B с

описанием в виде графа H = (X′, U′), который представляет систему знаний

обучаемого, и внешнее содержание которого W′, т.е. оценка знаний

обучаемого, неизвестно. Тогда, если существует аналогия между G и H, то W′

должно быть таким же, как и W, но со степенью, не превышающей степень

аналогии G и H [46].

Рассуждения на основе прецедентов (Case-Based Reasoning, CBR).

Подход CBR, как уже упоминалось, основан на выявлении аналогии, и может

применяться в системах обучения и контроля знаний для решения различных

задач. Например, в работе [48] предлагается интеллектуальная обучающая

система, в которой с помощью CBR, исходя из текущей модели обучаемого,

выбирается наиболее подходящий для него пример или задача, для

предъявления на текущем шаге обучения.

Вывод в формальной логической теории (автоматическое

доказательство теорем). Этот подход также уже рассматривался при

описании моделей представления знаний в обучающих/контролирующих

системах. В качестве одного из достаточно современных примеров его

применения – как механизма рассуждений для онтологии – можно привести

работу [34], в которой предлагается обучающая система, реализующая

концепцию «adaptive hypermedia» с использованием Semantic Web, или, более

конкретно, с использованием спецификаций RDF и XML, а также RDF-

ориентированного языка TRIPLE, ядром которого является язык логического

программирования XSB. В [34] рассматривается следующая задача: ряд Web-

страниц системы содержат теоретический обучающий материал, а другие Web-

страницы – примеры, иллюстрирующие и разъясняющие теоретические

положения; необходимо по странице первого типа (D) найти страницу второго

типа (E). Для организации такого поиска можно использовать различные

Page 48: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

48

стратегии, которые задаются в виде правил, записанных на языке TRIPLE.

Одно из этих правил имеет вид [34]:

FORALL D, E example(D,E) <-

studyMaterial(D) AND example(E) AND

EXISTS C1 (D[dc:subject->C1]) AND

FORALL C2 (D[dc:subject->C2] -> E[dc:subject->C2])

Смысл данного правила следующий: страница E является подходящим

«примером» для страницы D, если D – это страница с теоретическим

материалом, E – страница с примерами, разъясняющими теорию; существует

хотя бы один концепт, относящийся к странице D; для каждого из концептов

на странице D есть соответствующий ему пример на странице E.

Вывод на основе систем поддержки истинности (Truth maintenance

system, TMS). Использование этого подхода в обучающих/контролирующих

системах можно встретить не так часто. Очевидная область применения TMS –

поддержка в согласованном состоянии модели обучаемого; краткий обзор ряда

работ, посвященных исследованиям в данном направлении, можно найти в [9].

Основные недостатки существующих подходов к решению задачи АВЗ с

помощью средств представления знаний и моделирования рассуждений

Существующие АСКЗ, разработанные исходя из парадигмы выявления и

анализа знаний «по умолчанию» предполагают использование некоторого

способа представления знаний о предметной области, т.к. МПЗ пользователя

системы может быть описана только в терминах некоторой модели знаний об

этой области. С другой стороны, фаза интерпретации ПЗФАКТMD : , т.е.

вывод МПЗ пользователя из его фактических действий во время

взаимодействия с системой, допускает формализацию на базе того или иного

механизма рассуждений. Поэтому, исходя из того, что применение моделей

представления знаний и имитации рассуждений наиболее естественно,

«органично» для решения задачи АВЗ, выделим следующие проблемы:

1. Проблема разработки интеллектуальных АСКЗ, предназначенных для

широкого класса областей знания, в рамках концепции «оболочки».

Page 49: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

49

Очевидно, что не существует какого-то унифицированного, идеально

подходящего для любой предметной области способа формализации знаний.

Исходя из этого, можно сделать вывод, что АСКЗ, являющаяся «оболочкой» и

независимая от предметной области, или, по крайней мере, предназначенная

для широкого класса предметных областей, всегда будет менее

интеллектуальной, чем АСКЗ, модель представления знаний в которой

специально «подобрана» под конкретную предметную область, или даже под

отдельный тематический раздел в этой области.

Тем не менее, поиск более или менее универсальных решений также

оправдан: жертвуя описанием тонкостей, т.е. отказываясь в определенной

степени от движения «в глубину» знания, разработчики АСКЗ в концепции

«оболочки» получают возможность при описании знаний двигаться «в

ширину», т.е. аккумулировать в системе значительное количество знаний,

опираясь на нечто общее, присущее описанию знаний во многих областях.

Таким «общим» может быть выражение знаний на естественном языке, или

использование базовых моделей описания знаний, например, семантических

сетей.

2. Моделирование в АСКЗ учебного курса (предмета), а не предметной

области как таковой.

Эта проблема была достаточно подробно описана ранее, и она тесно

связана с предыдущей. Описание знаний в рамках конкретного учебного курса

или же в рамках всей предметной области – это просто два разных подхода,

каждый из которых имеет свою область применения.

3. МПЗ, формируемая системой, чаще всего является поверхностной,

недетализированной.

Эта проблема достаточно очевидна. В первую очередь, ее причиной

является высокая трудоемкость процесса описания знаний: более простая, и,

соответственно, менее детализированная модель представления знаний о

предметной области, приводит к аналогичной, поверхностной МПЗ. Также,

многие АСКЗ ориентированы, фактически, на один или несколько сеансов

Page 50: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

50

взаимодействия пользователь-система, а построение подробной МПЗ

предполагает достаточно продолжительное и регулярное взаимодействие.

4. Проблема необходимости наличия достаточно больших

репрезентативных выборок обучаемых для разработки и/или применения

АСКЗ.

В основном, эта проблема возникает при использовании математико-

статистических методов обработки эмпирических данных, которые

характерны, прежде всего, для теории педагогических измерений. Так, в [2]

отмечается, что, в рамках теории IRT, для вычисления параметров уровня

подготовки студентов и трудности заданий методом наибольшего

правдоподобия требуются выборки не менее 200-300 испытуемых и тесты,

состоящие из не менее чем 30 заданий. Аналогично, при использовании

байесовского подхода, достаточно большая выборка обучаемых нужна для

определения значений априорных вероятностей.

5. Проблема использования закрытой формы заданий, и сложности

семантического анализа свободного естественно-языкового ответа.

Очевидно, что, чем больше степень активности, которая «отдается»

АСКЗ обучаемому, чем больше у него свободы и возможностей проявить свои

знания при взаимодействии с системой, тем больше будет количество

собранной информации о его знаниях, и, следовательно, тем более полная и

адекватная МПЗ обучаемого потенциально может быть сгенерирована.

Например, в случае использования закрытой формы задания с выбором одного

из предложенных вариантов ответа, правильный ответ обучаемого еще не

означает наличие у него знаний: ответ можно угадать случайно или определить

методом исключения; если бы вариантов ответа не было, возможно,

обучаемый вообще не справился бы с заданием. С другой стороны, при анализе

свободного, развернутого естественно-языкового ответа возникает другая

проблема: естественный язык, и, особенно, русский, настолько сложный и

гибкий, что крайне трудно гарантировать высокую адекватность такого

анализа.

Page 51: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

51

6. Проблема «прозрачности» сгенерированной системой МПЗ.

Из-за предоставления пользователю АСКЗ обратной связи в виде

некоторого решения – модели или оценки – относительно его знаний,

достаточно важным для пользователя является вопрос о том, как было

получено это решение. Фактически, система должна быть способна, хотя бы

потенциально, исходя из применяемой модели данных, предоставить

обучаемому некоторую «трассу вывода», ход рассуждений, приведший к

принятому решению.

7. Проблема отсутствия средств анализа персональных знаний,

выявленных системой.

Учитывая огромные возможности отображения и анализа данных

современных компьютеров, простой просмотр выявленных системой

персональных знаний – слишком ограниченное и примитивное решение. МПЗ

может иметь несколько различных «проекций», форм представления, в том

числе и графических; данные, хранимые в МПЗ, могут подвергаться

различным видам анализа.

Выводы

На Этапе 1 проекта был проведен аналитический обзор современной

научно-технической, нормативной, методической литературы, затрагивающей

научно-техническую проблему, исследуемую в рамках ПНИ, в том числе,

обзор научных информационных источников: статьи в ведущих зарубежных и

российских научных журналах, монографии. Общее число

проанализированных источников – 65, из них 15 научно- информационных

источников за период 2011 – 2016 гг.

По результатам приведенного обзора существующих методов и моделей

автоматизации построения образовательных траекторий можно сделать вывод,

что, в целом, большинство предлагаемых подходов ориентировано на

формирование интегральной оценки знаний; автоматизации процесса

Page 52: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

52

предсказания оптимальной образовательной траектории посвящено лишь

небольшая часть работ, большая часть которых вышли в последние 7 – 8 лет.

Применение методов глубокого обучения в области предсказания

образовательной траектории начал применяться лишь в последние 3 года, при

этом были выявлены работы, описывающие решение задачи прогнозирования

только для моделей, не включающих такую сложную деятельность, как

проектную. Это подтверждает актуальность настоящего исследования, в

котором задача предсказание оптимальной образовательной траектории

решается с привлечением данных о поведении пользователя при выполнении

сложных проектных заданий.

Page 53: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

53

2 Выбор и его теоретическое обоснование разновидности

рекуррентной сети, которая будет использоваться в качестве

основной при решении задачи предсказания оптимальной

образовательной траектории10

Развитие в последние несколько лет методов машинного обучения,

основанных на применении нейронных сетей, дало новый импульс научно-

исследовательским работам, направленных на поиск технических решений

проблемы индивидуализации образовательных траекторий. В период с 2014 по

2016 годы появилось сразу несколько научных публикаций, описывающих

применение нейронных сетей для предсказания различных свойств

образовательных траекторий.

Возможности применения многослойных нейронных сетей

(многослойных перцептронов), обучаемых методом обратного

распространения ошибки, были изучены группой исследователей из Арабского

Открытого Университета, Кувейт и Александрийского Университета, Египет11.

В качестве смешанной модели, описывающей учащегося и его учебную

деятельность, использовался набор из 56 переменных, сгруппированных в 8

кластеров, характеризующих такие аспекты, как вовлеченность студента в

процесс обучения, уровень развитости навыков саморегуляции, уровень

подготовки перед началом обучения, уровень поддержки студентов

администрацией вуза, характер взаимодействия студента в режиме онлайн-

обсуждений и даже уровень доходов семьи студента. В качестве исходных

данных использовались сведения о 1879 студентах, проходящих обучение в

течение одного семестра. Использовавшаяся нейронная сеть представляла

собой трехслойный перцептрон с 50-ю скрытыми нейронами. Целевой

10 В разделах 2 – 5 представлены результаты работ, выполненных за счет

средств субсидии.

11 Sayed, M. and Baker, F. (2015) E-Learning Optimization Using Supervised

Artificial Neural-Network. Journal of Software Engineering and Applications, 8,

26-34. http://dx.doi.org/10.4236/jsea.2015.81004

Page 54: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

54

переменной, значение которой должна предсказывать нейронная сеть, являлась

средний балл за семестр. Среднеквадратичная ошибка на тестовых примерах

(289 из 1879) составила 0,21908, при этом коэффициент детерминации R

составил 0,909.

Несмотря на то, что в описанном исследовании, индивидуализация

образовательной траектории не являлась целью применения нейронных сетей,

полученные данные убедительно свидетельствуют о том, что даже простые

нейронные сети в сочетания с упрощёнными моделями учащихся могут с

успехом использоваться для моделирования взаимосвязи между обобщёнными

свойствами условий обучения и образовательными результатами,

выраженными средним баллом. При этом особенно следует отметить, что в

предложенном методе полностью отсутствует необходимость привлечения

экспертов для формирования модели предметной области, предсказание

формируется на основе данных, сбор которых практически полностью

автоматизирован.

В 2015 году группой исследователей из Стэндфордского университета,

США, компании Khan Academy и компании Google были проведены

чрезвычайно важные экспериментальные исследования в области применения

рекуррентных нейронных сетей для предсказания следующего шага

образовательной траектории учащегося на основе данных о его прошлых

шагах ([53]). Предложенный метод и соответствующий алгоритм был назван

авторами Deep Learning Tracing (DKT, Глубокое отслеживание знаний).

Основная задача, которую решает алгоритм DKT, была описана авторами

исследования следующим образом: на основе имеющихся наблюдений о

взаимодействии учащегося с учебными задачами x0...xt предсказать некоторое

свойство (аспект) взаимодействия xt+1. В рамках исследования в качестве

учебных задач выступали исключительно тестовые задания на платформе Khan

Academy, в качестве аспекта взаимодействия использовались только

правильность/неправильность ответа на вопросы тестовых заданий. В ходе

экспериментов использовались две разновидности рекуррентных нейронных

Page 55: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

55

сетей (РНС): традиционная рекуррентная сеть c сигмоидальной функцией

активации нейрона и рекуррентная сеть с долгосрочно-краткосрочной памятью

(Long-Short Term RRN, LSTM RNN). Работа производилась с тремя наборами

данных: симулированные данные (2000 виртуальных учащихся, выполняющих

50 тестовых заданий, вероятность правильного выполнения задания

смоделирована методом IRT), реальные данные платформы Khan Academy,

включающие 1,4 миллиона результатов прохождения 69 тестовых заданий 47,5

тысячами учащихся и открытыми набором данными Assistments 2009-201012. В

качестве альтернативного (контрольного) метода предсказания использовалась

модель Байесовского отслеживания знаний (BKT, Bayesian Knowledge Tracing),

в основе которого лежит применений скрытой марковской модели (Hidden

Markov Model, HMM). Метод BKT во многом родственен методу IRT,

описанному выше и применяющемуся в коммерческом продукте Knewton.

По результатам проведённых экспериментов группе исследователей

удалось убедительно показать существенное превосходство применения

рекуррентной нейронной сети с долгосрочно-краткосрочной памятью над BKT.

В качестве основного показателя предсказательной силы модели

использовалась площадь под ROC-кривой (AUC, Area Under Curve). Для LSTM

RNN на данных Khan Academy AUC составила 0,85 (против 0.68 для BKT), на

данных открытого набор Assistments 2009-2010 AUC LSTM RNN составила

0.86 против 0.69 для BKT. Эти результаты позволили авторам сделать вывод о

чрезвычайной перспективности применения рекуррентных нейронных сетей

для построения индивидуальных образовательных траекторий учащихся.

Эксперимент с применение рекуррентных нейронных сетей был

подхвачен в 2016 году группой исследователей из Университета Беркли.

Результаты их исследования еще не опубликованы в каком-либо научном

издании, но уже доступны на сайте arXive.org для обсуждения

профессиональным сообществом ([56]). Авторы использовали подход

12 https://sites.google.com/site/assistmentsdata/home/assistment-2009-2010-data

Page 56: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

56

применения LSTM, разработанный группой из Стэнфордского университета,

Khan Academy и Google, однако использовали более богатую модель

образовательной траектории, построенную на данных о прохождении 5-

тинедельного массового открытого онлайн курса по статистике от

Университета Беркли (11,2 миллиона взаимодействий 8094 учащихся с 3500

учебными ресурсами). Данные включали не только сведения об

успешном/неуспешном прохождении тестов, но также и факты взаимодействия

учащихся с учебным содержанием (прежде всего видео-лекциями и

описаниями учебных проблем). Кроме того, данные подверглись фильтрации,

и в выборку попали только траектории пользователей, получивших сертификат

об успешном окончании курса. Таким образом, исследователи из Беркли

сосредоточили свои усилия на предсказание шагов траекторий, ведущих к

успеху. В качестве альтернативного (контрольного) метода предсказания

использовался метод построения n-граммной модели (n-gram model).

Результаты, полученные группой из Университета Беркли, согласуются с

результатами группы DKT: точность предсказания следующего шага

траектории при применении LSTM составила в их эксперименте 0,7223, при

применении n-граммной модели — только 0,7035.

При выполнении настоящего Проекта планируется использовать

рекуррентные нейронные сети с долгосрочно-краткосрочной памятью для

предсказания оптимальной образовательной траектории. Эффективность этих

сетей была убедительна показан уже двумя исследовательскими группами.

Основными отличиями подхода, планируемого к реализации в рамках

настоящего Проекта, являются:

1) В качестве исходных данных для построения модели образовательной

траектории будут использоваться данные о разнородных взаимодействиях

пользователей с электронной образовательной системой ГлобалЛаб13. Наряду с

фактами взаимодействия с такими ресурсами, как видео-лекции или текстовые

13 https://www.globallab.org

Page 57: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

57

учебные материалы, в число фиксируемых событий войдут, в частности

события, связанные с проектной деятельностью (создание идеи школьного

исследовательского проекта, работа над исследовательским проектом,

прохождения процедуры модерации исследовательского проекта, приглашение

пользователей к участию в проекте, участие в проекте, создание

пользовательских групп, управление группами и т.д.). Предварительный

подсчет количества типов учебного взаимодействия, фиксируемых

платформой ГлобалЛаб, показывает, что таких типов будет не менее 20, в то

время, как в моделях, описанных выше число типов взаимодействия составлял

от 1 (DKT) до 3 (группа Университета Беркли). Значительное увеличение

числа анализируемых типов взаимодействия (в 6,6 раз) соответствует

предположению, высказанному обеими группами исследований о том, что

увеличение размерности пространства, в которое вписываются учебные

взаимодействия пользователей, должно положительно сказаться на точности

предсказания.

2) Модель данных будет существенно расширена путем включения в нее

переменных, описывающих свойства пользователя, независящие от шага

внутри образовательной траектории. Этот подход во многом сходен с

подходом группы исследователей из Арабского открытого университета и

Александрийского университета. К число включаемых свойств относятся, в

частности, данные о стиле обучения (learning style), характерном для

пользователя. Классификацию пользователей по типам обучения планируется

выполнить путем применения простых алгоритмов кластеризации, используя в

качестве входных данные о физических параметрах взаимодействия учащихся

с пользовательским интерфейсом (среднее время взаимодействия с учебным

содержанием разного типа, вектор просмотра учебного содержания, вектор

перехода по составным частям одной учебной единицы). Планируется, что

число переменных, описывающих свойства пользователя вне траектории

(такие как, стиль обучения, уровень академической успеваемости,

Page 58: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

58

географическое положение и др.), составит не менее 7. Общее же число

переменных, описывающих пользователя, составит не менее 25.

3) Обе группы исследователей работали с учебным содержанием, в

котором заранее задана предпочтительная траектория прохождения (в виде

программы курса). Исследователи из Беркли обнаружили, что заданная

автором курса траектория дает лишь 23% точности в случае, если использовать

ее для предсказания следующих шагов учащегося. В настоящем Проекте

исследователям представится возможность сравнить эффективность

применения рекуррентной сети в электронном учебном окружении с заранее

заданной траекторией (онлайн-курсе14) и в окружении с абсолютно свободной

траекторией. Это возможно благодаря тому, что лишь небольшая часть (на

момент подготовки отчета — около 10%) пользователей ГлобалЛаб

выполняют проектные задания и знакомятся с учебным содержанием в рамках

курсов с траекторией15, остальные пользователи свободного переходят от

одного вида учебного взаимодействия к другому.

4) В отличии от исследования группы Университета Беркли, в настоящем

Проекте будет использована более сложная система критериев успешности

образовательной траектории. В рамках электронной образовательной среды

ГлобалЛаб проектом называется особый вид совместной деятельности

пользователей, реализующей использование принципов краудсорсинга для

организации исследовательской деятельности в школе. Общий ход

деятельности в рамках такого проекта включает в себя следующие этапы:

а) Каждый участник проекта делает небольшое исследование или

эксперимент, сравнимые по сложности с индивидуальным школьным проектом

или даже обычной лабораторной работой.

14 см. пример курса

https://globallab.org/ru/course/track/expedition_2_zanimatelnaya_botanika.html

15 текущий список онлайн-курсов, предлагаемых ГлобалЛаб представлен по

адресу: https://globallab.org/ru/course/catalog/

Page 59: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

59

б) Результат эксперимента или исследования загружается в общее

хранилище ГлобалЛаб.

в) На основе результатов, присланных множеством участников со всего

мира, формируется общая картина, которая представляется в виде живых карт,

графиков, диаграмм, галерей и другой инфографики.

г) Общий результат может представлять новое знание, служить

предметом дискуссий, основой для возникновения новых проектов,

формирования географически распределенных сообществ школьников и

учителей.

В проекте ГлобалЛаб вместо 1 критерия, состоящего в факте

получения/неполучения сертификата об окончании курса, будет

использоваться не менее 5 критериев, к числу которых относятся:

- факт успешного участия в исследовательском проекте на платформе

ГлобалЛаб (модератор одобрил присланную пользователем анкету);

- факт успешного создания собственного проекта (модератор одобрил

публикацию проекта);

- факт успешного привлечения порогового значения пользователей в

свой проект;

- факт получения награды за участие в проекте;

- факт успешного завершения курса на платформе ГлобалЛаб.

Кроме того, планируется обогатить модель образовательной траектории

за счет получения данных об академической успеваемости пользователя в

школе из системы управления обучением Дневник.ру (ГлобалЛаб имеет

механизм интеграции с этим сервисом). Это позволит разработать

дополнительные критерии успешности, основанные на образовательных

результатах пользователя, полученных за пределами электронной

образовательной системы.

Для решения поставленной перед ПНИ задачи будет использован новый

метод — применение рекуррентной нейронной сети, до сих пор не

применявшейся в коммерческих продуктах, но эффективность которой в этой

Page 60: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

60

области подтверждена самыми последними исследованиями (предсказание

образовательной траектории пользователей в среднем на 25% точнее, чем у

методов, применяемых в коммерческих продуктах16).

В упоминавшемся выше методе DKT применяется разновидность

рекуррентной сети с долговременно-кратковременной памятью (LSTM). В

частности, именно эта архитектура сети выбрано по той причине, что с

помощью нее становится возможным решить проблему раздельной оценки

различных навыков и, в некоторой степени, устранить ограничения, связанные

с тем, что в более ранних моделях (например, BKT) оцениваемые знания,

умения и навыки (ЗУН) являются бинарными. Так, для некоторого задания qt

возможен бинарный результат rt ∈ {0, 1}, где 0,1 – неуспешный и успешный

результат выполнения. В LSTM скрытые состояния используется как

своеобразное отражение прошлых результатов выполнения заданий, при этом

для всех прошлых состояний в данной архитектуре используется один и тот же

набор параметров. Результаты экспериментов с LSTM показали, что метод с

рекуррентной сетью является гораздо более точным по сравнению, например, с

байесовскими моделями. При этом эти эксперименты были, фактически,

первыми попытками использования глубокого обучения (то есть моделей с

многослойными нейронными сетями) для отслеживания знаний. До этого

глубокое обучение стало причиной прорывов в таких областях как

компьютерное зрение и обработка высказываний на естественных языках.

Достаточно радикальный успех LSTM по сравнению с BKT с одной стороны

говорит в пользу выбора LSTM в качестве основной архитектуры для

настоящего проекта, с другой стороны ранний характер этого успеха

(результаты были получены при первом же применении рекуррентных сетей)

говорит в пользу поиска более совершенной архитектуры рекуррентной сети из

16 Для LSTM на данных Khan Academy AUC составила 0,85 (против 0.68 для

BKT), на данных открытого набор Assistments 2009-2010 AUC LSTM

составила 0.86 против 0.69 для BKT

Page 61: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

61

уже применявшихся в других областях. В связи с этим в настоящем проекте

было принято решение использовать более сложную по сравнению с LSTM

архитектуру рекуррентной сети, базирующуюся на применении концепции

«внешней» памяти.

Архитектура нейронных сетей с внешней памятью (Memory-Augmented

Neural Networks, MANN) заимствует идею долговременного хранения данных

из классической архитектуры ЭВМ. Новый модуль архитектуры – внешняя

память, - используется для отображения (представления) долговременного

накапливающегося «опыта». Архитектура MANN успешно использовалась в

различных областях, в том числе в обработке высказываний на естественном

языке, конструирование алгоритмов, реализации обучения сети с первого раза

(one-shot learning).

Традиционно модуль внешней памяти состоит из двух частей: матрицы

памяти, хранящая информацию, и контроллера, отвечающего за

взаимодействие с остальной частью архитектуры и производящего чтение и

запись в матрицу. Операции чтения и записи производятся путем применения

механизмов так называемого добавленного внимания (additional attention). В

большинстве случаев используется следующий способ вычисления весов на

чтение: для некоторого входного значения kt, вычисляется коэффициент Отиаи

или скалярное произведение K[kt, Mt(i)] на входном значении и каждой ячейке

памяти Mt(i). К результату затем применяется функция Softmax с

положительным коэффициентом βt, что дает вес чтения wtr (формула 18):

wtr(i) = Softmax(βtK[kt, Mt(i)])

где Softmax(zi) = ezi / ∑jezj

Для процесса записи используется механизм добавленного внимания с

фокусировкой по содержимому и по локации. Это позволяет задействовать все

локации в памяти. Кроме того, для того чтобы реализовать 2 модели записи

ключа содержимого (запись в локацию памяти, использовавшуюся последней,

(18)

Page 62: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

62

и запись в локацию, использовавшуюся первой) используется регистратор

содержимого типа LRUA (least recently used access).

Благодаря наличию рекуррентности в операциях чтения и записи MANN

представляет собой особую разновидность рекуррентной нейронной сети.

Однако в сравнении с обычными рекуррентными сетями (например, LSTM)

MANN обладает следующими важными отличиями:

В традиционных рекуррентных сетях для представления темпоральной

(разворачивающейся во времени) информации используется единственный

скрытый вектор. В MANN для этого используется внешняя матрица памяти,

которая существенно расширяет объем хранения.

Переход между состояниями во времени в традиционной рекуррентной

сети представлен неструктурировано и общо (единый набор параметров для

всех переходов). В MANN используется операции чтения и записи, что

позволяет представить локальные переходы между состояниями.

Число параметров в традиционной рекуррентной сети жестко привязано

к размеру скрытого слоя, представляющего состояния. В MANN увеличение

числа ячеек памяти не ведет к увеличению числа параметров, что в свою

очередь повышает эффективность вычислений на этой сети.

При решении проблемы предсказания оптимальной траектории

учащегося матрица внешней памяти сети MANN должна восприниматься как

представление знаний учащегося. Память (обозначим как Mt) представляет

собой матрицу N x M, где N – число локаций памяти, а M – размер вектора

каждой из локаций. В каждый момент времени t входным значением для

MANN является совместное вложение vt из (qt, rt), где каждый qt – член

множества отдельных заданий Q, а rt – бинарное значение, означающее

успех/неуспех выполнения задания. В случае ГлобалЛаб задание должно

пониматься более широко как любое действие пользователя, могущего иметь

оценку как успешного и неуспешного. Вектор вложения vt используется для

вычисления весов чтения wrt и весов записи ww

t.

Page 63: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

63

В настоящем проекте в качества механизма внимания, вычисляющего wrt,

будет использовать коэффициент Отиаи, для вычисления wwt будет

использоваться механизм LRUA.

За выбором такой архитектуры сети стоит эмпирическое представление о

том, что когда учащийся при выполнении задания получает повторно тот же

результат, вектор вложения vt будет записан в ту же локацию памяти, что и

раньше. Если же задание является новым или результат его выполнения не

является повторением, vt записывается в наиболее давно не использующуюся

локацию памяти.

В процессе чтения некоторое содержание rt извлекается путем

взвешенного по весам чтения wrt суммирования всех ячеек памяти (формула

19):

𝒓𝑡 = ∑ 𝑤𝑡𝑟(𝑖)𝑴𝑡(𝑖)

𝑁

𝑖=1

На выходе сети получаем значение pt ∈ RQ , вычисленное на rt, и

обозначающее вероятность того, что студент может успешно выполнить

каждый из следующих шагов.

В процессе записи сначала стирается все содержание памяти. Для этого

используется стирающий сигнал et и вес записи wwt. После этого вектор

вложения vt записывается в память с помощью добавляющего сигнала at.

MANN использует для хранения пространства состояний знаний

учащегося N ячеек памяти и имеет гораздо больший объем запоминания по

сравнению с LSTM, которая в свою очередь использует для хранения

пространства состояний только один скрытый вектор.

Выводы

По результатам исследований, проведенных на Этапе 1 было

установлено, что в качестве базовой разновидности рекуррентной сети,

использующейся для предсказания оптимальной образовательной траектории

(19)

Page 64: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

64

наиболее целесообразно использовать сеть с архитектурой MANN.

Эффективность рекуррентных сетей по сравнению с другими методами в

решении задачи прогнозирования образовательной траектории было показано

уже ранее другими группами исследователей. Эффективность же MANN по

сравнению с другими разновидностями рекуррентных сетей объясняется

прежде всего наличием внешней памяти, существенно расширяющей объем и

глубину (во временном измерении) фиксируемых сетью данных.

Page 65: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

65

3. Выбор и его теоретическое обоснования альтернативного

(контрольного) метода предсказания оптимальной образовательной

траектории

В качестве альтернативного (контрольного) метода предсказания

оптимальной образовательной траектории в настоящем Проекте предложено

использовать Метод байесовского отслеживания знаний (BKT),

применявшийся исследователями, предложившим метод DKT.

Байесовское Отслеживание Знаний (ВКТ) является наиболее

популярным подходом к построению временных моделей обучения студентов.

ВКТ моделирует латентное состояние знаний как набор бинарных переменных,

каждая из которых представляет понимание или непонимание конкретного

изучаемого положения. Скрытая модель Маркова (HMM) используется для

уточнения вероятностей по каждой из этих бинарных переменных, когда

обучающийся отвечает на вопросы правильно или неправильно. При этом эта

модель предполагает, что если определенные знания получены, они уже не

забываются. Последние дополнения к этой модели включают контекст

угадывания и изменения ответов, оценку возможности получения знаний для

индивидуального обучающегося и оценку сложности проблемы.

С этими дополнениями или без них ВКТ имеет ряд сложностей. Первое,

бинарное представление понимания студента может быть нереалистичным.

Во-вторых, значение латентных переменных и их связь с упражнениями может

быть двусмысленной, часто не совпадающей с ожиданиями модели по

конкретному упражнению. Несколько методик было разработано, чтобы

уточнить категории изучаемых положений и связи между изучаемыми

положениями и упражнениями. Текущий золотой стандарт метода,

Когнитивный Анализ Заданий является трудоемким и итеративным процессом,

при котором эксперты спрашивают обучающихся об их процессе мышления,

когда они решают проблему. Наконец, бинарные данные ответов

ограничивают виды упражнений, которые можно моделировать.

Page 66: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

66

Выбор метода BKT обусловлен тем фактом, что он использовался в

качестве контрольного при применении рекуррентных сетей в исследовании

группы DKT ([54]).

В дополнении к основному контрольному методу будет использован

дополнительный – основанный на архитектуре рекуррентной сети типа LSTM.

Этот метод наиболее близок к тому, который предлагается к использованию в

настоящем проекте (см. сравнение с ним в разделе 2).

Выводы

На основе сравнения предлагаемого в настоящем исследовании базового

метода MANN с более ранним методом LSTM и наиболее популярным

методом BKT в качестве основного и дополнительного контрольных методов

предсказания оптимальной образовательной траектории были выбраны BKT и

LSTM соответственно.

Page 67: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

67

4. Выбор и его теоретическое обоснование метода получения набора

симулированных данных, на которых будет проводиться

верификация результатов экспериментов

В распоряжении исследователей в данном проекте имеется около 1,5

млн. записей о действиях пользователей в ЭОС ГлобалЛаб. Для получения

наборов симулированных данных на основе имеющихся было предложено

использовать оригинальный метод. Записи для симулированного пользователя

получаются путем выбора некоторого набора реальных пользователей и

сочетания зарегистрированных для них событий по определенным правилам.

Принцип выбора пользователей для составления симулированного может

быть различным. На текущем этапе реализации проекта был предложен выбор

заранее заданного множества пользователей. Множество пользователей может

быть задан идентичными или близкими с указанием допуска свойствами

моделей (например, множество всех пользователей в возрасте 13±1 лет с

баллом по биологии не 4,5±0,5).

При составлении симулированных записей о действиях пользователей

будет применяться набор эмпирически выведенных правил, которые можно

представить как синтаксические правила порождения моделей пользователей.

К числу таких правил относятся следующие:

1. События регистрации и активации учетной записи должны

предшествовать всем остальным действиям.

2. События приглашения в группу не должны предшествовать

событию создания группы.

3. Разница во времени между действиями пользователей,

переносящихся в симулированную модель из одной реальной, должна

сохраняться.

4. Идущие подряд действия, связанные с обсуждением в досках

обсуждений, при переносе в симулированную модель из одной реальной не

должны разрываться и должны переносится единым блоком.

5. В качестве параметров события участия в исследовательских

проектах и их создания могут использоваться проекты, отличные от тех,

Page 68: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

68

которые были в реальных действиях. Более жесткий вариант данного правила:

в качестве проекта для симулированной записи может быть выбран только

проект со сходным индексом сложности исследовательской анкеты. Для

вычисления индекса сложности используется индекс Шеннона.

6. Симулированная модель пользователя может быть получена путем

составления 2 и более полных моделей реального пользователя. При этом у

моделей после первой должны быть удалены события регистрации и

активации.

7. При генерации действий участия симулированного пользователя в

проектах ни в одном из проектов, участие в которых симулируется, общее

число участников по результатам симуляции не должно увеличится более, чем

в 1,33 раза.

Описанный выше метод, основанный на эмпирических правилах,

является с одной стороны достаточно гибким для получения большого числа

симулированных моделей пользователей, с другой – он обеспечивает

реалистичность полученных моделей благодаря соблюдению общих

закономерностей в поведении пользователей в ЭОС ГлобалЛаб.

Представляется очевидным, что в виду малой изученности закономерностей

поведения пользователей в ЭОС, более надежный метод получения

симулированных данных пока предложить не представляется возможным.

Для симуляции академических результатов учащегося, выражающих

успешность траектории используется классическая и наиболее

распространенная модель оценки степени владения знанием, умением или

навыком, основанная на отношении числа успешно выполненных заданий к

общему числу заданий. Модель представлена в формуле (20):

.1

n

R

R

k

i

i

где, R – оценка; Ri – число баллов, полученное за выполнение i-го

задания (обычно, неправильный ответ – 0 баллов, правильный – один или

(20)

Page 69: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

69

более баллов); к – число правильно выполненных заданий; n – общее число

заданий (k <= n).

Затем окончательная оценка вычисляется по следующей формуле (21):

.1

21

1

,

...

,,2

,,1

McRM

cRc

cR

I

I – окончательная оценка, {c1, c2, …, cM} – вектор граничных значений, M

– максимально возможная оценка (для пятибалльной шкалы M = 5).

Введем матрицу O = {oik}, задающую степень применения k-ого навыка

при выполнения i-го задания (0 ≥ oik ≤ 1). Также введем матрицу V = {vlk},

задающую оценку по l-ой шкал, описанной выше, каждого k-го навыка (l = {1,2

… 6}). Тогда вектор W для L шкал будет задавать весовые коэффициенты

каждого задания, корректирующие результат с точки зрения применения при

его получении различных умений и навыков. Этот вектор может быть получен

по формуле (22):

L

V

OWl

l

1

Число баллов, которое получает испытуемый в результате выполнения n

заданий, можно определить по формуле (23):

,

1

n

i

iixwy

где xi – число баллов, полученных испытуемым за выполнение i-го

задания.

Выводы

По результатам исследований на Этапе 1 был предложен и теоретически

обоснован метод получения симулированных данных, имитирующих два

(21)

(23)

(22)

Page 70: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

70

важнейший типа входной информации для рекуррентной сети: данных о

поведении пользователя и данные о его академической успеваемости.

Page 71: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

71

5. Разработка математической модели прикладного применения

рекуррентных нейронных сетей для предсказания оптимальной

образовательной траектории

В разделе 2 настоящего отчета была описана разновидность

рекуррентной сети MANN, которая была принята в качестве базовой для

решения задач настоящего проекта. Несмотря на то, что MANN обладает

рядом преимуществом перед LSTM при представлении истории

образовательных достижений учащегося в прошлом, некоторая модификация

этой архитектуры для успешного применения ее при отображения

пространства знаний все же требуется. Основная проблема MANN состоит в

том, что содержимое, являющееся объектом чтения, находится в том же

пространстве, что и содержимое, являющееся объектом записи. При этом

необходимо помнить, что при представлении пространства знаний входные

данные и предсказания, сделанные на их основе, (то есть задания,

выполняемые учащимися, и их результаты) относятся к разным типам. С

эмпирической точки зрения это некорректно: задания и результат их

выполнения оказываются сцепленными в единый ключ активации внимания.

Кроме того, MANN не может явным образом отобразить или представить

скрытые связи (общие концепции), лежащие в основе заданий. С эмпирической

точки зрения различные задания связаны между собой такими общими

концепциям.

В связи с описанными ограничениями в настоящем проекте была

предложена модифицированная архитектура MANN (рабочее название -

xMANN) с несколько отличной математической моделью, описанной ниже.

В отличии от MANN предложенная в настоящем проекте модель

xMANN использует для представления памяти не единую матрицу, а

хранилище типа «ключ-значение» (key-value store). Это позволяет избежать

перебора, чтения и записи в одну и ту же матрицу. Перебор осуществляется по

ключу, а чтение и запись производится только в соответствующее ключу

значение.

Page 72: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

72

Также в отличии от MANN в каждый момент времени t xMANN

принимает конкретное задание qt и выдает вероятность успешного его

выполнения p(rt|qt), а затем обновляет значение в памяти кортежем задание-

результата вида (qt, rt). При этом так же, как и в случае MANN, qt – член

множества заданий Q, а rt – бинарное значение (успех-неуспех). При этом

делается предположение о наличии N скрытых областей или разделов знаний

{c1, c2, …, cN}, каким-то образом объединяющих задания. Эти области

хранятся в матрице ключей Mk размером N x dk. Степени овладения учащимися

этими областями, а точнее состояния степени овладения {s1t, s2

t,…,sNt},

хранятся в матрице значений Mtv размером N x dv, изменяющейся с течением

времени.

Модель xMANN отслеживает состояния учащихся путем чтения и записи

в матрицу значений с применением корреляционных весов, вычисленных на

входном задании и матрице ключей.

Для вычисления корреляционного веса берется произведение входного

задания qt на матрицу вложения A размером Q x dk, в результате чего

получается вектор непрерывного вложения kt размером dk. Корреляционный

вес вычисляется как функция Softmax от скалярного произведения kt и каждой

ячейки матрицы ключей Mk(i) (формула 24).

wt(i) = Softmax(kTtMk(i))

где Softmax(zi) = ezi / ∑jezj является дифференцируемой

При чтении и записи используется полученный вектор весов wt,

отражающий корреляцию между заданием и каждой из скрытых областей

знаний.

При переходе к очередному заданию qt путем взвешенного

суммирования всех ячеек памяти в матрице значений с использованием весов

wt извлекается содержимое rt (формула 25):

(24)

Page 73: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

73

𝒓𝑡 = ∑ 𝑤𝑡 (𝑖)М𝑡𝑣(𝑖)

𝑁

𝑖=1

Вычисленное таким образом содержимое rt представляет меру овладения

учащимся определенным заданием. Учитывая, что каждое задание обладает

собственной степенью сложности, содержание rt конкатенируется с вектором

вложения входного задания kt, а затем проходит через полносвязанный слой

сети с функцией активации нейронов Tanh. На выходе слоя получается

обобщающий вектор ft, отражающий одновременно и степень овладения

учащимся, и изначальную степень сложности задания (формула 26):

ft = Tanh(WT1[rt, kt] + b1),

где Tanh(zi) = (ez(i) – e-z(i)) / (ez(i) + e-z(i))

Вектор ft затем передается еще одному полносвязанному слою с

сигмоидальной функцией активации, который на выходе выдает предсказание

вероятности успеха/неуспеха учащегося (формула 27):

pt = Sigmoid(WT2ft + b2),

где Sigmoid(zi) = 1 / (1 + e-zi), pt – скалярное значение, представляющее

вероятность успешного выполнения задания qt.

После того, как учащийся выполнил задание qt, модель обновляет

матрицу значений в соответствии с успешностью/неуспешностью выполнения.

В матрицу значений записывается совместное вложение векторов (qt, rt) с

корреляционными весами wt, использовавшимися при чтении из памяти.

Для получения вектора прироста знаний учащегося после выполнения

задания vt кортеж (qt, rt) вкладывается с помощью матрицы вложения B

размером 2Q x dv. При записи прироста знаний в матрицу значений память

стирается перед тем, как в нее будет добавлена новая информация. Этот

(25)

(26)

(27)

Page 74: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

74

процесс во многом аналогичен применению вентилей забвения (forget gates),

использующихся в LSTM.

Для конкретного веса записи (в предлагаемой модели – это

корреляционный вес wt) вектор стирающего сигнала et вычисляется на vt как

(формула 28):

et = Sigmoid(ETvt + be),

где матрица перехода E имеет вид dv x dv, et – вектор-столбец с числом

элементов dv, значения которых лежат в пределе (0, 1).

Предыдущее состояние векторов памяти значений (не ключей) Mvt −1 (i)

обновляется следующим образом (формула 29):

Mvt(i)’ = Mv

t − 1(i)[1 − wt(i)et ]

где 1 – вектор-строка из единиц.

Таким образом ячейки памяти сбрасываются в ноль только в том случае,

если вес локации и стирающий сигнал – оба равны единицы. Вектор памяти не

изменяется, если либо вес, либо стирающий сигнал равны нулю.

После стирания для обновления каждой ячейки памяти используется

вектор добавления at размером dv (формула 30):

at = Tanh(DTvt + ba)T,

где матрица перехода D имеет вид dv × dv, at – вектор-строка.

Память значений обновляется в каждый момент времени t следующим

образом (формула 31):

Mvt(i) = Mv

t− 1(i)’ + wt(i)at

(28)

(29)

(30)

(31)

Page 75: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

75

Механизм со стиранием перед добавлением позволяет отразить

состояния забывания и увеличения усвоения отдельных скрытых областей

учащимися.

Выводы

На Этапе 1 разработана математическая модель применения

рекуррентной сети xMANN, предназначенной для предсказания оптимальной

образовательной траектории учащегося.

Предложенная математическая модель использует в качестве внешней

памяти хранилище типа «ключ-значение» и, в отличии от базовой модели

MANN использует разные векторы весов на запись и чтение. Это позволяет

разделять типы входных и выходных данных сети и эмпирической точки

зрения более точно отражает моделируемый процесс обучения.

Page 76: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

76

6. Анализ данных об уже зафиксированных в базе данных ГлобалЛаб

событиях, отражающих различные аспекты образовательных

траекторий пользователей17.

В распоряжении ГлобалЛаб имеется около 1,5 млн. записей о событиях,

отражающих различные аспекты образовательных траекторий пользователей.

Важно отметить, что в настоящем исследовании к событиям, описывающим

образовательную траекторию учащегося, относят как такие традиционные для

ЭОС события, как выполнение определенных учебных задач (например,

отправка своего проекта на модерацию), так и события, позволяющие оценить

успешность/неуспешность действий учащегося (например, получение

созданного им проекта лайков от других пользователей). В Таблице 7

представлены типы событий, зафиксированных в базе данных ГлобалЛаб.

Таблица 7 - События, подлежащие журналированию в рамках платформы

ГлобалЛаб

Субъект Действие Объект Значение

user like project Пользователь лайкает проект

idea Пользователь лайкает идею

blog_message Пользователь лайкает сообщение блога

comment Пользователь лайкает коммент

signin x Пользователь авторизовался в системе

activate x Пользователь активировался

signon x Пользователь зарегистрировался

signout x Пользователь вышел из системы

17 В разделах 6 – 10 представлены результаты работ, выполненных за счет

собственных средств Исполнителя.

Page 77: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

77

Субъект Действие Объект Значение

create project Пользователь создает проект

idea Пользователь создает идею

school Пользователь создает школу

group Пользователь создает группу

blog_message Пользователь создает сообщение блога

comment project Пользователь комментирует проект (в

обсуждении)

idea Пользователь комментирует идею

blog_message Пользователь комментирует сообщение

в блог (новости или проекта)

group Пользователь комментирует группу

(участвует в ее обсуждении)

submit project Пользователь отправляет проект на

модерацию

submit_data project Пользователь отправляет анкету в

проект

edit_data project Пользователь сохраняет анкету в

проекте (не отправляет)

edit profile Пользователь редактирует свой профиль

project Пользователь редактирует проект

group Пользователь редактирует группу

school Пользователь редактирует школу

portolio Пользователь редактирует портфолио

Page 78: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

78

Субъект Действие Объект Значение

idea Пользователь редактирует идею

post user Пользователь отправляет ЛС

пользователю

invitetogroup user Пользователь приглашает в группу

пользователя

invite x Пользователь отправляет приглашение

внешнему пользователю

external_link url Пользователь кликнул по внешней

ссылке

get_perk perk Пользователь получил награду

get_certificate certificate Пользователь получил сертификат

Все фиксирующиеся события были разделены на 2 группы. К первой

группе были отнесены события, являющиеся обычными шагами траектории, ко

второй – события, фиксирующие успех/неуспех пользователя.

К первой группе отнесены:

– Пользователь лайкает проект

– Пользователь лайкает идею

– Пользователь лайкает сообщение блога

– Пользователь лайкает комментарий

– Пользователь авторизовался в системе

– Пользователь активировался

– Пользователь зарегистрировался

– Пользователь вышел из системы

– Пользователь создает проект

– Пользователь создает идею

– Пользователь создает школу

– Пользователь создает группу

– Пользователь создает сообщение блога

– Пользователь комментирует проект (в обсуждении)

– Пользователь комментирует идею

Page 79: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

79

– Пользователь комментирует сообщение в блог (новости или проекта)

– Пользователь комментирует группу (участвует в ее обсуждении)

– Пользователь отправляет проект на модерацию

– Пользователь сохраняет анкету в проекте (не отправляет)

– Пользователь редактирует свой профиль

– Пользователь редактирует проект

– Пользователь редактирует группу

– Пользователь редактирует школу

– Пользователь редактирует портфолио

– Пользователь редактирует идею

– Пользователь отправляет ЛС пользователю

– Пользователь приглашает в группу пользователя

– Пользователь отправляет приглашение внешнему пользователю

– Пользователь кликнул по внешней ссылке

Ко второй группе относятся:

– Пользователь получил награду (успех)

– Пользователь отправляет анкету в проект (успех)

– Пользователь получил сертификат (успех)

– Проект пользователя не был одобрен модератором (неуспех)

– Анкета пользователя была заблокирована модератором (неуспех)

– Профиль пользователя заблокирован модератором (неуспех).

При этом многие события из первой группе могут рассматриваться как

фиксирующие успех не в отношении текущего, а в отношении другого

пользователя. Примерами таких событий могут служить:

– Пользователь лайкает проект

– Пользователь лайкает идею

– Пользователь лайкает сообщение блога

– Пользователь лайкает комментарий.

Выводы

На этапе 1 проекта были проанализированы данные, уже

зафиксированные в базе данных ГлобалЛаб.

Все события, хранящиеся в базе данных, разделены на 2 основных

группы с точки зрения возможности приписывания им признака

успешности/неуспешности.

Page 80: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

80

7. Сбор данных о параметрах взаимодействия учащегося с

пользовательским интерфейсом.

Для сбора данных о параметрах взаимодействия учащегося с

пользовательским интерфейсом и экстрагирования дополнительных данных (в

частности о типе обучения пользователя) был использован алгоритм,

разработчиком которого является ГлобалЛаб. В состав алгоритма вошли

следующие частные алгоритмы:

1) Алгоритм поиска правил трансформации.

2) Алгоритм применения правил трансформации.

3) Алгоритм типологии стилей обучения.

В качестве одного из базовых понятий, описывающих и обобщающих

различные паттерны поведения пользователей, наблюдаемый через набор

записей о нем, было предложено понятие вариации поведения. Вариация

поведения была определена как последовательность действий,

идентифицируемая наблюдателем как одно из проявлений навыка.

Манифестация вариации поведения на уровне электронной образовательной

среды (ЭОС) составлена из большого количества однообразных действий

пользователя, которые фиксируются в ЭОС как набор его «физических»

действий (см. Рисунок 8). При этом далеко не все элементы вариации

поведения получают выражение в ЭОС. Можно предположить, что

манифестация уровня ЭСО настолько же слабо представляет наблюдаемую

вариацию поведения, насколько сама вариация поведения слабо представляет

протекающий в сознании учащегося когнитивный процесс.

Наряду с выделением вариаций поведения было предложено рабочее

понятие инварианта поведения. Инвариант поведения – это абстрактное

представление о общих признаках, объединяющих набор вариаций. С точки

зрения алгоритмизации определение стиля обучения может быть представлена

как поиск инварианта поведения для частной вариации. Поскольку инвариант в

свою очередь представляет собой обобщенное представление о множестве

Page 81: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

81

различных вариаций поведения, его поиск может быть сведен к задаче

классификации.

Исходя из этого, задача, стоящая перед алгоритмом автоматизированного

определения стиля обучения, в общем виде может быть сформулирована

следующим образом. В качестве входных данных для алгоритма должны

служить события, манифестирующие поведение пользователя в ЭСО.

Алгоритм должен производить классификацию отдельных наборов событий с

целью выявления инварианта поведения. Выявленные инварианты поведения

затем составляют общую модель пользователя, которая и служит описанием

его стиля обучения.

Рисунок 8 - Манифестация вариации поведения в ЭСО

В ходе формирования базы данных было предложено разделить все

события, манифестирующийся на уровне ЭСО на две большие группы –

физические события и семантические события.

При разработке алгоритма определения стиля обучения это разделение

имеет огромное значение, поскольку обрабатываются совершенно по-разному.

Физические события возникают в ЭСО как прямое отражение

физических действий пользователя, выполняемых в реальном мире. Это самый

базовый тип событий, которые с точки зрения анализа поведения не могут

Page 82: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

82

быть разложены на составные части. С этой точки зрения они являются

атомарными.

Перечень физических событий в ЭСО может быть легко составлен на

основе общих представлений об устройстве современных пользовательских

интерфейсов. Каждое из физических событий имеет ряд параметров, которые

могут быть чрезвычайно важны при анализе паттернов поведения. В таблице 8

приведен перечень основных физических действий и их параметров.

Таблица 8 - Физические события, порождаемые пользователями в ЭОС

Продолжение таблицы 8.

Физическое

событие

Параметры

Клик

«мышью»/тап

(click, tap)

- кнопка «мыши»;

- кратность нажатия (двойной клик, одинарный клик);

- задержка между нажатием и отпусканием кнопки;

- модифицирующая клавиша;

- вектор движения курсора во время нажатия;

- скорость перемещения курсора вдоль вектора движения

при нажатии;

- «активность» элемента, на котором произведен клик.

Перемещение

курсора

- вектор перемещения;

- скорость перемещения курсора вдоль вектора;

- путь перемещения (траектория);

- время перемещения курсора вдоль пути перемещения;

- координата начала перемещения;

- координата конца перемещения;

- «активность» элемента, являющегося конечной точкой

перемещения;

Page 83: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

83

Продолжение таблицы 8.

Физическое

событие

Параметры

- «активность» элемента, являющегося конечно точкой

перемещения.

Пролистывание

(скроллинг)

- «длина» пролистывания (в пикселах, в процентах

текста, в процентах экрана и т.п.);

- время пролистывания;

- скорость пролистывания;

- положение курсора при пролистывании;

- способ пролистывания (колесом «мыши», бегунком, с

помощью клавиш PgUp, PgDn, кнопками «вверх»,

«вниз», жестом «swipe»);

- направление пролистывания (горизонтальное,

вертикальное);

- «активность» элемента, находящегося в исходной точке

пролистывания;

- «активность» элемента, находящегося в конечной точке

пролистывания.

Перетаскивание

(drag & drop)

- вектор перетаскивания;

- скорость перетаскивания вдоль вектора;

- путь перетаскивания (траектория);

- время перетаскивания курсора вдоль пути

перетаскивания;

- координата начала перетаскивания;

- координата конца перетаскивания;

- объект перетаскивания;

- «активность» элемента, являющегося конечной точкой

Page 84: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

84

Продолжение таблицы 8.

Физическое

событие

Параметры

перетаскивания;

- «активность» элемента, являющегося конечно точкой

перетаскивания.

Ввод текста - скорость ввода текста;

- содержание текста (последовательность символов);

- объем текста;

- способ ввода (вставка/набор).

Удаление текста - скорость удаления;

- содержание удаления;

- объем удаления;

- способ удаления (выделение + удаление или

посимвольное удаление).

Выделение текста - содержание выделения (набор символов);

- способ выделения (последовательный, пословный,

абзацами, страницами и т.п.).

Изменение

размера объекта

(resize)

- процент изменения размера;

- число измерений, подвергшихся изменению;

- измерения, подвергшиеся изменению;

- скорость изменения размера.

Для трансформации всех перечисленных выше событий критичным

является фактор контекста. Под контекстом в данном случае понимаются те

условия, имеющие временные и событийные ограничения, в которых

происходят события. При разработке алгоритмом определения стиля обучения

для выражения контекста использовалось понятие сессии, которое

трактовалось чрезвычайно широко. Сессия – ограниченный набор физических

Page 85: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

85

событий, который предположительно может быть интерпретирован как

инвариант. Границы сессии обозначены особыми физическими событиями –

событиями начала и конца сессии. В качестве примера сессии можно

предложить работу пользователя с одной веб-страницей – от момента ее

открытия, до момента ее закрытия. При этом Все действия в рамках этой

сессии могут быть объектом классификации с целью выявления инварианта

поведения. Так, например, если на странице расположен учебный текст, то

гипотетический алгоритм классификации на основе событий мог бы

классифицировать поведение пользователя на этой странице как:

- последовательное чтение текста;

- проглядывание текста;

- просмотр иллюстраций к тексту;

- конспектирование текста18;

Как видно из приведенного примера, сессия является одним из

важнейших понятий при разработке общего алгоритма определения типа

обучения.

Выводы

Для сбора данных о параметрах взаимодействия учащегося с

пользовательским интерфейсом был разработан специализированный

алгоритм, выходными данными которого являются входными для другого

алгоритма – алгоритма экстрагирования дополнительных данных о поведении

пользователя и свойствах учебных единиц.

18 Отличается от последовательного чтения большим количеством событий по

выделению текста по ходу его медленного пролистывания.

Page 86: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

86

8. Экстрагирование дополнительных данных о поведении

пользователей и свойствах учебных единиц.

На основании первичных данных, уже зафиксированных в базе данных

ЭОС ГлобалЛаб, а также данных о параметрах взаимодействия пользователя с

пользовательским интерфейсом представляется возможным экстрагировать

дополнительных данных о поведении пользователей и свойствах учебных

единиц, с которыми пользователь взаимодействует. Под учебными единицами

в данном случае понимаются следующие сущности, через которые

реализуются образовательная траектория учащегося в ЭОС ГлобалЛаб:

1) Исследовательский проект;

2) Идея исследовательского проекта;

3) Исследовательская анкета, отправляющаяся в проект;

4) Дополнительные неинтерактивные образовательные материалы,

сопровождающие курсы и проекты ГлобалЛаб (текстовые материалы,

видео, презентации и т.п.);

5) Группы и виртуальные площадки, присоединение к которым

свидетельствует о сознательном выборе при построении учащимся

своей образовательной траектории.

Свойства указанных учебных единиц проявляются исключительно через

поведение в отношении них пользователей. Например, степень сложности

исследовательского проекта может быть отражена в среднем времени задержки

между событиями первого сохранения исследовательской анкеты и событием

отправки ее в проект.

Входными данными для процедуры экстрагирования дополнительных

данных являются физические события, процесс сбора которых описан в

разделе 7. Промежуточная задача процедуры экстрагирования – получить на

основе физических событий семантические, в дополнение к тем, которые уже

фиксируются в ЭОС (см. раздел 6). Конечная задач - на основе этих новых

семантических событий получить дополнительную информацию об учащемся

Page 87: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

87

и, через характер его взаимодействия с компонентами ЭОС, - о учебных

единицах. Эта новая, экстрагированная информация об учащемся и учебных

единицах может быть названа типом обучения учащегося. Таким образом

основное назначение процедуры экстрагирования дополнительных данных –

выделить представление о типе обучения учащегося.

Семантические события гораздо более разнообразны и сложно

структурированы по сравнению с событиями физическими. Их диапазон

простирается от достаточно простых базовых действий (чтение,

редактирование, просмотр, переход между страницами) до достаточно

сложных пространных комплексов – например, участие в дискуссии в форуме,

решение задачи в тесте, создание собственного исследовательского проекта на

краудсорсинговой платформе, поиск информации через поисковик.

Очевидно, что состав и признаки семантических событий часто зависят

от ЭОС, в которой они происходят. Это означает, что очень часто бремя

фиксации семантических событий ложится на разработчиков ЭОС. Только

создатели ЭОС знают в каких узловых местах реализации бизнес-логики их

приложения можно точно диагностировать наступление того или иного

события. Многие современные ЭОС снабжены отдельными подсистемы

журналирования действий пользователей. К счастью, такое журналирование

обычно производится как раз в терминах семантических событий.

При разработке общего алгоритма определения стиля обучения эти

события рассматривались как эталонные, но не единственно возможные.

Алгоритм должен учитывать появление новых событий.

Следует заметить, что семантические события во многом аналогичны

инвариантам поведения, на выявление которых направлена классификация

наборов физических событий. Так, например, если бы создатели некоторой

ЭОС сознательно не журналировали такое событие, как создание комментария

к материалу, то выявление такого события в качестве инварианта могло бы

производится путем классификации физических событий. Это дает основание

ввести следующее общее различие физических и семантических событий для

Page 88: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

88

алгоритма оценки: семантическое событие – это такое событие, которое влияет

на модель пользователя непосредственно, в то время как физическое событие

влияет на модель пользователя только опосредовано – как объект частных

алгоритмов классификации.

Общий алгоритм определения стиля обучения должен принимать в

качестве входных данных сообщения о событиях, соответствующие

спецификации xAPI. При этом алгоритм должен принимать такие сообщения в

реальном времени, постепенно формируя частные и общие модели

пользователя. В случае необходимости, при пересчете частных и общей

моделей, поток событий подается на вход алгоритму повторно, в том же

порядке, в каком они возникали в ЭСО в режиме реального времени.

Различия между физическими и семантическими событиями

обуславливают рекурсивный характер общего алгоритма определения стиля

обучения. Алгоритмы машинного обучения применяются в нем для

выполнения двух задач:

1) классификация наборов физических событий как относящихся к

определенному инварианту поведения (может рассматриваться как

трансформация набора физических событий в семантическое);

2) предсказание искомых свойств модели пользователя.

Процесс трансформации набора физических событий в одно

семантическое путем применения классифицирующих алгоритмов машинного

обучения в более общем виде можно рассматривать как процесс

интерпретации ряда более мелких событий как одного более крупного. Именно

это дает возможность рассматривать этот процесс как рекурсивный.

Общий алгоритм определения стиля обучения включает в себя ряд

частных алгоритмов, обеспечивающих следующие основные операции:

- трансформацию событий в форму, совместимую с форматом общей и

частной моделями пользователей;

- классификацию наборов физических событий с целью выявления

инвариантов поведения;

Page 89: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

89

- предсказание заданных свойств модели пользователя;

Блок-схема общего алгоритма представлена на рисунке 9.

Page 90: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

90

Рисунок 9 - Алгоритм автоматизированного определения стиля обучения

Алгоритм поиска правила трансформации

Page 91: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

91

Основное назначение данного алгоритма – обеспечить нахождения

правила, обеспечивающего трансформацию сообщения о семантическом

событии в формате xAPI в форму вектор-колонки (кортежа), которая в свою

очередь может быть внесена в общую модель пользователя.

Входными данными для алгоритма служит одно сообщение о

семантическом событии в формате xAPI. На рисунке 10 представлена блок-

схема алгоритма.

Сообщение о событии поступает на вход алгоритма в виде JSON-

документа с обязательными полями:

1) Agent – пользователь, породивший событие (A).

2) Verb – действие, обозначающее событие (V).

3) Object – объект действия, включая его контекст (O).

Алгоритм производит выборку из базы данных всех имеющихся правил

трансформации. Каждое правило представлено документом JSON,

соответствующее по структуре запросу в терминах документо-

ориентированной базы данных MongoDB. Условия запроса накладываются

только на поля верхнего уровня Verb и Object, поле Agent не используется в

запросе.

Каждое правила из выборки проверяется на то, что оно является

валидной маской для события. С точки зрения реализации запросов в базе

данных MongoDB валидная маска для документа А – это такой запрос B,

который в случае, если он будет исполнен на коллекции документов, в

которую входит А, вернет А. Ниже приведен пример документ, описывающий

событие и правило, являющееся валидной маской для него.

Пример документа, описывающего событие создания некоторой

активности.

{

"id": "12345678-1234-5678-1234-567812345678",

"actor":{

"mbox":"mailto:[email protected]"

Page 92: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

92

},

"verb":{

"id":"http://adlnet.gov/expapi/verbs/created",

"display":{

"en-US":"created"

}

},

"object":{

"id":"http://example.adlnet.gov/xapi/example/activity"

}

Пример правила, являющегося валидной маской для документа выше.

{

“mask”: {

“verb.id”: {“$regex”:”/verbs\/created/”},

“object.id”: “http://example.adlnet.gov/xapi/example/activity”

}

}

В случае, если очередное правило является валидной маской для

события, выполнение алгоритма прекращается, выходные данные – найденное

правило трансформации. В случае, если ни одно правило не было признано

алгоритмом валидной маской для события, выходные данные – пустое

значение, которое должно интерпретироваться общим алгоритмом как

указание на применение общего правила трансформации.

Следует обратить внимание, что алгоритм предполагает, что к событию

должно быть применено одно и только одно правило.

При выборке полного списка правил из базы данных алгоритм

производит их сортировку по их весу. Вес правил определяется оператором на

основе его оценки порядка проверки валидности масок.

Page 93: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

93

Рисунок 10 - Алгоритм поиска правила трансформации

Алгоритм применения правила трансформации

Основное назначение данного алгоритма – трансформация одного

сообщения о событии в формате xAPI в формат, который в свою очередь

может быть использован для актуализации модели пользователя. Поскольку

Page 94: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

94

модель одного пользователя представляет собой кортеж, то выходными

данными алгоритма является также кортеж, компоненты которого

встраиваются в модель пользователя одним из следующих способов:

1) Компоненты кортежа суммируются с соответствующими

компонентами модели пользователя.

2) Компоненты кортежа замещают соответствующие компоненты модели

пользователя.

Соответствующими считаются компоненты с совпадающими именами.

На рисунке Рисунок 1 представлена блок-схема алгоритма применения

правила трансформации.

Рисунок 1 - Алгоритм применения правила трансформации

Алгоритм предполагает 3 сценария применения правил трансформации в

зависимости от их типа. Ниже приведено описание каждого типа правила.

Page 95: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

95

Аддитивное правило – это правило, в котором записана проекция

сообщения о событии на целевой кортеж. Компоненты полученного по

проекции кортежа суммируются с соответствующими компонентами кортежа

модели пользователя. Если в модели пользователя отсутствуют

соответствующие кортежи, их значения принимаются равными 0.

Ниже приводится пример аддитивного правила, проекция для которого

записана в синтаксисе агрегационных запросов MongoDB (секция типа

$project).

{

“type”: “additive”,

“mask”: {

“verb.id”: “create”,

“object.id”: “project”

},

“$project”: {

“projectNumber” : 1,

“projectQuestionNumber”: 4

}

}

Правило из примера выше применяется к событиям, фиксирующим

создание (create) некоторых сущностей типа project. В результате применения

проекции из секции “$project” будет составлен кортеж с двумя компонентами:

{“projectNumber” : 1, “projectQuestionNumber”: 4}. Поскольку правило

аддитивно (“type”:”additive”), значения из кортежа будут добавлены к

компонентам кортежа модели пользователя. Предположим, что до применения

привила модель пользователя выглядела следующим образом:

{

“id”: “user_id”

Page 96: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

96

….

“avgProjectComplexity”: 12.89,

“avgDiscussionDeep”: 1.65,

“projectNumber”: 2

}

После применения правила и актуализации модели, она будет иметь вид:

{

“id”: “user_id”

….

“avgProjectComplexity”: 12.89,

“avgDiscussionDeep”: 1.65,

“projectNumber”: 1,

“projectQuestionNumber”: 4

}

Ретроспективное правило – это правило, которое применяется к

сообщению о событии, которое не может использоваться для актуализации

модели пользователя без привлечения других сообщений о событиях того же

типа. Наиболее характерны эти правила для случаев, когда в целевом кортеже

должны быть представлены агрегатные значения минимума и максимума. При

этом результирующий кортеж замещает соответствующие компоненты

кортежа модели данных.

Ретроспективное правило предполагает, что будут выбраны все

предыдущие события, подпадающие под его маску. К выбранным событиям

будет добавлено текущее событие и для всего набора будет применена

операция группировки, результатом которой станет целевой кортеж.

Ниже приведен пример целевого правила, в секции $group которого

представлена инструкция по группировке (синтаксис агрегационного запроса

MongoDB).

{

Page 97: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

97

“type”: “retrospective”,

“mask”: {

“verb.id”: “create”,

“object.id”: “message”,

“object.message.deep”: {“$exists”:true}

},

“$group”: {

“_id”: “agent.id”

“maxDiscussionDeep” : $max(“$object.message.deep”)

}

}

Правило из примера выше применяется к сообщениям, фиксирующим

факт добавления нового сообщения. Алгоритм выполнит выборку всех

предыдущих событий, соответствующих максе $mask (аналогичных текущему)

и произведет их группировку по идентификатору пользователя. При этом

будет вычислена максимальная глубина вложенности сообщения пользователя

(передается в исходном сообщении xAPI в поле “object.message.deep”). В

результате будет получен один кортеж с компонентом maxDiscussionDeep.

Значение этого компонента заместит соответствующее значение в модели

пользователя.

Предположим, что до применения привила модель пользователя

выглядела следующим образом:

{

“id”: “user_id”

….

“avgProjectComplexity”: 12.89,

“maxDiscussionDeep”: 3,

“projectNumber”: 2

}

Page 98: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

98

В результате применения правила был получен кортеж

{“maxDiscussionDeep”: 5} – модель пользователя примет вид:

{

“id”: “user_id”

….

“avgProjectComplexity”: 12.89,

“maxDiscussionDeep”: 5,

“projectNumber”: 2

}

Агрегационное правило – данный тип правила предполагает цепочку

произвольных агрегационных процедур следующих типов:

1) Выборка событий (“$match”).

2) Проекция (см. выше).

3) Группировка (см. выше).

4) Сортировка (“$sort”)

Процедуры объединяются в цепочку в произвольном порядке. Цепочка

может содержать любое количество процедур. Замыкающая процедура должна

гарантировать, что на ее выходе будет один кортеж. Компоненты этого

кортежа будут использованы для замещения соответствующих компонентов

модели пользователя.

Концепция цепочки процедур агрегации заимствована из агрегационного

фреймворка MongoDB и использует его синтаксис.

Наиболее характерные примеры применения агрегационных правил –

расчет таких свойств модели пользователя, которые представлены агрегатами

типа средне-арифметического, медианного значения или индекса Шеннона.

Ниже приведен пример агрегационного правила, содержащего цепочку

процедур, вычисляющих агрегатные значения (секция «$agg»).

{

“type”: “aggregative”,

Page 99: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

99

“mask”: {

“verb.id”: “create”,

“object.id”: “form”

},

“$agg”: [

{

“$match”: {

“verb.id”: “create”,

“object.id”: “form”

},

{

“$project”:{

“_id”: “$agent.id”,

“projectComplexity”:” projectComplexity”

}

},

{

“$group”:{

“_id”: “$agent.id”,

“projectComplexity”: {“$sum”:” projectComplexity”},

“totalProjects”: {“$sum”:1}

}

},

{

“$project”:{

“_id”: “$agent.id”,

“avgProjectComplexity”: {“$devide”:[“

projectComplexity”,” totalProjects”]}

}

}

Page 100: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

100

}

]

}

Привило, представленное выше производит вычисление средней

сложности созданных пользователем проектов. Цепочка агрегационных

процедур задает следующую последовательность действий:

1) Отобрать все предыдущие события, фиксирующие создание форм.

2) Для отобранных событий создается проекция, в которую вносится

идентификатор пользователя и индекс сложности проекта.

3) Получившиеся проекции группируются по идентификатору

пользователя, в результате получается кортеж, содержащий сумму

индексов сложности проектов и общее число проектов.

4) На последнем шаге применяется проекция, вычисляющая среднюю

сложность проектов как частное от суммы индексов сложности общего

числа проектов. Результатом является кортеж с компонентом

avgProjectComplexity, который замещает соответствующее значение в

модели пользователя.

Следует отметить, что разделение правил на указанные типы

обусловлено соображениями оптимизации вычислений. Все три типа могут

быть реализованы как правила агрегационного типа. Однако выделение

аддитивных и ретроспективных правил позволяет существенно сократить

количество обращений к базе данных при обработке событий.

Выше, на схеме общего алгоритма, представленной на рисунке ,

показано, что в случае, если для семантического события не было найдено ни

одно правило трансформации, то к нему применяется общее правило

трансформации.

Общее правило трансформации является аддитивным правилом,

проекция которого может быть применена к любому сообщению xAPI. Ниже

приведено полное описание общего правила трансформации.

{

Page 101: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

101

“type”: “additive”,

“$project”: {

“_id”: “$agent.id”,

“component” : {“$concat”:[ “$verb.id”,”.”,”$object.id”]},

“value”: 1

}

}

Данное правило формирует для любого события кортеж с

идентификатором пользователя и одним компонентом, наименование которого

представляет собой конкатенацию идентификатора действия и объекта. Таким

образом, общее правило предписывает сохранять в модели пользователя

количество событий определенного типа.

Предположим, что до применения общего правила трансформации

модель пользователя имела следующий вид:

{

“id”: “user_id”

….

“avgProjectComplexity”: 12.89,

“maxDiscussionDeep”: 3,

“projectNumber”: 2,

“update.profile”: 8

}

После обработки события, фиксирующего факт редактирования профиля

пользователя, был получен следующий кортеж –

{“id”:”user.id”,”update.profile”:1}. Тогда после актуализации модель

пользователя примет вид:

{

“id”: “user_id”

….

Page 102: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

102

“avgProjectComplexity”: 12.89,

“maxDiscussionDeep”: 3,

“projectNumber”: 2,

“update.profile”: 9

}

Алгоритм определения типа обучения

Алгоритм предназначен для обработки набора физических действий,

входящих в одну сессию любого уровня (Сессия ЭСО, ВИ, документа, СМ). На

рисунке 11 представлен пример иерархии сессий.

Рисунок 11 - Иерархическая структура сессий

Основная цель алгоритма – сформировать кортеж частной МП,

представляющий паттерн поведение пользователя в рамках одной сессии.

Матрица частных МП для всех пользователей используется для машинного

обучения алгоритмов, которые предсказывают/идентифицируют тип поведения

пользователя.

Таким образом входными данными алгоритма служит упорядоченный по

времени набор событий в рамках одной сессии некоторого уровня, выходными

данными является вектор-строка (кортеж), представляющий частную МП

(паттерн поведения).

На рисунке 12 представлена блок схема алгоритма получения частной

сессионной МП.

Page 103: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

103

Работа алгоритма во много аналогична обработке семантического

события, описанной выше, однако в данном случае применяется лишь один

вид трансформации – агрегация. При этом объект применения агрегации –

физические события одной сессии.

Рисунок 12 - Алгоритм типологии паттернов поведения

Page 104: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

104

Для иллюстрации работа алгоритма приведем следующий пример

обработки физических событий, возникших в рамках сессии уровня документа.

После открытия страницы веб-документа пользователь совершил

действия, приведенные в Таблице 9:

Таблица 9 – Пример физических событий в рамках одной сессии

Время Verb Object/Parameters

00:02 scrollDown dist: 528,

textSize: 2078

00:45 scrollDown dist: 428,

textSize: 2078

01:31 scrollDown dist: 458,

textSize: 2078

02:02 selectText size: 12,

textSize: 2078

02:34 scrollUp dist: 400,

textSize: 2078

03:01 scrollDown dist: 458,

textSize: 2078

03:01 scrollDown dist: 458,

textSize: 2078

Все события поступили на обработку в алгоритм получения частной

модели пользователя, который нашел для данного типа сессии следующее

правило:

{

“$agg”: [

{

“$match”: {

“verb.id”:{“$in”:[‘scrollUp’,’scrollDown’,’selectText’]}

Page 105: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

105

},

“$project”: {

“scrollDown”: {“$divide”:[

{"$cond":[{"$eq":["$verb.id","scrollDown"]},”$object.dist

”,0]},

“$object.textSize”

]},

“scrollUp”: {“$divide”:[

{"$cond":[{"$eq":["$verb.id","scrollUp"]},”$object.dist”,0]

},

“$object.textSize”

]},

“selectText”: {“$divide”:[

{"$cond":[{"$eq":["$verb.id","selectText"]},”$object.size”,

0]},

“$object.textSize”

]},

“scrollDownNum”:

{"$cond":[{"$eq":["$verb.id","scrollDown"]},1,0]},

“scrollUpNum”:

{"$cond":[{"$eq":["$verb.id","scrollUp"]},1,0]},

“selectTextNum”:

{"$cond":[{"$eq":["$verb.id","selectText"]},1,0]}

},

“$group”: {

“_id”:”user”,

“scrollDown”: {“$sum”:”$scrollDown”},

“scrollUp”: {“$sum”:”$scrollUp”},

“selectText”: {“$sum”:”$selectText”},

“scrollDownNum”: {“$sum”:”$scrollDownNum”},

Page 106: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

106

“scrollUpNum”: {“$sum”:”$scrollDownNum”},

“selectTextNum”: {“$sum”:”$scrollDownNum”}

},

“$project”: {

“id”:”$_id”,

“avgScrollDownShare”: {“$divide”:[$scrollDown,

$scrollDownNum]},

“avgScrollUpShare”: {“$divide”:[$scrollUp,

$scrollUpNum]},

“avgSelectText”: {“$divide”:[$selectText, $selectTextNum]}

},

“$project”: {

“id”:”$id”,

“avgScrollDownShare”: “$avgScrollDownShare”,

“avgScrollUpShare”: “$avgScrollUpShare”,

“avgSelectText”: “$avgSelectText”,

“scrollFactor”:

{“$divide”:[“$avgScrollDown”,”$avgScrollUp”]}

}

}

]

}

В результате применения этого правила будет получена частная модель

пользователя следующего вида:

{

id: “user”

avgScrolDownShare: 0,22425409,

avgScrolUpShare: 0,192492782,

avgSelectText: 0,005774783,

scrollFactor: 1,164999995

Page 107: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

107

}

Получена частная МП содержит следующую информацию, отражающую

общие свойства поведения пользователя во время сессии документа (паттерн

поведения):

1) avgScrolDownShare – средняя доля документа, приходящаяся на одно

пролистывание вниз.

2) avgScrolUpShare – средняя доля документа, приходящаяся на одно

пролистывание вверх.

3) avgSelectText – средняя доля документа, приходящаяся на одно

выделение.

4) scrollFactor – отношение средней доли пролистывания вверх к средней

доли пролистывания вверх.

Page 108: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

108

Указанные выше свойства модели были подобраны автором

агрегационного правила исходя из ряда гипотез, в число которых, в частности,

входят:

1) Средняя доля, приходящегося на одно пролистывание вниз, тем ниже,

чем ближе поведение пользователя к последовательному чтению текста.

2) Средняя доля, приходящаяся на одно пролистывание вверх, тем выше,

чем более пользователь склонен возвращаться к уже прочитанным фрагментам

текста.

3) Отношение средних долей пролистывания вверх и вниз возрастает тем

больше, чем ближе поведение пользователя к последовательному чтению.

4) Средняя доля выделенного текста тем ниже, чем ближе поведение

пользователя к чтению текста.

Формулирование подобных гипотез дает возможность эмпирически

проверить применимость отдельных компонентов частной модели в

алгоритмах машинного обучения, которые используются на следующем шаге

общего алгоритма определения типа обучения – классификация с целью

выявления семантического события.

На основании компонентов частной МП алгоритм классификации

должен предсказать одно семантической событие. Относительно примера

выше такой алгоритм должен охарактеризовать МП как соответствующую

одному из следующих семантических событий:

1) Последовательное чтение.

2) Проглядывание текста.

3) Поиск определенного фрагмента текста.

4) Просмотр отдельных фрагментов

Альтернативная задача, которая может стоять перед алгоритмом

машинного обучения – это найти заданное количество других пользователей,

состоящих в одном кластере с текущим.

Page 109: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

109

Отнесение пользователя к определенному кластеру фактически и решает

задачу по определению его типа обучения. Тип обучения в виде

идентификатора кластера записывается общую модель пользователя.

Выводы

На Этапе 1 задача экстрагирования дополнительных данных о поведении

пользователя и определения свойств учебных единиц была решена путем

разработки алгоритма, автоматически классифицирующего пользователя как

относящегося к определенному типу обучения.

Page 110: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

110

9. Сбор данных об академической успеваемости пользователей из

внешнего источника.

Первичные данные, уже имеющиеся в базе данных ГлобалЛаб (см.

раздел 6), данные о параметрах взаимодействия учащихся с пользовательским

интерфейсом (см. раздел 7), а также дополнительные данные о типе обучения

(см. раздел 8) на Этапе 1 были дополнены данными об академической

успеваемости. Эти данные позволяют получить дополнительные переменные,

описывающие учащегося и его траекторию с точки зрения их

успешности/неуспешности. Пороговые значения этих переменных на

последующих этапах исследований могут использоваться в качестве выходных

для рекуррентной сети xMANN. Вероятность достижения этих пороговых

значений, наряду с вероятностью наступления событий неуспеха (см. раздел 6)

станут объектом предсказаний сети.

В качестве основных характеристик академической успеваемости в

настоящем проекте использовались уровни владения различными сложными

умениями и навыками, получившими в специальной англоязычной литературы

название «некогнитивных» навыков. Сбор данных об академической

успеваемости проводился в 2 этапа:

1. Этап ассоциативных и когнитивных экспериментов

2. Этап сбора анкетных данных.

На этапе 1 был проведен ряд ассоциативных и когнитивных

экспериментов, позволивших собрать корпус результатов (КР), который вошли

около 17 000 результатов ассоциативных экспериментов и около 130 000

результатов когнитивных экспериментов.

Ассоциативный эксперимент проводился по стандартной схеме. Каждый

его участник получал анкету со 100 словами-стимулами, и, согласно

инструкции, в течение 7–10 минут должен был заполнить ее, вписав для

каждого стимула первое, пришедшее ему на ум слово, вызванное в его

сознании этим стимулом. Каждый стимул был снабжен номером, и состав

анкеты формировался на основе работы генератора случайных чисел таким

Page 111: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

111

образом, чтобы избежать появления двух одинаковых анкет. Ниже приведен

образец ответов в одной из анкет (прописными буквами в анкете обозначен

стимул, строчными и курсивными воспроизведены ответы испытуемого).

АНКЕТА 4f38b5af-af56-42ec-9ad5-83329217129f

ПОЛ (М, Ж) — м, ВОЗРАСТ — 12 лет, РОДНОЙ ЯЗЫК — русский,

Дата заполнения — 23.03.15

220 ВЕСЬ — свет 377 МАЛЬЧИК — с-пальчик

301 СЕМЬ — верст 94 НАЧАЛЬНИК — хороший

204 ЖЕЛАТЬ — наилучшего 1237 ХРЕБТИНА — ужасная

340 АРМИЯ — оружие 91 ВЕЗТИ — дрова

127 ПРОДОЛЖАТЬ — молчать 33 ИГРАТЬ — футбол

31 СОБРАТЬСЯ — поесть 246 ЛЕТЕТЬ — в самолете

1274 ОБМАН — ложь 663 МАМА — родная

. . . . . . . . . . . . . . . . . .

На основе результатов экспериментов была составлен ассоциативно-

вербальная сеть, представляющая собой взвешенный граф, в узлах которого

находятся языковые единицы (ЯЕ), а ребра представляют собой факт

ассоциации ЯЕ носителем. Вес (длина) ребра отражает частотность

ассоциации.

На этапе 2 модель данных, представляющая результат ассоциативного

эксперимента должна была быть доработана таким образом, чтобы включить в

себя информацию об общем уровне владения различными навыками.

Для получения данных о степени развитости некогнитивных навыком

был разработан набор анкет, которые предлагается заполнить испытуемому

перед прохождением ассоциативного и когнитивного эксперимента. Комплекс

этих анкет получил название стандартного теста (СТ). Результаты теста

(набранные балы раздельно по комплексу заданий) сохраняются в базе данных

вместе с вербальными ассоциациями.

Page 112: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

112

Таким образом все ассоциации, полученные в результате эксперимента,

были взвешены по результатам СТ на выявление уровня некогнитивных

навыков.

Ассоциативные эксперименты и заполнение анкет стандартного теста

проходили на платформе ГлобалЛаб. Добровольными участниками

эксперимента стали учителя и ученики – пользователи платформы. В состав

СТ входят следующие анкеты:

- анкета для учителя, объем 8 стр.;

- анкета для учащегося, объем 5 стр.;

- тест для учащегося, объем 5 стр.

Следует отдельно пояснить, что результаты заполнения анкеты учителя и

учащегося не сохраняются в ассоциативно-вербальной сети. Данные этих анкет

использовались для верификации результатов, полученных при тестировании

учащегося. Анкета учителя призвана выявить как негативные, так и

позитивные аспекты влияния различных характеристик учителя на средний

результат его ученик.

АНКЕТА ДЛЯ УЧИТЕЛЯ

Анкета содержит следующие разделы:

1) «приоритеты в образовании», включающая вопросы о:

- целевых педагогических установках и ориентациях (вопрос 1, всего 6

утверждений, из них три с ориентациями на ценности предметно-центрической

педагогики и три – на ценности личностно-центрированной педагогики);

- взглядах учителя на процесс обучения (вопрос 2, всего 7

утверждений, из них два с ориентаций на необходимость прямой трансляции

знаний и пять – с ориентацией на необходимость осознанного вовлечения

учащихся в учебный процесс);

Page 113: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

113

- частоте использования отдельных учебных практик (вопрос 3, всего 7

утверждений, из них два – на использование традиционных практик и пять –

на использование элементов инновационных практик, в том числе два – на

использование материалов ГлобалЛаб).

2 ) « ваши ученики», включающая вопросы о:

- частоте использования отдельных видов учебной активности

школьников (вопрос 4, всего 9 видов активностей – с использованием и без

использования ИКТ);

- учебных достижениях школьников (вопрос 5, всего 18 видов

образовательных результатов, из них пять – предметных, одиннадцать –

метапредметных, два – личностных).

3) «поддержка», включающая вопросы о:

- курсах повышения квалификации (вопрос 6, всего 6 утверждений, из

них три – о результативности курсов и три – об их доступности);

- поддержке инноваций в школе (вопрос 7, всего 9 утверждений, из них

пять – о факторах, помогающих вводить инновации и четыре – о факторах,

мешающих вводить инновации).

4) «персональная информация», включающая вопросы о:

- педагогическом стаже (вопрос 8);

- преподаваемых предметах (вопрос 9);

- классах, в которых работает учитель (вопрос 10);

- самооценке своей ИКТ-квалификации (вопрос 11).

Ответы учителей на большинство вопросов анкеты (кроме вопросов 8 –

10) оценивались по 4-х балльной шкале, что позволило при обработке ввести

индекс “инновационности” как интегральную характеристику выборки, и

использовать шкалы: “приоритеты в образовании”, “учебные практики”,

“учебные достижения школьников”.

АНКЕТА ДЛЯ УЧАЩЕГОСЯ

Page 114: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

114

Анкета содержит следующие разделы:

1) персональную информацию, включающая вопросы о:

- классе, в котором учится школьник (вопрос 1);

- числе лет обучения в данной школе (вопрос 2);

- познавательных интересах и отношении к изучаемым предметам

(вопросы 3, 4, 5).

- вовлеченность в учебный процесс (вопрос 6).

2) учебные практики, включающая вопросы о:

- использовании ИКТ (вопросы 7, 8, 9);

- качестве учебных заданий (вопросы 10, 11, 12);

- доступности информационных ресурсов (вопрос 13).

ТЕСТ ДЛЯ УЧАЩЕГОСЯ

Характеристика заданий входного теста приведена в таблице 12.

Таблица 12 - Спецификация теста

Задание вопрос Предмет оценки Тип

задани

я

Оценка выполнения

задани

я

Задание

№1 “Как

поступить

три

вопрос

а

Осознанност

ь

планировани

я

Вопрос

ы с

выборо

м

ответа

качественная

вопрос 1 Аргументация

необходимос

ти

планировани

я

Используемые

дистракторы

характеризуют

следующие уровни

суждений:

а) “власть

авторитета” (№3)

б)

“межличностная

конформность”

Page 115: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

115

Задание вопрос Предмет оценки Тип

задани

я

Оценка выполнения

задани

я

в) “закон и порядок” (№1)

в) “осознанный учет

необходимости” (№2,

№5)

вопрос 2 Аргументация

возможности

отказа от

планирования

Используемые

дистракторы

характеризуют

следующие уровни

суждений:

а) “власть

авторитета” (№3)

б)

“межличностная

конформность

”(№4)

в) “закон и порядок”

(№1) г) расчет на

помощь (№5) в)

“осознанный учет

необходимости” (№2)

вопрос 3 Готовность

выполнить

необходим

ые

действия

Используемые

дистракторы

характеризуют

следующие уровни

вербальной

готовности:

а) готовность (№1)

б) неготовность (№2, 3)

Задание

три

вопроса

Коммуникативные

умения: роль и

поведение

лидера

Вопрос

ы с

Качественна

я

Используем

ые

дистракторы

характеризуют

вопрос 1 Аргументация

необходимос

ти лидера вопрос 2 Аргументация

возможности

отказа от лидера

Page 116: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

116

Задание вопрос Предмет оценки Тип

задани

я

Оценка выполнения

задани

я

№2 “Кто

прав”

вопрос 3 Личный опыт выборо

м

ответа

самооценки

сформированности

коммуникативных и

регулятивных

действий на основе

имеющегося опыта

работы в группе

работы в группе:

поведение лидера

Задание №3

“Ласточки

летают

четыре

вопроса

Навыки

планирования

исследования,

навыки работы с

информацией

(поисковый

запрос)

Балльная,

максимальный балл

за задание – 8 баллов

вопрос 1 Уверенный выбор

исследовательск

их методов

Максимальный балл– 3

балла

код 3 балла – если

выбраны два ответа: и

3) и

4), а ответы 1) и 2)

не отмечены

код 2 балла – если

выбраны только ответ:

4) и другие ответы не

отмечены код 1 балл –

если

выбраны только ответ:

3) и другие ответы не

отмечены код 0 – для

любой иной

комбинации

выбранных ответов

вопрос 2 Умение построить

поисковый запрос

Максимальный балл–

1балл

код 1 балл – если

выбран ответ: 2)

код 0 – если выбран

любой иной ответ

Page 117: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

117

Задание вопрос Предмет оценки Тип

задани

я

Оценка выполнения

задани

я

низко

– будет

дождь?”

вопрос 3 Навыки фиксации

результато

в

наблюден

ий

Вопрос

ы с

выборо

м

ответа

Максимальный балл– 2

балла

код 2 балла – если

выбраны все четыре ответа

1), 3), 5) и 8) и не

менее двух ответов

из

следующих: 2), 9)

и/или 10, при этом

ответы 6), 11) и

12) не отмечены

код 1 балл – если

выбраны три ответа 1),

5) и 8), при этом могут

быть отмечены и

любые иные ответы

код 0 – если выбран

любой иной ответ

вопрос 4 Навыки

планирован

ия

наблюдений

Максимальный балл– 2

балла

код 2 балла – если

выбран ответ 2), при

этом другие ответы не

отмечены

код 1 балл – – если

выбран ответ 1), при

этом другие ответы не

отмечены

код 0–если выбран

любой иной ответ

четыре

вопроса

Навыки

планирования

исследования,

навыки работы с

информацией

(поисковый

запрос)

Балльная,

максимальный балл

за задание – 5 баллов

Page 118: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

118

Задание вопрос Предмет оценки Тип

задани

я

Оценка выполнения

задани

я

Задание №4

“Готовим

презентаци

ю”

вопрос 1 Навыки

планирования:

ориентировка

Вопрос

ы с

выборо

м

ответа

Максимальный балл– 2

балла

код 2 балла –

если выбраны оба

верных

ответа: и 2), и 3) и при

этом другие ответы

не отмечены

код 1 балл – если

выбран только один из

верных ответов: или

2), или 3) и при этом

другие ответы не

отмечены

код 0 – для любой

иной комбинации

выбранных ответов

вопрос 2 Навыки

планирован

ия: прогноз,

Работа с

информацие

й

Максимальный балл–

1балл

код 1 балл – если

выбран ответ: 4)

код 0 – если выбран

любой иной ответ

вопрос 3 Навыки

планирован

ия: прогноз,

Работа с

информацие

й

Максимальный балл–

1балл

код 1 балл – если

выбран ответ: 2)

код 0 – если выбран

любой иной ответ

Page 119: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

119

Задание вопрос Предмет оценки Тип

задани

я

Оценка выполнения

задани

я

вопрос 4 Коммуникативные

умения

Максимальный балл–

1балл

код 1 балл – если

выбран ответ: 4)

код 0 – если выбран

любой иной ответ

Задание

№5

“Почему

червь

пять

вопросо

в

Навыки

исследован

ия, работа с

Вопрос

ы со

свободн

о

Балльная,

максимальный балл

за задание – 7 баллов дождевой” информацией констру-

ируемы

м

ответом

вопрос А

Умение

сформулирова

ть гипотезу

Максимальный балл– 2

балла

код 2 балла - если

записана гипотеза,

допускающая

проверку

естественнонаучны

ми методами

код 1 балл – если

записана иная гипотеза

код 0 – гипотеза не

указана

вопрос

Б1)

Умение составить

поисковый запрос

Максимальный балл– 2

балла

код 2 балла -

если составлен

верный

поисковый

запрос код 1

балл – если

составлен частично

верный запрос

код 0 – запрос

Page 120: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

120

Задание вопрос Предмет оценки Тип

задани

я

Оценка выполнения

задани

я

вопрос

Б2)

Умение дать ссылку

на автора

Максимальный балл–

1балл

код 1 балл – указан

автор

код 0 – автор не указан

Задание

№5

“Почему

червь

дождевой”

вопрос

Б2)

Умение выписать

гипотезу из

текста

Вопрос

ы со

свободн

о

констру-

ируемы

м

ответом

Максимальный балл–

1балл

код 1 балл – из

текста выписана

гипотеза

код 0 – сделана

иная запись или

запись

отсутствует

вопрос

Б3)

Умение дать ссылку

на

информационн

ый ресурс

Максимальный балл–

1балл

код 1 балл – дана

ссылка на

использованный

ресурс код 0 –ссылка

отсутствует

Результаты проведения стандартного тестирования

Состав и общая характеристика участников.

Учителя

В апробации СТ приняло участие 154 учителя, из них 33 – учителя

начальных классов, 91 – учителя-предметники, работающие в только основной

и старшей школе, остальные – учителя-предметники и психологи, работающие

с детьми всех возрастных категорий.

По педагогическому стажу состав выборки заметно отличается от

распределения, характерного для российской системы образования, в сторону

омоложения. Так, если в последние годы в среднем по России количество

молодых учителей составляет до 1-2%, а более половины выборки – это

учителя предпенсионного и пенсионного возраста, то среди участников

пилотного исследования почти две трети участников – это учителя наиболее

Page 121: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

121

работоспособного возраста и обладающие немалым стажем работ – 10 лет

и более (см. рисунок 7)

Рисунок 7 - Распределение участников пилотных школ по педагогическому

стажу.

Подавляющее большинство учителей основной школы (94%) преподают

не более 1– 2 смежных предметов (как правило, математику или математику и

информатику, биологию или биологию и химию и т.д.), в то время как две

трети учителей начальных классов преподают 6 – 7 предметов, (как правило,

русский язык и чтение, математика, окружающий мир, технологию,

изобразительное искусство и еще какой-либо предмет – иностранный язык,

информатику, физкультуру и/или музыку).

Участников опроса отличает также довольно высокий уровень

самооценки их ИКТ- квалификации. Учителя довольно уверенно владеют

текстовым и графическим редакторами, редакторами таблиц, презентаций,

фотографий, средствами коммуникации и поисковыми сервисами.

Определенную сложность для части учителей представляет умение строить

диаграммы и создавать геометрические объекты (см. рисунок 8). Вместе с тем,

более половины учителей (60%) настроены по отношению к себе довольно

Page 122: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

122

критично и отмечают “недостаточность собственной ИКТ-квалификации” для

реализации новых задач в образовании.

Рисунок 8 - Самооценка ИКТ-квалификации

Полученные данные дают основание предположить, что на приглашение

к участию в пилотном исследовании откликнулись инициативные, творчески

работающие учителя, имеющие опыт работы и стремящиеся к поиску, к

самосовершенствованию, к повышению эффективности своей деятельности.

Такие особенности выборки дают ключ и к пониманию особенностей

интегральной характеристики выборки учителей по “индексу

инновационности”, полученного на основе суммарных количественных

показателей по всем трем шкалам “Приоритеты”, “Учебные практики” и

“Учебные достижения учащихся”.

Page 123: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

123

На основе ответов, данных учителями на вопросы анкеты, были

получены 4 группы учителей, каждая из которых характеризовалась своей

степенью согласия (от “полностью согласен” до “совершенно не

согласен”) с ценностями личностно-центрированной педагогики и

ориентацией на реализацию парадигмы деятельностного развития личности;

частотой использования (от “никогда, или почти никогда” до

“постоянно”) отдельных элементов инновационных практик в реальном

учебном процессе, включая использование ИКТ;

уровнем и стабильностью демонстрируемых учащимися

позитивных учебных достижений (от “только отдельными учащимися” до

“всеми или почти всеми учащимися”).

Учителя, отнесенные к 1-й группе, имеют устойчивые инновационные установки,

умело и регулярно используют инновационные практики и добиваются хороших или

отличных результатов.

Учителя, отнесенные ко 2-й группе, имеют преимущественно инновационные

установки, достаточно регулярно используют инновационные практики и добиваются в

среднем хороших результатов.

Учителя, отнесенные ко 3-й группе, имеют смешанные – традиционные и

инновационные – установки, иногда используют инновационные практики, результаты

не отличаются стабильностью, уровень результатов, как правило, ниже среднего.

Учителя, отнесенные ко 4-й группе, имеют смешанные – традиционные и

инновационные – установки, сильны ориентации на трансляцию знаний, предмето-

центрированную педагогику, редко или почти никогда не используют инновационные

практики, результаты не отличаются стабильностью, средний уровень результатов

низкий. Распределение учителей по описанным группам представлено на рисунке 9.

Page 124: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

124

Рисунок 9 - Распределение учащихся по педагогическим ориентациям, используемым практикам и достигаемым учащимися результатам

Учащиеся

На момент обработки результатов участие в апробации СТ приняли 618

учащихся, из них – 132 учащихся начальной школы, 147 учащихся 5-6-х

классов, 339 учащихся 7-9-х классов. Учащиеся старшей школы в апробации

участия не принимали.

Учебные практики и учебные задания

Подавляющее большинство учителей (до 80%) используют различные

приемы инновационных практик и учебных задания, направленные на

формирование некогнитивных навыков. Причем около 40% учителей делают

это на регулярной основе. Чаще используются приемы, не требующие ИКТ

(как отмечают учащиеся – персональные компьютеры во многих школах

доступны лишь в кабинете информатики). Инновационные практики и

задания с использованием ИКТ применяют до 60% учителей, а на регулярной

основе – около 20% (см. рисунок 10).

Page 125: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

125

Рисунок 10 - Частота использования инновационных практик и учебных заданий

Наиболее часто используются задания на поиск, анализ и обработку

информации.

Ответы учителей подтверждаются и ответами учащихся.

Так, от 40 до 50% учащихся назвали три и более предметов, на которых

они, как правило, активно вовлечены в учебную деятельность: обычно всегда

понимают, что требует от них учитель, стараются выполнить все

задания, задают вопросы. Формирование такой активной позиции

учащихся, очевидно, связано именно с использованием учителями

пилотных школ различных элементов инновационных практик.

Отметим, что для основной школы этот показатель почти вдвое превышает

средний показатель по России.

Практически все учащиеся (от 90 до 100%) отмечают, что они имеют

опыт работы в парах и группах и с удовольствием приводят примеры таких

заданий.

Существенно реже им приходится вступать в сотрудничество с людьми

за пределами класса. На этот вопрос отвечают НЕТ 70% учащихся начальной

Page 126: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

126

школы, 90% учащихся 5-6 и 76% учащихся 7 – 9 классов. И все же этот

показатель заметно выше средних показателей по России.

Учебные задания с использованием ИКТ в школе выполняет около 10%

учащихся 2 – 6-х классов и около 20% учащихся 7 – 9-х классов. Важно

отметить, что примеры заданий с использованием ИКТ учащиеся приводят

из самых разных областей и учебных предметов.

Наиболее часто учащиеся начальной школы работают с ИКТ на уроках

окружающего мира (44%) и информатики (39%).

Учащиеся основной школы чаще всего называют информатику (от

56% в 5 – 6-х классах).

Следом в основной школе идут такие предметы как биология (39%),

география (26%) и история (23%), а на старшей ступени – литература (50%),

история (32%), иностранный язык и география (по 25% ответов).

Около четверти младших школьников и 10% учащихся 5-6 классов

отмечают, что у них таких предметов, где бы они работали с ИКТ, нет.

Ответы учащихся показывают также, что на всех уроках гораздо чаще

используют ИКТ учителя, нежели сами ученики, что, конечно, обусловлено

отсутствием свободного доступа к ИКТ для учащихся.

Вместе с тем около 90% учащихся всех ступеней отмечают, что,

находясь дома, имеют доступ к информационным ресурсам школы.

Учебные достижения учащихся

Около 15 – 20% учителей склонны рассматривать результаты,

достигаемые своими учащимися, как весьма позитивные, отмечая, что

подавляющее большинство учащихся характеризуется высоким уровнем

достижений как предметных, так и метапредметных результатов.

Примерно такое же количество учителей (от 16 до 26%) отмечают

низкий уровень достижения (особенно в отношении желания учиться, умения

ставить новые личные учебные задачи) у большинства своих учеников (см.

диаграмму на рисунке 11).

Page 127: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

127

Рисунок 11 - Учебные достижения школьников глазами их учителей

Следует отметить, что если в отношении достижения предметных

результатов эта картина в целом соответствует данным, получаемым в ходе

различных исследований в области оценки качества образования, то в

отношении метапредметных и личностных результатов учителя пилотных

школ склонны скорее идеализировать своих учеников. Подобная

идеализация, как представляется, связана с отсутствием у учителей

надежных измерительных материалов, что не позволяет им объективно

оценивать собственные ощущения.

Вместе с тем, ответы учащихся на задания СТ показывают, что в

достижении учащимися различных составляющих умения учиться есть много

проблем. И что особо беспокоит – эти проблемы не разрешаются с

переходом на новую ступень обучения, а, напротив, как правило,

усугубляются.

Продемонстрированные учащимися 2 – 4-х, 5 – 6-х и 7 – 9-х классах

подтверждают тенденцию, обнаруженную при проведении сквозного

исследования грамотности в области чтения, в ходе которого учащиеся 4-х,

6-х и 9-х классов отвечали на одни и те же вопросы по одному и тому же

Page 128: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

128

тексту. Полученные данные показывают, что уровень достижений

выпускников начальной школы падает в 6-м классе и с трудом

восстанавливается к 9-му (с небольшим превышением по ряду позиций).

Аналогичную тенденцию можно увидеть и в большинстве результатов

СТ. Так, эти результаты показывают резкое снижение готовности к

планированию работы от 90% во 2 - 6-х классах до 67% в 7 – 9-м классах.

При этом снижается и средний уровень суждения – все больше детей

становятся склонны действовать по формальным основаниям или под

угрозой наказания.

Беспокоит и несформированность ориентировочных действий при

планировании в общем-то знакомой школьникам работы – подготовки

презентации. Так, 30% младших школьников, 25% учащихся 5-6 классов и

20% учащихся 7 – 9 классов не видят даже такого очевидно необходимого

действия как составление графика работ. Сформированность действий

планирования в конкретной практической ситуации продемонстрировали

13% учащихся начальной школы и почти вдвое меньше учащихся основной

школы.

Особенно тревожит нарастание оценочной несамостоятельности

детей – от 19% в начальной школе до 31 и 33% в основной. Это вызывает тем

большее беспокойство, что оценочная самостоятельность – это краеугольный

камень общего умения учиться.

Не лучше обстоит дело и с овладением прогностической функции

планирования и навыками взаимодействия. Только 10% учащихся – как в

начальной, так и в основной школе – понимают необходимость

согласовывать графики работы при выполнении общей работы в группе.

Не владеют коммуникативными навыками, умением договариваться,

согласовывать позиции около половины учащихся – 52% в начальной школе,

49% учащихся 5 – 6-х классов и 46% учащихся 7 – 9-х классов. При

этом от 30 до 25% учащихся (соответственно в начальной и основной

школе) считают возможным разрешать проблемы авторитарными методами.

Page 129: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

129

Косвенно на несформированность ряда важных регулятивных и

коммуникативных действий указывают и ответы учащихся на задание 2 о

роли и функциях лидера. От 40 до 30% учащихся готовы передать ему

прежде всего функции контроля за продвижением и качеством работы.

Следующая проблемная зона – это неумение наладить продуктивное

взаимодействие в группе, которое испытывают около 20% учащихся, а также

неумение согласовывать позиции, которое нарастает от начальной к концу

основной школы с 16 до 21%.

Негативный опыт работы в группе имеют 22 – 23% школьников во 2 –

4-х и 7-9-х классах и 15% школьников 5-6-х классов.

Не лучше обстоит дело и со сформированностью познавательных

действий. Несмотря на большой опыт в решении задач на поиск информации

только около 30% учащихся (20% в начальной школе, 31% в 5-6-х классах и

33% в 7 – 9-х классах) могут выбрать правильный поисковый запрос. А

умение относительно правильно самостоятельно составить поисковый запрос

проявили только 4% учащихся начальной школы и 2% учащихся 5-6 классов.

(Отметим, что некоторые дети в задании про дождевого червя просто

дословно повторяли поисковый запрос из предыдущего задания про

ласточек!).

Ученики не приучены и к правилам оформления работ. Только 13%

учащихся начальной школы, 29% учеников 5 – 6-х классов и 18% учащихся 7

– 9-х классов указывают автора цитируемой гипотезы. Причем, нередко даже

в тех случаях, когда фамилия автора присутствует в тексте выписанной

гипотезы! Только около 10% учащихся начальной школы и около 30%

учащихся основной школы дают ссылку на использованный

информационный ресурс.

Значительное количество детей (от 70 до 80% в начальной и основной

школе) не понимает, что такое гипотеза и затрудняется как в

формулировании собственной гипотезы, так и в выявлении гипотезы в

цитируемом тексте. А умение предложить гипотезу, которую можно

Page 130: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

130

проверить естественнонаучными методами продемонстрировало только

около 10% учащихся.

Сформированность исследовательских навыков, оцениваемых в

задании 3 уверенно демонстрирует не более 30% учащихся, при этом

хорошо сформированные навыки фиксации и оформления результатов

наблюдений демонстрируют только отдельные учащиеся.

Результаты работ

В ходе этапа 2 была актуализирована и пополнена новыми данными

база данных ассоциативных и когнитивных экспериментов. В нее вошли

1) данные ассоциативных экспериментов, формализованные частично с

помощью mind map;

2) данные когнитивных экспериментов, связанных с тематикой

предметной областью и перечнем метакогнитивных и метапредметных

навыков и умений.

Для получения данных о степени развитости некогнитивных навыков

был разработан набор анкет, которые предлагается заполнить испытуемому

перед прохождением ассоциативного и когнитивного эксперимента.

С использованием разработанного набора анкет был проведен

эксперимент с участием 154 учителей.

Все ассоциации, имеющиеся в базе данных, были взвешены по

результатам теста на выявление уровня некогнитивных навыков.

Вывод

По результатам работ на Этапе 1 можно сделать вывод об успешном

сборе дополнительных данных об академической успеваемости учащихся,

которые на следующих этапах исследования будут использоваться как

переменные являющихся объектом предсказаний рекуррентной сети

xMANN.

Page 131: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

131

10. Формирования корпуса данных о поведении пользователей в

электронных образовательных системах

Вся данные, работы по подготовке и сбору которых, описаны в

разделах 6 – 9, были собраны в единый корпус (базу данных), являющуюся

источником входных данных для рекуррентной сети xMANN. В состав

корпуса вошли:

- Данные, уже имевшиеся в базе ГлобалЛаб;

- Данные о взаимодействии пользователей с пользовательским

интерфейсом;

- Данные об академической успеваемости.

Дополнительно в корпус вошли данные об академической

успеваемости учащихся, полученные из электронного дневника Дневника.ру,

для которого была сделана интеграция внутри платформы ГлобалЛаб. Общее

число учащихся, для которых были получены данные из Дневник.ру, - 7000.

Все собранные данные были приведены к единому представлению в

виде событий, соответствующих по формату протоколу xAPI.

Вывод

На Этапе 1 сформирован корпус данных о поведении пользователей,

включающий в себя всю информацию, которая может служить входной и

прогнозируемой при обучении рекуррентной сети архитектуры xMANN.

Page 132: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

132

11. Разворачивание, настройка и системное администрирование

облачной инфраструктуры для формирования корпуса данных о

поведении пользователей в электронных образовательных

системах

Программное обеспечение разработки и формирования базы исходных

данных об поведении пользователей в электронной образовательной среде

ГлобалЛаб (далее - ПО), имеет сервисо-ориентированную архитектуру

(SOA).

Набор сервисов, обеспечивающих работу серверной стороны,

объединены в рамках единой сервисной шины, выполняющей роль API.

Каждый сервис выполняет весьма узкую задачу (операцию)

приложения и рассчитан на совместное использование с другими сервисами.

Сервисная шина отвечает за представление интерфейса сервиса в

нескольких режимах. Каждый режим представляет собой сочетания

транспортного протокола и формата обмена данными.

Для транспортного протокола HTTP(S) имеются следующие режимы:

POST — параметры вызова передаются в теле POST-запроса с Content-

Type=application/x-www-form-urlencoded (каждый параметр вызова —

отдельным «элементом формы»).

POST-JSON — параметры вызова передаются в теле POST-запроса с

Content-Type=application/x-www-form-urlencoded. При этом все параметры

передаются единым JSON-документом, помещенным в элемент формы с

названием data. Отдельным элементом формы передается параметр ticket

(ключ сессии).

POST-FILE — параметры вызова передаются в теле POST-запроса с

Content-Type=multipart/form-data, каждый параметр вызова — в отдельном

элементе формы. Допускается передача бинарных данных.

GET — параметры запроса передаются в виде частей URL

На данном ПО около 130 сервисов, обеспечивающих работу серверной

стороны.

Page 133: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

133

Сервисы опираются на ряд иерархий классов, представляющих

контроллеры, оперирующие объектами ORM-слоя. В свою очередь ORM-

слой и слой контроллеров опирается на ряд подсистем, среди которых

выделяются:

– Подсистема хранения статических данных

– Подсистема хранения динамических данных

– Подсистема поиска

– Подсистема хранения графов

– Подсистема организации очередей сообщений (AMQP)

Хранение динамических данных

Для хранения динамических данных используется

документоориентированная БД MongoDB, разбитая на следующие сегменты:

Основной сегмент. Используется для хранения данных средней и малой

степени оперативности.

Оперативный сегмент. Используется для хранения данных высокой

степени оперативности. Данные в этом сегменте являются волатильными.

При этом в сегменте происходит интенсивная запись и чтение. В этом

сегменте хранятся сессии авторизованных пользователей.

Сегмент журнала событий. Сегмент используется для хранение активно

генерирующихся данных о различных действиях пользователя. Данные в

сегменте являются волатильными, чтение осуществляется крайне редко.

Хранилище MongoDB развернуто в режиме Replica-set.

Хранение статических данных

Для хранения статических данных (фотографии и другие файлы,

загруженные пользователями) используется облачное хранилище Rackspace

Cloud Files. Доставка этих данных клиентам осуществляется через CDN

Akamai.

Page 134: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

134

Подсистема поиска

Подсистема поиска используется для индексации и полнотекстового

поиска тектовых данных, порождённых пользователями Для хранения

поисковых индекса и осуществления поиска с учетом морфологии 15 языков

используется БД Elasticsearch.

Подсистема хранения графов

Подсистема хранит связи, возникающие между различными объектами

платформы в результате различных действий пользователей. Такие связи

образуют сложные графы. Примеры связей:

– Пользователю A нравится проект S

– Пользователю А нравится идея B

– Пользователь A общается с пользователем С

Подсистема осуществляет быстрый поиск по графу и выделять

подграфы. Для организации хранилища графов используется БД Neo4J.

Подсистема организации очередей сообщений

Через очередь сообщений осуществляется следующие операции:

– Все виды нотификации пользователей

– Логирование действий пользователей в журнал событий

Для организации очереди по протоколу AMQP используется RabbitMQ.

Развертыванию

Развертывание ПО осуществляется в кластере, обеспечивающем:

– Балансировку нагрузки;

– Отказоустойчивость;

– Малое время отклика;

– Масштабируемость.

Кластер (стэк серверов), на котором производится развертывание

платформы, включает в себя следующие слои:

Page 135: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

135

Слой proxy представлен рядом балансировщиков нагрузки,

развернутых на базе легкого http-сервера Nginx. Данные из этого слоя

поступают на обработку в слой application.

Слой application представлен рядом серверов на базе ОС Debian 6.0, на

которых выполняется весь код, обеспечивающий работу ПО. Функции веб-

сервера выполняет Apache2. При этом, на каждом узле кластера application

развернут абсолютно идентичный набор компонентов ПО. Таким образом,

любой сервер кластера может обеспечивать полный спектр функций ПО. В

дальнейшем предполагается выделять в кластере специализированные

сервера, на которых будут запущены только определенные сервисы.

Слой database представлен кластером серверов, на которых развернуты

реплика-сеты сегментов MongoDB.

Слой misс. Один или несколько серверов, на которых развернуты:

– Очередь сообщений (RabbitMQ)

– Хранилище полнотекстового индекса (Elasticsearch)

– Хранилище графов (Neo4j)

Слой developement support представлен рядом серверов,

обеспечивающих работу репозиториев git (gitweb, gitolite), системы

управления проектов Redmine, функции мониторинга (Logwatch, Zabbix),

деплоймента (Aptitude), резервного копирования (Bacula).

Отдельный сервер предназначен для прототипирования.

ПО развернуто на выделенных серверах FastVPS серии EX-10 и EX-4,

арендованных Индустриальным партнером. Их администрирование

осуществляется силами Индустриального партнера.

Выводы

На этапе 1 выполнены все необходимые работы по разворачиванию,

настройке и системному администрированию облачной инфраструктуры для

формирования корпуса данных о поведении пользователей в электронных

образовательных системах.

Page 136: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

136

ЗАКЛЮЧЕНИЕ

На Этапе 1 были получены следующие результаты:

1) Выбрана и теоретически обоснована разновидность рекуррентной

сети, которая будет использоваться в качестве основной при решении задачи

предсказания оптимальной образовательной траектории.

2) Выбран и теоретически обоснован альтернативных (контрольный)

метод предсказания оптимальной образовательной траектории.

3) Выбран и теоретически обоснован метод получения набора

симулированных данных, на которых будет проводиться верификация

результатов экспериментов.

4) Разработана математическая модель прикладного применения

рекуррентных нейронных сетей для предсказания оптимальной

образовательной траектории.

5) Проведены патентные исследования в соответствии с ГОСТ Р

15.011-96 (отчет о патентных исследованиях представлен в Приложении А к

настоящему отчету).

6) Проведен анализ данных об уже зафиксированных в базе данных

ГлобалЛаб событиях, отражающих различные аспекты образовательных

траекторий пользователей.

7) Выполнено экстрагирование дополнительных данных о поведении

пользователей и свойствах учебных единиц.

8) Собраны данные об академической успеваемости пользователей из

внешнего источника.

9) Собраны данные о параметрах взаимодействия учащегося с

пользовательским интерфейсом.

10) Сформирован корпус данных о поведении пользователей в

электронных образовательных системах.

11) Составлен аналитический обзор современной научно-технической,

нормативной, методической литературы, затрагивающей научно-

техническую проблему, исследуемую в рамках ПНИ.

Page 137: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

137

12) Выполнено разворачивание, настройка и системное

администрирование облачной инфраструктуры для формирования корпуса

данных о поведении пользователей в электронных образовательных

системах.

Исполнитель принял участие в 1 мероприятия по демонстрации и

популяризации результатов науки - II международной научно-практической

конференции «Фундаментальные и прикладные исследования: гипотезы,

проблемы, результаты» (Новосибирск, декабрь 2017). Подтверждающие

материалы об участии представлены в Приложениях Б – Г к настоящему

отчету.

Задачи, поставленные на Этапе 1 ПНИ, решены в полном объеме, что

позволяет организации-исполнителю перейти к следующему этапу.

Сведения о ходе выполнения проекта размещены на сайте Получателя

субсидии по адресу https://globallab.org/ru/help/topic/navigator.html.

Page 138: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

138

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1 Атанов Г.А. Пустынникова И.Н. Обучение и искусственный

интеллект или Основы современной дидактики высшей школы. – Донецк:

Изд-во ДОУ, 2002. – 504 с.

2 Челышкова М.Б. Теория и практика конструирования

педагогических тестов: Учебное пособие. – М.: Логос, 2002. – 432 с.: ил.

3 Попов Э.В. Общение с ЭВМ на естественном языке. Изд. 2-е,

стереотипное. – М.: Едиториал УРСС, 2004. – 360 с.

4 Достоверный и правдоподобный вывод в интеллектуальных

системах / Под ред. В.Н. Вагина, Д.А. Поспелова. – М.: ФИЗМАТЛИТ, 2004.

– 704 с.

5 Башмаков А.И., Башмаков И.А. Разработка компьютерных

учебников и обучающих систем. – М.: Информационно-издательский дом

«Филинъ», 2003. – 616 с.

6 Зайцева Л.В., Прокофьева Н.О. Модели и методы адаптивного

контроля знаний // Образовательные технологии и общество. – 2004. – №

7(4). – С. 265-277.

7 Смолин Д.В. Введение в искусственный интеллект: конспект

лекций. – 2-е изд., перераб. – М.: ФИЗМАТЛИТ, 2007. – 264 с.

8 Аванесов В.С. Основы педагогической теории измерений //

Педагогические измерения. – № 1.

9 Черепанова Ю.Ю. Тестирование теоретических знаний на основе

применения тезауруса семантических полей для построения концептуальных

моделей текста ответа обучаемого на естественном языке // Материалы

международной научно-методической конференции «Образование и

виртуальность». – Ялта: ЯИМ, 2001.

10 Всеволодский С.Н., Гаврилов А.В. Архитектура

интеллектуальной системы тестирования знаний с анализом ответов на

естественном языке. // Международная конференция ИСТ-2003

Page 139: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

139

"Информационные системы и технологии", Новосибирск, 2003. – Т.3, C. 114-

115.

11 Аллахвердов В.М. Методологическое путешествие по океану

бессознательного к таинственному острову сознания. – СПб.: Издательство

«Речь», 2003. – 368 с.

12 Аткинсон Р., Бауэр Г., Кротерс З. Введение в математическую

теорию обучения: Пер. с англ. - М.: Мир, 1969. – 486 с.

13 Михеев О.В. Математические модели стандартизованных

педагогических тестов // Материалы международной конференции-выставки

«Информационные технологии в образовании». – Москва, 2003.

14 Рудинский И.Д., Клеандрова И.А. Математические основы

педагогического тестирования знаний. Часть 1. Модели нечеткого

оценивания знаний и количественного оценивания степени объективности

тестирования. – Калининград: Изд-во КГТУ, 2003. – 70 с.

15 Поспелов Д.А. Из истории искусственного интеллекта: история

искусственного интеллекта до середины 80-х годов // Новости

искусственного интеллекта. – 1994. – № 4. – С. 70-90.

16 Статические и динамические экспертные системы: Учеб. пособие

/ Э.В. Попов, И.Б. Фоминых, Е.Б. Кисель, М.Д. Шапот. – М.: Финансы и

статистика, 1996. – 320 с.: ил.

17 Люгер, Джордж Ф. Искусственный интеллект: стратегии и

методы решения сложных проблем, 4-е издание. : Пер. с англ. – М.:

Издательский дом «Вильямс», 2003. – 864 с. : ил. – Парал. тит. англ.

18 Ярушкина Н.Г. Основы теории нечетких и гибридных систем:

Учеб. пособие. – М.: Финансы и статистика, 2004. – 320 с.: ил.

19 Филиппович Ю.Н., Прохоров А.В. Семантика информационных

технологий: Опыты словарно-тезаурусного описания. С предисловием А.И.

Новикова М.: МГУП, 2002. 368 с. – Книга в комплекте с CD ROM.

Page 140: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

140

20 Кобозева И.М. Лингвистическая семантика: Учебник. Изд. 3-е,

стереотипное. М.: КомКнига, 2007. – 352 с. (Новый лингвистический

учебник.)

21 Мизогучи Р. Шаг в направлении инженерии онтологий // Новости

искусственного интеллекта. – 2000. – № 1-2. – С. 11-37.

22 Бениаминов Е.М. Алгебраические методы в теории баз данных и

представлении знаний. – М.: Научный мир, 2003. – 184 с.

23 Минский М. Фреймы для представления знаний. – М.: Энергия,

1979.

24 Буч Г. Объектно-ориентированный анализ и проектирование с

примерами приложений на C++, 2-е изд./Пер. с англ. – М.: «Издательство

Бином», СПб.: «Невский диалект», 2000. – 560 с., ил.

25 Яхно Т.М. Системы продукций: структура, технология,

применение. – ВЦ РАН, Новосибирск. – 1990. – 127 с.

26 Аверкин А.Н., Гаазе-Рапопорт М.Г., Поспелов Д.А. Толковый

словарь по искусственному интеллекту. – М.: Радио и связь, 1992. – 256 с.

27 Пойа Д. Математика и правдоподобные рассуждения. – М.: ИЛ,

1957. – 535 с.

28 Леоненков А.В. Нечеткое моделирование в среде MATLAB и

fuzzyTECH. – СПб.: БХВ-Петербург, 2005. – 736 с.: ил.

29 Круглов В.В., Дли М.И., Голунов Р.Ю. Нечеткая логика и

искусственные нейронные сети: Учеб. Пособие. – М.: Издательство Физико-

математической литературы, 2001. – 224 с.

30 Поспелов Д.А. Моделирование рассуждений. Опыт анализа

мыслительных актов. – М.: Радио и связь, 1989. – 184 с.: ил.

31 Aamodt A., Plaza E. Case-based reasoning: foundational issues,

methodological variations, and system approaches // AI Communications. IOS

Press. Vol. 7: 1. 1994. – P. 39-59.

32 Davis R., Shrobe H., Szolovits P. What is a Knowledge

Representation? // AI Magazine. – 1993. – № 14(1). – P. 17-33.

Page 141: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

141

33 Андреев А.Б., Усачев Ю.Е. Разработка интеллектуальных средств

обучения // Материалы Всероссийской научно-методической конференции

«Телематика 2002». – Санкт-Петербург, 2002.

34 Henze, N., Dolog, P., & Nejdl, W. Reasoning and Ontologies for

Personalized E-Learning in the Semantic Web // Educational Technology &

Society. – 2004. – № 7 (4). – P. 82-97.

35 Holt P., Dubs S., Jones M., Greer J. The State of Student Modelling //

Student Modelling: The Key to Individualized Knowledge-Based Instruction /

Edited by Jim E. Greer, Gordon I. McCalla. Series: NATO ASI Series F:

Computer and Systems Sciences, Vol 125. – Springer Verlag, Berlin Heidelberg,

1994. – P. 3-35.

36 Бобровников А.Э. Принципы функционирования Web-сайта

системы тестирования с фреймово-иерархической структурой предметного

наполнения в Internet // Труды МАИ. – 2003. – № 12.

37 Wille R., Ganter B. Formal Concept Analysis: Mathematical

Foundations. – Springer Verlag, Berlin. – 1998.

38 Таран Т.А., Сирота С.В. Технология обучения понятиям в

интеллектуальных обучающих системах // Новости искусственного

интеллекта. – 2003. – № 6(60). – С. 18-23.

39 Сарвилина И.Ю. Модели и средства представления знаний в

информационных обучающих системах: Дис. канд. тех. наук: 05.13.17,

05.25.05 – Пенза.: РГБ, 2006. – 181 с.

40 Ивлева Е.В. Разработка и исследование интеллектуальных

контролирующих систем с настраиваемой нечеткой экспертной подсистемой

выставления оценок: Дис. канд. тех. наук: 05.13.11. – М.: РГБ, 2005. – 180 с.

41 Doignon J.-P., Falmagne J.-C. Spaces for the assessment of

knowledge // International Journal of Man-Machine Studies. – 1985. – № 23. – P.

175-196.

42 Plantinga E. Student Modelling Using a Genetic Algorithm. Artificial

Intelligence University of Groningen, The Netherlands, 2003.

Page 142: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

142

43 Саркисян С.Г., Овакимян А.С., Бархударян С.В. Генетические

алгоритмы в интерактивных обучающих системах // Новости искусственного

интеллекта. – 2005. – № 1. – С. 58-62.

44 Cartucci A., Cialdea M., Nardi D. Reasoning about Student

Knowledge and Reasoning // Proceedings of the International Joint Conference on

Artificial Intelligence, 1991, volume 2. – P. 1087-1093.

45 Жуковская Н.К. Исследование и разработка моделей

рассуждений в интеллектуальных обучающих системах: Дис. канд. тех. наук:

05.13.17. – М.: РГБ, 2003. – 222 с.

46 Калашникова Т.Г. Применение аналогии для оценки системы

знаний // Перспективные информационные технологии и интеллектуальные

системы. – Таганрог: Изд-во ТРТУ, 2001, № 5. – С. 220-232

47 Chih-Ming Chen, Ling-Jiun Duh. Personalized web-based tutoring

system based on fuzzy item response theory // Expert Systems with Applications. –

2008. – № 34 (4). – P. 2298-2315.

48 Таран Т.А., Ривкинд А.И. Аргументационная система контроля

знаний // Новости искусственного интеллекта. – 2001. – № 5-6. – С. 12-18.

49 Soh L.-K., Blank, T. Integrating Case-Based Reasoning and Meta-

Learning for a Self-Improving Intelligent Tutoring System // International Journal

of Artificial Intelligence in Education. – 2008. – № 18. – P.27-58.

50 Hadwin A. F. et al. Examining trace data to explore self-regulated

learning //Metacognition and Learning. – 2007. – Т. 2. – №. 2-3. – С. 107-124.

51 Veenman M. V. J. Assessing metacognitive skills in computerized

learning environments //International handbook of metacognition and learning

technologies. – Springer New York, 2013. – С. 157-168.

52 Sayed M. et al. E-Learning optimization using supervised artificial

neural-network //Journal of Software Engineering and Applications. – 2015. – Т. 8.

– №. 01. – С. 26. (URL: http://file.scirp.org/Html/4-9302022_53428.htm; h5-

индекс: 16; DOI: http://dx.doi.org/10.4236/jsea.2015.81004).

Page 143: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

143

53 Piech C. et al. Deep knowledge tracing //Advances in Neural

Information Processing Systems. – 2015. – С. 505-513. (URL:

http://papers.nips.cc/paper/5654-deep-knowledge-tracing).

54 Piech C. et al. Autonomously generating hints by inferring problem

solving policies //Proceedings of the Second (2015) ACM Conference on

Learning@ Scale. – ACM, 2015. – С. 195-204.

55 Piech C. et al. Modeling how students learn to program //Proceedings

of the 43rd ACM technical symposium on Computer Science Education. – ACM,

2012. – С. 153-160.

56 Tang S., Peterson J. C., Pardos Z. A. Modelling Student Behavior

using Granular Large Scale Action Data from a MOOC //arXiv preprint

arXiv:1608.04789. – 2016. (URL: https://arxiv.org/abs/1608.04789).

57 Siddharth Reddy, Igor Labutov, and Thorsten Joachims. Latent skill

embedding for personalized lesson sequence recommendation //arXiv preprint

arXiv:1602.07029. – 2016 (URL: https://arxiv.org/abs/1602.07029).

58 Williams R. J., Zipser D. A learning algorithm for continually running

fully recurrent neural networks //Neural computation. – 1989. – Т. 1. – №. 2. – С.

270-280.

59 Schmidhuber J. Deep learning in neural networks: An overview

//Neural networks. – 2015. – Т. 61. – С. 85-117.

60 Wilson K. H. et al. Back to the basics: Bayesian extensions of IRT

outperform neural networks for proficiency estimation //arXiv preprint

arXiv:1604.02336. – 2016.

61 Lindsey R. V. et al. Improving students’ long-term knowledge

retention through personalized review //Psychological science. – 2014. – Т. 25. –

№. 3. – С. 639-647.

62 Khajah M. M. et al. Integrating knowledge tracing and item response

theory: A tale of two frameworks //CEUR Workshop Proceedings. – University of

Pittsburgh, 2014. – Т. 1181. – С. 7-15.

Page 144: ВЫБОР И ОБОСНОВАНИЕ НАПРАВЛЕНИЯ …… · 2018. 4. 10. · Целью отчетного этапа является выбор и обоснование

144

63 Galyardt A., Goldin I. Move your lamp post: Recent data reflects

learner knowledge better than older data //Journal of Educational Data Mining. –

2015. – Т. 7. – №. 2. – С. 83-108.

64 Lan A. S., Studer C., Baraniuk R. G. Time-varying learning and

content analytics via sparse factor analysis //Proceedings of the 20th ACM

SIGKDD international conference on Knowledge discovery and data mining. –

ACM, 2014. – С. 452-461.

65 Yudelson M. V., Koedinger K. R., Gordon G. J. Individualized

bayesian knowledge tracing models //International Conference on Artificial

Intelligence in Education. – Springer, Berlin, Heidelberg, 2013. – С. 171-180.

66 Polson M. C., Richardson J. J. Foundations of intelligent tutoring

systems. – Psychology Press, 2013.