Кузнецов С.О., Корепанова Н.В. Методы обнаружения...

28
Исходные данные Процедура поиска подгрупп Результаты Заключение Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения Н.В. Корепанова 1,2 , С.О. Кузнецов 1 , А.И. Карачунский 2 1 Национальный исследовательский университет “Высшая школа экономики” 2 Федеральный научно-клинический центр детской гематологии, онкологиии и иммунологии им. Дмитрия Рогачева Москва 2014 Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 1 / 19

Upload: bigdatabm

Post on 07-Jul-2015

94 views

Category:

Health & Medicine


1 download

TRANSCRIPT

Page 1: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Методы обнаружения знаний в задаче сравненияэффективности стратегий лечения

Н.В. Корепанова1,2, С.О. Кузнецов1, А.И. Карачунский2

1 Национальный исследовательский университет“Высшая школа экономики”

2 Федеральный научно-клинический центр детской гематологии,онкологиии и иммунологииим. Дмитрия Рогачева

Москва2014

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 1 / 19

Page 2: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

ПроблемаВ России 10-летняя выживаемость при остром лимфобластномлейкозе у детей:

5-10% в начале 90-х годов80-85% сегодня

Но больше существенно увеличить не удается!Возможное решение - оптимизация терапии в подгруппах,выбор которых статистически обоснован.

Цель исследованияРазработать процедуру поиска подгрупп пациентов, в которыхсуществуют значимые различия в эффективности стратегийлечения.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 2 / 19

Page 3: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

ПроблемаВ России 10-летняя выживаемость при остром лимфобластномлейкозе у детей:

5-10% в начале 90-х годов80-85% сегодня

Но больше существенно увеличить не удается!Возможное решение - оптимизация терапии в подгруппах,выбор которых статистически обоснован.

Цель исследованияРазработать процедуру поиска подгрупп пациентов, в которыхсуществуют значимые различия в эффективности стратегийлечения.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 2 / 19

Page 4: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Исходные данные

Всего в базе 1773 пациента в возрасте до 18 лет включительно,больных острым лимфобластным лейкозом (ALL-MB-2002).

Физиологические характеристики пациента

Пол (мужской или женский)Возраст на момент постановки диагноза (в годах)Инициальный лейкоз (x109/л)Иммуно-фенотип (8 типов)Пальпируемый размер печени (в см)Пальпируемый размер селезенки (в см)Поражение ЦНС (поражена, не поражена, исследование непроводилось)Поражение средостения (поражено, не поражено, исследованиене проводилось)

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 3 / 19

Page 5: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Исходные данные

Всего в базе 1773 пациента в возрасте до 18 лет включительно,больных острым лимфобластным лейкозом (ALL-MB-2002).

Физиологические характеристики пациента

Пол (мужской или женский)Возраст на момент постановки диагноза (в годах)Инициальный лейкоз (x109/л)Иммуно-фенотип (8 типов)Пальпируемый размер печени (в см)Пальпируемый размер селезенки (в см)Поражение ЦНС (поражена, не поражена, исследование непроводилось)Поражение средостения (поражено, не поражено, исследованиене проводилось)

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 3 / 19

Page 6: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Исходные данные

Другие характеристики пациента

Стратегия лечения (DEXA или MEDROL)Дата постановки диагнозаДата последнего осмотраПоследний статус пациента (жив, мертв, нет информации)

Данные для анализа

1501 полностью описанный пациент (наличие или отсутствиеопражения ЦНС и средостения точно определены):

919 пациентов, получавших DEXA582 пациентов, получавших MEDROL

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 4 / 19

Page 7: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Исходные данные

Другие характеристики пациента

Стратегия лечения (DEXA или MEDROL)Дата постановки диагнозаДата последнего осмотраПоследний статус пациента (жив, мертв, нет информации)

Данные для анализа

1501 полностью описанный пациент (наличие или отсутствиеопражения ЦНС и средостения точно определены):

919 пациентов, получавших DEXA582 пациентов, получавших MEDROL

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 4 / 19

Page 8: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Расстояние между пациентами

Допускается вычислять расстояние только между сравнимымипациентами.

СравнимостьДва пациента сравнимы, если их значения качественныхфизиологических характеристик (таких, как пол, иммуно-фенотип ит.д.) совпадают.

Значения количественных физиологических характеристикинормируются, и на их основе вычисляется один из видоврасстояния, например, расстояние Евклида.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 5 / 19

Page 9: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Расстояние между пациентами

Допускается вычислять расстояние только между сравнимымипациентами.

СравнимостьДва пациента сравнимы, если их значения качественныхфизиологических характеристик (таких, как пол, иммуно-фенотип ит.д.) совпадают.

Значения количественных физиологических характеристикинормируются, и на их основе вычисляется один из видоврасстояния, например, расстояние Евклида.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 5 / 19

Page 10: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Пары схожих пациентов

Схожие пациенты, получавшие разное лечение, находятся припомощи алгоритма Гейла и Шепли для решения задачи опоиске стабильного паросочетания[Gale and Shapley, 1962].

ПредпочтенияЧем меньше расстояние между двумя пациентами, темпредпочтительнее они друг для друга.

Cтрогость предпочтений =⇒ Оптимальность паросочетания

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 6 / 19

Page 11: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Пары схожих пациентов

Схожие пациенты, получавшие разное лечение, находятся припомощи алгоритма Гейла и Шепли для решения задачи опоиске стабильного паросочетания[Gale and Shapley, 1962].

ПредпочтенияЧем меньше расстояние между двумя пациентами, темпредпочтительнее они друг для друга.

Cтрогость предпочтений =⇒ Оптимальность паросочетания

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 6 / 19

Page 12: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Выделение подгрупп

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 7 / 19

Page 13: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Кластеры пациентов

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 8 / 19

Page 14: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Пример возможного деления на классы

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 9 / 19

Page 15: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Генерация гипотез (деревья решений)

Для решения задачи классификации и получения описанийвыделенных классов предлагается использовать деревьярешений.Критерии выбора признака для ветвления[Kotsiantis, 2013;Raileanu and Stoffel, 2004]:

прирост информации (information gain)нормализованный прирост информации (information gainratio)индекс Джини (Gini index)

Из всех полученных гипотез были выбраны наиболее точноклассифицируемые.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 10 / 19

Page 16: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Генерация гипотез (деревья решений)

Для решения задачи классификации и получения описанийвыделенных классов предлагается использовать деревьярешений.Критерии выбора признака для ветвления[Kotsiantis, 2013;Raileanu and Stoffel, 2004]:

прирост информации (information gain)нормализованный прирост информации (information gainratio)индекс Джини (Gini index)

Из всех полученных гипотез были выбраны наиболее точноклассифицируемые.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 10 / 19

Page 17: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Проверка гипотез

Проверка каждой выбранной гипотезы проводиласьстандартными методами анализа выживаемости:

Кривые Каплан-Майера[Kaplan and Meier, 1958]Логранговый критерий[Kleinbaum and Klein, 2012]Критерий эквивалентности[Foody, 2009]Вычисление чувствительности (мощности)

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 11 / 19

Page 18: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Кривые Каплан-Майера для всей выборки

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 12 / 19

Page 19: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Пример подтвержденной гипотезы о наличии различий

MEDROL более эффективен, чем DEXA, для пациентов старше6.6 лет с размером селезенки не менше 3.5 и pre-pre- или pre-Bиммуно-фенотипом

Всего таких пациентов47.Достовреность 95%,чувствительность 84%.При лечении всехпациентов MEDROLудалось бы спастиприблизительно 8пациентов.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 13 / 19

Page 20: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Пример подтвержденной гипотезы о наличии различий

MEDROL более эффективен, чем DEXA, для пациентов старше6.6 лет с размером селезенки не менше 3.5 и pre-pre- или pre-Bиммуно-фенотипом

Всего таких пациентов47.Достовреность 95%,чувствительность 84%.При лечении всехпациентов MEDROLудалось бы спастиприблизительно 8пациентов.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 13 / 19

Page 21: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Пример неподтвержденной гипотезы о наличии различий

DEXA более эффективен, чем MEDROL, для пациентов cpre-pre-B, common-B, pre-B или B фенотипов и размеромселезенки не больше 4 см.

Всего таких пациентов1061.Достоверность 95%, ночувствительностьсоставляет 12% (так какразница в выживаемостивсего лишь около 2%)

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 14 / 19

Page 22: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Пример неподтвержденной гипотезы о наличии различий

DEXA более эффективен, чем MEDROL, для пациентов cpre-pre-B, common-B, pre-B или B фенотипов и размеромселезенки не больше 4 см.

Всего таких пациентов1061.Достоверность 95%, ночувствительностьсоставляет 12% (так какразница в выживаемостивсего лишь около 2%)

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 14 / 19

Page 23: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Пример неподтвержденной гипотезы об отсутствииразличий

Разницы нет при размере селезенки не больше 6.5 см, размерепечени не больше 7.5 см, инициальном лейкозе не выше75x109/л, не пораженной ЦНС и в возрасте от 12 до 14.4 лет

Всего таких пациентов78.Согласно значениямстатистики критерияэквивалентностиговорить об отсутствииразличий больше 5% сдостоверностью 95%нельзя.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 15 / 19

Page 24: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Пример неподтвержденной гипотезы об отсутствииразличий

Разницы нет при размере селезенки не больше 6.5 см, размерепечени не больше 7.5 см, инициальном лейкозе не выше75x109/л, не пораженной ЦНС и в возрасте от 12 до 14.4 лет

Всего таких пациентов78.Согласно значениямстатистики критерияэквивалентностиговорить об отсутствииразличий больше 5% сдостоверностью 95%нельзя.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 15 / 19

Page 25: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Заключение

Разработана процедура поиска подгрупп, в которых двавида лечения имеют различия в эффективности. Лучшевсего удается выделять небольшие подгруппы с большимиразличиями.Полученные гипотезы были проверены стандартнымистатистическими методами анализа выживаемости.В полной мере оценить качество гипотез можно толькопосле проведения соответствующих рандомизированныхклинических исследований.Все шаги процедуры могут быть легко адаптированы крешению другой практической проблемы, содержащейанализ в подгруппах и выходящей за рамки гематологии имедицины.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 16 / 19

Page 26: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Открытые вопросы

Какие модификации позволят добиться большей точности?Как учитывать при выборе подгрупп разные типыотрицательных событий (рецидив, метастазы и т.д.)?Какие аномалии могут влиять на наличие отдельныхкластеров?Как модифицировать процедуру для сравнения трех иболее стратегий лечения?и т.д.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 17 / 19

Page 27: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Ссылки

Foody, G. (2009). Classification accuracy comparison: Hypothesis tests and theuse of confidence intervals in evaluations of difference, equivalence andnon-inferiority. Remote Sensing of Environment, 13:1658–1663.

Gale, D. and Shapley, L. (1962). College admissions and the stability ofmarriage. The American Mathematical Monthly, 69(1):9–15.

Kaplan, E. and Meier, P. (1958). Nonparametric estimation from incompleteobservations. Journal of the American Statistical Association,53(282):457–481.

Kleinbaum, D. and Klein, M. (2012). Kaplan-meier survival curves and thelog-rank test. In Survival Analysis, pages 55–96. Springer New York.

Kotsiantis, S. (2013). The american mathematical monthly. ArtificialIntelligence Review, 39:261–283.

Raileanu, L. and Stoffel, K. (2004). Theoretical comparison between the giniindex and information gain criteria. Annals of Mathematics and ArtificialIntelligence, 41:77–93.

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 18 / 19

Page 28: Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий

Исходные данные Процедура поиска подгрупп Результаты Заключение

Спасибо за внимание!

Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 19 / 19