Прогностическая эффективность биомаркеров

61
Прогностическая эффективность биомаркеров Институт общей генетики им. Н.И. Вавилова РАН, лаборатория экологической генетики Рубанович А.В. rubanovich@vigg .ru

Upload: page

Post on 17-Mar-2016

88 views

Category:

Documents


9 download

DESCRIPTION

Прогностическая эффективность биомаркеров. Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН, лаборатория экологической генетики. [email protected]. Ну, вот, опять статистика!. Это не статистика! Это методология представления данных по сопряженности качественных признаков. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Прогностическая эффективность биомаркеров

Прогностическая эффективность биомаркеров

Институт общей генетики им. Н.И. Вавилова РАН, лаборатория экологической генетики

Рубанович А.В.

[email protected]

Page 2: Прогностическая эффективность биомаркеров

Это не статистика!Это методология представления

данных по сопряженности качественных признаков

Ну, вот, опять статистика!

Page 3: Прогностическая эффективность биомаркеров

Тревожные заголовки последних лет:

Маркеры с воспроизводимыми значимыми OR могут быть плохими классификаторами

Относительная полезность OR и RR

…брешь между статистической значимостью и диагностической дискриминацией

Ограниченная полезность OR при использовании диагностических и прогностических маркеров

Прогноз генетического риска – умеем ли мы уже это делать ?

По ту сторону OR – риск заболеваемости на основе генетических профилей

Капля в океане:Good association is usually a necessary, but not a sufficient, condition for good classification

Хорошая ассоциация обычно необходимое, но не достаточное условие для хорошей классификации

Проще говоря, даже р < 10-10 не гарантирует возможность практического использования

обнаруженных эффектов

Page 4: Прогностическая эффективность биомаркеров

Пример, когда сильный эффект не обеспечивает эффективность прогноза

Сколько раз тест сработал? Вероятность того, что случайно выбранный человек будет правильно идентифицирован равна:

500 больных 500 здоровых

1000 человек

5 с маркером 495 без маркера

Суперэффект!

У больных частота маркера в 10 раз выше, чем у здоровых: p=710-11

50 с маркером 450 без маркера

- почти монета!!! 545.01000

49550

Популяционное обследование: Заболеваемость – 50%

Как и было

Это не означает, что маркер плох. Он «плохой классификатор», но «хороший диагност».

Ведь с другой стороны 50/5591% носителей маркера больны!

Page 5: Прогностическая эффективность биомаркеров

Тревожные заголовки последних лет:

Маркеры с воспроизводимыми значимыми OR могут быть плохими классификаторами

Относительная полезность OR и RR

…брешь между статистической значимостью и диагностической дискриминацией

Ограниченная полезность OR при использовании диагностических и прогностических маркеров

Прогноз генетического риска – умеем ли мы уже это делать ?

По ту сторону OR – риск заболеваемости на основе генетических профилей

Капля в океане:Odd Ratio ???

Page 6: Прогностическая эффективность биомаркеров

Показатели степени сопряженности признаков

r - коэффициент корреляции

Количественные признаки

Качественные признаки

OR - отношение шансов

Page 7: Прогностическая эффективность биомаркеров

ЗдоровыеControl

БольныеCase

D

M a b

c d

D

M

Носителимаркера

Свободны отмаркера

Таблица сопряженности 22

Сопряженность качественных признаков

Случаи, когда маркер не сработал

Случаи, когда маркер сработал

cbdaOR

Отношение шансов (Odd Ratio):

Page 8: Прогностическая эффективность биомаркеров

Упражняемся …

10 здоровых10 больных

211397

OR

D M

D

M

ЗдоровыеБольные

Носителимаркера

Свободны от маркера

7 193

Заодно посчитаем значимость: р = 0.02

Page 9: Прогностическая эффективность биомаркеров

WinPepi Portal Free!http://www.brixtonhealth.com/pepi4windows.htmlОгромное разнообразие современных тестов. Ежегодные обновления.

Page 10: Прогностическая эффективность биомаркеров

Свойства показателя OR

OR = 1 - нет эффекта (маркер не сопряжен с заболеванием)

OR >> 1 - сильный эффект, сильная положительная ассоциация (маркер сопряжен с заболеванием)

OR << 1 - сильный эффект, сильная отрицательная ассоциация (маркер сопряжен со здоровьем).Например, в случае генетического маркера, говорят о протективном действии гена

И все-таки, что такое OR ? И почему шансы?

Page 11: Прогностическая эффективность биомаркеров

Шанс (odd) Частота (доля)

Отношение шансов (Odd Ratio)

Отношение рисков (Risk Ratio)

OR RR при p0, p1< 0.1

Сумма

a+b

c+d

Отношение шансов и относительный риск

D M a b

c d

D

M

ЗдоровыеБольные

Носителимаркера

Свободны от маркера

Частоты

р1=a/(a+b)

р0=c/(c+d)

Шансы

a / b

c / d

Вероятность и шанс – в чем разница?Карточный термин:

вероятность выиграть к вероятности проиграть

Page 12: Прогностическая эффективность биомаркеров

FAQ: почему OR, а не RR ?

Погибли Выжили Частотагибели

Частотавыживания

Облучение 5 95 100 0.05 0.95

Контроль 1 99 100 0.01 0.99

По смертности: отношение рисков RR = 0.05/0.01=5 По выживаемости: отношение рисков RR = 0.99/0.95=1.04 Отношение шансов в любом случае равно OR = 599/951 =5.21

Отношение рисков наглядно, но не симметрично

Но главная причина не в этом. Дело в том, что в ассоциативных генетических исследованиях берут выборки больных и здоровых (т.н. «case-control»). В этом случае непосредственно оценить RR невозможно

Кстати, всегда OR ≥ RR

Page 13: Прогностическая эффективность биомаркеров

Мы всегда считали достоверность различий, и все было в порядке

Почему бы не обойтись привычным набором показателей ассоциирования – r, OR, p и т.п. ?

Чего от нас еще хотят?

Вернемся к теме нашего разговора…

Page 14: Прогностическая эффективность биомаркеров

ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического

комплекса России на 2007-2012 годы»

Лот № 2. 2011-1.2-512-014. Разработка постгеномных методов для молекулярно-генетической диагностики соматических заболеваний

17 НИИ общей патологии и патофизиологии РАМН

Разрабатываемая молекулярно-диагностическая тест-система для ранней диагностики генетической предрасположенности к развитию особо опасных и распространенных заболеваний обеспечит следующие диагностические характеристики:1. специфичность - не менее 80%;2. чувствительность - не менее 83%;3. точность - не менее 90%;

22 ГНИИ генетики и селекции промышленных микроорганизмов

высокий (до 98%) уровень информативности (чувствительность/специфичность) создаваемых систем полиморфных маркеров, основанных на идентификации этиологических вариантов генов-кандидатов; высокая чувствительность создаваемого нового способа диагностики предрасположенности к сахарному диабету типа 1 (95% или более).

32Российский онкологический научный центр имени Н.Н. Блохина РАМН

-создание списка генов-кандидатов и их «горячих точек» - мутаций и значимых полиморфных вариантов, вовлеченных в канцерогенез наследственных и спорадических форм рака молочной железы, рака яичников и рака щитовидной железы;-определение чувствительности и специфичности применяемых методик

Лот № 6. 2011-1.2-512-027. Исследование вариантов генов, ассоциированных с устойчивостью и чувствительностью человека к воздействию радиации

57ГНИИ генетики и селекции промышленных микроорганизмов

Высокий (до 98%) уровень информативности (чувствительность/специфичность) создаваемых молекулярно-генетических систем, основанных на идентификации вариантов генов-кандидатов. Высокая чувствительность нового способа диагностики устойчивости человека к воздействию радиации (95% или более).

О чем это они?

Page 15: Прогностическая эффективность биомаркеров

Чувствительность – специфичность: старые добрые медицинские понятия

Чувствительность (SE) – это доля носителей маркера среди больных (тест сработал!)

)D M(PSE

Специфичность (SP) - это доля здоровых, которые не являются носителем маркера (тест сработал!)

)D M(PSP

10 здоровых10 больных

Специфичность = 0.9Чувствительность = 0.7

02.0 при

211397

p

OR

Случаи, когда маркер сработал

Случаи, когда маркер не сработал

Page 16: Прогностическая эффективность биомаркеров

ЗдоровыеControl

БольныеCase

D

M a b

c d

D

M

Носителимаркера

Свободны отмаркера

caaPSE

)D M(ьностьЧувствител

dbdPSP

)D M(стьСпецифично

Таблица сопряженности 22

Page 17: Прогностическая эффективность биомаркеров

Маркер

ЧувствительностьСпецифичность

Выигрывая в чувствительности, обычно теряем специфичность (et converso)

SE vs. SP: противоборство показателей

Маркер у всех, и все больны!

SE=1, SP=0Все без маркера,

и все здоровы! SE=0, SP=1

Page 18: Прогностическая эффективность биомаркеров

Так что важнее:чувствительность или специфичность?

Тест должен быть высокочувствительным, если важно не пропустить ни одного больного (пусть даже будет гипердиагностика).

Тест должен быть высокоспецифичным, если важно не объявлять здорового больным (серьезная психологическая травма либо сильные побочные эффекты лечения – гипердиагностика нежелательна)

2SPSEAUC

Area Under Curve?

Все зависит от ситуации, но лучше всего ориентироваться на среднее. Это простой и эффективный показатель прогностических возможностей маркера (отличать больного от здорового):

1 - SP0 1

SE

1

AUC

Page 19: Прогностическая эффективность биомаркеров

AUC Прогностическая ценность0.5 Случайный классификатор0.5-0.6 Плохой классификатор0.6-0.7 Средний классификатор0.7-0.8 Хороший классификатор>0.8 Отличный классификатор

AUC – это вероятность отличить больного от

здорового, ориентируясь на маркер!

Берем 1 здорового и 1 больного

Без использования маркера

Используем тест и носителя маркера объявляем больным

вероятность угадать, кто есть кто = 1/2

вероятность угадать, кто есть кто = AUC SPSE

21

21

- любого

- любого

- с маркером

В качестве больного выбираем:

AUC>1/2, если OR>1

Почему величина AUC=(SE+SP)/2 характеризует прогностическую эффективность маркера?

Page 20: Прогностическая эффективность биомаркеров

D

M a b

c d

D

M

Двойственность показателей по столбцам и по строкам

Доля дур среди блондинок, это не то же

самое, что доля блондинок среди дур!

Доля больных среди носителей маркера

caa

)D M(PSE=

Доля носителей маркера среди больных

baa

)M D(P =PPV

Positive Predicted Values:вероятность заболеть при

носительстве маркера,диагностическая ценность

Page 21: Прогностическая эффективность биомаркеров

D

M a b

c d

D

M

Двойственность показателей по столбцам и по строкам

caa

)D M(P

baa

)M D(P =PPV

Positive Predicted Values:вероятность заболеть при

носительстве маркера,диагностическая ценность

SE

dbd

)D M(P

SP

dcd

)M D(P =NPV

Negative Predicted Values:вероятность не заболеть при отсутствии маркера,

диагностическая ценность

Page 22: Прогностическая эффективность биомаркеров

D

M a b

c d

D

M

И это еще не все!

caa

)D M(P

baa

)M D(P =PPV

SE

dbd

)D M(P

SP

dcd

)M D(P =NPV

bcadOR Универсальный показатель ассоциирования

- это не относительный риск!Risk Ratio - это во сколько раз

возрастает вероятность заболеть при наличии маркера

NPVPPV

P

PRR

1)M D(

)M D(

Всегда OR > RR

Page 23: Прогностическая эффективность биомаркеров

0.2

0.4

0.6

0.8D

0.2

0.4

0.6

0.8

M

0

0.2

0.4

0.6

0.8

1

RROR0.2

0.4

0.6

0.8D

OR может сильно завышать оценку относительного риска при высокой

заболеваемости

RR/OR

pM

pDORppOR

RR

DD

11

RR слабо зависит от частоты маркера

… и уменьшается при увеличении заболеваемости

Если ген сильно ассоциирован (OR=10) с широко распространенным заболеванием (напр., pD=0.5), то это не значит, что носители этого гена заболевают в 10 раз чаще.

На самом деле только в 2 раза чаще.

Page 24: Прогностическая эффективность биомаркеров

Ну а где же показатели прогностической эффективности?

Не слишком ли много показателей для таблички из 4 чисел?

Прогнозы в эпидемиологии, скрининг, подбор групп риска, профессиональный отбор

Индивидуальный пост-тестовый прогноз, клиническая практика

Их два, и к сожалению они редко бывают хороши одновременно

Маркер-классификатор

Маркер-диагност

Показатель диагностической ценности (по строчкам)

2NPVPPVBAD

Балансовая точностью диагноза (Balanced Accuracy)

Показатель прогностической ценности (по столбцам)

2SPSEAUC

Балансовая точностью прогноза (Balanced Accuracy)

Page 25: Прогностическая эффективность биомаркеров

D M 629 3 885

97 117 744

Banks E., Reeves G., Beral V., et. al. Influence of personal characteristics of individual women on sensitivity and specificity of mammography in the Million Women Study:

cohort study. 2004, BMJ; 329; 477

pM=0.037

pD=0.006

SE=0.87; SP=0.97AUC=0.92

PPV=0.14

NPV=0.999

RR=169

Диагностическая ценность отрицательного результата

почти 100%

OR=197 p=10-300

Рак молочной железы:

Маммография:M

D

Маммография – «маркер-классификатор»

Диагностическая ценность положительного результата

всего лишь 14% !!!

Page 26: Прогностическая эффективность биомаркеров

Leiden V – «маркер-диагност»

A. Folsom, M. Cushman, M. Tsai, et al. A prospective study of venous thromboembolism in relation to factor V Leiden and related factors

BLOOD, 2002, 99, 8

D M 41 26

260 604pM=0.072

pD=0.32

OR=3.7 p=510-7

SE=0.14; SP=0.96AUC=0.547

PPV=0.61

NPV=0.70

RR=2.0

Тромбоз вен:

D

MLeiden V:

МутацияArg506Gln

Относительный риск существенно меньше OR.

Это типично при высокой заболеваемости

Page 27: Прогностическая эффективность биомаркеров

Не слишком ли много показателей для таблички из 4 чисел?

Важный момент: не все эти показатели поддаются непосредственной оценке – все зависит от дизайна

эксперимента

Во всех случаях можно оценить только универсальный показатель ассоциирования отношение шансов OR!

Page 28: Прогностическая эффективность биомаркеров

Дизайн ассоциативных исследований

D

M a b

c d

D

M

Population study: случайная выборка без подбора групп

Case-control study:подбор групп «больные-здоровые»

Cohort study: подбор групп «с маркером – без маркера»

OR, SE, SP, AUC

OR, RR, PPV, NPV

любые

Основной вариант ассоциативныхисследований

Обычно «экспонированные -

контроль»

Редкий вариант (дорого!)

Выборка 1 Выборка 2

Выборка 1

Выборка 2

Набираем выборку, заранее не зная, кто

болен и кто носитель маркера

)D M(P

)M D(P

)M D(P

)D M(P

Page 29: Прогностическая эффективность биомаркеров

Возможность непосредственной оценки зависит от дизайна эксперимента!

Study OR RR SE SP PPV NPV pD pM

Case-control

Cohort

Population

√√ √ √√

√√ √√ √ √

√√ √√ √√ √√ √ √√ √√ √√

pD – встречаемость (распространенность) заболеванияpM – популяционная встречаемость (частота) маркера

Однако в большинстве случаев в отношении pD и pM имеется априорная информация (эпидемиологические

сводки, базы данных PubMed, HapMap и т.д.)

Зная OR, pD и pM можно оценить все остальные показатели

При case-control мы не можем оценить заболеваемость и частоту маркера

непосредственно в своем эксперименте

? ?

M

D

pp

SEPPV

Например, из соотношения

Page 30: Прогностическая эффективность биомаркеров

Какими могут быть чувствительность, специфичность и рискидля бинарного теста? .... Рассмотрим крайности:

На что можно рассчитывать, используя бинарный маркер?

D M a 0

0 d

D

M

D M pM pD pM (1- pD)

(1- pM) pD (1- pM) (1- pD)

D

M

Идеальный маркер

Маркер не работает (например, фамилия с гласной буквы)В каждой клетке

произведения вероятностей «встретить –

не встретить»SE и PPV больше нуля

даже в отсутствии ассоциаций

При OR > 1:SE > pM и PPV > pD

OR=RR=∞

SE=SP=AUC=PPV=NPV=1

OR=RR=1, AUC=1/2

SE=pM, SP=1-pM

PPV=pD, NPV=1-pD

В общем случае показатели эффективности теста зависят от частот встречаемости заболевания и маркера.

Притом весьма нетривиальным образом!

Page 31: Прогностическая эффективность биомаркеров

0

0.25

0.5

0.75

1

M

0

0.25

0.5

0.75

1

D

0.5

0.6

0.7

0.8

0.9

1

AUC

0

0.25

0.5

0.75

1

M

AUC

pM

pD

1OROR

11

M

ORp

OR=5OR=10

OR=20

Зависимость AUC = (SE+SP)/2 от pD и pM

В этой точке SE=SP

Величина максимально возможного AUC не зависит от pM и pD и равна 1/ OROR

Page 32: Прогностическая эффективность биомаркеров

0.2

0.4

0.6

0.8

0.2

0.4

0.6

0.8

0

0.2

0.4

0.6

0.8

0.2

0.4

0.6

0.8

pM

pD

Величина максимально возможного AUC не зависит от pM и pD и равна 1/ OROR

Зависимость (PPV+NPV)/2 от pD и pM

Page 33: Прогностическая эффективность биомаркеров

При каких OR маркер является хорошим классификатором?

7.01

max

OR

ORAUC OR > 5.4 3.0144.5

11

1 при M

OR

p

0.2

0.4

0.6

0.8

1

M

0.2

0.4

0.6

0.8

D

0.5

0.6

0.7

0.8

0.9

AUC

0.2

0.4

0.6

0.8

1

M

1OROR

11

M

ORp

Когда OR>5, а частота маркера не менее 30%:

При низких OR (< 2.5) маркер является заведомо плохим классификатором при любых частотах заболевания и маркера:

6.01

max

OR

ORAUC OR < 2.4

При OR<2 маркер является «плохим классификатором»,

и это уже не зависит от заболеваемости и частоты

встречаемости маркера

При OR>5 маркер может быть «хорошим классификатором», но лишь при высокой частоте встречаемости

Page 34: Прогностическая эффективность биомаркеров

N. Wray, M. Goddard, P. Visscher. Prediction of individual genetic risk of complex disease. Current Opinion in Genetics & Development 2008, 18:257–263

Распределение значений OR для рисковых аллелей ассоциированных с одним из 16 широко распространенных заболеваний

(92 SNP, подтвержденные в нескольких GWAS - исследованиях)

В подавляющем большинстве случаев SNP, выявляемые в ассоциативных исследованиях являются заведомо

«плохими классификаторами»: OR<2.5

Page 35: Прогностическая эффективность биомаркеров

0.08

0.15

0.23

0.00

pM

Рассмотрением «комбинированных» генотипов можно увеличить OR

Обычно по числу рисковых аллелей в подтвержденных SNP:

Thomas, G. et al. Multiple loci identified in a genome-wide association study of prostate cancer. Nature Genet. 40, 310–315 (2008).

rs4242382 (8q24) rs6983267 (8q24) rs4430796 (HNF1B) rs10993994 (MSMB) rs10896449 (11q13) rs4962416 (CTBP2) rs10486567 (JAZF1)

GWAS на 1172 больных раком простаты – 7 SNP

3 4 5 6 7 8 9Число рисковых аллелей

1.0

2.0

3.0

OR

Число рисковых аллелей

OR

Генотипы с высоким OR имеют низкую частоту

встречаемости

 10-12 < p < 10-6

Page 36: Прогностическая эффективность биомаркеров

150 000работ,

претендующих на открытие биомаркеров

Надежды 90-х не оправдались: эпоха GWAS буксует

Капля в океане:

«Bring on the biomarkers» Nature , v 469, 2011

Нашествие биомаркеров

Не более 100 биомаркеров

рутинного использования

в клиниках

Проф. Алексей Кондрашов, Life Sciences Institute, University of MichiganМегагрант-2010 (МГУ). Лекция в Полит.РУ (2010) «Эволюционная биология человека и охрана здоровья»:

George Poste, chief scientist at the Complex Adaptive Systems Initiative, and Regents professor of health innovation

at Arizona State University

«У меня 10-15 генов предрасположенности? В этой информации очень мало проку!»

Page 37: Прогностическая эффективность биомаркеров

Почему высокое OR не всегда гарантирует эффективность прогнозов,

и когда подобное происходит?

5 с маркером 495 без маркера

Суперэффект!

50 с маркером 450 без маркера

D M 50 5

450 495

D

M

OR велико (=11) потому, что это число

мало

pM

pD-pM 1-pD

D M 0

D

M

Возьмем крайний случай: OR=∞

pM

1-pM

pD 1-pD

Page 38: Прогностическая эффективность биомаркеров

Почему высокое OR не всегда гарантирует эффективность прогнозов,

и когда подобное происходит?

pM

pD-pM 1-pD

D M 0

D

M

pM

1-pM

pD 1-pD

D

M

D

D

D

M 121

11

21

21

pp

pp

ppSPSEAUC

даже при очень больших OR маркер является плохим классификатором, если pM/ pD<0.2 (тогда AUC<0.6). Но при

этом он идеальный «диагност»: PPV=1.

При низкой частоте встречаемости маркера тест прогностически неэффективен. Точнее …

AUC1/2 при pM0,хотя OR=∞

Вычисляем

Page 39: Прогностическая эффективность биомаркеров

Маркер-классификатор Маркер-диагност

Соотношение частот

Вид таблицы сопряженности

Графическое представление

Причинность

(SE+SP)/2

(PPV+NPV)/2

Использование

Примеры маркеров

M

DMD

pppp

10

DMD

M

pppp

10

DMD D

M

D

Два варианта высоко значимых эффектов

М – почти необходимое условие заболевания

М – почти достаточное условие заболевания

Высокая НизкаяНизкая Высокая

Массовый скрининг,профессиональный отбор

Наличие дополнительных

симптомов, родословная

Маммография BRCA

pM > pD pM < pD

Page 40: Прогностическая эффективность биомаркеров

Бинарные и количественные маркеры (тесты) Бинарный тест:

маркер «есть-нет»

Количественный тест: маркер является количественным показателем

D M a b

c d

D

M

0

0.05

0.1

0.15

0.2

0.25

0 5 10 15 20

Признак - маркер

Час

тота

КонтрольБольные

После выбора порогового

значения маркера

приходим к таблице 2х2

Page 41: Прогностическая эффективность биомаркеров

0

0.05

0.1

0.15

0.2

0.25

Признак - маркер

Частота

КонтрольБольные

низкая специфичность

Низкий порог

высокая чувствительность

Количественный тест: выбор порога

Page 42: Прогностическая эффективность биомаркеров

0

0.05

0.1

0.15

0.2

0.25

Признак - маркер

Частота

КонтрольБольные

Высокий порог

Низкий порог

высокая специфичность

низкая чувствительность

Количественный тест: выбор порога

Как выбрать порог, чтобы соотношениечувствительность/специфичность было оптимальным?

Порог

ЧувствительностьСпецифичность

Page 43: Прогностическая эффективность биомаркеров

ROC – анализReceiver Operator Characteristics

Термин времен 2-ой мировой войны, который придумали операторы первых радарных

установокКак отличить шум и помехи от

вражеского самолета?

Современные применения ROC-анализа:

Медицинская диагностика, радиология и физиология

Распознавание образов, машинное обучение

Борьба со спамомПогода и любые прогнозы по приметам

Page 44: Прогностическая эффективность биомаркеров

0

0.05

0.1

0.15

0.2

0.25

Признак - маркер

Частота

КонтрольБольные

ROC – кривая: зависимость SE от (1-SP) при плавном изменении порога

1 - SP0 0.5 1

SE

0.5

1

Оптимальный выбор порога: выбирается точка на ROC-кривой, которая ближе всех к левому верхнему углу (0,1), т.е.

min)1()1( 22 SESP

Пороговое значение

Page 45: Прогностическая эффективность биомаркеров

1 - SP0 1

SE

1

Маркер не работает

1 - SP0 1

SE

1

Идеальный маркер

1-ый тест лучше, чем 2-ой

1 - SP0 1

SE

1

Форма ROC-кривых

Page 46: Прогностическая эффективность биомаркеров

AUC - это площадь под ROC-кривой (Area Under Curve)

1 - SP0 1

SE

1

AUCAUC = Вероятность того, что значение признака-маркера у случайно выбранного больного больше, чем у случайно выбранного здорового

U=N1·N2·AUC - непараметрический критерий Манна-Уитни

AUC – интегральный показатель прогностической эффективности маркера

AUC0.5 Случайный классификатор0.5-0.6 Плохой классификатор0.6-0.7 Средний классификатор0.7-0.8 Хороший классификатор>0.8 Отличный классификатор

Page 47: Прогностическая эффективность биомаркеров

Aly M,et al. Polygenic Risk Score Improves Prostate Cancer Risk Prediction: Results from the Stockholm-1 Cohort Study. Eur Urol (2011), doi:10.1016/j.eururo.2011.01.017

0.2 0.4 0.6 0.8 1.00.0

0.2

0.4

0.6

0.8

1.0

Традиционные маркеры (PSA, семейная история):

AUC=0.64

Традиционные + генетические маркеры: AUC=0.67

Гипотетическая модель, включающая неизвестные

генетические маркеры: AUC0.8 (дальше не улучшить)

8q24: OR=1.40; p<10-4 19q13: OR=1.31; p<10-4

5241 больных раком простаты: PSA + 35 подтвержденных SNP, в основном:

ROC-анализ используют для проверки эффективности внедрения новых маркеров

Мы их не знаем, но они должны быть, судя по

«близнецовой наследуемости»

Page 48: Прогностическая эффективность биомаркеров

0

1

2

3

Контроль

Знач

ения

при

знак

а-ма

ркер

а

Больные

Вычисления при ROC-анализе

Page 49: Прогностическая эффективность биомаркеров

0

5

10

15

20

25

0-0.25

0.25-0.5

0.5-0.75

0.75-1

1-1.25

1.25-1.5

1.5-1.75

1.75-2

2-2.25

2.25-2.5

2.5-2.75

2.75-3

3-3.25

Значения признака (маркера)

Час

тота

, %

КонтрольБольные

Вычисления при ROC-анализе

Page 50: Прогностическая эффективность биомаркеров

ИнтервалКонтроль Больные# Доля # Доля

0-0.25 22 0.22 0 00.25-0.5 22 0.22 3 0.030.5-0.75 14 0.14 9 0.090.75-1 19 0.19 15 0.151-1.25 11 0.11 11 0.11

1.25-1.5 7 0.07 15 0.151.5-1.75 5 0.05 16 0.161.75-2 0 0 10 0.102-2.25 0 0 11 0.11

2.25-2.5 0 0 5 0.052.5-2.75 0 0 3 0.032.75-3 0 0 2 0.023-3.25 0 0 0 0

SE SP

0.88

Все делается в Excel:

0.58

Page 51: Прогностическая эффективность биомаркеров

ИнтервалКонтроль Больные# Доля # Доля

0-0.25 22 0.22 0 00.25-0.5 22 0.22 3 0.030.5-0.75 14 0.14 9 0.090.75-1 19 0.19 15 0.151-1.25 11 0.11 11 0.11

1.25-1.5 7 0.07 15 0.151.5-1.75 5 0.05 16 0.161.75-2 0 0 10 0.102-2.25 0 0 11 0.11

2.25-2.5 0 0 5 0.052.5-2.75 0 0 3 0.032.75-3 0 0 2 0.023-3.25 0 0 0 0

SE SP

1 0,220,97 0,440,88 0,580,73 0,770,62 0,880,47 0,950,31 10,21 10,1 10,05 10,02 1

0 10 1

Все делается в Excel:

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.01-Cпецифичность

Чув

стви

тель

ност

ь

Page 52: Прогностическая эффективность биомаркеров

ИнтервалКонтроль Больные# Доля # Доля

0-0.25 22 0.22 0 00.25-0.5 22 0.22 3 0.030.5-0.75 14 0.14 9 0.090.75-1 19 0.19 15 0.151-1.25 11 0.11 11 0.11

1.25-1.5 7 0.07 15 0.151.5-1.75 5 0.05 16 0.161.75-2 0 0 10 0.102-2.25 0 0 11 0.11

2.25-2.5 0 0 5 0.052.5-2.75 0 0 3 0.032.75-3 0 0 2 0.023-3.25 0 0 0 0

L(0,1)SE SP

1 0,220,97 0,440,88 0,580,73 0,770,62 0,880,47 0,950,31 10,21 10,1 1

0,05 10,02 1

0 10 1

Все делается в Excel:

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.01-Cпецифичность

Чув

стви

тель

ност

ь

22 )1()1( SESP

Page 53: Прогностическая эффективность биомаркеров

Наименьшее расстояние до

точки (0,1)

ИнтервалКонтроль Больные# Доля # Доля

0-0.25 22 0.22 0 00.25-0.5 22 0.22 3 0.030.5-0.75 14 0.14 9 0.090.75-1 19 0.19 15 0.151-1.25 11 0.11 11 0.11

1.25-1.5 7 0.07 15 0.151.5-1.75 5 0.05 16 0.161.75-2 0 0 10 0.102-2.25 0 0 11 0.11

2.25-2.5 0 0 5 0.052.5-2.75 0 0 3 0.032.75-3 0 0 2 0.023-3.25 0 0 0 0

L(0,1)

0,7800,5610,4370,3550,3980,5320,6900,7900,9000,9500,9801,0001,000

SE SP

1 0,220,97 0,440,88 0,580,73 0,770,62 0,880,47 0,950,31 10,21 10,1 1

0,05 10,02 1

0 10 1

Все делается в Excel:

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.01-Cпецифичность

Чув

стви

тель

ност

ь

Page 54: Прогностическая эффективность биомаркеров

Наименьшее расстояние до

точки (0,1)

ИнтервалКонтроль Больные# Доля # Доля

0-0.25 22 0.22 0 00.25-0.5 22 0.22 3 0.030.5-0.75 14 0.14 9 0.090.75-1 19 0.19 15 0.151-1.25 11 0.11 11 0.11

1.25-1.5 7 0.07 15 0.151.5-1.75 5 0.05 16 0.161.75-2 0 0 10 0.102-2.25 0 0 11 0.11

2.25-2.5 0 0 5 0.052.5-2.75 0 0 3 0.032.75-3 0 0 2 0.023-3.25 0 0 0 0

L(0,1)

0,7800,5610,4370,3550,3980,5320,6900,7900,9000,9500,9801,0001,000

SE SP

1 0,220,97 0,440,88 0,580,73 0,770,62 0,880,47 0,950,31 10,21 10,1 1

0,05 10,02 1

0 10 1

Все делается в Excel:

Оптимальное пороговое значение

При выборе этого этого порога, мы правильно идентифицируем 73% больных и 77% здоровых

Page 55: Прогностическая эффективность биомаркеров

ИнтервалКонтроль Больные# Доля # Доля

0-0.25 22 0.22 0 00.25-0.5 22 0.22 3 0.030.5-0.75 14 0.14 9 0.090.75-1 19 0.19 15 0.151-1.25 11 0.11 11 0.11

1.25-1.5 7 0.07 15 0.151.5-1.75 5 0.05 16 0.161.75-2 0 0 10 0.102-2.25 0 0 11 0.11

2.25-2.5 0 0 5 0.052.5-2.75 0 0 3 0.032.75-3 0 0 2 0.023-3.25 0 0 0 0

L(0,1)

0,7800,5610,4370,3550,3980,5320,6900,7900,9000,9500,9801,0001,000

AUC

0,2200,2170,1300,1530,0720,0380,020

000000

SE SP

1 0,220,97 0,440,88 0,580,73 0,770,62 0,880,47 0,950,31 10,21 10,1 1

0,05 10,02 1

0 10 1

Все делается в Excel:

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.01-Cпецифичность

Чув

стви

тель

ност

ь

AUC

0.85AUC =

Page 56: Прогностическая эффективность биомаркеров

Пример из радиационной генетики:Лаборатория экологической генетики ИОГен РАН

Page 57: Прогностическая эффективность биомаркеров

Частоты хромосомных аберраций в зависимости от генотипов по кандидататным генам у ликвидаторов аварии на ЧАЭС и в контроле

Контроль : 98 курсантов

Ликвидаторы : 84 человека

Генотипирование по 20 генам репарации, оксидативного стресса и

детоксикации ксенобиотиков

Тщательный цитогенетический

анализ

Page 58: Прогностическая эффективность биомаркеров

Частоты хромосомных аберраций в зависимости от генотипов по кандидататным генам у ликвидаторов аварии на ЧАЭС и в контроле

Контроль : 98 курсантов

Ликвидаторы : 84 человека

Ген Сайты

GSTM1 Ins/Del

GSTT1 Ins/Del

CYP1A1T3801C T606G

A4889G

CYP1B1 G1294C

CYP2D6 A1934G

GSTP1 A313G

COMT G1947A

NAT2 G590A

Ген Сайты

XRCC1 C589T G1996A

XPD (ERCC2)

T2251G G862A

ERCC1 G262T T354C

APEX1 T444GRAD23B C746T

OGG1 C977GATM G5557A

Ген Сайты

SOD2 C47T

CAT T21A

GCLC C129T

MTHFR C677T

Tp53 G215C

Репарация ДНКДетоксикация ксенобиотиков

Оксидативный стресс, клеточный цикл

Частоты хромосомных

аберраций

Рисковый генотип: минорные аллели в сайтах XPD и функциональные аллели генов GST

Ассоциации с частотами

аберраций для обеих выборок

Генотипы по XPD

Контроль Ликвидаторы

0 1 2 3 4

Число минорных аллелей в сайтах XPD

0 1 2 3 4 0 1 2 3 4

Генотипы по GSTM1-GSTT1

0,000

0,002

0,004

0,006

0,008

0,010

Контроль Ликвидаторы

Час

тота

абе

ррац

ий х

ром

осом

ного

ти

па

"нулевой" по обоим локусам"положительный" по одному из локусов "положительный" по обоим локусам

0 1 20 1 2

Page 59: Прогностическая эффективность биомаркеров

Распределения частот аберраций хромосомного типа у ликвидаторов и в контрольной группеЧто можно считать повышенным уровнем хромосомных аберраций?

Примем за граничное значение «повышенного уровня аберраций»

0.0035

0

20

40

60

80

100

0 20 40 60 80 100

100-SP, %

SE, % ROC-кривая

р = 3,710-14

по тесту Манна-Уитни

0,0021±0,00030,0071±0,0006

Page 60: Прогностическая эффективность биомаркеров

Частота «рискового генотипа» среди лиц с повышенным и пониженным уровнем аберраций

0

20

40

60

80

100

Ликвидаторы Контроль

Час

тота

рис

ково

го г

енот

ипа,

%

<0.0035>0.0035

Частота аберраций хромосомного типа

Хотя бы один минорный аллель в сайтах XPD плюс хотя бы одна инсерция в GSTM1-GSTT1

Частота рискового

генотипа, %SE, % SP, % AUC OR P

Контроль 63.5 90.0 43.4 0.67 6.9 0.008

Ликвидаторы 67.5 76.6 63.2 0.70 5.6 0.002

Что есть норма? Более половины из нас

предрасположены к повышенной частоте аберраций хромосом!

RR=5.3Специфичность

Чувствительность

Page 61: Прогностическая эффективность биомаркеров

Хороший классификатор – это когда OR>5, а частота маркера не менее 30%

Чувствительность теста (SE) всегда мала при pM<<pD. Диагностическая ценность теста (PPV) заведомо мала при pM>>pD.

Всем спасибо, и еще раз напомню - не ORом единым! Необходимо также оценивать чувствительность (SE), относительный

риск (RR), диагностическую ценность (PPV) и прогностическую эффективность маркера (AUC )

Редкие мутации - малоэффективные классификаторы. Если частота маркера мала (pM<0.2pD ), то прогностическая эффективность теста (AUC) крайне низка даже при OR>>1

При OR<2.5 маркер является заведомо плохим классификатором (AUC<0.6 при любых частотах заболевания и маркера)

В ситуации «case-control» не надо думать про OR, что это относительный риск. Оцените RR как OR/(1-pD+pDOR)

С удовольствием предоставлю презентацию заинтересованным слушателям

Всегда ваш Александр Рубанович