not the rocket science

Not the Rocket ScienceНика Адамян, Илья Захаров

ЗПШ[email protected]

mailto:[email protected]

Плохая наука не безвредна

Плохое исследование это:

- Время и ресурсы, потраченные на исходное исследование

- (Время и ресурсы)*2, потраченные на опровержение исходного исследования

- Увеличение научного шума

- Cнижение доверие к области исследований и науке в целом

Возможность делать хорошую науку есть у всех

● Это не вопрос финансирования ● Это не вопрос инфраструктуры ● Это вопрос информированности,

ответственности и желания

Какова воспроизводимость психологических исследований?

Nosek et al. (a lot of al!), 2015

• Из 100 реплицированных исследований более половины не подтвердили статистической значимости эффекта

• Чем больше размер эффекта оригинального исследования, тем выше вероятность успешного воспроизведения результатов

Neuroskeptic, 2010

1. Лимб

2. Слон из мухи

3. История придумана задним числом

4. Охота на p

5. Креативные выбросы

6. Плагиат

7. Не-публикация

8. Частичная публикация

9. Фальсификация

Низкая статистическая мощность

Давайте поможем психологам найти правильный круг ада!

Эксперимент 1: Влияет ли прослушивание детских песен на субъективный возраст?

НП: детская или обычная песня ЗП: субъективный возраст (5 вариантов ответа) Ковариата: возраст отца Выборка: 30 cтудентов

Результат: да, влияет! детская песня заставляет чувствовать себя старше F(1, 27) = 5.06, p = .033




Эксперимент 2: Влияет ли прослушивание песни о зрелом возрасте на ВОЗРАСТ?

НП: детская песня или “I’m 64” ЗП: возраст Ковариата: возраст отца Выборка: 20 cтудентов




Эксперимент 2: Влияет ли прослушивание песни о зрелом возрасте на ВОЗРАСТ?

НП: детская песня или “I’m 64” ЗП: возраст Ковариата: возраст отца Выборка: 20 cтудентов

Результат: СЕНСАЦИЯ!!!

Используя тот же дизайн что и Эксперимент 1, мы давали 20 34 студентам Университета Пеннсильвании послушать песню “Calimba” либо “I am Sixty-Four” либо “Hot Potato”. Мы анализировали данные после каждых 10 наблюдений. Затем, в не относящемся к песне опроснике, студенты указывали свой возраст, свой субъективный возраст, возраст своего отца, возраст своей матери, хотели бы они поужинать в кафе, квадратный корень 100, согласны ли они с утверждением, что “компьютер - сложная машина”, пользуются ли они скидками на ранние покупки, свои политические взгляды, свой гендер, часто ли они описывают прошлое как “старое доброе” и кто из канадских полузащитников по их мнению получил награду. ANCOVA выявила ожидаемый эффект: после прослушивания песни Beatles испытуемые были на полтора года моложе (adjusted M = 20.1) , чем после прослушивания детской песни (adjusted M = 21.5), F(1,17) = 4.92, p = .040. Без контроля возраста родителя, разница была меньше и не достигла статистической значимости (M = 20.3 и 21.2, соответственно), F(1,18) = 1.01, p = .33.

Используя тот же дизайн что и Эксперимент 1, мы давали 20 34 студентам Университета Пеннсильвании послушать песню “Calimba” либо “I am Sixty-Four” либо “Hot Potato”. Мы анализировали данные после каждых 10 наблюдений. Затем, в не относящемся к песне опроснике, студенты указывали свой возраст, свой субъективный возраст, возраст своего отца, возраст своей матери, хотели бы они поужинать в кафе, квадратный корень 100, согласны ли они с утверждением, что “компьютер - сложная машина”, пользуются ли они скидками на ранние покупки, свои политические взгляды, свой гендер, часто ли они описывают прошлое как “старое доброе” и кто из канадских полузащитников по их мнению получил награду. ANCOVA выявила ожидаемый эффект: после прослушивания песни Beatles испытуемые были на полтора года моложе (adjusted M = 20.1) , чем после прослушивания детской песни (adjusted M = 21.5), F(1,17) = 4.92, p = .040. Без контроля возраста родителя, разница была меньше и не достигла статистической значимости (M = 20.3 и 21.2, соответственно), F(1,18) = 1.01, p = .33.

То, что было сделано, отличается от того, что описано, но

результаты обеспечиваются первым, а не вторым.

- Решения принимаются в процессе проведения исследования. Чем сложнее дизайн и метод анализа – тем больше степеней свободы (например, 7000 комбинаций параметров для анализа фМРТ(Carp, 2012).

- Нет четких правил (в лучшем случае конвенции)

- Исследователь хочет получить статистически значимый результат (по многим причинам)

Откуда берутся проблемы

Решение: Определение размера выборки a priori ИЛИ

Секвенционные статистические методы

Несколько способов определить размер выборки:

- Рассчитать на основе мощности эффекта (хорошо когда возможно)

- Использовать конвенциональные >n измерений на ячейку (meh)

- Взять конвенциональное значение и собрать вдвое больше данных (not bad)

В любом случае, главное не останавливать сбор данных просто потому что обнаружились значимые различия

Почему так важен размер выборки

Cогласно публикациям, разница бывает: “на уровне статистической тенденции” или “практически достигла уровня статистической значимости” или “статистически не значима в узком понимании” или “не полностью значима”.

Зачем проводить тест, если его результат не влияет на интерпретацию данных?

“Конечно, бог любит .06 почти так же как .05”

Ссылки на полезные ресурсы:

G*Power: http://www.gpower.hhu.de/en.html

“Идеальный t-test” Д. Лакенса: https://github.com/Lakens/Perfect-t-test

Анализ p-значений на основе приведенных статистик http://shinyapps.org/apps/p-checker/

http://www.gpower.hhu.de/en.html

https://github.com/Lakens/Perfect-t-test

http://shinyapps.org/apps/p-checker/

Полный дизайн исследования ● Исследовательские вопросы ● Гипотезы (направленные или ненаправленные?) ● Испытуемые (здоровые взрослые? дети? пациенты? животные? менеджеры? откуда они узнают про исследование? что они получат за участие?)

● Объем выборки и его обоснование (анализ мощности, наличие ресурсов, доступность) и/или правило остановки

● Все переменные - измеряемые и варьируемые ● Способ рандомизации ● Правила исключения наблюдений и заполнения пропущенных значений ● Планируемые трансформации данных и препроцессинг ● Планируемые статистические тесты

В идеале, первая часть отчета об исследовании должна на 100% соответствовать тому, что было запланировано. Все, что не входило в планы, является эксплораторной частью исследования, что тоже интересно, но должно быть отделено от конфирматорной части.

http://fivethirtyeight.com/features/science-isnt-broken/ https://osf.io/gvm2z/

Все эти варианты анализа выполнены правильно

Получить некий результат гораздо проще, чем понять, что происходит на самом деле

http://fivethirtyeight.com/features/science-isnt-broken/

https://osf.io/gvm2z/

• Как бы мы ни старались, наука остается довольно “грязным” делом

• Нужно принять, что любой результат — временный, как и любая теория

• Это не значит, что данные нужно воспринимать как иллюстрацию к картине мира учёного — данные нужно слушать, стараясь побороть свое стремление подтвердить собственную гипотезу

https://cos.io/prereg/

Attention, Perception & PsychophysicsCognition & Emotion

Comparative Political StudiesComprehensive Results in Social

PsychologyCortex

Drug and Alcohol DependenceeLife

European Journal of NeuroscienceExperimental Psychology

Human Movement ScienceJournal of Business and Psychology

Journal of Media PsychologyJournal of Personnel Psychology

Perspectives on Psychological ScienceRoyal Society Open Science

Social PsychologyStress & Health

Working, Aging and Retirement

Пререгистрация отдельно от публикации

Рецензия на идею: - теория - гипотезы - методы - анализ

Принципиальное согласие на публикацию (в случае если автор будет следовать утвержденному плану

Рецензия на статью - важно соответствуют ли выводы результатам

- не имеет значения “хороший” ли результат

PROFIT!

Вариант развития на примере одной лаборатории

https://sites.google.com/site/todorovicana/musings/crisis_report

1) Публиковать данные и скрипты для анализа (OSF, Zenodo) – вероятность кражи данных намного меньше вероятности сотрудничества + мотивация держать файлы в порядке

2) Переделывать анализ друг за другом вслепую 3) Всегда описывать хотя бы один “неудавшийся” анализ в статье или

прикладывать “неудавшиеся” результаты в качестве дополнительных материалов

https://sites.google.com/site/todorovicana/musings/crisis_report

Организация репродуцируемых исследований

Ширяк, 2015

Типичные реакции на просьбу показать данные и код

• Мои данные? Да, вот папка с первым пилотажем, вот эту папку оставила студентка, но она так и не закончила… в общем, я не совсем помню, какие данные использовались, надо посмотреть…

• Подожди, тут у меня где-то в экселе была таблица…

• Вот мой скрипт в SPSS! У тебя нет SPSS? Как ты так живешь.

• Я так долго готовил(а) эту презентацию, а теперь мне поручили добрать выборку, все графики придется перерисовывать

• Вот архив со всеми скриптами по этому проекту. Там ничего непонятно и нет комментариев, но я надеюсь ты справишься=). Что, основной скрипт не работает? А, понятно, тебе нужно откомментировать здесь, там и тут, и исправить минус на плюс в строке 157

Организация исследования

Правило: делать все так, чтобы тебе было это понятно через 5 лет. Тогда это будет понятно и другому сейчас.

Типичная организация файлов:

- литература - дизайн (+ дополнительные материалы, функции, etc) - данные - анализ - публикация, постер, абстракт…

Основные компьютерные инструменты работы психолога-исследователя

F1000 Research

Инструменты для создания экспериментов

Проприетарный, зато работает “из коробки”

Кстати, работает в Octave (открытая альтернатива Matlab)

Не соглашайтесь на это

Неплохая среда с кнопочками, открыто

Бесплатно, открыто, доступно для изучения

Специальные инструменты для статистического анализа

JASP

JASP +: открытый, удобный, простой, умеет байесовские статистики -: не сохраняет скрипт, не манипулирует данными

SPSS +: нас ему учат, можно сохранить скрипт -: дорогой, медленный, тяжелый, проприетарный, страшненький

R +: открытый, мощный, активно разрабатывается, есть курсы (даже на русском языке), достаточно низкий порог вхождения, рисовать в ggplot одно удовольствие -: при редком использовании навык теряется

Решения для ведения логовJupyter notebooks: браузерный, многофункциональный, хотя лучше всего подходит для уроков и инструкций. Очень удобен в случаях, когда нужно контролировать работу небольших кусочков кода. Rmarkdown: удобно для всего что делается в R, хотя довольно быстро раздувается. Удобно готовить промежуточные отчеты.

OneNote, Evernote etc – неудобно хранить код, хотя подходит для картинок и текста. Любые варианты с контролем версий через GitHub – отлично, но нужно привыкнуть. Скорее формат постепенного улучшения нежели хронологии.

Открытая наука – зонтичный термин для движения, цель которого — сделать научные исследования, данные и их распространение доступными для всех уровней заинтересованного общества, будь то любители или профессионалы.

Принципы открытой науки

● Открытые методы

● Open source

● Открытые данные

● Открытый доступ к научным результатам

● Открытое рецензирование

● Открытые образовательные ресурсы

Неочевидный, но полезный побочный продукт открытой науки – открытое обучение науке. То, чему раньше нужно было учиться в престижных местах в непосредственном контакте с авторами, сейчас часто находится в открытом доступе.

● Уроки и инструкции (программирование, анализ данных)

● Код исследовательских проектов ● Различные типы данных

Как социальные медиа ускорили науку

Пост-публикационные рецензии и HIBAR (ЕЯБР!)Отличная возможность увидеть разные точки зрения Быстрая реакция на публикации (по сравнению с “письмом редактору”

25 августа: выход онлайн статьи “Sadness Impairs Color Perception”, пресс-релизы в нескольких крупных изданиях, недоуменная дискуссия в твиттере — обнаружена очевидная методическая ошибка 4 сентября: первый комментарий PubPeer с описанием ошибки 12 сентября: обнаружен еще один недочет, связанный с округлением данных вручную … 5 ноября: авторы отзывают статью 25 ноября: препринт с подробным анализом кейса и недочетов

Как находить интересное - через друзей с похожими интересами - через известных в проф.сообществе пользователей - через поиск - через хештеги (#ECRchat, #PhDchat)

О чем писать твиты - полностью ваше дело - если хотите обосноваться в научном твиттер-мире –

про свои научные находки, про то, чем вы занимаетесь, интересные статьи из вашей сферы, живые ленты с конференций

Как успевать читать - сохранение длинных текстов на потом – либо с

помощью кнопки favourite которая недавно стала кнопкой like, либо с помощью сторонних сервисов типа Pocket

Преподаватели ЗПШ в Твиттере: @nikuss , @ilia_zaharov , @lovakov, @cogdevelopment и многие другие!

- журналы и их заголовки - профессиональные сообщества

- научные блоги - околонаучные блоги

Заведите Feedly или TheOldReader и добавьте новости любимых блогов и журналов

Часть 2

Соавторы нужны хотя бы для того чтобы читать черновики

Сотрудничество

Общий протокол Разные часовые пояса Гигиена рабочей почты

Сотрудничество: данные

Внимание к мелочам (названия файлов, заметки в ходе эксперимента, etc.) Общая база + data dictionary

http://www.humanconnectomeproject.org/https://www.humanbrainproject.eu/

Коллаборации

etc.

http://enigma.ini.usc.edu/

Исследования в интернете: допустимо

Исследования в интернете: реализуемо

https://www.mturk.com/mturk/welcome

?Yale University, Yale School of Medicine University of South Florida

Stanford University University of California at San Francisco

University of Iowa College of Public Health University of Alabama, Birmingham

Исследования в интернете: как не надо

Facebook study

http://www.eternagame.org/web/about/

Исследования в интернете: интересно

http://brainflight.org/

http://fold.it/portal/info/about#folditpub

http://eyewire.org/explore

http://calhoun.nps.edu/bitstream/handle/10945/44013/14Sep_Tellioglu_Umit.pdf?sequence=3&isAllowed=y

Исследования в интернете: интересно

Как привлекать «китов?»

90 % 12,000 Phylo

top 20 players solved more than 700 puzzles each

Как работать с людьми

Информированное согласие

Платить ли испытуемым?

Если есть возможность, то да.

TCTS

Профессиональные сообщества

Междисциплинарное сотрудничество

https://vk.com/coopscience

1. Build replications into current study designs. Start with looking for an effect that is already published, then build on additional manipulations. That way nobody needs to dedicate their time exclusively to replications, while published results will still be routinely checked.

2. If you are unable to come up with strong, precise, fully worked out hypotheses about all the possible and impossible things the brain might do in response to your experimental manipulations, then make this a two-step process. Start out with some broad hypotheses about large scale neural activity, then stop the data analysis and reassess. Think about mutually exclusive interpretations of your data, then try to come up with additional, targeted hypotheses about the nature of

the neural activity underlying your effects.

3. Publish the results of all your studies, if you think your experiments were methodologically and technically sound. These won’t all get into journals with high impact factors, but still write them up with care. It is incredibly important for others to know what does and doesn’t work. Always give exact p-values for

nonsignificant results. The difference between 0.05 and 0.12 might be negligible; the difference between 0.12 and 0.9 is not.

4. Always plot the raw data in your manuscripts (a measure of central tendency and a measure of dispersion). Do not just show t-maps, model fits, correlations with indices, difference plots. Show what neural activity looks like for each experimental condition. This makes it easier to compare results across studies, and

gives others a clearer insight into the data pattern underlying your effect. If at all possible, upload your data and scripts to a public repository.

5. Appreciate people’s research for more than their p-values. Hiring committees will mostly care about that, but we can behave differently. Give people's failed experiments the attention they deserve. Failed experiments make us think, and thinking is a good thing.

1. Build replications into current study designs. Start with looking for an effect that is already published, then build on additional manipulations. That way nobody needs to dedicate their time exclusively to replications, while published results will still be routinely checked.

2. If you are unable to come up with strong, precise, fully worked out hypotheses about all the possible and impossible things the brain might do in response to your experimental manipulations, then make this a two-step process. Start out with some broad hypotheses about large scale neural activity, then stop the data analysis and reassess. Think about mutually exclusive interpretations of your data, then try to come up with additional, targeted hypotheses about the nature of

the neural activity underlying your effects.

3. Publish the results of all your studies, if you think your experiments were methodologically and technically sound. These won’t all get into journals with high impact factors, but still write them up with care. It is incredibly important for others to know what does and doesn’t work. Always give exact p-values for

nonsignificant results. The difference between 0.05 and 0.12 might be negligible; the difference between 0.12 and 0.9 is not.

4. Always plot the raw data in your manuscripts (a measure of central tendency and a measure of dispersion). Do not just show t-maps, model fits, correlations with indices, difference plots. Show what neural activity looks like for each experimental condition. This makes it easier to compare results across studies, and

gives others a clearer insight into the data pattern underlying your effect. If at all possible, upload your data and scripts to a public repository.

5. Appreciate people’s research for more than their p-values. Hiring committees will mostly care about that, but we can behave differently. Give people's failed experiments the attention they deserve. Failed experiments make us think, and thinking is a good thing.