researcher-centered design of statistics: why bayesian statistics better fit the culture and...
TRANSCRIPT
Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI+ CHI 2016- Matthew Kay, Gregory L. Nelson, Eric B. Hekler/๊น์ ์ x 2016 Spring
Researcher-Centered Design of Statistics:Why Bayesian Statistics Better Fit the Culture and Incentives of HCI
CHI2016 - UX and Usability Methods
2016. 6. 9.์ฌ์ฉ์๊ฒฝํ ์ฐ๊ตฌ์ค ๊น์ ์
[ ]Matthew Kay, Gregory L. Nelson, Eric B. Hekler
โ 2015 ๋ ์ด <Basic and Applied Social Psychology> ์ ์์ฑ ๊ฒ์ ์ฌ์ฉ๊ธ์ง ์ ์ธโ ๋ฏธ๊ตญํต๊ณํํ (ASA) ๊ฐ p-value ์ ์ ์์ฑ๊ฒ์ ์ ๋ํ ๊ณต์ ํด๋ช ์ฑ๋ช ์ ๋ฐํ๊ธฐ๊น์งโฆ
* ๋ฐ์์ , 3 ๋ ์ฌ๋ฆฌํ ์ ๋์ ๊ฒ์ฌ๋ ๋ ผ๋ฌธ , 100 ๊ฑด ์ค 62 ๊ฑด ๊ฐ์ค ์ ์ฆ์ ์คํจ , ํ๊ตญ์ผ๋ณด , 2015-08-28. (http://www.hankookilbo.com/v/a0438094c3cb454d895939754759b6ed)** ๋ฐ์ค์ ( ์คํ์ด์ค์ฃผ๋ฆฝ๋ ์ฌ๋ฆฌํ ๋ฐ์ฌ๊ณผ์ , ํ์ด์ค๋ถ https://m.facebook.com/joonsuk.park.5/posts/1282611928419264)
์ฌํ์ฑ ์๊ธฐ์ ์ ์์ฑ ๊ฒ์ฆ์ ๋ํ ์์ฌโ ์ฌ๋ฆฌํ ์ ๋์ ๊ฒ์ฌ๋ ๋ ผ๋ฌธ ์ค ์ ๋ฐ ์ด์์ด ๊ฐ์ค ์ ์ฆ์ ์คํจ
๋ค์ด์ฒ์์ ๊ณผํ์ 1500 ๋ช ์ ๋์์ผ๋ก ์ค์ํ ์ค๋ฌธ์กฐ์ฌ ๊ฒฐ๊ณผ !๊ณผํ์ ์ฌํ์ฑ ์๊ธฐ์ ๋ํด 1500 ๋ช ๊ณผํ์์๊ฒ ๋ฌป๋ค (http://photohistory.tistory.com/16472)
ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ ์ผ๋ง๋ ์ ์๋ฏธํ ๊น ?
* ๋ฐ์ค์ , ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ ์ผ๋ง๋ ์ ์ํ ๊น , ์ฌ์ด์ธ์ค์จ , 2016-05-20. (http://scienceon.hani.co.kr/402347)
โ ๋ณ์ด ๋ด๋ค ? ์๋ด๋ค ?: p ๊ฐ ์๋ผ๋ด๊ธฐโ โ ์ ์์ฑ๊ฒ์ โ์ด๋ผ๋ ์ด์ํ ํต๊ณ๋ถ์ ๋ฐฉ์์ด 20 ์ธ๊ธฐ ์ค๋ฐ ์ดํ ํ๊ณ๋ก ํ์ฐ
โ ์ํ / ์๋ช ๊ณผํ ์ฐ๊ตฌ์์๋ ์ง์์ ์ผ๋ก ์ ๊ธฐ๋๊ณ ์๋ ๋ฌธ์ โญ๏ธโญ๏ธโญ๏ธ๋ณ์ด๋ด๋ค !!!โญ๏ธโญ๏ธโญ๏ธ
์๋์ ๊ฐ์ ์ ํตํp ๊ฐ ์๋ผ๋ด๊ธฐ ์๋ !
HCI ์ปค๋ฎค๋ํฐ โ๋จ์ผ ๊ฐ์ง ์๋ค์โโ RepliCHI: ์ฌํ์ฑ ์๊ธฐ๋ HCI ๋ถ์ผ์์๋ ์ด๋ฏธ ๊ณ ๋ฏผํ๊ณ ์๋ ๋ถ๋ถ์ด๋ค
โ NHST ์ ๋ํด์ ๋ฌธ์ ๋ฅผ ์ ๊ธฐ , ๋ค๋ฅธ ์ ๊ทผ์ ์ ์ํ๋ ๊ฒ์ด ๋ฐ๋ก ์ด ๋ ผ๋ฌธ !
Honorable Mention (Top 5%)
โ ๋งค์ฐ ์์ผ๋ค๊ณ ์๊ฐํ๋๋ฐ , ์ฐพ์๋ณด๋ ์ญ์ honorable mention!
๋ ผ๋ฌธ์ ์ ์๋ค
* http://www.mjskay.com
โข University of Washington Ph.D. candidateโข 1 ์ ์๋ When (ish) is my bus? ์ ์์ด๊ธฐ๋ ํจโข ์๋ฒ ๊ฐ์๋ถํฐ ๋ฏธ์๊ฑด iSchool ๊ต์๋ก ์์ฉ๋์์โข personal data, statisitics ๊ด๋ จํ ํ ํฝ์ ๊ด์ฌ์ด ๋ง์ ๊ฒ ๊ฐ๋ค
๋ ผ๋ฌธ์ ์ ์๋ค
* http://www.greglnelson.info** http://www.designinghealth.org/about.html
โข 2 ์ ์๋ UW ์ Ph.D. student
โข 3 ์ ์๋ ์ ๋ฆฌ์กฐ๋ ์ฃผ๋ฆฝ๋ ์กฐ๊ต์
HCI ์์ Frequentist statistics ์ฌ์ฉ์ ๋ฌธ์ ์
Bayesian statistics is better for HCI community,helping knowledge accrual and small-n studies
ํ๋ง๋๋ก ์์ฝํด๋ณด๋ฉด ,
โ โ
NEW OLDvs.
p < .05 *
>
๋ฉํ๋ถ์ ์ ๊น์ง๋ ์ง์ ์ถ์ ์ด๋ ต๋ค๊ทธ๋ฐ๋ฐ HCI ์์๋ ๋ณ๋ก ์์ !
small-n study ๋ถ์์ ๋ฌธ์ ๊ฐ ์๋ค๊ทธ๋ฐ๋ฐ HCI ์์๋ ๋ง์ด ํจ !๊ฒ์ฆ๋ ํ ํฝ์ ๋ํด (1) frequentist (2) bayesian ๋ถ์์ ์๋ฎฌ๋ ์ด์ ํ๋๋ ,์ญ์ bayesian ์ด ์ต๊ณ ์ผ ! ์ด ํ ํฌ๋์ด์ผ๋ง๋ก researcher-centered ํต๊ณ๋ค !
โข NHST ๋ ์ด์ค๋ถ์ ์ดํดํ ํด์์ ์ ์ ๋ก ํ๋ ์ง๋ฐฐ์ ์ธ ํต๊ณ๊ธฐ๋ฒโข ์ฐ ๊ตฌ ๋ฌธ ์ ๋ฅผ ๋จ ์ ํ binary
question ์ผ๋ก ๋ฐ๊พธ๋ ๋จ์ โข p-value ๊ฐ ์ต์ฐ์ ์ด ๋๊ณ , ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ค์ ๋ฌด์๋๋ ๊ฒฝํฅ
Frequentist Statistics Bayesian Statistics
โข ๋ฒ ์ด ์ฆ ์ ๋ฆฌ ์ ๋ฐ ๋ผ ์ฌ ์ ์ง ์ ์ ํ ๋ฅ ๋ก ํ ์ฉ ํ ๋ฉฐ , ๊ฒฐ ๊ณผ ์ ๋ฐ ๋ผ ํ๋ฅ ์ ์ง์์ ์ผ๋ก ์์ โข effect size, confidence ๋ฑ ์ ๊ฐ์กฐโข ์ค์ง์ ์ธ ๋ฌผ์๋ค์ ๋ตํ ์ ์์โข ์ง์ ์ถ์ ์ ์ฉ์ดํจ ( ํจ์จ์ฑ )
โ frequentist ์์ ๋๋ฆฝ์ผ๋ก๋ ์ ๋ช (?)
๊ทธ๋์ , ๋ฒ ์ด์ง์ ํต๊ณ๊ฐ ์ด์จ๋ค๊ณ ?
โ ์ถ๋ก ๋์์ ์ฌ์ ํ๋ฅ ๊ณผ ์ถ๊ฐ์ ์ธ ๊ด์ธก์ ํตํด ํด๋น ๋์์ ์ฌํ ํ๋ฅ ์ ์ถ๋ก ํ๋ ๋ฐฉ๋ฒโ HCI ์์๋ ๋ฉํ๋ถ์ ์์ด๋ ์ค๋ฅ ์์ , ์ง์ ์ถ์ ์ ๋ํด ํจ๊ณผ์ ์ผ๋ก ์๋ํ ์ ์๋ค !
fast-to-slow: ์งํ๋ณด๋ค ๋น ๋ฅด๋ค๊ฐ ๋๋ ค์งslow-to-fast: ์งํ๋ณด๋ค ๋๋ฆฌ๋ค๊ฐ ๋นจ๋ผ์ง
control: ์๋ฌด๋ฐ ํ์ ์์ }๊ฐ ์กฐ๊ฑด๋ง๋ค 100 ๋ช ์ฉ ๋ฐฐ์
์๋ฎฌ๋ ์ด์ ์คํ ์ ํโ ํ ํฝ ์ ์ : ์ค๋ฌธ ์งํ๋ฅ ํ์ (progress indicator) ๋ฐฉ์์ด ์ค๋ฌธ ์๋ฃ์จ์ ๋ฏธ์น๋ ์ํฅโ 100 ๊ฐ์ ์๋ฎฌ๋ ์ด์ โ worldโ ์์ 4 ๊ฐ์ ์คํ์ ๊ฐ๊ฐ ์งํ (400 ๊ฐ ์คํ์ ๋ํ ๋ฐ์ดํฐ ์์ฑ )
slow-to-fast
fast-to-slowcontrol
Experiment 1
fast-to-slowcontrol
fast-to-slowcontrol
fast-to-slowcontrol
Experiment 2
Experiment 3Experiment 4
World #01
slow-to-fast
fast-to-slowcontrol
Experiment 1
fast-to-slowcontrol
fast-to-slowcontrol
fast-to-slowcontrol
Experiment 2
Experiment 3Experiment 4
World #02
slow-to-fast
fast-to-slowcontrol
Experiment 1
fast-to-slowcontrol
fast-to-slowcontrol
fast-to-slowcontrol
Experiment 2
Experiment 3Experiment 4
World #03
โฆslow-to-
fastfast-to-
slowcontrol
Experiment 1
fast-to-slowcontrol
fast-to-slowcontrol
fast-to-slowcontrol
Experiment 2
Experiment 3Experiment 4
World #100
๋ ๊ฐ์ง ๋ถ์๋ฐฉ๋ฒโ ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ๊ธฐ๋ณธ์ ์ผ๋ก logistic regression ์ฌ์ฉ
โข ์ค ํ 1~4 ์ ๋ ํ ๋ถ ์ ์ ๊ฐ ๊ฐ ์งํโข ์ถ๊ฐ๋ก ๋ฉํ๋ถ์์ ์ค์ํจ
Frequentist Analysis Bayesian Analysis
โข ์คํ i ์ posterior ๋ฅผ ์คํ i+1์ prior ๋ก ์ค์ ํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋ถ์โข ์ค ํ 4 ์ ๊ฒฝ ์ฐ , Cauchy
distribution ์ ์ด ์ฉ ํ ์ฌ prior ์ค์
๊ฒฐ๊ณผ 1: single world - one paper early
Single world ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด , B ์์ ๊ฒฐ๊ณผ๊ฐ ๋น ๋ฅด๊ฒ ํฅ์๋๊ณ ๊ทธ๋ก ์ธํด ๋ฉํ๋ถ์์ ์ด๋ฅด๊ธฐ ์ ์ ์ด๋ฏธ ์ ๊ตํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ด๋
๊ฒฐ๊ณผ 1: single world - one paper early
์ ์ ๋ค์ ์๋ฏธ๋ ์ค์ ํจ๊ณผ์ ๊ฐ์ผ๋ก ์ถ์ ๋ ๊ฐ
* Logistic regression(https://en.wikipedia.org/wiki/Logistic_regression)
Log-odds ratio = 0, ์ฐจ์ด๊ฐ ์๋ค (equal)
๊ฒฐ๊ณผ 1: single world - one paper early
โข Confidence intervals ๋ฅผ ๋ณด๋ฉด ๊ฐ๊ฐ์ ์คํ์ด ์๋ก ๋์์ ์ ํ ์ฃผ์ง ๋ชปํจโข experiment 2 ๋ ๊ฐ์ ํ ๊ฒฐ๊ณผ (borderline)๋ ๋์ค์ง๋ง ์๊ฐ์ค ๊ฒ์ฆ์ ์คํจํจโข ์๊ฒฉํ ๊ธฐ์ค์์ experiment 4 ๋ ์คํจ
๊ฒฐ๊ณผ 1: single world - one paper early
๋ฉํ๋ถ์์์ ์์์ผ ๊ทผ์ ํ ๊ฒฐ๊ณผ + CI ๊ฐ ๊ฒฐ๊ณผ๋ก ๋์ถ๋จ
๊ฒฐ๊ณผ 1: single world - one paper early
์์ ์คํ ๊ฒฐ๊ณผ๊ฐ์ ๋ฐํ์ผ๋ก ๋ค์ ์คํ์ ๊ฒฐ๊ณผ๊ฐ ๋น ๋ฅด๊ฒ ํฅ์๋จ
๊ฒฐ๊ณผ 2: many worlds - one paper early
Single world ๊ฒฐ๊ณผ์ ๋ง์ฐฌ๊ฐ์ง๋ก , many world์์์ ๊ฒฐ๊ณผ ์ญ์bayesian analysis ๊ฐ ๋ ๋น ๋ฅด๊ฒ ์ ๊ตํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํด๋
๊ฒฐ๊ณผ 2: many worlds - one paper early
๋ฑํ ์คํ๊ฒฐ๊ณผ๊ฐ ํฅ์๋์ง ์์
์์ ๊ฒฐ๊ณผ์ ๋ง์ฐฌ๊ฐ์ง๋ก๋ฉํ๋ถ์์ ์์์ผ ์ง์์ด ํตํฉ๋จ
๊ฒฐ๊ณผ 2: many worlds - one paper early
์คํ 2 ๋ถํฐ ๊ฒฐ๊ณผ ํฅ์์ด ๋ํ๋จ
๋ฉํ๋ถ์ ์์ด๋ ์ ๊ตํ ๊ฒฐ๊ณผ ๋์ถ
๊ฒฐ๊ณผ 2: many worlds - one paper early
Frequentist Bayesian
fast-to-slow - control 0.27 0.17slow-to-fast - control 0.27 0.20fast-to-slow - slow-to-
fast 0.26 0.22RMSE(root-mean-squared error) in exeperiment 4
์คํ 4 ์ ๋ํด์๋ง ๋น๊ตํด๋ด๋ ๊ฒฐ๊ณผ ํฅ์์ ๋ณผ ์ ์์
๊ฒฐ๊ณผ 3: small-n studies
small-n studies ์์ ๋ํ๋ ์ ์๋ magnitude error ์ํ
frequentist analysis ๋ณด๋ค novel condition ๊ฒฐ๊ณผ ์ ํ๋๊ฐ ๋๋ค !
๊ฐ ์กฐ๊ฑด๋น 20 ๋ช ์ฉ ๋ฐฐ์
๊ฒฐ๊ณผ 3: small-n studies
์คํ 1 ์์์ ๊ฒฐ๊ณผ์์๋ bayesian ์ด ๊ทน๋จ์ ์ธ ํจ๊ณผ๋ฅผ ์ค์ฌ์ค
๊ฐ ์กฐ๊ฑด๋น 20 ๋ช ์ฉ ๋ฐฐ์
๊ฒฐ๊ณผ 3: small-n studies
Frequentist Bayesian
fast-to-slow - control 0.66 0.36slow-to-fast - control 0.68 0.51fast-to-slow - slow-to-
fast 0.83 0.60RMSE(root-mean-squared error) in exeperiment 4
์คํ 4 ์ ๋ํด์๋ง ๋น๊ตํด๋ด๋ ๊ฒฐ๊ณผ ํฅ์์ ๋ณผ ์ ์์
๊ฐ ์กฐ๊ฑด๋น 20 ๋ช ์ฉ ๋ฐฐ์
๋ช ๊ฐ์ง ๋ ผ์์
Bayesian analysis increases the value of small-n studies of novel work
Bayesian analysis fits into how statistical practice is shaped in HCI
Bayesian analysis is increasingly accessible
Challenges and opportunities in setting priors
Practical impact of research through cost/benefit analysis
1
2
3
4
5
THANK YOU-End of the Document-[ ]์ฌ์ฉ์๊ฒฝํ ์ฐ๊ตฌ์ค ๊น์ ์ [email protected]