荘島宏二郎 大学入試センター研究開発部 [email protected]

36
荘荘荘荘荘 荘荘荘荘荘荘荘荘荘荘荘荘荘 [email protected] 荘荘荘荘荘荘荘

Upload: maddy

Post on 23-Jan-2016

58 views

Category:

Documents


0 download

DESCRIPTION

潜在ランク理論. 荘島宏二郎 大学入試センター研究開発部 [email protected]. 潜在ランク理論 latent rank theory (LRT). ニューラルテスト理論 (neural test theory, NTT) 段階評価 を行うためのテスト理論 自己組織化マップ (SOM) あるいは,生成トポグラフィックマッピング (GTM) のメカニズムを利用 潜在尺度が 順序尺 度 Shojima, K. (2009) Neural test theory. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

荘島宏二郎大学入試センター研究開発部

[email protected]

潜在ランク理論

Page 2: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

潜在ランク理論latent rank theory (LRT)

• ニューラルテスト理論 (neural test theory, NTT)

• 段階評価を行うためのテスト理論–自己組織化マップ (SOM)あるいは,生成トポグラフィックマッピング (GTM)のメカニズムを利用

–潜在尺度が順序尺度

• Shojima, K. (2009) Neural test theory.– K. Shigemasu et al. (Eds.) New Trends in

Psychometrics, Universal Academy Press, Inc., pp.417-426.

Page 3: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

なぜ順序尺度?

• 項目反応理論・古典的テスト理論は連続尺度

• 2つの主な理由–方法論的理由–教育社会学的理由

Page 4: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

• 体重計で測定しました– A1君は 73kgでした

– fW(A1)=73

• fW (A1)≠74

• fW (A1)≠72

• テストで測定しました– B1君は 73点でした

– fT(B1)=73

• fT(B1)≠74 ?

• fT(B1)≠72 ?

テストの精度( accuracy)

Page 5: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

テストの識別力( discrimination)

• 体重計で測定しました– A1君は 73kgでした

– A2君は 75kgでした

• fW(A1)<fW (A2)

• テストで測定しました– B1君は 73点でした

– B2君は 75点でした

• fT(B1)<fT (B2) ?

Page 6: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

テストの解像度( resolution)

• 体重計で測定しました– A1君は 73kgでした

– A2君は 75kgでした

– A3君は・・・

• テストで測定しました– B1君は 73点でした

– B2君は 75点でした

– B3君は・・・

kgT

Page 7: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

段階評価しよう

• テストは大事な社会の公具( public tool)

• 高い精度の測定は困難–測定内容の 10%は誤差

• テストは,学力を5 ~ 20レベルに段階評価するくらいがせいぜい– 60点と 61点とか、違いを説明できない評価をするいことの意味は?

Page 8: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

潜在ランク理論による段階的学力評価尺度潜在ランク理論に

よる段階的学力評価尺度

IRTや CTTによる連続的学力評価尺度IRTや CTTによる連続的学力評価尺度

個々の能力も連続的に変化するために得点と能力の対応関係を説明することが難しい

個々の能力も連続的に変化するために得点と能力の対応関係を説明することが難しい

個々の能力も段階的に変化するために得点と能力の対応関係を説明することが簡単になり,テストのアカウンタビリティが向上する

個々の能力も段階的に変化するために得点と能力の対応関係を説明することが簡単になり,テストのアカウンタビリティが向上する

段階評価↓

アカウンタビリティ↓

資格試験

Page 9: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

教育社会学的理由• 連続尺度の負の側面

–生徒たちは,日々,一点でも高い得点をとるよう動機付けられている

–不安定な連続尺度の乱高下に一喜一憂させるべきではない

• 順序尺度の正の側面–段階評価は,連続尺度上での評価よりも頑健–継続して努力しないと上位ランクに進めない

• ただし,どちらのやり方にも正負の側面–分析者のニーズに合わせてさまざまな方法論で世が満てばよい。

Page 10: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

LRTにおける統計的学習

• SOMメカニズム–逐次学習型–標本サイズ 10000以下–滑らかさ大

• GTMメカニズム–一括学習型–滑らかさ小–標本サイズ 10000以上–潜在クラス分析 byEMアルゴリズム–スムージング

Page 11: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

LRTのメカニズム (SOMの場合 )

0

0

0

1

0

0

0

1

0

0

0

1

0

1

1

1

1

0

1

0

1

0

0

1

Latent rank scale

Nu

mb

er

of

item

s

ResponsePoint 1Point 2 Point 1Point 2

Page 12: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

Point 1: 勝者ランク選択

Bayes

ML

)1,()()1,()(

1

)()1,()( 1ln1ln)|(

htqj

thj

htqj

thj

n

j

thj

htth vuvuzp Vu

Likelihood

)|(lnmaxarg: )1,()()(

htt

hQq

MLw pwR Vu

)(ln)|(lnmaxarg: )1,()()(q

htth

Qq

MAPw fppwR

Vu

Page 13: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

Point 2: ランク参照行列の更新

• The nodes of the ranks nearer to the winner are updated to become closer to the input data

• h: tension• α: size of tension• σ: region size of

learning propagation

)1,(')(')()()1,(),( )()'( htQ

thQ

th

tn

htht V1u1zh1VV

1

)1()(1

)1()(

2

)(exp

)1(}{

1

1

22

2)(

)()(

T

ttTT

ttT

Q

wq

N

Qh

nh

Tt

Tt

t

ttqw

tqw

t

h

Page 14: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

分析例

–地理テスト

N 5000n 35Median 17Max 35Min 2Range 33Mean 16.911Sd 4.976Skew 0.313Kurt -0.074Alpha 0.704

0 5 10 15 20 25 30 35SCORE

0

100

200

300

400

500

YCNEUQERF

Page 15: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

適合度指標ML, Q=10 ML, Q=5

• 潜在ランク数を決定するのに便利

Page 16: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

項目参照プロファイル

単純増加制約(monotonic increasing constraint)を課すことも可能

Page 17: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

テスト参照プロファイル (TRP)

• 弱順序配置条件(Weakly ordinal alignment condition)– TRPが単調増加だけど,全ての IRPが単調であるわけではない

• 強順序配置条件( Strongly ordinal alignment condition)– 全ての IRPが単調増加 TRPも単調増加

• 潜在尺度が順序尺度であるためには,少なくともWOACを満たす必要

• IRPの重み付き和• 各潜在ランクの期待値

Page 18: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

ランク・メンバーシップ・プロファイル(RMP)

• 各受検者がどの潜在ランクに所属するかについての事後分布

Q

q qqi

qqiiq

fpp

fppp

1' '' )()|(

)()|(

vu

vuRMP

Page 19: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

RMPの例

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 11

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 12

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 13

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 14

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 15

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 6

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 7

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 8

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 9

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 10

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 1

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 2

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 3

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 4

2 4 6 8 10LATENT RANK

0

0.2

0.4

0.6

0.8

1

YTILIBABORP

Examinee 5

Page 20: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

潜在ランク分布Latent Rank Distribution (LRD)• 受検者全体 (sample)の潜在ランクの推定値の分布

ランク メンバーシップ分布・Rank Membership Dist. (RMD)• 受検者全体 (population)の潜在ランク分布

• 受検者 RMPの総和(平均)

Page 21: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

Exametrika

Page 22: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

Exametrikaの推定の設定①• LRT-GTM

– generative topographic mappingのメカニズム–一括学習型(計算時間が早い)–標本サイズが 3000以上(目安)

• LRT-SOM– Self-organizing mapのメカニズムを利用–逐次学習型(計算時間がかかる)–標本サイズが 3000以下(目安)– GTMのメカニズムより滑らかな IRPが得られる

• 潜在ランク数 (Number of latent ranks)–項目数や Nが小さいときはランク数も小さく

Page 23: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

Exametrikaの推定の設定②• 単調増加制約 (monotonicity constraint)

– IRP(名義モデルでは正答選択肢の ICRP、段階モデルでは BCRP)を強制的に単調増加にしたいとき

• 事前分布 (prior distribution)–正答数の高さが高ランクに強く反映されるように

• 目標潜在ランク分布 (target latent rank dist.)–一様分布、正規分布が選べる–事前分布をチェックすると指定できない

Page 24: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

Exametrikaで等化• 2値モデル

–固定したい IRPのシートを用意• 多値モデル

–固定したい ICRPのシートを用意• 項目ごとにコンプリートしている必要はない–ところどころ抜けていてもよい–ランク数を増減させて等化したいときにも使える

Page 25: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

適合度指標(絶対指標)• Chi-square (df, p-value)• NFI (normed fit index): [0, 1] 1.0が良い適合• RFI (relative fit index) : [0, 1] 1.0が良い適合• IFI (incremental fit index) : [0, 1] 1.0が良• TLI (Tucker-Lewis index) : [0, 1] 1.0が良い適合• CFI (comparative fit index) : [0, 1] 1.0が良• RMSEA (root mean square error of

approximation) : [0, ∞] 0.0が良い適合

Page 26: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

適合度指標(相対指標)• AIC (Akaike information criterion)• CAIC (consistent AIC)• BIC (Bayesian information criterion)• 複数のモデルを比較するときに利用

– LRTではランク数の異なるモデルを比較するとき• モデルの効率の良さを表す• 小さい DFで高い適合を示すモデルを高く評価• AICはランク数の多いモデルを採用しやすい• CAICか BICで判断するほうが無難

Page 27: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

Can-Do Chart ( 例 )

Page 28: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp
Page 29: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

潜在ランク理論latent rank theory (LRT)

• 多値モデル (polytomous model)–名義モデル (nominal model)–段階モデル (graded model)

Page 30: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

名義潜在ランクモデル• 名義カテゴリデータのための LRTモデル• 主要出力

–項目カテゴリ参照プロファイル–項目参照プロファイル–テスト参照プロファイル–ランク・メンバーシップ・プロファイル–ランク・メンバーシップ分布

• 選択数が少ないカテゴリはマージしたほうがよい

Page 31: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

項目カテゴリ参照プロファイルItem Category Reference Profile

2 22

3 33

4 4 4x x x

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

1 11

33

3

44

4

x x x

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

2 2 23 3

3

4 44

x x x

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

2 22

33

3

4 4 4x x x

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

22 2

3 3 3

4

44

x x x

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

11

12 2 23 3 34

4

4

x x x

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

3

33

44 4

x x x

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

22

2

3 3

3x x x

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

44 4

xx x

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

Page 32: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

その他の出力• 項目参照プロファイル (item reference profile)

–正答選択肢の ICRP

• テスト参照プロファイル (test reference profile)– IRPの和( 2値モデルと同じ)–少なくとも弱順序配置条件を満たすこと

• Rank membership profile– 2値モデルと同じ(各人の各ランクへの所属確率)

• Rank membership distribution–受検者全体がどのランクに分けられたかの分布

Page 33: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

段階潜在ランクモデル• 段階(リッカート)データのための LRTモデル

• 主要出力–境界カテゴリ参照プロファイル (BCRP)–項目カテゴリ参照プロファイル (ICRP)–項目参照プロファイル (ICRPの重みつき和 )–テスト参照プロファイル–ランク・メンバーシップ・プロファイル–ランク・メンバーシップ分布

Page 34: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

境界カテゴリ参照プロファイルBoundary Category Reference Profile

0 0 01

1 1

2

2

2

33

3

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

0 0 01 1 1

2

2

2

33

3

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N KPR

OB

AB

ILIT

Y

0 0 01 1 1

22

2

33

3

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

0 0 0

11

1

2

2

2

33

3

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

0 0 0

11 1

2

2

2

33

3

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

0 0 0

11

1

2

2

2

33

3

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N KPR

OB

AB

ILIT

Y

Page 35: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

項目カテゴリ参照プロファイルItem Category Reference Profile

00 0

11

1

22

2

33

3

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

0 0 0

11

1

22

2

33

3

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N KPR

OB

AB

ILIT

Y

0 0 0

11

1

2 2 23

33

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

00

0

11

12

2 2

33

3

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

00 0

11

1

22 2

33

3

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N K

PRO

BA

BIL

ITY

00

0

1 1

122 2

33

3

2 4 6 8 1 00 .0

0 .2

0 .4

0 .6

0 .8

1 .0

L A T E N T R A N KPR

OB

AB

ILIT

Y

Page 36: 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

その他の出力• 項目参照プロファイル (item reference profile)

– BCRPの和–各ランクに対する項目得点の期待値

• テスト参照プロファイル (test reference profile)– IRPの和( 2値モデルと同じ)–少なくとも弱順序配置条件を満たすこと

• Rank membership profile– 2値モデルと同じ(各人の各ランクへの所属確率)

• Rank membership distribution–受検者全体がどのランクに分けられたかの分布