sas user presentation format 2013 tada4...sas ver 9.3における新機能の紹介 多田圭佑...

16
1 MI Procedureによる多重代入 SAS ver 9.3における新機能の紹介 多田 圭佑 イーピーエス株式会社 臨床情報本部 データサイエンスセンター 統計解析1部 Multiple Imputation by MI Procedure Introduction to New Method for SAS ver 9.3 Keisuke Tada EPS Corporation Clinical Information Division Data Science Center Statistics Analysis Department 1 要旨MI ProcedureVer 9 3からたに追加された MI ProcedureVer 9.3からたに追加された FCS (Fully Conditional Specification) method について紹介する。 2 Missing, imputation, mechanism of missing , nonmonotone, MI Procedure

Upload: others

Post on 21-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

1

MI Procedureによる多重代入

SAS ver 9.3における新機能の紹介

多田 圭佑イーピーエス株式会社 臨床情報本部

データサイエンスセンター 統計解析1部

Multiple Imputation by MI Procedure Introduction to New Method for SAS ver 9.3

Keisuke Tada EPS Corporation

Clinical Information DivisionData Science Center

Statistics Analysis Department 1

要旨:MI ProcedureにVer 9 3から新たに追加されたMI ProcedureにVer 9.3から新たに追加されたFCS (Fully Conditional Specification) method について紹介する。

キーワード:

2

キ ワ ド:Missing, imputation, mechanism of missing , nonmonotone, MI Procedure

Page 2: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

2

アウトライン

製薬業界における欠損データの扱い

欠損デ タの様々な解析手法欠損データの様々な解析手法

欠損について•欠損のメカニズム•欠損データの構造

FCSについて

3

多重代入が有用な事例の紹介• MI Procedureのコード•出力結果

まとめ

製薬業界における欠損データの扱い

2010年にFDAが欠損データに関するガイドラインの基2010年にFDAが欠損データに関するガイドラインの基となる報告書(NAS報告書)を発出した。

2010年にEMAが欠損データに関するガイドラインを公表した。

2012年にNew England Journal of Medicineで総説論

4

2012年にNew England Journal of Medicineで総説論文が報告された。

Page 3: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

3

現在提案されている解析手法の例

欠損値を伴う症例を除いた解析方法(Complete-case Analysis)

欠損値のみを除いた解析方法(Available-case Analysis)

欠損値を補完する解析方法

•Single Imputation

•Multiple Imputation

5

欠損値を伴うデータでも解析できる方法

•尤度に基づく方法(ML, REML, ベイズ法)

•モーメントに基づく方法(GEE, IPW法)

Imputation Method(補完法)

Single ImputationSingle Imputation

ひとつの欠損値に対して、ひとつの値を補完する方法。

不確実性を含む。

Multiple Imputation

ひとつの欠損値に対して、複数の値を算出後、統合した結

6

ひとつの欠損値に対して、複数の値を算出後、統合した結果で補完する方法。

Page 4: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

4

記法及び定義について

7

欠損メカニズム

欠損データモデル:

1. MCAR(Missing Completely At Random)

2. MAR(Missing At Random)

8

3. MNAR(Missing Not At Random)

Page 5: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

5

欠損データの構造・・・ observed

missing・・・

Visit 1 2 3 4 5 6 7

Monotone

被験者1

被験者2

被験者3

被験者4

Nonmonotone (Arbitrary)

9

Visit 1 2 3 4 5 6 7

被験者1

被験者2

被験者3

被験者4

Visit 1 2 3 4 5 6 7

Monotone

欠損データの構造がMonotoneの場合

被験者1

被験者2

被験者3

被験者4

10

Page 6: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

6

Ver 9.2で使用可能なMI ProcedureのMethod

11

SAS/STAT 9.2 User’s guideより

Ver 9.3で使用可能なMI ProcedureのMethod

↓NEW!!

NONMONOTONE(非単調)の欠損データ、カテゴリー変数にも適用可能!!

12

SAS/STAT 9.3 User’s guideより

Page 7: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

7

FCS(Fully Conditional Specification)①

1. をもとに の事後分布である を計算する。を 事後分布 あ を 算す 。

2. より を抽出する。

3. が与えられたときの の条件付き事後分布である より を抽出する。

13

ある より を抽出する。

4. ステップ2及び3をt回繰り返す。

FCS(Fully Conditional Specification)②

2. より を抽出する。

3. が与えられたときの の条件付き事後分布で3. が与えられたときの の条件付き事後分布である より を抽出する。

14

Page 8: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

8

MI Procedure 適用事例の紹介

設問ごとに1~10の得点をつける調査票を想定したシミュレーションデ タを作成したデータを作成した。

設問間及び時期間に相関のある時系列データである。

MARで欠損を発生させた。

設問の得点の合計を算出する際 欠損を0で補完すると明らかな過

15

設問の得点の合計を算出する際、欠損を0で補完すると明らかな過小評価につながるため、欠損を補完する。

シミュレーションデータ① 正規乱数

各点数の平均を以下のように設定し、分散を2、時点間の相関を0.2、質問間の相関を0.3とした多変量正規乱数を採用した。

Visit Q1 Q2 Q3 Q4 Q5

1 5 7 4 7 5

2 4 6 5 6 4

16

3 4 5 5 5 4

4 5 3 4 3 5

Page 9: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

9

シミュレーションデータ② 欠損メカニズム

青いセルの値に応じて赤いセルの値が欠損になるように設定した。

Visit Q1 Q2 Q3 Q4 Q5

1

2

17

3

4

シミュレーションデータ③ 欠損なし

Complete Data

18

Page 10: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

10

シミュレーションデータ④ 欠損あり

Missing Data

19

MI Procedure コードの説明①

欠損を補完する際、前後の時点の情報も使用するため、PROC TRANSPOSE によって全ての変数を横に並べる。

PROC MI DATA = DS_MISS_T SEED = 12345 ROUND = 0.1 NIMPUTE = 10 OUT = OUTMI;

FCS REG;VAR Y ※モデル式を入れることも可能

補完する回数乱数のシード

モデルを指定

(Y12 = Y13 Y14)

補完値の桁

20

注:SAS ver 9.3ではFCSステートメントは評価版であるため以下のNOTEが出る。NOTE: The FCS statement is experimental in this release.

VAR Y:;

RUN;

※モデル式を入れることも可能モデルを指定

Page 11: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

11

MI Procedure コードの説明②

FCSステートメント•DISCRIM

判別関数を使 た方法(名義尺度)判別関数を使った方法(名義尺度)

•LOGISTICロジスティック回帰を使った予測(順序尺度)

•REG回帰を使った予測(連続変数)

REGPMM(連続変数)

21

•REGPMM(連続変数)推定後、最も近い値を補完

•OUTITER反復計算中の値を全てデータセットに出力

MI Procedureの出力結果①ユーザーがオプションで指定した値やMETHODが表示される

22

Page 12: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

12

MI Procedureの出力結果②

MONOTONEではないことが分かる。

23

MI Procedureの出力結果③

欠損の有無のパターン及びパタ ンごとの各変数びパターンごとの各変数の平均値が表示される

24

欠損のメカニズムを想定する判断材料になる!

Page 13: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

13

出力されるデータセット

補完された各データセットが縦積みにされて、_IMPUTATION_という変数が追加される。

IMPUTED!!

25

MI Procedure 結果①

Imputed Data(m個の補完値の平均)

26

Page 14: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

14

MI Procedure 結果②

1 Complete Data

各時点、各質問の点数の平均

1. Complete Data 

2. Missing Data

27

3. Imputed Data

まとめ

製薬業界における欠損データの扱い

欠損データの様々な解析手法

欠損について•欠損のメカニズム•欠損データの構造

FCSについて

28

FCSについて

多重代入が有用な事例の紹介• MI Procedureのコード•出力結果

Page 15: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

15

参考文献①

29

[1]不完全データの統計解析岩崎 学 著

[2]Flexible Imputation of Missing DataStef van Buuren

・[3]Stef van Buuren, 2006, Fully conditional specification in multivariate imputation・[4]Stef van Buuren, 2007, Multiple imputation of discrete and continuous data by fully 

参考文献②

conditional specification・[5]Therese D. Pigott, 2001, A Review of Methods for Missing Data・[6]治験の統計解析 理論とSASによる実践 Alex Dmitrienko, Geert Molenberghs 他 著森川馨 田崎武信 監訳・[7]臨床試験ハンドブック -デザインと統計解析- 丹後俊郎・上坂浩之 編集・[8]医学統計のための線型混合モデル -SASによるアプローチ- G.Verbeke, G.Molenberghs 編 松山 裕・山口拓洋 編訳・[9]SAS/STAT 9.3 User’s Guide  [10]SAS/STAT 9 2 U ’ G id

30

・[10]SAS/STAT 9.2 User’s Guide  ・[11]SAS/STAT 9.1 User’s Guide  ・[12]SAS/STAT 8.2 User’s Guide  ・[13]SAS/STAT 8.1 User’s Guide  

Page 16: SAS USER presentation format 2013 TADA4...SAS ver 9.3における新機能の紹介 多田圭佑 イーピーエス株式会社臨床情報本部 データサイエンスセンター統計解析1部

16

ご清聴ありがとうございました。

31