代替エンドポイントの評価 -...

70
部会資料 代替エンドポイントの評価 平成 21 6 医薬品評価委員会 統計・DM 部会 発行 医薬出版センター

Upload: others

Post on 17-Jan-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

部会資料

代替エンドポイントの評価

平成 21 年 6 月

日 本 製 薬 工 業 協 会 E

医薬品評価委員会 統計・DM 部会

発行 医薬出版センター

Page 2: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

目 次

1. はじめに ______________________________________________________ 1

2. Prentice の基準とそれに基づく実際の評価方法 _______________________ 2

2.1. Prentice による代替エンドポイントの統計的バリデーションのための基準 ____ 2 2.1.1. Prentice の基準 _______________________________________________________ 2 2.1.2. Prentice の基準に従った代替エンドポイントの評価に関する最初の事例 _________ 6

2.2. Freedman による Proportion of the Treatment Effect(PTE)の提案 ________ 8 2.2.1. Freedman による PTE の提案 ___________________________________________ 8 2.2.2. AIDS 治療薬分野における PTE を用いた代替エンドポイントの評価の事例 ______ 10

2.2.2.1. Choiらによる zidovudineの臨床試験におけるCD4リンパ細胞の代替エンドポイント

としての評価 ______________________________________________________________ 11 2.2.2.2. O’Brien らによる zidovudine の臨床試験における HIV-1 RNA および CD4 リンパ細胞

等の代替エンドポイントとしての評価 _________________________________________ 12 2.2.2.3. Lin らによる ACTG019 試験および BW02 試験における CD4 リンパ細胞の代替エン

ドポイントとしての評価 ____________________________________________________ 14 2.2.3. 骨粗鬆症治療薬分野における PTE を用いた代替エンドポイントの評価の事例 ____ 16

2.2.3.1. Risedronate に関する評価 ___________________________________________ 16 2.2.3.2. Arendronate に関する PTE を用いた評価 _______________________________ 19 2.2.3.3. Raloxifene に関する PTE を用いた評価 _________________________________ 19 2.2.3.4. 骨密度測定値の誤差を考慮した解析 ___________________________________ 20

2.3. 代替エンドポイントを評価する上での PTE の問題点と限界 ________________ 21 2.3.1. Freedman 以降の Proportion of the Treatment Effect _________________________ 23

2.3.1.1. Wan, Taylor による指標 F の提案 ______________________________________ 24 2.3.1.2. 複数の代替エンドポイントが存在する場合の評価方法 _____________________ 25

2.4. Buyse と Molenberghs による新しい評価指標の提案 ____________________ 28 2.4.1. 集団レベルおよび個人レベルでの代替エンドポイントの評価指標 ______________ 29

2.4.1.1. 集団レベルでの代替エンドポイントの評価指標:Relative Effect(RE) _______ 29 2.4.1.2. 個人レベルでの代替エンドポイントの評価指標 __________________________ 30 2.4.1.3. エンドポイントが連続変数(正規分布)の場合 __________________________ 31

2.4.2. Buyse と Molenberghs による新しい評価指標のメタアナリシスへの展開 ________ 32 2.4.2.1. メタアナリシスへの展開 ____________________________________________ 32

2.4.3. 事例を用いた検討 ____________________________________________________ 34 2.4.4. Buyse,Molenberghs らによる新しい評価指標の問題点と限界 _________________ 36 2.4.5. 癌領域におけるメタアナリシスによる最近の事例 __________________________ 37

2.4.5.1. 進行性直腸癌に関する事例 __________________________________________ 37 2.4.5.2. 転移性乳癌に関する事例 ____________________________________________ 38

2.5. 2 章で取り上げた方法のまとめ ______________________________________ 39

3. Daniels と Hughes のメタアナリシスによる方法 _____________________ 41

3.1. モデル __________________________________________________________ 41

3.2. 適用例-HIV と CD4 細胞数 _________________________________________ 43

3.3. 適用例-進行性直腸癌 _____________________________________________ 46

3.4. 3 章で取り上げた方法のまとめ ______________________________________ 46

Page 3: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

4. Principal 層別(Stratification) ___________________________________ 47

4.1. Frangakis と Rubin の Principal 層別に基づく代替エンドポイントの再定義 __ 47 4.1.1. 因果関係を論ずる際の基本的な考え方 ___________________________________ 48 4.1.2. Principal 代替エンドポイントと統計的代替エンドポイント ___________________ 49

4.2. ワクチン接種後抗体価を感染予防の予測指標として評価する試験デザイン ____ 51 4.2.1. 感染有無を真のエンドポイントとする場合(Follman, 2006) _________________ 51

4.2.1.1. 背景 _____________________________________________________________ 51 4.2.1.2. モデル ___________________________________________________________ 51 4.2.1.3. CPV のみ行う試験デザインでの推測 ___________________________________ 52 4.2.1.4. 特性評価 _________________________________________________________ 53

4.2.2. 感染までの期間を真のエンドポイントとする場合(Qin et al., 2008) ___________ 54 4.2.2.1. 背景 _____________________________________________________________ 54 4.2.2.2. Principal 層別の枠組み ______________________________________________ 54

4.2.2.2.1. 表記法 ________________________________________________________ 54 4.2.2.2.2. 仮定 __________________________________________________________ 54 4.2.2.2.3. ワクチン接種効果の指標 __________________________________________ 55 4.2.2.2.4. 感染までの時間分布に関するモデル _________________________________ 55

4.2.2.3. 改良されたデザインへの適用 _________________________________________ 56 4.2.2.3.1 BIP への適用 ____________________________________________________ 56 4.2.2.3.2. CPV への適用 ___________________________________________________ 56

4.2.2.4. 推定 _____________________________________________________________ 57

4.3. 進行性前立腺癌における代替エンドポイント評価への適用例 _______________ 57

Appendix 1: Follman(2006)での対数尤度関数 _____________________________ 59

Appendix 2: Qin ら(2008)での対数部分尤度関数 ___________________________ 60

5. まとめと考察 _________________________________________________ 61

参考文献 ________________________________________________________ 62

Page 4: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

1. はじめに

医薬品開発における臨床試験は多大な労力と費用を必要とする.さらに臨床試験のエンド

ポイントが死亡や骨折のように長期の観察を必要とし,それらの事象の発現がまれな場合に

はさらに長期間にわたる観察が必要となる.このような臨床試験において,本来対象となる

エンドポイントの替わりに容易にしかも短期間で観察することができるエンドポイントが存

在すれば,種々のリソースの削減とともに臨床試験の実施期間が短縮可能となる.このこと

は,有望な医薬品をできるだけ早く患者のもとに届けることに繋がってくる. 癌の治療における死亡や骨粗鬆症における骨折のように,これらの疾患の最終的な治療効

果を検討するために用いるエンドポイントは真のエンドポイント(True endpoint)と言われて

いる.一方,真のエンドポイントの替わりに短期間で容易に測定あるいは観察できるエンド

ポイントは代替エンドポイント(Surrogate endpoint)と言われている.代替エンドポイントに

関しては種々の用語が使われており,若干混乱をきたしている.例えば,バイオマーカー

(Biomarker),サロゲートマーカー(Surrogate marker)などの用語が代替エンドポイントと

同じように使われている.このような用語の氾濫に対して,Biomarkers Definitions Working Group(2001)はこれらの用語を整理し,定義を提唱した.そこでは,バイオマーカーと代替

エンドポイントを次のように定義している.

Biomarker: A characteristic that is objectively measured and evaluated as an indicator of normal biological processes, pathogenic processes, or pharmacologic responses to a therapeutic intervention. Surrogate endpoint: A biomarker that is intended to substitute for a clinical endpoint. A surrogate endpoint is expected to predict clinical benefit (or harm or lack of benefit or harm) based on epidemiologic, therapeutic, pathophysiologic, or other scientific evidence.

代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン

トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

な問題を引き起こす.その典型的な例が CAST(The Cardiac Arrhythmia Suppression Trial, 1989)で

ある.この試験は 3 種類の抗不整脈剤を用い,心筋梗塞を発症した患者を対象に不整脈を抑

えることで心血管系疾患による死亡を防ぐことが可能か否かを検討したものである.その結

果,当初の予想と異なり,これらの薬剤はプラセボに比べ死亡を増加させることが判明した.

Fleming と DeMets(1996)は,代替エンドポイントの種々の問題点を指摘し,その中でこの

CAST も取り上げている.Johnson ら(2003)は,FDA が抗癌剤の承認を必ずしも真のエンド

ポイントである生存時間をもとに行っているわけではなく,場合によっては腫瘍縮小効果等

により承認を与えていることを述べている.しかしながら,このような場合においても,市

販後に真のエンドポイントである生存時間に対する効果を確認する試験の実施を義務付けて

いることを述べている.

1

Page 5: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

以上のように,代替エンドポイントには大きな問題が内在するものの,これまで代替エン

ドポイントの本質や代替エンドポイントたる条件等に対してまとまった調査/検討はなされ

ていない.本タスクフォースでは,これらについて検討することを目的に活動してきた.本

報告書では,Prentice(1989)が最初に提唱した定義の紹介に始まり,その後,種々提唱され

てきた基準を紹介し,引き続き Daniels と Hughes(1997)によるメタアナリシスによる方法

に触れるとともに,Frangakis と Rubin(2002)による Principal 層別に基く別の観点からの考

え方について紹介する.最後にまとめとともに代替エンドポイントの評価に関する今後の方

向性について考察する.

2. Prentice の基準とそれに基づく実際の評価方法

2.1. Prentice による代替エンドポイントの統計的バリデーションのための基準

2.1.1. Prentice の基準

代替エンドポイントの統計的なバリデーションの考え方として,現在までに最も広く受け

入れられているのは,Prentice(1989)による基準である.1989 年の Statistics in Medicine に掲

載された論文において,Prentice は代替エンドポイントの妥当性を次のように定義している.

I define a surrogate endpoint to be a response variable for which a test of the null hypothesis of no relationship to the treatment groups under comparison is also a valid test of the corresponding null hypothesis based on the true endpoint.

Prentice の論文では,真のエンドポイントが生存時間の場合に関して,代替エンドポイント

の統計的なバリデーションが主となっているが,上記の Prentice の定義による代替エンドポ

イントの統計的バリデーションを実際に行うために必要な一般的な基準の導出については,

Freedman(1992),Buyse(1998)らの論文で説明が行われている.なお,一般的な基準の導

出の詳細については参考文献を参照することとし,要点の記載のみに留めることとする. ここで T は真のエンドポイントを,S は代替エンドポイントを,Z は治療を示し,f ( X ) は

確率変数 X の確率分布関数とする.Prentice の定義は以下のように示すことができる.

f ( S | Z ) = f ( S ) ⇔ f ( T | Z ) = f ( T )

更に,Prentice の定義に従い代替エンドポイントの統計的バリデーションを実際に行うために

は,以下の (1)~(4) の 4 つの基準を満たしていることを示す必要がある.

2

Page 6: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

(1) f ( S | Z ) ≠ f ( S ) (2) f ( T | Z ) ≠ f ( T ) (3) f ( T | S ) ≠ f ( T )

(4) f ( T | S, Z ) = f ( T | S )

ここで,上記の帰無仮説の否定は (1)~(2) となる.また,"→" が成り立つ場合について考

えると,f ( S | Z ) = f ( S ) および (4) が成り立てば,

)T(fdS)S(f)S|T(fds)Z|S(f)S|T(fdS)Z|S(f)Z,S|T(fdS)Z|S,T(f)Z|T(f

=∫=∫=

∫=∫=

となる.一方,"←" が成り立つかどうかについて考える.もし,f ( T | S ) = f ( T ) が成り立

ってしまうと,(4) が成り立つという仮定のもとで,

dS)Z|S(f)T(fdS)Z|S(f)S|T(fdS)Z|S(f)Z,S|T(f)Z|T(f ∫=∫=∫=

であり,f ( T | Z ) = f ( T ) が自動的に成立してしまうため,f ( S | Z ) = f ( S ) は必要条件には

ならない.したがって (3) が成り立つ必要がある. ここで,(1)~(4) の 4 つの基準の意味について考える.

(1)を満たすためには,治療効果が代替エンドポイントに正しく反映される必要がある. (2)を満たすためには,治療効果が真のエンドポイントに正しく反映される必要がある. (3)を満たすためには,代替エンドポイントと真のエンドポイントとの間に強い相関関係が

存在する必要があるが,更に時間的な関係を考えれば,代替エンドポイントと真のエン

ドポイントの間には因果関係が成り立つ必要がある.また,その間に交絡因子が存在し

てはいけない. (4)を満たすためには,原著では「a surrogate for T should be able to capture the dependence of T

on treatment Z(原著で Z は x)」と書かれており,治療効果を代替エンドポイントが完

全に捕捉してしまえば,治療効果は直接は真のエンドポイントに反映されず,代替エン

ドポイントを通して反映されることになる.ただし,これは治療と真のエンドポイント

との間に代替エンドポイントの存在を考えている場合であって,治療と真のエンドポイ

ントとの間に代替エンドポイントの存在を考えない場合には,当然 (2) が成り立つ必要

がある.

Prentice による代替エンドポイントの考え方,ならびに彼以降の Freedman,Buyse らによる

実際の臨床試験データへの適応に関する論文においては,因果推論的な考え方は示されてい

ない.ただし,(1)~(4) の基準については,因果推論のパス解析で使われるパス図(”→” は

3

Page 7: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

因果の方向を示す)で簡単に示すことができ,また,視覚的にも理解しやすいと思われるの

でここに示しておく.

(1)’ Z S (2)’ Z T 交絡因子 (3)’ S T (4)’ Z S T

図 2-1.Prentice の基準 (1)~(4) を示したパス図

Prentice の定義による「完全な代替エンドポイント」とは,因果推論で言う完全な中間変数

と同じである.ただし,「完全な代替エンドポイント」を見つけることは現実的には不可能

であり,どうしても (4)' の点線で示したパスが存在する.つまり「a surrogate for T is usually not able to capture the dependence of T on treatment Z completely」となってしまうのである.

なお,ここまでの Prentice による代替エンドポイントの定義に関しては介入研究を前提と

して話を進めてきたが,Z を疫学用語で言う曝露に置き換えれば,観察研究における代替エ

ンドポイント(観察研究では intermediate endpoint)についても同様に考えることができる.

ここで Prentice の基準 (4) を図で示すと以下のようになる.

図 2-2.Prentice の基準 (4) を満足する場合としない場合

1989 年の Statistics in Medicine 第 8 巻において代替エンドポイントに関する特集が行われ,

Ellenberg ら(1989)が癌領域での代替エンドポイントについて,Wittes ら(1989)が心血管

×

×

代替エンドポイントの分布

真のエンドポイントの分布

Z=0(コントロール群)

Z=1(試験薬群) はどちらか

代替エンドポイントの分布

真のエンドポイントの分布

Z=1(試験薬群) はどちらか

Z=0 (コント ロール群)

Prentice の基準 (4) を満足している場合

Prentice の基準 (4) を満足しない場合

4

Page 8: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

疾患での代替エンドポイントについて,Hills ら(1989)が眼科領域での代替エンドポイント

について議論を行っている. 代替エンドポイントの妥当性に関しては,生物学的・医学的な妥当性を有することがまず

第一であるが,彼らはそれに加えて,代替エンドポイントと真のエンドポイントの相関が十

分に大きければよい,という考え方を示している.それに対して Prentice は同じ Statistics in Medicine 第 8 巻の中で,以上のような彼の考え方を示している.

直観的には,ある代替エンドポイントが生物学的・医学的な妥当性を有し,真のエンドポ

イントとの相関が十分に大きければ,代替エンドポイントとしての妥当性を有しているので

はないかと思われる.しかしながら,いくら真のエンドポイントとの相関が大きくても,代

替エンドポイントとしては不適切である場合がある例を,Baker(2003)らは次のような図を

用いて解りやすく示している.

図 2-3.2 つのエンドポイントの相関が大きくても代替エンドポイントとして不適切な例

(Baker ら(2003)による)

上の図では,治療群ごとの代替エンドポイントと真のエンドポイントとの相関係数は 1 で

ある(つまり代替エンドポイントと真のエンドポイントの分布の関係は直線となる)と仮定

している.もし Prentice の基準 (4) が成り立っていなければ,試験薬群の分布とコントロー

ル群の分布は図のように離れた 2 本の直線となり,S1<S0であるが T1>T0となってしまう(Sと T の関係が逆の場合もあり).つまり,いくら代替エンドポイントと真のエンドポイント

との相関が大きくても,代替エンドポイントとしては不適切なものとなってしまう. 代替エンドポイントに関する論文でよく引用され,各疾患領域における代替エンドポイン

トの失敗例をまとめた Fleming と DeMets の論文(1996)には,「A correlate does not a surrogate make」という名言が書かれている.

このように,代替エンドポイントが妥当なものであるためには,真のエンドポイントとの

相関が十分に大きいこと(Prentice の基準 (3) が成り立つこと)も必要であるが,同時に

代替エンドポイント(S)

真のエンドポイント(T)

S0 S1

T0

T1

*0 および 1 は,コントロール群およ

び試験薬群の値であることを示す.

コントロール群

試験薬群

5

Page 9: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

Prentice の基準 (4) が成り立っている必要がある.また,前述のように,治療効果が代替エン

ドポイントおよび真のエンドポイントに正しく反映されることも必要である(Prentice の基準 (1) および (2) ).Prentice の基準 (1) および (2) は,最初に示したように代替エンドポイン

ト (S) および真のエンドポイント (T) ならびに治療効果 (Z) を含んだ帰無仮説の否定であ

るが,そもそも治療効果が正しく反映されないような代替エンドポイントや真のエンドポイ

ントであれば,代替エンドポイントの統計的なバリデーションなど検討するに値しないので

はないだろうか. Prentice の基準の中でも特に (4) が特徴的であるために,Prentice の基準と言えば基準 (4)

を示すという捉え方や,基準 (3) と (4) のみを重視して基準 (1) と (2) を忘れがちな場合も

多いようである.Berger(2004)によれば,Encyclopedia of Biostatisitics(Fleming ら, 1998)に

おいては,Prentice の基準として (3) と (4) のみを紹介しているとのことである.彼は,あ

くまでも基準 (1) と (2) が成り立った上で基準 (3) と (4) について検討すべきであること

を強調し,基準 (3) と (4) のみしか考えないような風潮に苦言を呈している.

2.1.2. Prentice の基準に従った代替エンドポイントの評価に関する最初の事例

Prentice の論文(1989)では,実際の適用例として乳癌のスクリーニングに関する記載はあ

るが,具体的に実際のデータを用いて代替エンドポイントの評価を行っている訳ではない.

Prentice の基準に従い代替エンドポイントの評価を最初に行った事例は,Lin らの論文(1993)と思われる(次章で紹介する Freedman の論文は 1992 年の Statistics in Medicine に掲載されて

おり,Lin の論文は 1993 年の Statistics in Medicine に掲載されているが,論文が受理されたの

は Lin らの方が早い). HIV ウイルス感染症患者や AIDS 患者の治療薬の臨床試験において,CD4 リンパ球細胞数

が代替エンドポイントとしてよく使用されていたが,統計的な観点から妥当な評価は行われ

ていなかった. Lin らは,AIDS 患者ならびに AIDS 進行後の関連合併症を有する患者を対象とした

zidovudine に関する臨床試験(BW02 試験(Fischl ら, 1987): zidovudine 投与群 144 例,プラ

セボ投与群 137 例),および軽度で症状のない HIV 感染患者を対象とした zidovudine に関す

る臨床試験(ACTG016 試験(Fischl ら, 1990): zidovudine 投与群 360 例,プラセボ投与群 351例)に関して,CD4 リンパ球細胞数の代替エンドポイントとしての妥当性を評価した.

Lin らの検討では,最初に日和見感染が起こるまでの時間を真のエンドポイントとし,その

直前に測定された CD4 リンパ球細胞数(Current CD4 count)を代替エンドポイントとして,

Cox 回帰による生存時間解析を行い,モデルに代替エンドポイントを共変量として含めない

場合と含めた場合について,治療の効果がどう変わるかを調べた. 結果を表 2-1 にまとめた.

6

Page 10: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

表 2-1.BW02 試験および ACTG016 試験に関する Lin らの解析結果

BW02 Study ACTG016 Study

Covariate Estimate Model1*1 Model2*2 Model1 Model2*3

Treatment

Coefficient -0.459 -0.316 -0.665 -0.752

SE 0.123 0.132 0.230 0.277 Coeff./SE (P-value)

-3.75 (0.0002)

-2.39 (0.0168)

-2.89 (0.0039)

-2.71 (0.0067)

Current CD4 count

Coefficient - -0.576 - -1.622

SE - 0.173 - 0.374 Coeff./SE (P-value)

- -3.33 (0.0009)

- -4.34 (<0.0001)

*1:共変量としてエントリー時の患者の病態も含んでいる. *2:共変量としてエントリー時の患者の病態,およびベースラインでの CD4 count も含んでいる. *3:共変量としてベースラインでの CD4 count も含んでいる.

上記の結果より,BW02 試験においてはモデルに代替エンドポイントとして Current CD4

count を共変量として含めた場合,治療の回帰係数の P 値は 0.0002 から 0.0168 に増大するが,

0.05 よりも小さくまだ有意であり,Prentice の基準 (4) は満たしていない.一方,Current CD4 count の P 値は有意に小さく,基準 (3) を満たしている.また,ACTG016 試験では,モデル

に代替エンドポイントとして Current CD4 count を共変量として含めた場合の治療の回帰係数

の P 値は僅かに増大しているのみであり,一方,Current CD4 count の P 値は有意に小さい. 以上より,Lin は CD4 リンパ球細胞数は zidovudine と真のエンドポイントとの関係を部分

的に捕捉してはいるが,代替エンドポイントに対する厳密な基準は満たしていないと結論付

けている.彼らは考察の中でその原因として,CD4 リンパ球細胞数の測定誤差の問題と CD4リンパ球細胞数が短期間で変動しやすいこと,ならびに代替エンドポイントとして採用した

Current CD4 count の妥当性について論じている.そして Lin は論文の中で,代替エンドポイ

ントが治療効果をどれだけ捕捉しているかを定量的に評価する方法の必要性について述べて

いるが,これに関しては後述する Freedman や Buyse らにより提案がなされ,実際の臨床試験

のデータに適用されている.この Lin らの論文では Prentice の基準 (4) を満たすことができ

ていないが,Prentice の基準を用いて代替エンドポイントの統計的バリデーションを実際に行

おうとした場合に,特に基準 (4) は厳しすぎて満足することが難しいという批判がある

(Freedman ら, 1992;Flrming ら, 1994;Bycott ら, 1998). Premtice 自身は,Begg ら(2000)の論文に関するコメントの中で以下のように書いている.

it is only in very special circumstance that treatment information on an early surrogate end point will convey direct information concerning a treatment effect on a true later end point. Intuitively this must be so since there must be no 'pathways' whereby the treatment affects the true outcome

7

Page 11: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

that bypassses the surrogate, and no pathways whereby the treatment affects the surrogate without a corresponding effect on T.

更に,Prentice の基準を用いた統計的バリデーションは仮説検定によるため,All or Nothing

の結果しか得ることができず,代替エンドポイントが不完全な場合にはその不完全さを評価

できない. 1989 年の Statistics in Medicine に Prentice の論文が掲載されて以降,Prentice の基準に従って

不完全な代替エンドポイントをいかに評価すべきかという問題に関して,評価方法に関する

検討がなされた.また,その評価方法を用いて実際の臨床試験で使用された代替エンドポイ

ントが真のエンドポイントをどれだけ説明できるのか,ということについて検討が行われて

いる.次節以降では,これらの検討に関する論文について紹介を行う.

2.2. Freedman による Proportion of the Treatment Effect(PTE)の提案

Freedman(1992)は,代替エンドポイントが治療効果をどれだけ捕捉しているか(代替エ

ンドポイントが Prentice の基準 (4) をどれだけ満たしているか)を定量的に評価する方法と

して,「Proportion of the Treatment Effect(PTE)」という概念を提案している. 以下では,PTE の概念ならびに Freedman の提案した評価指標に関して,彼の論文の概要に

ついて紹介する.なお,Freedman はその論文の中で観察試験と介入試験を特に区別せず,観

察試験において代替エンドポイントと同等に用いられる「intermediate endpoint」を用い,ま

た,Proportion of the Treatment Effect と共に「Proportion of the Exposure Effect」という言葉をよ

く用いている.また,Freedman の論文の紹介に続き,PTE を用いて代替エンドポイントを実

際に評価した事例(AIDS および骨粗鬆症治療薬分野),PTE の問題点・限界,Freedman 以

降の PTE に関する展開や様々な評価指標の提案について紹介する.

2.2.1. Freedman による PTE の提案

彼の論文では話を簡略化するために,代替エンドポイントも真のエンドポイントも連続変

数ではなくカテゴリカルデータとし,解析にはロジスティック回帰モデルを適用している.

その際に,最初に StepA として代替エンドポイントと治療の交互作用をモデルに組み入れた

解析を行い,交互作用が有意であれば Prentice の基準 (3) は満たされず,それ以降の解析は

中止する.StepA で交互作用が有意でなければ,モデルから除外し解析を行う(StepB).StepBにおいて治療効果がまだ有意であれば,基準 (4) を満たさないこととなる.

Freedman は例として,コレステロール低下薬の心血管疾患(CHD)への効果を調べた Lipid Reserch Clinics Coronary Primary Prevention Trial のデータの解析を行っている.これは,3806例の無症状の高コレステロール血症の中年男性を対象として,コレステロール低下薬である

cholestyramine の CHD リスクの低下作用について検討したものである.論文(Lipid Research Clinics Program, 1984)より,試験の結果を表 2-2 に引用した.

8

Page 12: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

表 2-2.LCR Trial の結果

Number of Patients at Risk*1 Number of events Percent of Events*2

Cholesterol(mg/dl) at Year 1 P*3 C*3 P C P C

<180 7 106 0 9 0.0 8.5

180-230 91 675 8 34 8.8 5

230-280 1069 742 78 54 7.3 7.3

280-330 636 304 64 23 10.1 7.6

>330 115 61 18 10 15.7 16.4

Total 1918 1888 168 130 8.8 6.9 *1:観察期間の人-年で調整した値. *2:Percent of Events = Number of events / Number of Patients at Risk. *3:P はプラセボ,C は cholestyramine を示す.

表 2-2 の結果を用いて,CHD の発症リスクに関してロジスティック回帰により解析を行っ

た結果が以下の表 2-3 である.なお,以下のロジスティック回帰モデルにおいて,σ i は代替

エンドポイント(σ1+…….. σk=0),τ j は治療(τ1=1:cholestyramine,τ2=-1:placebo)を示す.なお,代替エンドポイントについては上記の表 2-2 にあるように,カテゴリー化し

た投与 1 年後のコレステロール値とした.

表 2-3.LCR Trial に関する Freedman の解析結果

Model Deviance Degree of freedom

Estimated Treatment effect SE

1:ln(p/1-p) =μ+σ i +τ j + (στ)ij 0.00 0 - -

2:ln(p/1-p) =μ+σ i +τ j 3.74 4 -0.13 0.13

3:ln(p/1-p) =μ+τ j 22.35 8 -0.26 0.12

4:ln(p/1-p) =μ 26.99 9 - -

上記の結果より,まず交互作用項を入れないモデル 2 において,帰無仮説の元での自由度

4 に対する deviance の値が 3.74 であることから,交互作用項をモデルに組み込む必要性が否

定された.また,治療のみを説明変数としてモデルに組み込んだモデル 3 において,治療効

果の推定値(対数オッズ)の P 値は 0.03 となり有意となっている. これに対して,代替エンドポイントを共変量としてモデルに組み込んだ場合のモデル 2 で

の治療効果の推定値は-0.13 となり,代替エンドポイントを共変量としてモデルに組み込まな

い場合の半分の値となっており,その P 値も 0.33 となり有意ではなくなる.

9

Page 13: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

Freedman(1992)はその論文の中で,治療効果が代替エンドポイントで説明できる割合を

直接評価する指標として,次の式で示される Proportion of the Treatment Effect(PTE)を提案

している.

PTE = 1 - (τa /τ) (2-1)

ここで,τa は代替エンドポイントで調整した場合の治療効果の推定値を,τは代替エンドポ

イントで調整しない場合の治療効果の推定値を示す.もし,基準 (4) が完全に満たされてい

れば,PTE は 1 となる.また,Freedman は PTE の 95%信頼区間を,Fieller の理論を用いて求

めている.表 2-3 の値から,LCR Trial においてカテゴリー化した投与 1 年後のコレステロー

ル値を代替エンドポイントとした場合,PTE は 1 - ( -0.131/ -0.261 ) = 0.498(95%CI:0.07 – 5.91)となる.

Freedman は得られた PTE の値より,代替エンドポイントが妥当なものであるかどうかを評

価する基準として,例えば PTE の 95%信頼区間の下限が,0.5 あるいは 0.75 を上回るべきだ

としている.そして彼はその確率を,シミュレーションにより求めている.シミュレーショ

ンによれば,τa=0(基準 (4) が完全に成立)とし,τa とτの相関が非常に大きい(ρ=0.9)と仮定した上においても,PTEの 95%信頼区間の下限が 0.5という値が得られるのはτ/SE(τ)≧4 の場合であり,PTE の 95%信頼区間の下限が 0.75 に至っては,その値を得るのはかなり

困難であるという結果が得られている.この結果から,代替エンドポイントが真のエンドポ

イントに対する治療(または曝露)の効果を説明する割合を精度よく評価できるのは,少な

くともτ/SE(τ)≧4 である必要があるとしている.ただしこのシミュレーションの結果は,

τおよびτa の分散を等しいと仮定しており,Gruttola ら(1997)の論文においては,得られ

た結論は楽観的過ぎると批判されている. また,Freedman は PTE が精度よく求められなかった原因として,試験自体の観察期間が

7.4年であるのに対して代替エンドポイントとしてのコレステロール値が投与開始 1年後の値

であることや,コレステロール値の個人内での変動が大きいための測定誤差の影響について

言及している.

2.2.2. AIDS 治療薬分野における PTE を用いた代替エンドポイントの評価の事例

Freedman の PTE に関する論文が発表された後,PTE はまず AIDS 治療薬分野における代替

エンドポイントの評価に用いられた.この章では,AIDS 治療薬分野における PTE を用いた

代替エンドポイントの評価の事例として,Choi(1993),O’Brien(1996)および Lin ら(1997)の論文について紹介する.

10

Page 14: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

2.2.2.1. Choi らによる zidovudine の臨床試験における CD4 リンパ細胞の代替エンドポイン

トとしての評価

Choi ら(1993)は,無症状の HIV 感染患者(エントリー時の CD4 リンパ球細胞数≦500 cells/mm3)を対象とした zidovudine に関する臨床試験(ACTG019 試験(Volberding ら, 1990)に関して,CD4 リンパ球細胞数の代替エンドポイントとしての妥当性を PTE を用いて評価し

た.なお,ACTG019 試験は本来 3 アーム(プラセボ,zidovudine 500mg/day, zidovudine 1500mg/day)の試験であるが,zidovudine はプールして解析を行っており,プラセボ投与群は

350 例,zidovudine は 725 例となっている.また,代替エンドポイントの欠測値については,

Andeson(1971)の「first-order autoregressive model」を用いて補完を行っている. 最大観察期間は 90 週間(中央値は 55 週間)で,真のエンドポイントは AIDS 発症までの

時間であり,代替エンドポイントは投与 16 週後の CD4 リンパ細胞数(Current CD4+ cell count)ならびに全白血球数中の CD4 リンパ細胞の割合(Current net CD4+ cell percentage)である.

Choi ら解析結果を,以下の表 2-4 に示す.

表 2-4.Choi らの解析結果

Placebo- zidovudine Relative Risk (95%CI)

P Value

Unadjusted for current CD4+ cell count* 2.08 ( 1.14 - 3.78 )

0.02

Adjusted for current CD4+ cell count 2.10 ( 1.15 - 3.83) 0.02

Adjusted for current net CD4+ percentage 1.59 ( 0.87 - 2.89 ) 0.13

* ベースラインでの CD4+ cell count で調整済みの結果を示した.

以上の結果から Current CD4+ cell count ならびに Current net CD4+ percentage について,PTE

を求めると次のようになる.なお,この論文においては PTE の 95%信頼区間は求められてい

ない.

Current CD4+ cell count : PTE = 1 – ( ln(2.10)/ln(2.08) )= -0.013 Current net CD4+ percentage : PTE = 1 – ( ln(1.59)/ln(2.08) ) = 0.375

Current CD4+ cell count が代替エンドポイントとしてふさわしいとは言い難く,Current net

CD4+ percentage の方が不完全ではあるものの代替エンドポイントとしてふさわしいという結

果になったことについて Choi は,元々Current CD4+ cell count は全白血球数に Current net CD4+ percentage を掛けて求めているが,白血球数は zidovudine の投与により減少してしまうこと,

ならびに個人間および個人内変動がかなりあることや測定施設でのバリデーション等により,

Current net CD4+ percentage の方が測定誤差による影響を受けにくいのではないかと推察して

11

Page 15: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

いる.なお,投与 16 週後の CD4 リンパ細胞数は 8%の症例で欠測であり補完を行っているが,

その影響はないと考えている. また,試験成績の解析の結果から,zidovudine の効果が投与開始より遅れて(投与 16 週後

以降に)発現することが推測された.そこで,投与 16 週後以降での AIDS の発症を対象とし,

表 2-4 と同様の解析をおこなった結果が表 2-5 である.

表 2-5.投与 16 週後以降での AIDS の発症を対象とした解析結果

Placebo- zidovudine Relative Risk (95%CI)

P Value

Unadjusted for current CD4+ cell count 1.70 ( 0.89 - 3.22 )

0.11

Adjusted for current CD4+ cell count 1.33 ( 0.70 - 2.51 ) >0.2

Adjusted for current net CD4+ percentage 1.15 ( 0.61 - 2.19 ) >0.2

以上の結果より PTE を求めると,

Current CD4+ cell count : PTE = 1 – ( ln(1.33)/ln(1.70) ) = 0.463 Current net CD4+ percentage : PTE = 1 – ( ln(1.15)/ln(1.70)) = 0.737

となり,それぞれの PTE の値は表 2-4 の値に比べて大きい値となる.しかしながら,未調整

の Relative Risk の P 値は 0.11 であり,この場合には真のエンドポイントに対する治療効果は

有意ではない.

2.2.2.2. O’Brien らによる zidovudine の臨床試験における HIV-1 RNAおよび CD4 リンパ細胞

等の代替エンドポイントとしての評価

O’Brien ら(1996)は,症状を有する HIV 感染患者(エントリー時の CD4 リンパ球細胞数

200-500 cells/mm3)を対象とした zidovudine に関する臨床試験(Veterans Affairs Cooperative Studies Program Trail 298:Hamilton ら, 1992)に関して,血漿中 HIV-1 RNA,血漿中β2-マイ

クログロブリン,および CD4 リンパ球細胞数について,代替エンドポイントとしての妥当性

を PTE を用いて評価した. 対象とした試験は 2 アームから成り,immediate-therapy group はオープンで試験エントリー

時から zidovudine を投与され,deferred-therapy group は最初はプラセボが投与され,病状の悪

化により事前に定めた基準を満たした場合には,それ以降はオープンで zidovudine を投与さ

れた.338 例がエントリーされ,うち 270 例(immediate-therapy grouop が 129 例,deferred-therapy group が 141 例)で血漿サンプルの評価が可能であった.

12

Page 16: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

観察期間は 3 年間であったが,最初の 1 年間を解析の対象とした.真のエンドポイントは

AIDS 発症までの時間であり,代替エンドポイントは投与 6 ヵ月後の各マーカーのベースライ

ンからの変化量とした.また,Bootstrap 法を用いて PTE の 95%信頼区間を求めた. 最初に,各マーカーの投与 6 ヵ月後のベースラインからの変化を AIDS 発症までの時間に

関する Cox 回帰モデルの共変量に組み入れて,マーカの変化と AIDS の発症との関係を調べ

た.各マーカーの変化のレベルを変えながら検討を行い,血漿中 HIV-1 RNA については 75%以上の減少,CD4 リンパ球細胞数については 10%以上の増加が代替エンドポイントの候補と

なったが,血漿中β2-マイクログロブリンについては AIDS 発症との明確な関係は認められな

かった.血漿中 HIV-1 RNA については 75%以上の減少,CD4 リンパ球細胞数については 10%以上の増加を代替エンドポイントとして Cox 回帰モデルを用いて解析を行った O’Brien らの

結果を以下に示す.

表 2-6.各マーカーを共変量とした時の Cox 回帰の結果

VARIABLE PLASMA HIV-1 RNA (N=270) CD4+ LYMPHOCYTE COUNT (N=263)*

COEFFICIENT RELATIVE RISK

P VALUE COEFFICIENT RELATIVE RISK

P VALUE

Model1 Treatment only

-0.572 0.56 0.03 -0.473 0.62 0.03

Model2 marker only

-1.019 0.36 <0.001 -0.878 0.42 <0.001

Model3

Treatment -0.233 0.79 0.33 -0.327 0.72 0.14

Marker -0.894 0.41 0.004 -0.809 0.45 0.003

Model4

Treatment 0.772 2.16 0.28 -0.435 0.65 0.53

Marker 0.502 1.65 0.60 -0.942 0.39 0.28

Treatment×marker -0.850 0.43 0.14 0.089 1.09 0.87

* 投与 6 ヵ月後の CD4 リンパ球細胞数は,7 例については得られていない.

上記の結果より,投与 6 ヵ月後の RNA の 75%以上の減少ならびに CD4 リンパ球細胞数の

10%以上の増加を代替エンドポイントとした時の PTE は以下のようになる.なお,95%信頼

区間は論文の値をそのまま記載した.

RNA の 75%以上の減少: PTE = 1 – ( -0.233/-0.572) = 0.59 (95%CI: 0.13 – 1.12) CD4 リンパ球細胞数の 10%以上の増加: PTE = 1 – ( -0.327/-0.572) = 0.31 (95%CI: 0.04 – 0.58)

13

Page 17: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

なお,RNA の 75%以上の減少かつ CD4 リンパ球細胞数の 10%以上の増加を代替エンドポ

イントとした時の PTE は,0.79(95%CI: 0.27 – 1.45)となる.

2.2.2.3. Lin らによる ACTG019 試験および BW02 試験における CD4 リンパ細胞の代替エン

ドポイントとしての評価

Lin ら(1997)は,代替エンドポイントの評価に生存時間解析(Cox 回帰)を用いて PTEを求める場合の数学的に厳密な取り扱い,ならびに PTE の 95%信頼区間を求める方法として

デルタ法および Fieller の方法を用いた検討に関して,1997 年の Statistics in Medicine で論文を

発表している.またその適用事例として,Choi ら(1993)が CD4 リンパ球細胞数の代替エン

ドポイントとしての妥当性を PTE を用いて評価した ACTG019 試験,ならびに Lin らが 1993年の論文で Prentice の基準を用いて CD4 リンパ球細胞数の代替エンドポイントとしての妥当

性について評価を行った BW02 試験について,CD4 リンパ球細胞数(またはその比率)を代

替エンドポイントとした時の PTE とその信頼区間を求めている.ここでは数学的な議論の詳

細は省略し,上記の 2 試験に関する Lin の論文での結果を以下に示す. 最初に,ACTG019 試験に関する解析結果を表 2-7 に示す.

表 2-7.Lin らによる ACTG019 試験における PTE

Progression after week16 Progression after randomization

CD4 count Net CD4 % CD4 count Net CD4 %

α* -0.53 -0.53 -0.62 -0.62

SE(α) 0.33 0.33 0.31 0.31

α/ SE(α) -1.62 -1.62 -1.99 -1.99

β* -0.28 -0.14 -0.50 -0.38

SE(β) 0.32 0.33 0.30 0.31

β/ SE(β) -0.88 -0.43 -1.66 -1.21

Corr(α,β) 0.95 0.95 0.95 0.97

p(estimate of PTE) 0.46 0.74 0.19 0.38

SE( p ) 0.31 0.47 0.16 0.22

95%CI for p

δ-method -0.14 - 1.08 -0.20 - 1.65 -0.13 - 0.51 -0.05 - 0.81

Fieller's method - - -0.27 – 7.75 0.12 - 24.49

* 代替エンドポイントで調整する前の治療効果がα,調整後の治療効果がβ.

上記の結果において,ランダム化後に AIDS を発症した症例を対象とした解析結果が Choi

らの結果と合っていない(Net CD4 %を代替エンドポイントとした時の PTE を除く).これ

∧ ∧ ∧

∧ ∧

∧ ∧

14

Page 18: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

は,Choi らの論文では解析の際にベースラインでの CD4 リンパ球細胞数を共変量としてモデ

ルに組み入れているが,Lin らは入れなかったためと考えられる. 投与 16 週後に AIDS を発症した症例を対象とした解析では,Fieller 法による 95%信頼区間

が得られていないが,これは代替エンドポイントで調整を行っていない時の治療効果が有意

に大きくはない(P=0.105)ことによる.また,ランダム化後に AIDS を発症した症例を対象

とした解析では,Fieller 法による 95%信頼区間は不安定となっているが,これは代替エンド

ポイントで調整を行っていない時の治療効果のP値が殆ど0.05に近い(P=0.047)ことによる. 次に,BW02 試験に関する解析結果を表 2-8 に示す.なお,本論文においては,投与 8 週後

の CD4 リンパ球細胞数を代替エンドポイントとしている.

表 2-8.BW02 試験に関する再解析結果

Covariate Estimate Model1 Model2

Treatment Coefficient -0.92 -0.66

SE 0.24 0.25

Coefficient/SE -3.76 -2.59

Status* Coefficient 0.82 0.40

SE 0.26 0.26

Coefficient/SE 3.17 1.52

Week8 CD4 count

Coefficient - -0.0060

SE - 0.0016

Coefficient/SE - -3.76

* エントリー時の患者の病態.

上記の結果より,PTE は 0.283,その 95%信頼区間はデルタ法および Fieller 法によると,

それぞれ 0.057-0.509 および 0.100-0.666 となる.なお,1993 年の Lin らの論文での BW02 試

験の解析結果からは PTE は 0.312 となり多少異なるが,1993 年の論文ではモデルにベースラ

インでの CD4 リンパ球細胞数を共変量として組み入れていること,ならびに同じ CD4 リン

パ球細胞数を代替エンドポイントとしていても,どのポイントの値を用いているかの違いに

よるものと考えられる. Lin は考察の中で,精度のよい PTE の推定値を求めるためには,治療効果が単に有意であ

ればよいというレベルよりもかなり大きい値である必要があり,そのためには大規模または

/かつ長期の試験の実施,あるいはメタアナリシスの活用が必要であると述べている. また,Gruttola ら(1997)の論文を引用し,薬剤の毒性,服薬状況,そのマーカーの不完全

な情報等の様々な因子の影響により,あまり有効とは言えないマーカーの PTE が 1 に近くな

る可能瀬もあり得るために,仮に PTE が 1 に近い値となっても,よい代替エンドポイントと

15

Page 19: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

推測するには不十分であるとしている.しかし一方で,それにもかかわらず,PTE は薬剤の

作用機序に関する仮説を評価する上で,有益なエビデンスを提供し得ると述べている.

2.2.3. 骨粗鬆症治療薬分野における PTE を用いた代替エンドポイントの評価の事例

骨粗鬆症とは国際的に,「低骨量と骨の微細構造の劣化が特徴的で,その結果骨の脆弱性

が増加し,骨折を起こしやすい全身性の骨疾患」と定義されている(Consensus Development Conference, 1991).骨粗鬆症治療薬の評価においては,骨密度(BMD: Bone Mineral Density)をどれだけ増加させるかがその薬剤の評価を左右するような傾向がみられた時期もあったが,

2000 年の NIH のコンセンサス会議において,骨の強度に影響を及ぼす因子は,骨密度ならび

に「骨質」であるという考え方が示された(Osteoporosis Prevention, Diagnosis, and Therapy. NIH Consensus Statement 2000).この「骨質」とは,骨密度以外に骨の強度に影響を及ぼす様々

な因子を一つの言葉でまとめたものであり,骨の構造に関する要因,加齢に伴う脆弱化,骨

の成分の化学的な組成等の要因を含んでいる.近年の骨粗鬆症の治療においては,骨密度の

増加のみならず,骨質の改善の重要性も認識されている.なお,骨粗鬆症治療薬として 20 年

前に開発されたフッ素化合物は,骨密度は大きく増加させるものの骨折抑制には殆ど効果が

なかった(Riggs ら, 1990)ために,FDA は骨密度を代替エンドポイントとした試験結果をも

って薬剤を承認する方針を変更し,第Ⅲ相試験においては真のエンドポイントである骨折を

評価項目とした臨床試験を求めるようになった(Fleming ら, 1996;Rosen, 2007).ただし,

骨密度は代替エンドポイントとして日米欧の規制当局からは認められており,新薬の承認申

請の際には骨密度を代替エンドポイントとして第Ⅱ相試験を行い用量反応性を検討し,第Ⅲ

相試験においては真のエンドポイントである骨折を評価項目としてプラセボまたは実薬対照

試験を行うのが一般的となっている. 以下においては,骨粗鬆症治療薬として現在広く用いられているビスフォスフォネート製

剤の risedronate および arendronate,ならびに選択的エストロゲン受容体モジュレータである

raloxifene に関して,各薬剤の臨床試験において代替エンドポイントである骨密度が真のエン

ドポイントである骨折をどれだけ説明できるかということについて,PTE を用いて評価した

例を示す.

2.2.3.1. Risedronate に関する評価

PTE に関しては後述するように,例えばその値が 0 と 1 の間を超えてしまう場合があり得

るなど,Freedman が提案した PTE による評価には課題が残っている.それを解決するために

Li ら(2001)は,リスクを 1) 代替エンドポイントのみで説明できる減少分,2) 代替エンド

ポイントのみでは説明できない他の因子による減少分,3) 治療後に残ったリスクの 3 つの構

成要素に分解し,評価を行う方法を提案している.なお,Li らの提案による方法は Freedmanが提案した評価指標とは同じではないが,彼らの求めた値を使用して Freedman の PTE も求

16

Page 20: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

めることができ,また Proportion of Treatment Effect という概念に基づいた考え方である.な

お,Li らの提案についての詳細は論文を参照することとし,ここでは概略を説明する. 代替エンドポイントならびに真のエンドポイントは連続変数でも離散変数でもよいとして,

代替エンドポイントを S,治療を Z,真のエンドポイントを評価する統計量(ロジスティック

回帰であればオッズ,Cox 回帰であればハザード)を risk で表し,Prentice の基準 (4) につい

て評価するために以下の式を考える.治療と risk との関係について,代替エンドポイントを

考えない場合と考える場合について,以下の 2 式が得られる.

g(risk) = β10 + β11Z (2-2) g(risk) = β20 + β21Z +β22S (2-3)

なお,ここで g(・) は例えば g(x) = log(x) のようなリンク関数である.

治療を実薬とプラセボの 2 群とし,実薬投与群とプラセボ投与群での代替エンドポイント

の差をΔSとし,risk をロジスティック回帰または Cox 回帰で評価することを仮定し,実薬投

与群とプラセボ投与群での risk を rt および rp で表すと

log(rt) - log(rp) = log(rt / rp) = β21 +β22ΔS (2-4)

となる.

ここで,1-exp(β22ΔS) = 1-ρS は治療により代替エンドポイントが変化したことによる

リスク減少,1-exp(β21) = 1-ρ t は治療により代替エンドポイントの変化以外の要因が関与

したリスク減少と考えることができる(添え字の S と t は代替エンドポイントおよび治療を

示す).臨床試験による介入前のリスクを 1 とすれば,治療により代替エンドポイントが変

化してリスクが 1-ρS だけ減少すれば,残ったリスクはρSとなる.次に残ったリスクρS

のうち,代替エンドポイントの変化以外の要因により,ρS のうちのρS ( 1-ρ t ) だけリスク

が減少し,最後にρSρ t が残る.したがってリスクは以上のように,1) 代替エンドポイント

のみで説明できる減少分(1-ρS ),2) 代替エンドポイントのみでは説明できない他の因子

による減少分(ρS (1-ρ t ) ),3) 治療後に残ったリスク(ρSρ t )の 3 つの構成要素に分解

できる.つまり,以下のように分解できる.

1 = ( 1-ρS ) +ρS ( 1-ρ t ) +ρSρ t (2-5)

そして Li らは「Proportion of treatment effect explained by surrogate」として,以下の式を示し

ている.

γSt = ( 1-ρS ) / (1-ρSρ t ) (2-6)

17

Page 21: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

ここで,分母は治療によるトータルのリスク減少,分子は代替エンドポイントのみで説明で

きるリスク減少であり,ρSρ t = rt / rp = exp( β21 +β22ΔS ) であり,ρS = exp( β22ΔS ) であるから,

γSt = ( 1-exp( β22ΔS )) / (1-exp( β21 +β22ΔS )) (2-7)

となる.

Li らは実際の例として,閉経後女性に対する risedronate の効果を評価するために同じプロ

トコールを用いて北米で行われた試験(RVN 試験)とヨーロッパで行われた試験(RVE 試験)

の結果を統合して解析を行った.対象となる症例は全 1407 例(RVN:1027 例,RVE:380例)であり,真のエンドポイントは投与後 3 年間における脊椎新規骨折が発生するまでの時

間,代替エンドポイントは投与 24 ヵ月後の腰椎骨密度とし,Cox 回帰モデルを用いた. 表 2-9 にその結果をまとめた.

表 2-9.Risedronate の臨床試験に関する Li らの解析結果

Covariate Estimate Model(1) Model(2)

Treatment Coefficient -0.485 -0.405

Standard error 0.171 0.173

Coefficient / SE -2.835 -2.334

Lumbar spine BMD at month 24 Coefficient - -3.749

Standard error - 0.612

Coefficient / SE - -6.126

代替エンドポイントである投与 24 ヵ月後の腰椎骨密度の実薬投与群とプラセボ投与群と

の差(ΔS)は 0.0033g/cm2であったことから,Li らの定義による Proportin of treatment effect explained by surrogate は以下のようになる.

γSt = ( 1-exp( -3.749*0.0033 )) / (1-exp( -0.405-3.749*0.033 )) = 0.283

なお,ここで表 2-9 の値より Freedman による PTE を求めると

PTE = 1-(-0.405 / -0.485) = 0.165

となる. 学会の抄録集のために詳細は不明であるが,Li を含む演者らにより risedronate に関

して同じ試験を対象として代替エンドポイントである骨密度が真のエンドポイントである骨

折をどれだけ説明できるかを Cox 回帰モデルを用いて検討した結果として,抄録集(Watts

18

Page 22: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

ら, 2000)には「the model predicts only a 17% reduction in vertebral fracture risk」という記載があ

り,上記 PTE と同様の数字が記載されている.

2.2.3.2. Arendronate に関する PTE を用いた評価

Arendronate に関しては,Cummings ら(2002)が PTE を用いた評価を行っている.その論

文ではあまり詳細な記載はないが,arendronate の Fracture Intervention Trial を対象として,3年間の投与での脊椎新規骨折の発生を真のエンドポイントとし,投与 1 年後の腰椎骨密度の

変化率を代替エンドポイントとして,ロジスティック回帰により解析を行い PTE を求めてい

る.また,その 95%信頼区間を Fieller の方法を用いて求めている. 代替エンドポイントで調整する前のオッズ比が 0.53,代替エンドポイントで調整後のオッ

ズ比が 0.55 であった.論文中では PTE が 0.16(95%CI: 0.11 – 0.27)となっているが,上記の

オッズ比を用いると,PTE = 1-( ln0.55 / ln0.53 ) = 0.058 となり,論文の数字と合わない.な

お,第 21 回米国骨代謝学会において Cummings ら(1999)が行った発表の抄録では,同じ試

験を対象として同様の解析を行った結果では,代替エンドポイントで調整する前のオッズ比

が 0.52,代替エンドポイントで調整後のオッズ比が 0.58 となっており,

PTE = 1-( ln0.58 / ln0.52 ) = 0.167 ( 95%CI: 0.10 – 0.33)

となっている.

2.2.3.3. Raloxifene に関する PTE を用いた評価

Raloxifene に関しては,Sarkar ら(2002)が PTE を用いた評価を行っている.Sarkar らは,

7705 例の閉経後女性を対象とした 3 年間の MORE(Multiple Outcomes of Raloxifene Evaluation)試験に関して解析を行っている.対象となる症例は 7705 例中で投与後最低 1 年間は骨密度が

測定されている 6828 例であり,raloxifen 60mg/day 投与群と raloxifen 120mg/day 投与群は統合

して解析を行った. 真のエンドポイントは投与後 3 年間での脊椎新規骨折の発生とした.代替エンドポイント

については,投与 3 年後の腰椎および大腿骨骨密度の変化率について検討している.腰椎骨

密度の変化率に関しては,治療との交互作用が有意であったために,PTE の検討は行ってい

ない.投与 3 年後の大腿骨骨密度の変化率を代替エンドポイントとした場合,論文中の記載

では PTE は 4%となっている.なお,代替エンドポイントで調整後の脊椎新規骨折の発生の

オッズ比に関する記載はあるが,代替エンドポイントで調整前の脊椎新規骨折の発生のオッ

ズ比に関する記載はない.また論文中では,投与 1 年後の腰椎および大腿骨骨密度の変化率

と投与後 3 年間での脊椎新規骨折の発生との関係についても検討を行っているが,PTE の値

に関する記載はない.ただし,投与 1 年後の腰椎骨密度と治療との間には,交互作用は認め

られていない.なお,Sarkar や Cummings らが共同演者として名を連ねている第 21 回米国骨

19

Page 23: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

代謝学会での raloxifene の PTE に関する発表の抄録(Black ら, 1999)では,真のエンドポイ

ントは投与後 3 年間での脊椎新規骨折の発生とし,代替エンドポイントについては,投与 1年後の腰椎および大腿骨骨密度の変化率について検討している.その結果では,腰椎骨密度

を代替エンドポイントとした場合の調整前後のオッズ比はそれぞれ 0.57 および 0.62 であり,

PTE は 0.143(95%CI: 0.04- 0.25)となっている.また,大腿骨骨密度を代替エンドポイント

とした場合の調整前後のオッズ比はそれぞれ 0.57 および 0.60 であり,PTE は 0.093(95%CI: 0.007- 0.18)となっている.

以上のように,骨粗鬆症治療薬分野において,PTE として大きい値はまだ報告されていな

いようである.その原因について,いずれの論文でも骨密度測定の精度について論じている.

2.2.3.4. 骨密度測定値の誤差を考慮した解析

そこで Sarker ら(2007)は,骨密度測定時の測定誤差を補正するための方法として regression calibration と呼ばれる方法(Rosner ら, 1990;Carrol ら, 1990)を取り入れ,また PTE の評価指

標として Freedman の指標を元に,以下の ERO(Excess Relative Odds)を新たに考案した.

)αexp(1)αexp()βexp()α,β(ERO

z

zzzz −

−= (2-8)

ここで,αzは代替エンドポイントで調整しない場合の治療効果を,βzは代替エンドポイン

トで調整した場合の治療効果を示す.Freedman の PTE では,対数オッズ比や対数ハザード比

などの回帰係数を用いるが,ERO ではオッズ比を計算に直接用いている.また,一般に EROは Freedman の PTE とほぼ同じ値となる.更に,詳細は論文に任せて割愛するが,Sarker は代

替エンドポイントに誤差を含めたモデル(additive measurement error model)を用い,regression calibration 法を用いて ERO を計算している.

ERO の具体例として,2002 年の論文で Sarker が PTE を求めた raloxifene の MORE 試験を

対象として,真のエンドポイントは投与後 3 年間での脊椎新規骨折の発生とし,代替エンド

ポイントについては投与 1 年後の腰椎骨密度の変化率としている.また ERO の 95%信頼区間

は,bootstrap 法を用いている. 以下の表 2-10 にその結果をまとめた.

表 2-10.Raloxifene の MORE 試験での ERO の算出結果

Procedure αz βz βx*1 ERO 95%CI

Naive*2 -0.5729 -0.5337 -4.9324 0.0517 0.0111 - 0.1151

Corrected*2 -0.5729 -0.4269 -18.2216 0.2033 0.0408 – 0.4555

*1:代替エンドポイントに関する治療効果.

*2:Naive は surrogate endpoint の誤差は考慮せず,Corrected は誤差を考慮した場合の結果.

20

Page 24: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

以上の結果から,代替エンドポイントの骨密度測定の誤差を考慮した上でも,なお ERO は

まだ 20%程度の値となっており,Sarker は骨密度は脊椎新規骨折の代替エンドポイントとし

ては不完全なものであるとしている. なお,各薬剤関して算出された PTE の値については,エンドポイントや作用機序の違いに

より,単純に比較することはできないということに十分に留意すべきである.

2.3. 代替エンドポイントを評価する上での PTE の問題点と限界

Freedman が提案した PTE には,以下のような問題点や限界が認められている(Freedmanら, 1992;Buyse ら, 1998;Bycott ら, 1998;Gruttola ら, 1997;Lin ら, 1997;Daniels ら, 1997;Wang ら, 2002).

1) 信頼区間を求めても,その幅がかなり大きなものとなり,信頼区間の幅が意味を持つレ

ベルとなるためには,治療効果がかなり大きくなければならない.また,PTE そのもの

の値がかなり変動し得る可能性もある. 2) PTE の値は 0 から 1 の範囲以外の値も取り得ることがあり,proportion ではない.

1) 信頼区間と PTE の値の精度について

これまでに紹介した論文の報告においては,PTE が小さい値の場合は別として,PTE が 0.5前後からそれ以上の値である場合,その信頼区間の幅はかなり大きいものとなっている.PTEの信頼区間の算出については,Fieller の方法,デルタ法,bootstrap 法などがこれまでの論文

で用いられている.Lin の論文(1997)においては,Fieller の方法で求めた値には不安定な場

合があり,デルタ法の方が精度がよいことが示されてはいるが,決定的とは言えない.

Ferrdman(1992)はその論文の中で,PTE の信頼区間の下限が 0.5 以上となるためには,代替

エンドポイントで調整を行う前の治療効果が,その標準誤差の 4 倍以上必要であると述べて

いる.また,Gruttola ら(1997)によるシミュレーションの結果では PTE の信頼区間の大き

さも,治療効果の標準誤差に対する治療効果の大きさの影響を受けることを示している. これまでに紹介した論文においては PTE の精度に関して,代替エンドポイントの測定精度

を問題としている.Gruttola ら(1997)は論文の中で代替エンドポイントへの影響に関して,

欠測や服薬遵守の問題等についても言及している.また信頼性の高い PTE の値を得るために,

Lin ら(1997)は大規模臨床試験の実施やメタアナリシスの活用の必要性を説いている.なお,

Bycott ら(1998)はその論文の中で,PTE が 0 または 1 に近い値の場合には,代替エンドポ

イントで調整を行う前の治療効果が,その標準誤差に比べて大きい値(3~4 倍)でない場合

には,値が不安定になると報告している.

2) PTE の値の範囲について

2)-1 PTE の値が 0 よりも小さい負の値を取り得ることについて

21

Page 25: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

代替エンドポイントを考える場合には,通常は有効性の評価を念頭に置いている.しか

しながら,死亡や心血管障害の発症等のイベントを真のエンドポイントとする臨床試験に

おいては,薬剤の有効な作用のみならず,その薬剤の別の側面である副作用により,真の

エンドポイントに対する有効性が見かけ上は減弱してしまう可能性もあり得る. Gruttola の論文(1997)での言葉を借りると,代替エンドポイントは intended effect(エ

ンドポイントの評価に関して,評価者が興味を持っている,あるいは期待している効果)

のみを評価できるが,unintended effect(エンドポイントの評価に関して,評価者が興味を

持っていない,あるいは予期していない効果)は評価できない.つまり,図 2-1 の (4)’ における代替エンドポイントを経由しない真のエンドポイントへの薬剤の効果は評価できな

いが,unintended effect には有効な作用(例えば骨粗鬆症治療薬での骨質改善効果)もあれ

ば副作用もあるために,上記のようなことが起こり得る.また薬剤の副作用による真のエ

ンドポイントへの影響が,代替エンドポイントの評価の期間内に生じれば問題はないが,

それが代替エンドポイントの評価の期間よりも後に発現した場合,薬剤の副作用による影

響は真のエンドポイントには反映されるが代替エンドポイントには反映されない, という

場合も起こり得る.その結果, 有効性に関しては真のエンドポイントよりも代替エンドポ

イントでの治療効果が高くなってしまい,代替エンドポイントが intended effect と

unintended effect の両方を捕捉できなくなる. 以上のようなことが原因で,PTE が負の値を取り得ることがある.真のエンドポイント

に対する治療効果をβとすれば,βは intented effectded であるβ+(>0)と unintented effectdedであるβ-(<0)の和(β=β++β-)であるが,代替エンドポイントで調整した治療効果はβ

+であるから,PTE=(β-β+) /β=β-/βとなり,βが正の値をとれば PTE は負となる(なお,

以上の説明は,Hughes(2002)の論文において PTE が 1 よりも大きい値を取り得ることに

関する説明の一部を利用したが,その論文では PTE の定義が間違っているために,PTE が

1 よりも大きい値を取り得ることは説明できていない). Gruttola はその論文(1997)の中で,「In order for a marker to be a valid surrogate by the

Prentice definition, it must capture all of a treatment’s beneficial and harmful effects.」と述べてい

るが,これは PTE だけの問題ではなく,代替エンドポイントとして求められる条件である.

2 型糖尿病は,腎障害や網膜症などの細小血管障害発症のリスクの要因であると共に,脳

血管障害や心血管障害などの大血管障害発症のリスクの要因でもある.2 型糖尿病の治療

薬に関しては,日米欧においては代替エンドポイントであるヘモグロビン A1c (HbA1c) の評価結果により承認が行われている.

しかしながら,ある 2 型糖尿病の治療薬の心血管障害へのリスクが最近問題となり,そ

れに関して FDA で諮問委員会が開催されている.骨粗鬆症の専門家でその諮問委員会で議

長を務めた Rosen(2007)が The New England Journal of Mediene において,将来は 2 型糖尿

病の治療薬も骨粗鬆症治療薬と同様に真のエンドポイントで承認すべきと述べている. 上記薬剤の心血管障害へのリスクにつては,評価は分かれておりまだ定まってはいない

が,FDA は糖尿病治療薬の承認の方針の見直しを最近行い,ガイダンスのドラフトを発表

22

Page 26: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

している(Guidance for industry: Diabetes mellitus: developing drugs and therapeutic biologics for treatment and prevention (draft guidance), 2008).このガイダンスにおいて,FDA は細小血管

障害発症に関しては HbA1c を代替エンドポイントとして認めている.しかしながら,大血

管障害発症に関しては糖尿病との関連は認めているものの,HbA1c との関係に関する記載

はない.エンドポイントを HbA1c とした承認の方針は変わってはいないが,心血管への影

響を評価する長期試験の実施を求めており,市販後において必要と考えられる十分な期間

での試験の実施が妥当であるとしている.また,第Ⅲ相での安全性評価に関する症例数に

関しても,最低 2500 例以上(1 年間以上が最低 1300~1500 例以上,18 ヵ月以上が最低 300~500 例以上)を推奨している.なお,2008 年 12 月に糖尿病治療薬の心血管リスクへの評

価のみが,Guidance for industry Diabetes mellitus-evaluating cardiovascular risk in new antidiabetic therapies to treat type 2 diabetes として独立した正式なガイダンスとなった.この

ガイダンスでは,第Ⅱ相または第Ⅲ相試験の結果のメタアナリシスにより,心血管リスク

に対する評価を行うことを推奨しており,その結果次第では,申請前または承認後に更に

心血管リスクに対する評価を行うための臨床試験が求められることとなった.

2)-2 PTE の値が 1 よりも大きい値を取り得ることについて

前述の AIDS 治療薬分野や骨粗鬆症治療薬分野において PTE を評価した論文では,代替

エンドポイントの測定精度(測定方法そのものや個人内での変動)を問題にしている.例

えばある薬剤に関して,プラセボ投与群に対するその薬剤の投与群のオッズ比が代替エン

ドポイントでの調整前は 0.85 (p<0.05) であり,代替エンドポイントでの調整後は 1.05 (p>0.05) となったとする.その場合には,PTE = 1-(ln1.05/ln0.85) = 1.30 となる.このよう

に,代替エンドポイントで調整後の治療効果の方が代替エンドポイントで調整前の治療効

果よりも大きくなった場合,例えばプラセボ投与群に対する実薬投与群のオッズ比が代替

エンドポイントでの調整前後で「 ›1 」→「 ‹1 」となった場合には,PTE›1 となる.しか

しそのような場合には,Prentice の基準 (2) を満たしていないことになる.

2.3.1. Freedman 以降の Proportion of the Treatment Effect

Freedman の PTE に関しては,前述のように批判も多い.しかしながら,信頼区間の幅が広

くなるという問題に関しては,後述する Buyse ら(1998)の評価指標(RE)においても解決

された訳ではなく,RE は 1 を超える場合もある.更に,信頼区間の幅の問題も含めて PTEの精度を改善するために,メタアナリシスが提案されているが(Buyse ら, 2000),基本的に

は対象とする試験における全ての患者のデータが必要であり,データが入手できなければ実

施不可能となる.その一方で,PTE は Prentice による代替エンドポイントのバリデーション

の考え方に基づき,直観的に理解しやすく,評価自体はデータがあれば難しいことではない.

1992 年に Freedman により PTE が提案されて以降,上記のような現実もあり,近年において

も PTE に関する論文が発表されている.ただし,評価指標そのものは Freedman の提案した

評価指標を基に,新たな提案がなされている.

23

Page 27: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

このように,PTE は代替エンドポイントを評価するための 1 つの概念として一定の評価は

確立されており,すでに骨粗鬆症分野での PTE の評価で紹介した Lin のγSt や Sarker の EROのように,新しい評価指標に関する展開がみられている.そこでここでは,そのような新し

い評価指標に関する主要な論文について,その概要を紹介する.

2.3.1.1. Wan, Taylor による指標 F の提案

Wan および Taylor(2002)は,PTE の考え方を基に,新しい評価指標として以下の F を提

案した.

F = ( AA-AB) / ( AA-BB) (2-9)

ここで,AA = h(∫gA(S)dPA(S)),BB = h(∫gB(S)dPB(S)),AB= h(∫gA(S)dPB(S)) であり,PA(S)および PB(S) はグループ A(コントロール群)および B(治療群)での代替エンドポイント

の分布,gA(S) および gB(S) はそれぞれのグループでの代替エンドポイントの分布が与えら

れた時の真のエンドポイントの条件付き分布である.また h(・) は単調増加関数を表す.

上記 F における分母の(AA-BB)は,全治療効果の差を意味する.また分子の(AA-AB)は,治療により代替エンドポイントの分布が変化したことによるリスク(真のエンドポイン

ト)の変化と考えることができる.F も Freedman の PTE と同様に,0~1 以外の値となるこ

ともあり得る.信頼区間の幅も許容できるほど狭くはないが,特に下限については 0 以上と

なり改善がみられている.更に,F は線形モデル以外にも適応可能でフレキシビリティがあ

る.更に,Taylor ら(2005)はこの F を因果推論の反事実モデルへの適応,および他章で紹

介する Frangakis と Rubin(2002)による Principal 層別への適応を試みている.要点は,intended effect と unintended effect を反事実モデルに当てはめ,それぞれの場合での確率を計算してお

り,発想としては非常に興味深い.

gA(S)

AA

AB

BA

BB

g (S|Z)

PB(S) PA(S)

gB(S)

図 2-4.代替エンドポイントの分布と真のエンドポイントの分布(Wan and Taylor, 2002)

24

Page 28: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

2.3.1.2. 複数の代替エンドポイントが存在する場合の評価方法

Freedman の PTE では,代替エンドポイントで調整しない回帰式と調整した回帰式を同時に

考え問題とされているが,Chen ら(2003)は 1 つの Cox 回帰モデルで考え,更に代替エンド

ポイントが複数存在する場合には全治療効果を分解することで,評価可能とした.その後 Quと Case(2006)は,Chen らの考え方を一般化線形モデルに拡張し,骨粗鬆症治療薬 raloxifenの臨床試験に関して,代替エンドポイントを投与 1 年後の大腿骨頸部骨密度,ならびに投与

6 ヵ月後および 1 年後の 3 種類の骨代謝マーカーの平均値とし,代替エンドポイントで真の

エンドポイント(脊椎骨折)がどれだけ説明できるかを検討している.ここでは,Qu と Caseの論文について紹介する.Qu と Case は,治療・骨密度(BMD)・骨代謝マーカー・骨折と

の関係を,以下の図のように考えた.

図 2-5.治療・骨密度(BMD)・骨代謝マーカー・骨折の関係

複数の代替エンドポイントの存在を考え, T を治療,Xi を代替エンドポイントとする.治

療と risk との関係について,代替エンドポイントを考えない場合と考える場合について,g(・)をリンク関数として一般化線形モデルを考えると,以下の 2 式が得られる.

g(risk|T) = β0 +β1T (2-10) g(risk|T,X) = γ0 +γTT +γ1X1 + … +γmXm

(2-11)

Chen ら考え方に基づけば,(2-11) の右辺の第 2 項目以降は以下のように分解することができ

る.

)TcX(γT)γcγ(γ)X,T|risk(g jj

m

1Jj

m

1JjjT0 −+++= ∑∑

==

(2-12)

ここで,X1を骨密度とし,X2~Xmを骨代謝マーカーと考えると,(2-12) は以下のように分解

することができる.

Treatment Fracture

Biomarkers

BMD

25

Page 29: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

∑∑==

++−−+++=m

2jj1jj

m

2jjj11111T0 X)γaγ()XaTaX(γT)γaγ(γ)X,T|risk(g (2-13)

更に,(2-13) は以下のように分解することができる.

T))γaγ(bγaγ(γ)X,T|risk(gm

2j1jjj11T0 ∑

=

++++=

)TbX)(γaγ()XaTaX(γ j

m

2jj1jj

m

2jjj111 −++−−+ ∑∑

==

(2-14)

なお,ここで ∑=

+++=m

2j1jjj11Toverall )γaγ(bγaγE は全治療効果を,γT は代替エンドポイン

トでは説明できない治療効果を,a1γ1は X1(骨密度)を経由する治療効果を,bj (γ j+ ajγ j)は骨代謝マーカー(X2~Xm)を経由する治療効果を表す.更に骨代謝マーカーを経由する治

療効果 bj (γ j+ ajγ j) は,骨密度 (X1) を経由する治療効果 bj ajγ j,ならびに真のエンドポイ

ントに直接作用する治療効果 bjγ jに分解することができる. そこで各治療効果を Eoverall で割れば,「Proportion of each individual treatment effect」を求め

ることができる. 治療効果に関する以上の分解は,以下の表 2-11 にまとめられる.

表 2-11.治療効果の分解

Decomposition of treatment effect Treatment effect Proportion

Effect not explained by surrogate γT γT / Eoverall

Effect explained by X1 a1γ1 a1γ1 / Eoverall

Effect explained by X2 b2(γ2+ a2γ1) b2(γ2+ a2γ1) / Eoverall

Effect explained by X2 via X1 b2a2γ1 b2a2γ1 / Eoverall

Effect explained by X2 independent of X1 b2γ2 b2γ2 / Eoverall

………

Effect explained by Xm bm(γm+ amγ1) bm(γm+ amγ1) / Eoverall

Effect explained by Xm via X1 bmamγ1 bmamγ1 / Eoverall

Effect explained by Xm independent of X1 bmγm bmγm / Eoverall

Overall Eoverall

*Qu と Case の論文より引用したが,Proportion の表記を変更.

また,以上の治療効果に関する分解について,Qu と Case の論文(2006)より因果推論のパ

ス解析で用いるパス図をパス係数とともに示すと,図 2-6 のようになる.

26

Page 30: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

図 2-6.治療・骨密度(BMD)・骨代謝マーカー・骨折との関係を示すパス図

Qu と Case は,Sarker が PTE を求めた MORE 試験を対象に各代替エンドポイントの全治療

効果に対する寄与率を求めた. 前述のように,真のエンドポイントは観察期間終了後(投与 24 または 36 週間後)の新規

脊椎骨折の発生,代替エンドポイントは投与 1 年後の大腿骨頚部骨密度,ならびに 3 種類の

骨代謝マーカー(血清オステオカルシン・尿中 C 末端テロペプチド;CTX・骨型アルカリフ

ォスフォターゼ;BSALP)の投与 6 ヵ月後および 1 年後の平均値とした.解析にはロジステ

ィック回帰を用い,骨折に対して重要と考えられる危険因子(ベースラインでの脊椎骨折の

有無および腰椎と大腿骨頸部骨密度)を共変量としてモデルに取り入れた.PTE の 95%信頼

区間は bootstrap 法により求めた. Qu と Case の解析結果を以下の表 2-12 にまとめた.

表 2-12.骨密度および各骨代謝マーカーの PTE の推定値

Decomposition of treatment effect Proportion of treatment effect(95%CI)

Bone mineral density 0.058 (-0.024, 0.308 )

Serum osteocalcin 0.126 (-0.153, 0.740 )

Serum osteocalcin via BMD 0.019 (-0.008, 0.100 )

Serum osteocalcin independent of BMD 0.107 (-0.179, 0.690 )

CTX 0.005 (-0.328, 0.370 )

CTX via BMD -0.011 (-0.065, 0.005 )

CTX independent of BMD 0.015 (-0.307, 0.399 )

BSALP 0.192 (-0.029, 0.828 )

BSALP via BMD 0.005 (-0.005, 0.031 )

BSALP independent of BMD 0.187 (-0.036, 0.812 )

Overall indirect treatment effect* 0.381 ( 0.005, 1.380 )

*Overall indirect treatment effect: )γaγ(bγa 1jj

m

2jj11 ++ ∑

=

T Y(risk)

X2,..., Xm

X1

b2,..., bm γ2,...,γm

γT

γ1

a2,..., am

a1

27

Page 31: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

以上の結果から,代替エンドポイントとして大腿骨頸部骨密度および 3 種類の骨代謝マー

カーを考えた場合に,真のエンドポイントに対する代替エンドポイントの寄与は 38% (p<0.05) であった.そのうち,大腿骨頸部骨密度の寄与は 5.8%であった.また,骨代謝マーカーに関

しては,尿中 CTX は殆ど寄与しておらず,骨型アルカリフォスフォターゼの寄与が大きいこ

とが判った.なお,以上の数字は図 2-5 の治療・骨密度(BMD)・骨代謝マーカー・骨折の

関係に対する仮定を前提としたものであるということに注意する必要がある.

2.4. Buyse と Molenberghs による新しい評価指標の提案

前述のように,PTE は proportion ではなく ratio であり,値が 0~1 の範囲を超えて解釈が困

難になる場合がある.また,信頼区間の幅も大きくなる傾向があり,問題点が指摘されてい

た.Buyse と Molenberghs(1998)は代替エンドポイントの評価指標を,集団および個人レベ

ルでの評価指標のセットとして考えることを提案した.なお,Freedman は Prentice の基準 (4) に基づき,代替エンドポイントの妥当性を評価する指標として PTE を提案しているが,Buyseと Molenberghs による評価指標は Prentice の基準 (4) には直接基づいていない.

代替エンドポイントを S,真のエンドポイントを T,治療を Z とし,代替エンドポイント

に対する治療効果をα,真のエンドポイントに対する治療効果をβ,真のエンドポイントに

対する代替エンドポイントの効果をγ(S および T が共に連続変数であればγは S と T の相

関係数),代替エンドポイントで調整後の治療効果をβS,治療で調整後の真のエンドポイン

トに対する代替エンドポイントの効果(調整済み相関)をγZとする(図 2-7).

図 2-7.代替エンドポイント (S)・真のエンドポイント (T)・治療 (Z) の関係

(Buyse と Molenberghs の論文より)

ここで S および T が共に 2 値変数であるとすると,Prentice の基準 (1)~(3) に対応して,

以下の 3 式が考えられる.

ln( (P( Ti=1|Zi )/(P( Ti=0|Zi ) ) = μZT +βZi (2-15) ln( (P( Si=1|Zi )/(P( Si=0|Zi ) ) = μZS +αZi (2-16) ln( (P( Ti=1|Si )/(P( Ti=0|Si ) ) = μST +γSi (2-17)

γ βs

β

γz

α

S

T

Z

γz

28

Page 32: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

更に,Prentice の基準 (4) に対応して以下の式が考えられる.

ln( (P( Ti=1|Zi, Si )/(P( Ti=0|Zi, Si ) ) = μZT|S +βSZi +γZSi+δZiSi

(2-18)

なお,ここで Z と S の交互作用項の影響を無視できることが可能であれば,(2-18) 式は

ln( (P( Ti=1|Zi, Si )/(P( Ti=0|Zi, Si ) ) = μZT|S +βSZi +γZSi

(2-19)

とすることができる.

2.4.1. 集団レベルおよび個人レベルでの代替エンドポイントの評価指標

2.4.1.1. 集団レベルでの代替エンドポイントの評価指標:Relative Effect(RE)

(1) 加齢黄斑変性症の事例を用いた検討 Buyse と Molenberghs は,論文の中で事例として加齢黄斑変性症(ARMD)に対するインタ

ーフェロン-αの臨床試験(Pharmacological Therapy for Macular Degeneration Study Group, 1997)の結果を用いて検討を行っている.本試験の評価方法は,文字が 5 文字ずつ書いてあるライ

ンが上から下に行くに従って文字が次第に小さくなる「Vision Charts」を,被験者が上から何

行目まで読めるかにより加齢黄斑変性症の進展を評価するものである.彼らは,真のエンド

ポイントを 1 年間で 3 行以上の減少とし,代替エンドポイントを 6 ヵ月で 2 行以上の減少と

して検討に用いている. 実際のデータを以下の表 2-13 に示す.

表 2-13.加齢黄斑変性症に対するインターフェロン-αの臨床試験の結果

Z

S T 0 1

0 0 56 31 1 9 9 1 0 8 9 1 30 38

上記のデータより,α, β, γ, βS, γZ, δはそれぞれ以下の値となる.

α=0.698 (P=0.0186) β=0.657 (P=0.0265) γ=2.962 (<0.0001)

29

Page 33: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

βS=0.364 (P=0.3340) γZ =2.92 (P<0.0001) δ=-0.4728(0.5305)

(2) PTE の算出 δの値が有意ではないことから,Z と S の交互作用はモデルに入れる必要はなくなる.そ

こで,以上の値より PTE を求めると,

PTE = 1-βS /β = 1-( 0.364 / 0.657) = 0.45 ( 95%CI:-0.30 – 4.35)

となり,Fieller の方法による 95%信頼区間はかなり幅広い値となる.

(3) Relative Effect(RE)

Buyse と Molenberghs は,PTE に代わる代替エンドポイントの評価指標の一つとして,代替

エンドポイントへの治療効果に対する真のエンドポイントへの治療効果を「Relative Effect(RE)」として提案した.

Relative Effect = β/α (2-20)

定義より,RE = 1 の場合が集団レベルにおける完全な代替エンドポイントとなる.上記の

値より,加齢黄斑変性症に対するインターフェロン-αの臨床試験での RE を求めると,

RE = β/α = 0.657 / 0.698 = 0941 ( 95%CI:0.20 – 3.15 )

となる.ここで 95%信頼区間は Fieller の方法により求めているが,PTE の信頼区間に比べ少

し狭くはなっているものの,まだ幅広い値となっている.

2.4.1.2. 個人レベルでの代替エンドポイントの評価指標

治療で調整後の真のエンドポイントに対する代替エンドポイントの効果(調整済み相関)

γZに関して,γZが十分に大きければ,代替エンドポイントは真のエンドポイントに非常に

近いものと言える.究極の状態は「α=β(RE = 1)」であり,その場合には「S=0 ⇔ T=0」,

または「S=1 ⇔ T=1」のどちらかの状態を確率 1 でとることになり,S と T が異なる状況は

存在せず,「γZ → ∞」となる.Buyse と Molenberghs は代替エンドポイントのもう一つの評

価指標として,このγZを個人レベルでの評価指標として提案した.RE と合わせて,「γZ

→ ∞」かつ「RE = 1」の場合が完全な代替エンドポイントとなる.加齢黄斑変性症に対する

インターフェロン-αの臨床試験の場合,γZ =2.92 より OR = 18.5 となり,治療による調整後

の代替エンドポイントと真のエンドポイントとの間において,非常に強い関連を示している

ものと言える.

30

Page 34: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

2.4.1.3. エンドポイントが連続変数(正規分布)の場合

代替エンドポイントも真のエンドポイントも,共に連続変数で同時正規分布をしているこ

とを仮定すると,2 つのエンドポイントについては,Prentice の定義 (1) および (2) に対応し

て以下のモデルを考えることができる.

Si = μS +αZi +εSi (2-21) Ti = μT +βZi +εTi (2-22)

ここで誤差項の分布は,相関係数ρを用いて以下のように表される.

1ρρ1

,00

Nεε

Ti

Si~ (2-23)

また,真のエンドポイントと代替エンドポイントとの関係については,Prentice の定義 (3) に対応して以下のように表される.

E( Ti ) =μST +γSi (2-24)

PTE に関して議論を行う場合,(2-23) をもとに真のエンドポイントの条件付分布は以下の

ようになる.

( Ti | Zi, Si ) ~ N[ (μT -ρμS ) + (β-ρα)Zi +ρSi, 1-ρ2 ] (2-25)

以上より,βS = β-ρα,γZ = ρとなることから,PTE は以下のように表される.

PTE = α/β・ρ= γZ / RE (2-26)

(2-26) 式より PTE は,RE による固定効果ならびにγZによる変量効果が組み合わされた指

標であると言うことができる.また,例えばα=0 またはγZ=0 の場合には,PTE=0 となって

しまう(ただし,そのような代替エンドポイントでは最初から意味がない).なお,エンド

ポイントが連続変数である場合には,個人レベルおいて代替エンドポイントが完全であるの

はγZ = 1(両エンドポイントの相関係数が 1)となる場合である.

31

Page 35: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

2.4.2. Buyse と Molenberghs による新しい評価指標のメタアナリシスへの展開

先に示した加齢黄斑変性症に対するインターフェロン-αの臨床試験における RE の 95%信

頼区間は,かなり幅広いものであった.Buyse ら(1998)は,その論文において「Clearly, in order

to be meaningul, the validation process will have to be based on large-scale randomized evidence. Such evidence is not always available from individual trials, and therefore meta-analyses based on individual patient data from several randomized trials will often be the best way to validate a surrogate endpoint.」と述べている.それに基づき Buyse ら(2000)は,1998 年の彼らの論文での新し

い評価指標をメタアナリシスへ展開した論文を発表しており,その論文についてここで紹介

する.なお,ほぼ同じ内容で,更により多くの事例を示した論文が Molenberghs ら(2002)により発表されており,その内容も併せて紹介する.

2.4.2.1. メタアナリシスへの展開

今,試験を i で表し(施設や研究者を単位として i とする場合もある),i = 1~N までの結

果が現在までに得られているものとする.そして,i 番目の試験には j = 1~ni までの被験者が

登録されたものとする.エンドポイントは正規分布した連続変数であるとすると,以下の線

形モデルで示すことができる.

Sij = μSi +α iZij +εSij (2-27) Tij = μTi +β iZij +εTij (2-28)

誤差項のεSijおよびεTijの分布については,平均ゼロの正規分布で分散共散行列は(2-29)で表 される.

次に,(2-27) および (2-28) の各パラメータについて,試験に特異的な部分とそうでない部分

に分けると,(2-30) のようになる.

ここで,(2-30) の右辺の 2 番目の行列のパラメータの分布は,次の (2-31) で示される分散

共分散行列を持ち,平均ゼロの正規分布となる.

(2-29)

(2-30)

=∑

TT

STSS

σσσ

+

=

i

i

Ti

Si

T

S

i

i

Ti

Si

ba

mm

βαμμ

βαμμ

=

bb

abaa

TbTaTT

SbSaSTSS

dddddddddd

D (2-31) 32

Page 36: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

(1) 試験レベルでの代替エンドポイントの評価 今,i=1~N までの試験の結果が判っている状態で,新たに試験 i=0 を行った場合を考える.

また,その際に試験 i=0 での代替エンドポイントに関するデータは得られているものの,真

のエンドポイントに関するデータは得られていないものとする.試験 i=0 での代替エンドポ

イントについては,(2-27) より以下の線形モデルが考えられる.

S0j = μS0 +α0Z0j +εS0j (2-32)

また,(2-30) での ms0およびα0の推定値は,それぞれ次のとおりとなる.

ms0 =μS0 -μS (2-33)

a0 =α0 -α (2-34)

そこで,試験 i=0 における真のエンドポイントに関するパラメータは,以下のように求める

ことができる.

−−

+=+

ααμμ

dddd

dd

β)a,m|bβ(E0

s0S1

aaSa

SaSST

ab

Sb00S0 (2-35)

−=+

ab

Sb1

aaSa

SaSST

ab

Sbbb00S0 d

ddddd

dd

d)a,m|bβ(Var (2-36)

ここで,(2-36) の条件付分散がゼロになる場合に,代替エンドポイントは試験レベルにおい

て完全であると言える.なお,試験レベルにおける代替エンドポイントを評価する指標は,

次のように (2-36) の第 1 項を分母とし,第 2 項を分子とした指標が相関係数の 2 乗(R2Trial )

となる.

もちろん,R2

Trial = 1 の場合が代替エンドポイントは試験レベルにおいて完全なものとなる(そ

の場合には (2-36) の条件付分散がゼロとなる).

(2) 個人レベルでの代替エンドポイントの評価

(2-27) および (2-28) より,Sおよび Zが与えられた時のTの条件付分布は次のようになる.

^ ^ ^

^ ^ ^

(2-37) bb

ab

Sb1

aaSa

SaSST

ab

Sb

trial2

ddd

dddd

dd

R

=

33

Page 37: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

],)([,|T 12111ij

−−−− −+−+− SSTSTTijSSTSijiSSTSiSSSTSTijij SZNSZii

σσσσσασσβµσσµ~ (2-38)

ここで, iSSTSiSi

ασσββ 1−−= であり,試験の効果と治療効果の両方で調整した真のエンドポ

イントと代替エンドポイントの相関係数は,次式で与えられる.

TTSS

STindivR

σσσ 2

2 = (2-39)

12 =indivR の場合,代替エンドポイントは個人レベルにおいて完全なものとなる.

以上は 1998 年および 2000 年の Buyse,Molenberghs の論文からであるが,その後に代替エ

ンドポイントと真のエンドポイントの変数が異なる場合(離散変数と連続変数)についての

Molenberhgs ら(2001)の論文が出されている.

2.4.3. 事例を用いた検討

Molenberghs ら(2002)の論文では,以下の 5 種類の疾患に関して,試験の結果を統合した

場合での PTE,RE および治療で調整後の代替エンドポイントと真のエンドポイントの相関,

ならびにメタアナリシスを行った場合での試験間の相関(R2trial )および個人間の相関(R2

indiv

)を求めている.なお,メタアナリシスを行う場合には,それぞれの事情に応じて施設ある

いは責任医師を単位としている場合もある. 各疾患でのメタアナリシスの内容について,以下に示す.

① 加齢黄斑変性症に対するインターフェロン-αの臨床試験 試験としては 1 試験のみであり,計 42 施設のうちの 36 施設(1 施設当たりの症例数は 2~18)をメタアナリシスの単位とした.詳細は 2.4.1.1 に記載済み.

② 進行性卵巣ガンの臨床試験(Ovarian Cancer Meta-Analysis Project, 1991, 1998)

Cyclophosphamide+cisplatin(CP)群 vs Cyclophosphamide+adriamycin+cisplatin(CAP)群

の 2 アームから成る 4 試験についてのメタアナリシス.代替エンドポイントは,ランダ

ム化から臨床的な病状の進行または原因に依らない死亡までの時間(年)であり

(Progression-free Survival Time),真のエンドポイントはランダム化から死亡までの時間

(年)である.2 つの規模の大きい試験については施設を,2 つのあまり規模の大きくな

い試験では試験を単位としてメタアナリシスを行った.計 50 単位で,1 単位当たりの症

例数は 2~274.

34

Page 38: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

③ 進行性直腸ガンの臨床試験(Corfu-A Study Group, 1995;Greco ら, 1996) 5FU+インターフェロン(5FU/IFN)群 vs 5FU+ホリニン酸(5FU/LV)群,または 5FU+インターフェロン(5FU/IFN)群 vs 5FU 群の 2 試験を対象とした.代替エンドポイント

は,ランダム化から臨床的な病状の進行または死亡までの時間(年)であり

(Progression-free Survival Time),真のエンドポイントはランダム化から原因に依らない

死亡までの時間(年)である.施設をメタアナリシスの単位とし,計 68 単位で 1 単位当

たりの症例数は 2~38. ④ 精神疾患領域での臨床試験Ⅰ(Kay ら, 1988) メタアナリシスには 5 試験が含まれているが,責任医師をメタアナリシスの単位とした.

計 138 単位となり,1 単位当たりの症例数は 2~30.代替エンドポイントは Positive and Negative Syndrome Scale(PANSS)とし,真のエンドポイントは Clinician's Global Impression(CGI)である.また,5 試験のうちの 4 試験より,症例数の多い主な責任医師のみをメ

タアナリシスの単位とした解析も行った(計 29 単位). ⑤ 精神疾患領域での臨床試験Ⅱ(Nair NPV and the Risperidone Study Group, 1998) 精神分裂病患者に対し,同じ 1 日用量の risperidone の 1 回/1 日および 1 回/2 日投与(各

群 103)での同等性の検証試験.代替エンドポイントは PANSS,真のエンドポイントは

CGI である.メタアナリシスの対象は全 34 単位で,1 単位当たりの症例数は 2~15.な

お,Molenberghs によれば,Prentice の基準や PTE は優越性検証試験を対象とすることが

前提となっており,この試験については評価不可能となることが予測されるため,敢え

て事例として取り入れた,とのことである.

以上の各臨床試験に関する解析結果を,Molenberghs ら(2002)の論文より次に示した.

表 2-14. Molenberghs らの論文での各評価指標の算出結果 Age-related

maculardegeneration

Advancedovariancancer

Advancedcolorectal

cancer

Psychiatricstudy Ⅰ

(138 units)

Psychiatricstudy Ⅰ(29 units)

Psychiatricstudy Ⅱ

Surrogate Visual acuity(6 months)

Prgression-freesurvival

Prgression-freesurvival PANSS PANSS PANSS

True Visual acuity(1 year) Overall survival Overall survival CGI CGI CGI

Prentice criteria 1-3 (p = value)Association ( Z, S ) 0.31 0.01 0.90 0.835Association ( Z, T ) 0.22 0.08 0.86 0.792Association ( S, T ) <0..001 <0.001 <0.001 <0.001Single-unit validation measures (estimate and 95% CI)Proportion explained 0.61[-0.19; 1.41] 1.34[0.73; 1.95] 0.51[-4.97; 5.99] -0.94[∞]Relative effect 1.51[-0.46; 3.49] 0.65[0.36; 0.95] 1.59[-15.49; 18.67] -0.03[∞]Adjusted association 0.74[0.68; 0.81] 0.94[0.94; 0.95] 0.73[0.70; 0.76] 0.74[0.69; 0.79]Multiunit validation measures (estimate and 95% CI)R2

trial 0.69[0.52; 0.86] 0.94[0.91; 0.97] 0.57[0.41; 0.72] 0.56[0.43; 0.68] 0.58[0.45; 0.71] 0.70[0.44; 0.96]R2

indiv 0.48[0.38; 0.59] 0.89[0.87; 0.90] 0.57[0.52; 0.62] 0.51[0.47; 0.55] 0.52[0.48; 0.56] 0.55[0.47; 0.62]

0.81[0.46; 1.67]0.055[0.01; 0.16]0.72[0.69; 0.75]

0.0160.007<0.001

35

Page 39: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

加齢黄斑変性症に対するインターフェロン-αの臨床試験では,RE の値は大きいもの

の,治療で調整後のエンドポイントの相関は大きくなく,代替エンドポイントとして

は適切ではないようである.治療で調整後のエンドポイントの相関が大きくない原因

としては,測定誤差が考えられる. 進行性卵巣ガンの臨床試験では,メタアナリシスでの R2

trialと R2indivは大きい値となっ

ている.ただし現実的には,代替エンドポイントである病状が進行した時点では,数

ヵ月後に死亡する場合が多いため,実用的な代替エンドポイントとは言い難い. 進行性直腸ガンの臨床試験では RE を除き,各相関は大きくない. 精神疾患領域での臨床試験Ⅰでは,メタアナリシスの対象とする単位を変えた場合に

も,R2trialと R2

indivはほぼ同じ値となっており,multi unit approach の可能性を支持する

結果となっている.

2.4.4. Buyse,Molenberghs らによる新しい評価指標の問題点と限界

以上のような Buyse,Molenberghs らによる代替エンドポイントに関する新しい評価指標に

ついては,PTE のようなあからさまな批判は行われてはいない.しかしながら,Molenberghsら(2002)の論文の結果を見てみると,メタアナリシスで R2

trialと R2indivが十分に大きい値を

示したのは進行性卵巣ガンの臨床試験のみであり,PTE の値がよくない場合にはメタアナリ

シスも含めた場合でもよい値は得られていない.また,RE が負の値をとっている例はないが,

1 を超えているものが見受けられ,その信頼区間の幅はかなり広いものもある. 1998 年の Buyse と Molenberghs の論文では,加齢黄斑変性症に対するインターフェロン-α

の臨床試験に関して,PTE の値が小さいことについて彼らは疑問を呈しているが,2002 年の

論文では自ら代替エンドポイントとしては妥当ではないと述べている.また,メタアナリシ

スも含めた Buyse,Molenberghs らの方法では,代替エンドポイントを評価する指標を 2 つに

分けているが,それらが共に大きいあるいは小さい場合は代替エンドポイントの評価は容易

であるが,どちらか一方が大きく他の一方が小さい場合は評価が難しく,論文では言い訳に

近い表現となっている.Buyse,Molenberghs らのメタアナリシスにおいて問題となるのは,

各試験での要約統計量を用いるのではなく,全患者のデータを解析に使用しなければならな

いということである.例えば,アカデミックな研究者の立場であれば,メタアナリシスに用

いる各試験における全患者のデータを入手して解析することも可能と考えられるが,一つの

製薬メーカーではそのようなことはなかなか困難なことである. これに対して,Buyse,Molenberghs らはあまり規模の大きくない一つの試験に関して,例

えば施設をメタアナリシスの単位として解析を行っている.しかしながら,このような方法

に対して Freedman(2007)は,一つの多施設共同試験において試験の数を増やすために人為

的にいくつかの試験に分けるのは,治療効果の推定の精度が悪くなるために不適切であると

している.したがって,例え Buyse,Molenberghs らのメタアナリシスによる方法が良い方法

36

Page 40: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

であるにしても,現実的にそれを行うことができるのはごく一部の統計家に限られてしまう

ことになる.

2.4.5. 癌領域におけるメタアナリシスによる最近の事例

Buyse,Molenberghs らのグループは,代替エンドポイントの問題に精力的に取り組み,今

までに紹介した以外にも多くの論文を書いている.それら全ての紹介は割愛するが,この章

の最後として,最近の Journal of Clinical Oncology に掲載された癌領域における彼らのメタア

ナリシスによる事例を紹介する.なお,2.4.1.3.では代替エンドポイントも真のエンドポイン

トも正規分布した連続変数の同時分布として考えたが,Buyse,Molenberghs らのグループは

代替エンドポイントと真のエンドポイントがそれ以外の場合の組み合わせに関しても研究を

行っている.以下で紹介する事例の解析に関しては,参考文献(Buryzkowski ら, 2001;Buryzkowski ら, 2004)を参照されたい.

2.4.5.1. 進行性直腸癌に関する事例

Buyse ら(2007)は,first-line 治療として Fluouracil (FU) + leucovorin (LV) vs FU 単独投与の

7 試験(計 1744 例),ならびに FU+LV vs raltitrexed の 3 試験(計 1345 例)を Histrical 試験

とし,真のエンドポイントが OS(Overall Survival)の場合に,代替エンドポイントを PFS(Progression-free Survival)とした場合の妥当性を評価した.また,first-line 治療として

irenotecan+FU+LV vs FU+LV の 2 試験(Ilinotecan-EU,Ilinotecan-US)および Oxaliplatin+FU+LV vs FU+LV の 1 試験(Oxaliplatin-EU)の計 3 試験(1263 例)を Validation 試験とし,Histrical試験のメタアナリシスによる解析結果と Validation 試験における代替エンドポイントの結果

から,Validation 試験における真のエンドポイントの結果を予測し,実際の Validation 試験の

結果との一致性を検討した.メタアナリシスには,全ての試験において各患者のデータを使

用した.なお,各試験の情報については Buyse らの論文の参考文献を参照されたい. また,OS と PFS については比例ハザードモデルを用いてハザード比を求めたが,モデル

の説明変数は治療のみとした.Buyse ら(2007)の論文より以下に結果を示す.

(1) Historical 試験の結果

Histrical 試験から求めた試験レベルでの代替エンドポイントの評価指標である R2trialは,

R2trial = 0.99(95%CI:0.94 to 1.04)と非常によい値であった.ただし,FU+LV が FU 単独投

与に比べて非常に強い効果を示した 1 試験を除くと,R2trial = 0.74 である.「Surrogate threshold

effect(予想される真のエンドポイントへの治療効果が,ゼロとはならないために必要となる

代替エンドポイントへの治療効果:Burzykowski and Buyse, 2006)」は,ハザード比で 0.86 と

なった.また,上記の 1 試験を除いた場合には,ハザード比で 0.77 となった.

37

Page 41: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

(2) Validation 試験における真のエンドポイントへの治療効果の予測精度 Histrical試験のメタアナリシスによる解析結果とValidation試験における代替エンドポイン

トの結果から,Validation 試験における真のエンドポイントへの治療効果を予測した結果と,

実際の Validation 試験の結果を以下の表 2-15 に示した.

表 2-15."Validation" 試験における治療効果の予測値と実際の結果

Trial Observed OS HR

95% CI Predicted OS HR

95% Predicted Interval

Ilinotecan-EU 1.31 1.02 to 1.67 1.25 1.00 to 1.55 Ilinotecan-US 1.24 1.00 to 1.53 1.17 0.96 to 1.43

Oxaliplatin-EU 1.21 0.94 to 1.55 1.40 1.12 to 1.75

*Buyse ら(2007)の論文より,結果の一部を抜粋した.

Ilinotecan グループでは Observed OS と Predicted OS は極めてよい一致を示しているが,

oxaliplatin の試験ではよい一致とは言えない.Oxaliplatin の試験でよい一致がみられていない

原因としては,second-line の治療の影響の可能性が考えられた.

(3) 考察

この解析結果の範囲内においては,PFS は OS に対して acceptable な代替エンドポイントと

考えることができる.代替エンドポイントの評価を適切に行うには,代替エンドポイントに

対しても真のエンドポイントに対しても,薬剤の効果が重要となる.

2.4.5.2. 転移性乳癌に関する事例

Burzykowski ら(2008)は,first-line 治療として anthracycline(単独または他剤併用)vs taxane(単独または anthracycline 併用)の 11 試験(計 3953 例)をメタアナリシスの対象とし,真

のエンドポイントが OS(Overall Survival)の場合に,代替エンドポイントを Tumor response,Disease control,PFS(Progression-free Survival)および Time to Progression(TTP)とした場合

の妥当性を評価した.メタアナリシスには,全ての試験において各患者のデータを使用した.

なお,各試験の情報については,Burzykowski(2008)の論文の参考文献を参照されたい. R2

trialを求める際には,治療効果の推定誤差を含めた「error-in-variables linear regression model(Burzykowski,Molenberhgs,Buyse 編, 2005)」を用いた.Tumor response および Disease controlについてはロジスティック回帰モデルを用いてオッズ比を求め,TTP と PFS に関しては比例

ハザードモデルを用いてハザード比を求めた. 各代替エンドポイントに関して,Burzykowski らの論文より R2

trialを表 2-16 にまとめた.

38

Page 42: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

表 2-16.Burzykowski らによる転移性乳癌の臨床試験に関するメタアナリシスの結果

Surrogate endpoint tumor response disease control PFS TTP

R2trial 0.57 0.47 0.48 0.49

95%CI -0.31 to 1.44 -0.46 to 1.40 -0.34 to 1.30 -0.32 to 1.30

どの代替エンドポイントに関しても R2

trialは大きいとは言えず,またその 95%信頼区間の幅

も広く,いずれも代替エンドポイントとしての妥当性を示すことができなかった.このよう

な結果となった原因については,taxane の効果が弱いことが考えられ,代替エンドポイント

としての妥当性を示すためには,両エンドポイントに対してある程度の強い治療効果が必要

となる.

2.5. 2 章で取り上げた方法のまとめ

第 2 章では代替エンドポイントの統計的評価に関して,Prentice の基準,Freedman の PTE,Buyse と Molenberghs らの評価指標について紹介した.それぞれの評価方法については,以下

のような問題点や課題が主に挙げられる.

Prentice の基準:基準 (4) は厳しすぎて満足することが難しい. Freedman の PTE:PTE の値は 0 から 1 の範囲以外の値も取り得ることがある.その信

頼区間の幅がかなり広くなる. Buyse と Molenberghs らの評価指標:2 つの評価指標の値に乖離がみられる時には解釈

が難しい.メタアナリシスには全患者のデータが必要である.

ここで,Prentice,Freedman,Buyse と Molenberghs らの評価方法を使って実際に代替エン

ドポイントを評価する場合に大切なことは,それぞれの方法についてよく熟知した上で評価

を行うということである.またその前提として,Gruttola ら(1997)が述べているように,対

象疾患の生物学的・医学的な知識と,副作用を含む主な治療効果に関する理解が十分に必要

である. Petrylak ら(2006)は,アンドロゲン非依存性の転移性前立腺癌の臨床試験(SWOG 99-16)

において,前立腺特異抗体(PSA)の減少または減少のスピードを代替エンドポイントとし,

生存時間を真のエンドポイントとした場合に,Prentice の基準を完全に満足し,また Freedmanの PTE に関しても完璧な値(PTE = 1.0,95%CI≧0.5)が得られたことを報告している.

Prentice の基準や Freedman の PTE に関して,これまでに紹介した事例ではプラセボ対照試

験の結果について解析を行っている.しかしながら Petrylak らの報告では,docetaxel + astramustine vs mitoxantrone + prednisone の実薬対照試験の結果について解析を行っている.

39

Page 43: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

2.3 に記したように,Prentice の基準や Freedman の PTE は図 2-1 (4)' のパス図に基づいた考

え方であり,治療効果のうちで代替エンドポイントを経由しない unintended effect の寄与が重

要となる.そのような背景を考えると,実薬対照試験の結果に関して Prentice の基準や

Freedman の PTE を用いた代替エンドポイントの評価を行うことは,果たして妥当であると言

えるであろうか.プラセボ対照試験でさえ,薬剤の様々な作用が unintended effect として考え

られるのに,実薬対照試験では更に混沌としたものになってしまう可能性はないだろうか. Petrylak らの論文が掲載された雑誌の同じ号の Editorial で,Baker(2006)は「Surrogate

Endpoints: Wishful Thinking or Reality ?」というタイトルで,Petrylak らの論文に関する意見を

書いている(ただし上記のような観点からの意見ではない).Baker はフランスの数学者

Poincaré の著書での言葉を引き合いに出し,統計家と医師との代替エンドポイントに対する

考え方を次のように揶揄している.

Biostatisticians belive that the methodes they proposed are useful because clinicians adopt them and clinicians believe the methods proposed by biostatisticians are useful because they have the ”imprimatur” of mathematical statistics.

もし,評価対象とする各試験での全患者のデータが入手可能であるとすれば,メタアナリ

シスにより評価を行うことが最もよい方法であることは,誰も疑わないことであろう.しか

しながら,それは前述のように現実には簡単ではない.なお,要約統計量を用いたメタアナ

リシスにより代替エンドポイントを評価する方法に関して,Gail ら(2000)の論文が 1 報あ

るが,その後の展開はみられていない. そこで,Prentice の基準や Freedman の PTE,あるいは Buyse と Molenberghs らの指標(RE

と個人レベルでの相関)を用いて代替エンドポイントの評価を行う場合には,前述のように

その方法についてよく熟知した上で,得られた結果について十分に考察することが重要とな

る.例えば Freedman の PTE が 0~1 の範囲を超えてしまったような場合に,「だから Freedmanの PTE は使えない」で終わるのではなく,むしろ何故そのような値となったかをよく考察す

るすることで,新たな知見が得られる可能性もある. 2.2.2.3 に記したように,Lin ら(1997)は PTE に関する問題点を指摘しているが,その一

方では,PTE は薬剤の作用機序に関する仮説を評価する上で,有益なエビデンスを提供し得

ると述べている. 2.2.3 において骨粗鬆症治療薬分野における PTE の事例を紹介したが,骨密度を代替エンド

ポイントとした場合には,いずれもあまり大きな値は得られていない.これに関しては 2.2.3にも記したように,骨折に対する危険因子として近年では,骨質が大きくクローズアップさ

れており,骨密度を代替エンドポイントとした場合の PTE があまり大きな値とならないこと

も理解できる. このように,ある疾患領域で広く用いられている代替エンドポイントがあり,ある治療に

ついてその代替エンドポイントの PTE が大きくない値であった場合には,その薬剤の作用機

40

Page 44: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

序に立ち返って考察を行うことにより,新しい作用機序に基づく治療薬の開発に結びつく可

能性もあり得るのではないだろうか. また,Bycott ら(1998)は PTE に関して,2 つの代替エンドポイントの候補同士の比較に

は有用であり,もし 2 つの代替エンドポイントの PTE が同程度の値であれば,その 2 つを複

合エンドポイントとすることで,更に有用な代替エンドポイントになり得るとしている. 第 2 章で紹介した各代替エンドポイントの評価方法に関しては,実際には「使えそうで使

えない」という印象を受けるかもしれない.しかしながら,それぞれの方法についてよく熟

知した上で評価を行い,得られた結果についての考察を十分に行うことにより,代替エンド

ポイントの評価のみならず,新しい薬剤の開発に役立つ可能性も考えられる.

3. Daniels と Hughes のメタアナリシスによる方法

Daniels と Hughes(1997)は,2.3 で述べたような Freedman の PTE の限界を指摘した上で,

PTE に替わる方法として,メタアナリシスに基づく評価方法を提案した.2.4 で紹介した Buyseら(2000)の方法では,各試験の個々のデータが利用可能であることを想定していたのに対

し,Daniels と Hughes の方法では,各試験の真のエンドポイントおよび代替エンドポイント

の治療効果の推定値のみが得られていることを想定する.彼らの方法の最大の特徴は,真の

エンドポイントの治療効果と代替エンドポイントの治療効果の関係を線形モデルで表現する

ことにより,Prentice の基準では言及されていなかった代替エンドポイントの治療効果に対応

する真のエンドポイントの治療効果を直接推定できる点であろう.Daniels と Hughes に先立

ち,A’Hern ら(1988)により類似した考え方に基づくメタアナリシスによる方法が報告され

ていた.彼らの報告では,各試験における真のエンドポイントの治療効果の推定精度は考慮

されていたが,代替エンドポイントの治療効果の推定精度は考慮されていなかった.それに

対し,Daniels と Hughes の方法は,各々の臨床試験における両エンドポイントの治療効果の

推定精度を考慮したベイズ流アプローチに基づくモデルおよび推定方法である点が異なる. 以下では,Daniels と Hughes の提案したメタアナリシスモデルを定式化し,彼らがその論

文中で報告した適用例を紹介する.次いで,Hughes(2008)が本方法を進行性直腸癌の複数

の臨床試験に適用した結果を簡単に紹介する.

3.1. モデル

試験 i(=1~N)における真のエンドポイントの真の治療効果を iθ(例えば対数オッズ比),

代替エンドポイントにおける真の治療効果を iγ(例えば代替エンドポイントの平均の群間差)

とし,それぞれの推定値 iθ̂ および iγ̂ は,各試験より得られているとする.ここでは,簡単の

ため,全ての臨床試験は 2 群比較臨床試験とする.各試験のサンプルサイズが十分に大きく,

以下のように,( iθ̂ , iγ̂ ) は ( iθ , iγ ) の周りを正規分布すると仮定する.

41

Page 45: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

2

2

,~ˆ

ˆ

iiii

iiii

i

i

i

i Nδδσρ

δσρσγθ

γθ

, (3-1)

2iσ , 2

iδ :分散(sampling variation を表す)

iρ : iθ̂ と iγ̂ の相関係数.

次に,真のエンドポイントにおける真の治療効果 iθ と代替エンドポイントにおける真の治

療効果 iγ の間に正規線形モデルを仮定する.

( )2,~| τβγαγθ iii N + . (3-2)

(3-1) および (3-2) は,それぞれ within-trial distribution および between-trial distribution を規定

していることに相当する.(3-1) および (3-2) より,以下の二変量正規分布が得られる.

+

+

2

22

,~ˆ

ˆ

iiii

iiii

i

i

i

i Nδδσρ

δσρτσγ

βγαγθ

. (3-3)

このモデルにおける各パラメータは,以下のように解釈できる:

β は, iθ と iγ の間の関連の強さを表す.すなわち, 0=β であれば, iγ が得られても

真のエンドポイントにおける治療効果の予測には寄与しない. 2τ は, iβγα + に対する iθ のばらつき(試験間変動)の大きさを表す.すなわち, 02 =τ

であれば, iγ によって正確に iθ を予測できることを意味する.

α の意味を考えることは, β や 2τ と同様に重要である. 0=α であれば,代替エンド

ポイントに差がなければ真のエンドポイントにも差がないことを意味し,良い代替エ

ンドポイントであるといえる.なお, 0=α であれば,二つの治療 A および B に対し,

治療効果を A – B と B – A のいずれで表現しても問題とならない. なお, 0=α かつ 0≠β であることは,Prentice の定義を満たすことと同等である.

また, iγ を変量効果とみなすことも可能であり,その分布を正しく特定すれば,β および

2τ の推定精度の改善が期待できる.しかしながら,例えば治療効果の表現方法(上記の A – Bと B – A)が iγ の分布に影響するというような,その分布の選択にあたって扱いにくい問題

が存在する. モデルの推定は,ベイズ流アプローチに基づく.推定にあたり,固定効果 iγ および回帰係

数α およびβ の事前分布として,十分大きな分散を持つ正規分布(無情報事前分布)を仮定

する.

42

Page 46: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

( )αα AN ,0~ , ( )ββ AN ,0~ ,

( )i

ANi γγ ,0~ .

また,試験間の分散 2τ には,以下の 3 種類の事前分布を仮定する.

1. Prior Ⅰ:DuMouchel prior 2. Prior Ⅱ:shrinkage prior 3. Prior Ⅲ:flat prior

上記の各パラメータの事前分布およびデータ(各試験から得られた推定値)より得られる

事後分布より,Markov chain Monte Carlo(MCMC)法に基づいてベイズ推定値を求める. ベイズ流アプローチを適用することの利点として,将来得られる代替エンドポイントの治

療効果の推定値から,それに対応する真のエンドポイントにおける治療効果を予測できる点

が挙げられる.将来得られる代替エンドポイントにおける治療効果の推定値を *γ̂ (分散 2*δ ),

それに対応する真のエンドポイントにおける真の治療効果を *θ とし,以下の条件付き分布を

考える.

( )2*22*22*** ,ˆ~ˆ,ˆ,,,,,ˆ| δβτγβαγθτβαδγθ ++N (3-4)

この分布関数を, ),,( 2τβα の同時事後分布から発生される MCMC 標本を用いて数値積分す

ることにより, γθδγθ ˆ,ˆ,,ˆ| 2*** の予測分布が得られる.

3.2. 適用例-HIV と CD4 細胞数

Daniels と Hughes は,HIV の臨床試験において,AIDS の発症もしくは死亡の複合エンドポ

イントを真のエンドポイントとした場合,CD4 細胞数のベースラインから 6 ヵ月後の変化が

代替エンドポイントとなりうるかどうかの検討を行った.なお,真のエンドポイントの治療

効果は,対数ハザード比で表現した. 対象とした臨床試験数は 15 であり,そのうち 7 つの試験は 3 群試験,1 つは 4 群試験であ

った.適用にあたり,標準治療を含む対比較のみを対象としたため,使用した比較対の数は

24 であった.個々の比較における真のエンドポイントおよび代替エンドポイントでの治療効

果と標準偏差,ならびにそれらの相関係数の推定値を表 3-1 に示す.

43

Page 47: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

表 3-1.個々の対象試験の治療効果の推定値 Study Test treatment* Standard treatment* )ˆ(ˆ

ii σθ )ˆ(ˆii σδ iρ̂

002 ZDV [600] ZDV [1500] 0.048 (0.092) -9.2 ( 9.0) -0.14 016 ZDV [1200] Placebo -1.035 (0.370) 56.0 (11.8) -0.02 019a ZDV [1500] Placebo -0.235 (0.282) 28.8 (11.0) -0.13 ZDV [500] Placebo -0.594 (0.307) 46.1 (10.7) -0.15 019b ZDV [1500] Placebo -1.313 (0.651) 67.1 (16.8) 0.01 ZDV [500] Placebo -0.359 (0.465) 37.2 (16.3) -0.00 036 ZDV [1500] Placebo -0.598 (0.707) 32.2 (18.0) -0.06 112 ddC [†] ZDV [†] -0.447 (0.732) -4.7 ( 6.1) 0.17 114 ddC [2.25] ZDV [600] 0.267 (0.121) -9.1 ( 5.6) -0.22 116a ddI [750] ZDV [600] 0.096 (0.156) 11.8 ( 8.4) -0.15 ddI [500] ZDV [600] -0.022 (0.161) 12.8 ( 8.6) -0.19 116b ddI [750] ZDV [600] 0.180 (0.130) 15.9 ( 5.3) -0.07 ddI [500] ZDV [600] -0.355 (0.137) 22.2 ( 5.4) -0.11 118 ddI [200] ddI [750] 0.112 (0.121) -8.9 ( 5.8) -0.06 ddI [500] ddI [750] 0.166 (0.120) -5.5 ( 5.8) -0.05 119 ddC [2.25] ZDV [600] -0.035 (0.340) 12.8 ( 9.5) -0.08 155 ZDV/ddC [600/2.25] ZDV [600] -0.102 (0.121) 27.5 ( 4.2) -0.09 ddC [2.25] ZDV [600] 0.083 (0.129) 17.1 ( 4.5) -0.10 175 ZDV/ddC [600/2.25] ZDV [600] -0.348 (0.202) 36.1 ( 6.5) -0.13 ZDV/ddI [600/400] ZDV [600] -0.467 (0.207) 71.2 ( 6.4) -0.17 ddI [400] ZDV [600] -0.487 (0.207) 40.9 ( 6.4) -0.19 229 ZDV/SQV [600/1800] ZDV/ddC [600/2.25] 0.148 (0.518) 7.3 (10.2) -0.13 ZDV/ddC/SQV [600/2.25/1800] ZDV/ddC [600/2.25] -0.841 (0.680) 15.9 (10.2) -0.16 241 ZDV/ddI/NVP [600/400/400] ZDV/ddI [600/400] 0.211 (0.258) 25.8 ( 7.3) -0.17 * [ ] 内は一日投与量を表す.

ZDV: zidovudine, ddI: didanosine, ddC: zalcitabine, NVP: nevirapine, SQV: saquinavir †: ddC の投与量は体重に依存.ZDV の投与量は,組入れ前の投与量に依存.

これらのデータに対し,以下の 4 つのモデルで解析を行った.

1. Model A: ( )2,~| τβγαγθ iii N +

2. Model B: ( )2,~| τβγγθ iii N

3. Model C: Model A において,実薬との比較の場合とプラセボとの比較の場合で回帰係数

が異なると仮定. 4. Model D: Model B において,実薬との比較の場合とプラセボとの比較の場合で回帰係

数が異なると仮定.

また,試験間の分散 2τ に,3 種類の事前分布(Prior Ⅰ, Ⅱ, Ⅲ)を仮定した.それぞれの

モデルにおけるパラメータの推定結果を表 3-2 に示す.

44

Page 48: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

表 3-2.解析結果 Model Parameters Prior Ⅰ Prior Ⅰ Prior Ⅰ A α 0.072 [-0.030, 0.181] 0.072 [0.038, 0.189] 0.071 [-0.045, 0.194]

β -0.010 [-0.014, -0.006] -0.010 [-0.015,-0.006] -0.010 [-0.15,-0.005]

2τ 0.0009 [0.0000, 0.0161] 0.0040 [0.0002, 0.0268] 0.0063 [0.0002, 0.0432]

B α 0 0 0

β -0.008 [-0.012,-0.005] -0.009 [-0.012,-0.005] -0.009 [-0.013,-0.005]

2τ 0.0012 [0.0000, 0.0172] 0.0047 [0.0001, 0.0266] 0.0070 [0.0002, 0.0428]

C aα 0.070 [-0.031, 0.177] 0.070 [-0.044, 0.186] 0.069 [-0.54, 0.189]

aβ -0.008 [-0.013,-0.004] -0.008 [-0.013,-0.003] -0.008 [-0.013,-0.003]

pα 0.226 [-0.747, 1.76] 0.213 [-0.748, 1.76] 0.202 [-0.763, 1.75]

pβ -0.019 [-0.052, 0.002] -0.019 [-0.052, 0.002] -0.019 [-0.052, 0.003]

2τ 0.0011 [0.0000, 0.0168] 0.0042 [0.0002, 0.0263] 0.0063 [0.0003, 0.0431]

D aα 0 0 0

aβ -0.007 [-0.011,-0.003] -0.007 [-0.011,-0.003] -0.007 [-0.011,-0.002]

pα 0 0 0

pβ -0.015 [-0.025,-0.007] -0.015 [-0.025,-0.007] -0.015 [-0.025,-0.007]

2τ 0.0011 [0.0000, 0.0167] 0.0041 [0.0002, 0.0255] 0.0061 [0.0003, 0.0394]

ほとんどのモデルでβ の推定値は負で,信頼区間は 0 を含んでいないことから,真のエン

ドポイントと代替エンドポイントの負の関連に関する強い証拠となりうる.モデル C では,

ベイズ因子の観点から,他モデルと比較して良くない. 2τ に着目すると,どの事前分布を仮定した場合でも,4 つのモデル間で非常に似ている.

すなわち,プラセボ対照と実薬対照の違いを考慮しても,またはα に 0 を仮定しても, 2τ に

関する結論は頑健であると判断できる. α に関しては,モデル A と C におけるα の信頼区間は 0 を含んでいるが,ベイズ因子の観

点からは,モデル B の方が A よりやや良い.したがって,この結果からα に関して確実な結

論は導けない.モデル C と D をベイズ因子に基づいて比較すると,D(切片=0)の方がよい. さらに,モデル C と D における pβ と aβ の信頼区間の重なり具合,モデル C における pα と

aα の信頼区間の重なり具合を見ても,プラセボ対照と実薬対照間で関連性に違いはなかった.

また,ベイズ因子で pβ = aβ および pα = aα を検討すると,共通の傾き,切片を持つモデルが

支持される.したがって,ベイズ因子や信頼区間の重なりを基に 4 つのモデルを比較すると,

モデル B を支持するのが妥当だと考えられた.

45

Page 49: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

3.3. 適用例-進行性直腸癌

Statistical Methods in Medical Research の 2008 年第 5 号において,複数の研究者が同一のデ

ータセットを用いて様々な方法で代替エンドポイントの妥当性の評価を実施した結果が掲載

されている.その中でHughesが実施したDanielsとHughesのモデルへの適用結果を紹介する. Hughes(2008)は,進行性直腸癌患者を対象とした 10 試験(Fluouracil (FU) + leucovorin (LV)

vs FU 単独投与の 7 試験(計 1744 例),FU+LV vs raltitrexed の 3 試験(計 1345 例))のデー

タセットを用い,真のエンドポイントである Overall Survival(OS)に対し,Progression-free Survival(PFS)を代替エンドポイントとする妥当性を評価した.なお,各試験における OSおよび PFS の治療効果は,対数ハザード比で表現した.各試験ごとの PFS と OS の対数ハザ

ード比の推定値の間の相関係数 iρ は,0.52~0.94 で推定されている.

結果を以下に示す.

① 切片α の推定値は-0.04(95% CI:-0.12, 0.04)であった.信頼区間 0 を含んでいること

からも,α は 0 に近いと判断するのが合理的と考えられた. ② また,傾きβ の推定値は 0.59(95% CI:0.34, 0.85)であり,信頼区間は 0 を含んでい

ないことから,OS の対数ハザード比と PFS の対数ハザード比の間には明らかな相関関

係があると判断できる. ③ OSとPFSの対数ハザード比の推定値および推定された回帰直線からの乖離に着目する

と,2 試験のはずれ値の存在が疑われた.そのうちの 1 つは,他の試験と比較して,両

エンドポイントともに治療効果が極めて大きい試験,もう 1 つは,メタアナリシスで

推定された回帰直線からの乖離が大きい試験であった.これらの試験が結果に及ぼす

影響を検討するため,まず,前者を除いて解析したところ,切片α および β の推定値

に大きな変化はなく,推定結果に及ぼす影響は小さいと考えられた.一方,後者を除

いて解析すると,傾きβ の推定値は 0.59 から 0.20 と大きく変化し,さらに, 0=β の

検定は有意ではなくなることから,この試験が β の推定に及ぼす影響は無視できない

と考えられた.Hughes は,このような点を考慮し,用いた 10 試験の結果からは,開発

後期の段階において,PFS を OS に対する代替エンドポイントとして用いることができ

るほどの根拠はないと結論づけている.一方で,各試験ごとに PFS と OS の関係には

一貫性が見られていることから,開発早期の段階における使用は否定してない.

3.4. 3 章で取り上げた方法のまとめ

第 3 章では,Daniels と Hughes(1997)によって提案されたメタアナリシスに基づく代替エ

ンドポイントの評価方法およびその適用例を紹介した. 本方法は,特に個々の試験規模が十分でなく,代替可能性に関して強い結論を導けないよ

うな場合に有効な方法となることが期待される.また,本手法の最大の特徴である代替エン

46

Page 50: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

ドポイントの効果と真のエンドポイントの効果の間に線形関係の仮定を置くことにより,代

替エンドポイントの効果から真のエンドポイントの効果の量的な予測が可能となる. 興味深いことに,3.2 で紹介した HIV 患者を対象とした ZDV の臨床試験では,個々の試験

の解析結果からCD4細胞数を代替エンドポイントと強く主張できるような結果は得られてお

らず,CD4 細胞数における効果が真のエンドポイントにおける効果を説明する割合は高々

30%程度と推定されていたにもかかわらず,Daniels と Hughes の方法ではその代替性を支持す

る結果が得られた.このような結論の相違がみられたのは,メタアナリシスによる精度の改

善のみではなく,代替エンドポイントにおける効果が真のエンドポイントにおける効果を説

明する割合が,試験間で類似していたことが理由のひとつと考えられた.たとえ代替エンド

ポイントを介さない作用メカニズムがあったとしても,代替エンドポイントにおける効果が

真のエンドポイントにおける効果を説明する割合が試験間で類似していれば, 2τ が小さく推

定され,代替エンドポイントへの効果から真のエンドポイントへの効果を正確に予測するこ

とが可能となるのである.Daniels と Hughes は,代替エンドポイントを介さない作用メカニ

ズムの存在よりも,その割合が試験間で類似していないことの方がむしろ問題であると主張

している. また,将来の臨床試験のため類似した比較対のみではなく,様々な比較対(例えば実薬対

照とプラセボ対照)をメタアナリシスに含めることで,真のエンドポイントと代替エンドポ

イントの関係の一般化も期待できる.その際,例えば代替エンドポイントを介さない負の作

用が存在するような治療効果を解析に用いた場合,その負の効果の大きさを推定・予測する

ことはできないことにも注意が必要である.そのような場合には,たとえ代替エンドポイン

トの効果から真のエンドポイントへの効果を正確に予測できたとしても,それが本来の(負

の効果を差し引いた)治療効果の予測とはなっていない.このことから,特に負の作用が異

なるような新たな治療法に適用する際には,注意深くその妥当性を検討する必要があるであ

ろう.

4. Principal 層別(Stratification)

4.1. Frangakis と Rubin の Principal 層別に基づく代替エンドポイントの再定義

Principal 層別とは,各処置に対する被験者別反応の真値を完全かつ正確に評価した結果に

より被験者を分類する仮想的な操作をいう.ここで「真値の完全かつ正確な評価」というの

は,完全同一条件下で測定誤差がない(結果のばらつきが個体差のみを反映する)処置ごと

の結果による評価をさす.これは本来実現不可能なもので,例えば被験者内で処置をクロス

オーバーすることにより観測される処置別反応値(測定誤差を含む上,処置ごとの評価時点

も異なる)での現実的な評価とは異なる.この意味で,元来 Principal 層別は因果推論で用い

られる反事実モデルによる仮想的な操作の一類型といえる.

47

Page 51: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

さて処置に対する反応過程の中間結果を測る指標を代替エンドポイントとする場合,その

変数による Principal 層別の構成は反応過程の因果連鎖全体で決まるので,Principal 層別を踏

まえた結果の解釈に無理が生じる代替エンドポイントは厳密に言うと概念的妥当性を欠くこ

とになる.このように,Principal 層別という考え方は代替エンドポイントの妥当性を評価す

る上で一つの切り口となる. 先にも述べたとおり,どの指標でも被験者ごとの「真値の完全かつ正確な評価」は現実的

に不可能である.しかしながら統計的仮定の追加による疑似的な Principal 層別により「不正

確で不完全な」実際の観測結果から集団パラメーターの推測が可能となり,代替エンドポイ

ントの妥当性評価に応用できる場合のあることが Frangakis と Rubin(2002)により指摘され

ている.さらに近年は Follman(2006)や Li ら(2008)によるワクチン有効性評価の試験デ

ザイン改良に関する提言にも援用され,また田中(2008)では具体的な適用例も提示されて

いる. 以下では,まず治療有無(「Z=0:治療なし,Z=1:治療あり」で表す)と結果(真のエン

ドポイント Y と代替エンドポイント S の値で表される)の因果関係を論ずる際に基本となる

考え方を整理する.次いでこのアプローチを代替エンドポイントの評価に具体的に適用する

ため近年提唱されている方法論ならびに適用事例を紹介する.

4.1.1. 因果関係を論ずる際の基本的な考え方

被験者 i が処置 z を受けたときの(真のエンドポイントにおける)結果を Yi(z)とする.本

質的に同じ集団 set1と集団 set2に異なる処置 0,1 を施した結果{Yi(0): i∈set0}と{Yi(1): i∈set1}

の違いを,処置による因果効果(Causal effect)と呼ぶ(Rubin,1978;Rubin によれば,この考

え方の源は Neyman,1923 の「平均処遇効果」まで遡るとされる). ここでもう一つ,代替エンドポイントによる結果 S を考える.いま仮に結果 Siが全ての処

置について被験者ごとに予め決まっている,即ち(S i(Z=0),S i(Z=1))が既定とする.これら

の値は変数 S 上での反応性に関する被験者別の特徴(実際にどの処置を受けるかに影響され

ない被験者固有の特徴)を表すものとみなせる.このような特徴から被験者が仮に層別でき

た場合に得られる結果を基本(Basic)Principal 層別と呼び,またこれから更に幾つかの層を

まとめた結果を Principal 層別と呼ぶ(現実にこのような特徴が直接測定できることはないの

で層を表す識別変数を欠損データとして扱うモデル,あるいは観測可能な別の変数を用いる

ことで擬似的な Principal 層別が可能になるという仮定に依拠した処理を行うことになる). さて Principal 層別により同じ層ζに含まれる症例集団{i: S i

P=ζ}を均等に二分し,それ

ぞれに異なる処置を施した場合の結果の差({Yi(0): S iP=ζ}と{Yi(1): S i

P=ζ})の差;こ

こで結果変数 Yi(・)は連続量とする)は,上で述べた意味で処置による因果効果になる.こ

こで,もし「集合{Yi(0): S i(0)= S i(1)=ζ}と集合{Yi(1): S i(0) = S i(1)=ζ}が同じ」であれば,

{S i(0) = S i(1)} ⇒ {Y i(0) = Y i(1)}

48

Page 52: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

となり,さらにこの対偶をとると「処置 Z が結果 Y に影響するなら S の値は Z に従い変化す

る」,即ち,

{Y i(0) ≠ Y i(1)} ⇒ {S i(0) ≠ S i(1)}

となる.

S と Y がこのような関係にある場合,一般に S は Y に対し因果的必然性 Causal Necessity を

持つという.日常的な言葉にすると「処置 Z が Y に影響するなら必ず S にも影響し,Z が Sに影響しないなら Y に影響することもない.」ということである.このような理想的な関係

が成り立つ代替エンドポイントを Principal 代替エンドポイントと呼ぶ.

4.1.2. Principal 代替エンドポイントと統計的代替エンドポイント

一般に,Principal 代替エンドポイントと統計的代替エンドポイントは一致しないことが知

られている.例えば代替エンドポイント S を二値反応変数[L:低値;H:高値]とした場合,

Principal 層別は

[1]「一切無反応」 {i: Si(0)=Si(1)=L} [2]「治療に反応」 {i: Si(0)=L,Si(1)=H} [3]「常に反応」 {i: Si(0)=Si(1)=H} [4]「治療と逆の反応」 {i: Si(0)=H,Si(1)=L}

の 4 層から構成される.ここで [4] の「治療と逆の反応」に該当する症例がおらず,[1],[2],[3] が同じ割合で存在している場合として次頁の表 4-1 に示した様な状況を考える.この表の

5 列目までは,Principal 層別による [1],[2],[3] の区分別に代替エンドポイント Siと真のエ

ンドポイント Yiの値について治療ごとに示したものである.層ごとに Siと Yiの関係を見ると,

治療間で Siが異なる場合にのみ Yiに治療間差があることがわかる.即ち,ここでの S は

Principal 代替エンドポイントとなる.一方,実際に観察される現象面の部分を示した「見た

目の結果(期待値)」の欄をみると,Siobs=L のとき Yiの期待値が処置 Z の値に依存した形と

なる(Principal 層が部分的にプールされてしまうため).したがって S は Principal 代替エン

ドポイントでありながら統計的代替エンドポイントとしての要件を満たさない(Prentice 基準

の (4) に抵触する;2.1.1 節を参照). 別の例として,S が統計的代替エンドポイントとなる場合に表 4-2 のような状況も考えてみ

る.「見た目の結果(期待値)」の欄をみると,処置に関わらず S iobsの値で Yiの期待値が決

まる形になっているので S は統計的代替エンドポイントといえるが,[2] の「治療に反応」だ

けでなく,[1] の「一切無反応」および [3] の「常に反応」の各層でも Y 上での治療効果(群

間差)が生じているので,S は Principal 代替エンドポイントとなる条件を満たさない.つま

り S により被験者を [1] の「一切無反応」と [3] の「常に反応」の層に分けてもそれだけで

49

Page 53: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

は Y 上の変化が捉えきれず,したがって「S 上の変化には Y 上の変化に対する因果的必然性

が有る」という主張は成り立ない.

表 4-1.Principal 代替エンドポイントと統計的代替エンドポイントの不一致(1)

Principal 層別 Si(0) Si(1) Yi(0) Yi(1) 見た目の結果(期待値) Zi=0 Zi=1

[1] 一切無反応 L L 10 10 (L,20*) (L,10) [2] 治療に反応 L H 30 50 (H,50**)

[3] 常に反応 H H 50 50 (H,50) * :(10+30)÷2 **:(50+50)÷2

表 4-2.Principal 代替エンドポイントと統計的代替エンドポイントの不一致(2)

Principal 層別 Si(0) Si(1) Yi(0) Yi(1) 見た目の結果(期待値) Zi=0 Zi=1

[1] 一切無反応 L L 10 20 (L,20*) (L,20) [2] 治療に反応 L H 30 40 (H,50**)

[3] 常に反応 H H 50 60 (H,50) * :(10+30)÷2 **:(40+60)÷2

二番目の表のように,真のエンドポイント上での治療効果のうち代替エンドポイントに反

映される部分(例:上記の [2] でみられた治療効果)と反映されない部分(例:上記の [1] と [3] でみられた治療効果)が想定される場合,前者は Associative Effect(AE),後者は Dissociative Effect(DE)と呼ばれる.S が真に Principal 代替エンドポイントであれば,AE≠0 かつ DE=0となるはずだが,現実に理想的と言えない代替エンドポイントが数多く存在してきた経緯を

振り返ると,そうならない方が一般的と考えるべきなのかもしれない. Principal 層別による仮想的な層別に現実的な意味合いを求めうるか否かは,潜在的部分集

団の実在を裏付ける(理論的もしくは経験的な)背景情報の有無に依存する.逆にその様な

裏付けがあればこのアプローチを適用する強い動機ともなる.次節では,ワクチン接種後の

抗体生成有無を以て予防効果の予測指標(代替エンドポイント)とすることの是非を評価す

る試験のデザインに関する最近の論文について紹介する.

50

Page 54: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

4.2. ワクチン接種後抗体価を感染予防の予測指標として評価する試験デザイン

4.2.1. 感染有無を真のエンドポイントとする場合(Follman, 2006)

4.2.1.1. 背景

ワクチン接種後の被験者内における抗体生成は,感染予防効果を生じさせる上で理論上必

要な機序とされる.先の用語でいうと,抗体生成 S は感染有無 Y に対し因果的必然性を持つ

Principal 代替エンドポイントになるはずだが,これをどの様に確かめるか(確かめたことに

するか)が現実的な問題となる.例えワクチン接種有無をランダムに割り付ける比較試験を

行ったとしても非接種群の非感染者にワクチン特有の抗体が生じることはありえず,したが

って Prentice 基準への一致(度)による従来の評価方法(統計的代替エンドポイントの評価

に用いる前章までの方法)は使えない.また全般的な免疫学的反応性での被験者間差が交絡

要因になるという別の問題もある. Follman(2006)は試験デザインの改良を通じて被験者の特徴に関連した追加情報を得るこ

とによってこの問題を解決することを考え,そのための工夫として二つの方法を提案した.

一つは,研究対象と異なる別のワクチンをランダム化前の全ての症例へ一律に接種し,これ

に対する抗体生成量 W0を測定し被験者の(全般的な)免疫学的反応性を表す共変量として推

測に用いる方法(Baseline irrelevant vaccination:以下「BIV」とする)である.もう一つは,非

接種群の非感染者に試験が終わってからワクチンを接種し,事後的な抗体生成量を測定する

という方法(Closeout placebo vaccination: 以下「CPV」とする)である.前者ではワクチン接

種群における共変量と S の関係から非接種群における S を被験者ごとに予測することで,後

者では試験終了後の抗体生成量を測ることで,いずれも擬似的に Principal 層別を行って因果

的必然性を評価することになる.

4.2.1.2. モデル

ランダム化後のワクチン接種で測定される筈の抗体生成量を X0 とし,{X0(Z=0)=0, X0(Z=1)=x}の組み合わせによる Principal 層別を考える(接種から X0の測定までの間に感染

は起きないと仮定).抗体生成量 X0は接種群で直接測定可能な量,非接種群では測定されな

い仮想的な量となる.感染リスクを表す形として,計算上の便宜により Follman は下記のプ

ロビットモデルを用いている.

( ) ( ) ( ){ } ( )zxxzxXzZzYxp iiiz 32100 1,1Pr ββββ +++Φ===== (4-1)

BIV を組み入れた試験では,非接種群で x は直接観察できないがその代りとして W0(一律

接種した別のワクチンの抗体生成量)が測定される.ここで X0と W0がそれぞれ期待値µx,

µw,分散σx2,σw

2をもつ相関係数ρの二変量正規分布に従うと仮定すると,非接種群で W0=

w0となる被験者の感染リスクは以下で表わされる.

51

Page 55: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

( ) ( )[ ]( )

( )

−+

−++Φ=+Φ=

2222

020

02000*

11 ρσβ

µσσρµββ

ββx

ww

xx w

XEwp (4-2)

上式に含まれるパラメーターのうちµwとσw

2は全症例から,µx,σx2とρは接種群の被験者デー

タから推測可能となる. 一方 CPV を組み入れた試験では,非接種群の非感染者について試験後ワクチン接種による

抗体生成量 XCが測定される.ここでこの値が測定誤差を除けば X0(Z=1)と同じものになると

仮定すると,非接種群の非感染者における感染リスクは p0(XC)だったはずと推定される.ま

た非接種群の感染者における感染リスクは

( )[ ]

+

+Φ=+Φ

222

20020

1 x

xXEσβ

µββββ (4-3)

と評価できる.

最後に BIV と CPV を両方含むデザインの場合,非接種群の非感染者については (4-2),感

染者については (4-3) を介して感染リスクの評価が行われる.以上で得られた被験者ごとの

リスクを反映した尤度関数(Appendix 1)の最大化により,S の因果的必然性を評価する上で興

味あるパラメーターβ0,β1,β2,β3が推定可能となる.ただしこれはµx,µw,σx2,σw

2およ

びρを所与の定数として得た結果なので,推定精度はブートストラップ法で評価する必要があ

る.

4.2.1.3. CPV のみ行う試験デザインでの推測

CPV のみ行う試験デザインでは,以下のようにモデルを使わない推測も可能となる.非接

種群での X0(Z=1)の密度を f0(x),接種群での密度を f1(x)とする.ここで感染有無を Y で表し

(Y=1:感染;Y=0:非感染),非接種群・接種群の感染者の割合をθ0,θ1とすれば内訳は

( ) ( ) ( )( )00000 101 θθ −=+== YxfYxfxf (4-4) ( ) ( ) ( )( )11111 101 θθ −=+== YxfYxfxf (4-5)

と表現できる.非接種群の感染割合θ0と非感染者の抗体量分布 f0(x|Y=0)については,(CPVによる試験後測定が妥当なら)対照群からノンパラメトリックな方法で直接偏りなく推定で

きる.また,ランダム化比較試験であれば f0(x)の推定量として f1(x)を使うことができ,(4-4) と合わせて引き算で f0(x|Y=1)が推定できる.同時に Bayes の定理より以下を得る.

52

Page 56: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

( ) ( )( )xfYxf

xYp1

000

1|1

=== θ (4-6)

( ) ( )( ) .

1|1

1

111 xf

YxfxYp

=== θ (4-7)

(4-4) と (4-6) より

( ) ( ) ( ) 0010

20 10: θ==⇔== xYpxfYxfH

となるが,これは「非接種群の非感染者における抗体量分布が接種群の抗体量分布と同じ」

なら感染割合は抗体量によらず一定,即ちモデル(4-1)でいうところのβ2=0 と同値で,接種群

の接種後抗体量分布と非接種群の試験終了後CPV測定による抗体量分布の比較により検証可

能となる. これとは別に,(4-4)~(4-7) および f0(x)=f1(x)の仮定より

( ) ( ) ( ) ( )xYpxYpYxfYxfH 0000: 1010

30 =∝=⇔===

となるが,これは「非感染者における抗体量分布が群間で等しければ,抗体量別の非感染割

合に関する群間比が一定になり,逆もまた成り立つ」ということである.

4.2.1.4. 特性評価

Follman(2006)は提案した方法の特性評価を以下のようにまとめ,常に CPV を試験に組

み込むべきという考え方を提示している.

1. 典型的な状況に応じ条件設定したモンテカルロシミュレーションの結果を見ると,抗体

生成量 X0と共変量 W0の相関係数が高ければ BIV による評価だけでも高精度の評価が

可能なことがわかる.しかしながら,そのような場合でもさらに CPV まで行われてい

ればデータ補完の妥当性まで確認できる. 2. 共変量 W0が抗体生成量 X0と独立でかつ X0が感染有無に強く関連する場合,BIV のみ

によるデザインは不十分で CPV が必要になるので,最初から行っておけば保険になる. 3. デザインに CPV のみ行う症例集団が含まれていれば前出の 4.2.1.3.で紹介された方法

も使える.

53

Page 57: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

4.2.2. 感染までの期間を真のエンドポイントとする場合(Qin et al., 2008)

4.2.2.1. 背景

ワクチン接種による感染症予防効果の直接評価を行う臨床試験では,感染までの期間を指

標とする臨床評価を行うため一般に長期観察が必要となる.したがって,もし接種後に比較

的短期間で測定可能となる免疫学的代替エンドポイント,例えばワクチン接種後の抗体価等

が使えれば,より迅速で経済的な感染症対策を可能とするという点で有用となる(Halloran, 1998;Chan, Wang and Heyse, 2003;Gilbert et al., 2005).この場合,ワクチン非接種の被験者

に抗体が生じることは皆無であるため,代替指標上での反応で処置効果を調整した推定を行

う PTE の様な方法で代替性を評価することは現実的に不可能となり,仮に可能であったとし

てもランダム化後の測定値による調整から必然的に生じるバイアスを適切に反映する必要が

生じてくる. このような代替エンドポイントの評価を行う研究デザインを改善する二つのアプローチと

して,Qin ら(2008)は前出の CPV・BIV,ならびに BIV 反応を他の共変量(代替エンドポ

イントと関連するが感染には影響しない,と考えられる変数のベースライン値)で置き換え

る Baseline irrelevant predictor(BIP)という考え方を紹介している.Qin ら(2008)はこうした

改善を case-cohort 法による研究デザインに組み込み,得られた追加情報を Principal 層別によ

る推定に反映させる方法を述べている.これは,前節で紹介した Follman(2006)による方法

を生存時間が真のエンドポイントとなる場合に拡張したものと位置づけられる.

4.2.2.2. Principal 層別の枠組み

4.2.2.2.1. 表記法

プラセボ対照による被験者数 n の群間比較試験を考える.被験者 i(i=1,...,n)に対する観察

は予め決められた K 時点(t1,t2,…,tK)にて行われるが,被験者 i については第 Mi番目の時点ま

で観察されるものとする.各被験者の受けた処置を表す識別変数を Vi(ワクチン接種は Vi

=1,プラセボ接種は Vi=0),ベースライン時点で収集される(通常の)共変量を Wi,処置

V を受けかつ打ち切りが生じなかった場合に観察された(もしくは観察されたはずの)感染

までの経過時間を Ti(V),処置 V を受けかつ感染しなかった場合に観察された(もしくは観

察されたはずの)打ち切りまでの経過時間を Ci(V),処置 V を受けた場合に観察された(も

しくは観察されたはずの)感染もしくは打ち切りまでの経過時間を Xi(V)=min{T i(V), C i(V)},処置 V を受けた場合に感染と打ち切りのどちらが先だったか(もしくは先になるはずだった

か)を示す変数をδ i(V)=I{T i(V)≦C i(V)}で表す.被験者 i が処置 V を受けた場合,時点 t1

にリスク集団に残っているか(脱落せずかつ未感染か)否かを示す識別変数を Ri(V),残って

いた場合に得られた(もしくは得られたはずの)抗体価測定値を Si(V)とする.

4.2.2.2.2. 仮定

論文中では,以下の①~②および A1~A3 が全体に共通する仮定として置かれている.

54

Page 58: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

① ベースライン共変量 Wi,処置 V を受けた場合における時点 t1でのリスク有無 Ri(V),

処置 V を受けた場合における時点 t1での抗体価測定値 Si(V)が与えられた下では,打ち

切り時間 C i(V)と感染までの時間 T i(V)は独立 ② {Vi,Wi,Ri(0),Ri(1),Si(0),Si(1),Xi(0),Xi(1),δ i(0),δ i(1)}は互いに独立,

同一分布に従う. A1.Stable unit treatment value assumption(SUTVA):ある対象者の潜在結果変数は

別の対象者の受けた処置に依存しない. A2.ベースライン共変量 Wiが与えられた下で,{Ri(0),Ri(1),Si(0),Si(1),Xi(0),Xi(1),

δi(0),δi(1)}と処置 V は独立. A3.時点 t1までの脱落と感染リスクは処置 V に影響されない:Ri(1)=1 ⇔ Ri(0) =1

4.2.2.2.3. ワクチン接種効果の指標

ワクチンの有効性を観察時点 tkによらず一定と仮定し,これに関する指標として以下の二

つを検討している:

1.Conditional on joint potential outcomes (joint VE)

( ) ( ) ( ) ( ) ( ) ( ) ( )( )( ) ( ) ( ) ( ) ( ) ( )( ) KkRRsSsStTtT

RRsSsStTtTssVE

kk

kk

,,2,

10,11,0,1,00Pr10,11,0,1,11Pr

1,011

01101

=====≥=====≥=

−=−

2.Conditional on marginal potential outcome (marginal VE)

( ) ( ) ( ) ( ) ( )( )( ) ( ) ( ) ( )( ) KkRsStTtT

RsStTtTsVE

kk

kk

,,2,

10,1,00Pr11,1,11Pr

111

111

===≥===≥=

−=−

前者は基本 Principal 層{Si(0)=s0,Si(1) =s1,Ri(0)=1,Ri(1)=1}のそれぞれについて定義

される.一方,後者は前者を Si(0)についてプールしたものになる.特別な場合として Si(0)=0 が常に妥当(ワクチン接種なしに抗体は生成不可能)であれば,後者は前者と一致する.

論文における検討では,主に後者が用られている.

4.2.2.2.4. 感染までの時間分布に関するモデル

累積ハザード関数を用いて以下の Cox モデルが仮定されている.

55

Page 59: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

( ) ( )( ) ( ) ( )( ) ( ){ } { }′′=′′=

=Λ′===Λ

4321

01

,,,,,1,1,

,,2,exp,11,1,;

ββWZ

βZW

βββVSSVwhere

KktdRsSVtd kk

ここでΛ0はベースライン累積ハザード関数(区分指数分布モデルを仮定)である.これより

( ) ( ) ( )( )( ) ( )( )

( )311

1

11

exp1

,,2,11,1,0;11,1,1;

1

ββ s

KkRsSVtdRsSVtd

sVEk

k

+−=

====Λ===Λ

−=

が得られる.

仮に VE(0)=0 かつ s1>C ⇒VE(0)>0(C は非負の定数)であれば,抗体生成からワクチン

による効果の発生が予測できることになる.これらの条件を満たす代替エンドポイント(抗

体価)を「予測的代替エンドポイント」と定義する.β1=0 かつβ3<0 の場合,抗体価はワ

クチン効果に対する予測的代替エンドポイントとなる(|β3|は代替性の強さ=予測精度の高

さの指標).

4.2.2.3. 改良されたデザインへの適用

4.2.2.3.1 BIP への適用

ベースライン共変量のうち,特に以下が仮定できるものを B とする.

A4. ( )( ) ( )( ) 1,0,,,2,,1,;,1,; ==Λ=Λ VKkSVtdSVtd kk WW B,

つまり他の共変量が所与のとき真のエンドポイントに影響しない共変量を B として選び,

専ら Si(1)の分布を推定するための情報として扱う.仮定 A1~A3 より,B と Ri(1)=1 が与え

られた下で Si(1)の分布は処置 Viに影響されない.即ち B が測定されている被験者については

Si(1)の値が予測可能となる.一方 B が測定されていない被験者については, Wi所与の下で

Si(1)の条件付予測分布をワクチン接種者のデータから推定し,これによる積分として得られ

る周辺部分尤度を尤度関数に含めることで最尤推定に含めることが可能となる(Appendix 2参照).

4.2.2.3.2. CPV への適用

プラセボ群で未感染の被験者に試験終了後ワクチン接種して得られた抗体価測定値を

Sci(1)とする.Si(1)と Sc

i(1)に加法的に含まれる測定誤差が独立同一分布(期待値ゼロ)に従う

と仮定し,Sci(1)を Si(1)の代わりに推定に用いる.Sc

i(1)が測定されていない被験者については,

ワクチン接種者のデータから Biおよび Wi所与の下での Si(1)の予測分布を推定し,これで積

分した周辺部分尤度を尤度関数に含めることにより最尤推定に反映させる(Appendix 2 参照).

56

Page 60: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

4.2.2.4. 推定

Follman と同様に,Cox モデルの対数部分尤度を以下の 4 集団に対応して分割可能な形で構

成し,これを全体として最大化することによりモデルを当てはめる(Appendix 2 参照).

[1] V:ワクチン接種患者 [2] P:プラセボ接種患者で CPV を実施(非感染者) [3] P(WB):プラセボ接種患者,共変量 B 測定 [4] P(W):プラセボ接種,共変量 B 未測定

集団 [3] と [4] については,V(ワクチン接種集団)から抗体価の条件付分布関数(d

P(s|Bi,Wi),dP(s|Wi))を推定し,これを用いた積分で得られる部分尤度の期待値を含む対数

部分尤度の全体を最大化することでパラメーター推定を行う.

4.3. 進行性前立腺癌における代替エンドポイント評価への適用例

田中(2008)は進行性前立腺癌(真のエンドポイント Y:原病死までの生存期間,もしく

は再燃に至るまでの期間)における代替エンドポイントの評価において 4.1.2.と同様の 3 区分

による Principal 層別を適用し,「PSA 正常化有無」,「PSA 正常持続有無」,「PSA90%減

少有無」および「PSA 急減有無」の 4 変数を代替エンドポイント S の候補として比較・評価

している.各層の構成割合を確定的アニーリング EM アルゴリズムで反復推定し,その結果

で重み付けした推定方程式を解くことにより,Principal 層ごとの治療効果を代替エンドポイ

ントの候補となる変数ごとに推定している.一例として,原病死までの生存期間を真のエン

ドポイントとした場合の結果を次ページの表 4-3 に示す. この表において,AE でのハザード比(Associative effect:S 上で治療効果が見られる Principal

層での治療効果)が 1 を有意に下回り,DE でのハザード比(Dissociative effect:そうでない

Principal 層での治療効果)が 1 に近い反応変数が代替エンドポイントとしては望ましいこと

になるが,その意味では,検討した 4 変数のうちで「PSA 正常化有無」が最も優れていると

結論づけられる. また,代替エンドポイントの妥当性を評価する数値指標として,DE がゼロと仮定できる場

合について予測される死亡リスク差を,実際の死亡リスク差で割った比を「外挿可能性の指

標 PE(Proportion of Extrapolable)」として定義し,検討した各代替エンドポイントについて

も結果を算出し上記の結論を裏付ける指標として提示している(WangとTaylor (2002) のPTEに類似しているが異なる概念).

この論文で扱われた臨床試験の総症例数は 150 例程度であり,前章のメタアナリシスによ

る評価事例と比べ圧倒的に少ないが,パラメーターの「95%信頼区間の幅は代替性を判断す

57

Page 61: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

るために十分な程度に狭かった」という結果が,Principal 層別によるアプローチの可能性を

示唆するものとして注目される.

表 4-3.PSA 代替性評価の結果(原病死までの期間を真のエンドポイントとしたとき)

ハザード比 95%信頼区間

PSA 正常化 AE 0.31 (0.14 – 0.69) DE(ノンレスポンダー) 0.70 (0.31 – 1.58) DE(常にレスポンダー) 0.88 (0.37 – 2.06) PSA 正常持続 AE 0.43 (0.20 – 0.96) DE(ノンレスポンダー) 0.51 (0.23 – 1.15) DE(常にレスポンダー) 0.75 (0.30 – 1.84) PSA90%減少 AE 0.37 (0.15 – 0.94) DE(ノンレスポンダー) 0.36 (0.16 – 0.79) DE(常にレスポンダー) 0.65 (0.31 – 1.33) PSA 正常持続 AE 0.64 (0.32 – 1.26) DE(ノンレスポンダー) 0.69 (0.31 – 1.57) DE(常にレスポンダー) 0.21 (0.08 – 0.57)

58

Page 62: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

Appendix 1: Follman(2006)での対数尤度関数

BIP 法・CPV 法・BIP+CPV 併用法での尤度関数

処置と感染有無による集団の区分を以下の記号で表す.

V:ワクチン接種群 P:非接種群 P(U):非接種群 (非感染者) P(I):非接種群 (感染者)

[BIV による試験]

( ) ( ) ( ){ } ( ) ( ){ }

−×

−= ∏∏

Pi

yi

yi

Vi

yi

yiB

iiii wpwpxpxpL 100

*00

*10000 11β (A1-1)

[CPV による試験]

( ) ( ) ( ){ } ( ){ }( )

( )IP

x

x

UPiCi

Vi

yi

yiC xpxpxpL ii

#

222

200

10000

111

+

+Φ×

−×

−= ∏∏

∈∈

σβ

µβββ (A1-2)

[BIV と CPV による試験]

( ) ( ) ( ){ } ( ){ }( )

( )( )

×

−×

−= ∏∏∏

∈∈∈

IPii

UPiCi

Vi

yi

yiBC wpxpxpxpL ii

00*

01

0000 11β (A1-3)

59

Page 63: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

Appendix 2: Qin ら(2008)での対数部分尤度関数

[1] V:ワクチン接種 [2] P:プラセボ接種,試験終了後にワクチン接種・抗体価測定 [3] P(B):プラセボ接種,共変量 B 測定 [4] P(nonB):プラセボ接種,共変量 B 未測定

( ) ( ) ( ) ( ) ( )

( )

( ) ( ) ( ) ( )( ) ( )

( ) ( ) ( )( ){ } ( ) ( ) ( )( ) ( ){ }( ) ( )

( ) ( ) ( ) ( )( ) ( )

( ) ( ) ( ) ( )

( ) ( ){ } ( ) ( ) ( ){ }( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ){ } ( ) ( ) ( ){ }( ) ( ) ( )i

VRVRWsVsVM

VRWsVsVM

M

j

VRWsVsVji

ii

VRVRWsVsVM

VRWsVsVM

M

j

VRWsVsVji

M

j

VRWSVSVji

VRVRWSVSVM

VRWSVSVM

M

j

VRWSVSVji

K

IBiICi

i

IBiICi

iICi

iICi

i

WsdP

OL

WBsdP

OL

OL

OL

where

OLOLOLOLL

iiiiiiii

i

iiiiii

i

iiiiii

iiiiiiii

i

iiiiii

i

iiiiii

iiii

Cii

Cii

iiiiiiiiii

i

iiiiiiii

i

iiiiiiii

PV

δββββδββββ

ββββ

δββββδββββ

ββββ

ββββ

δββββδββββ

ββββ

λλ

λ

λλ

λ

λ

λλ

λ

λλλ

λ

−′+++′+++

=

′+++

−′+++′+++

=

′+++

=

′+++

−′+++′+++

=

′+++

∉∉

∈∉∈∈

−×−−×

−=

−×−−×

−=

−=

−×−−×

−=

′=

+++=

∫∏

∫∏

∑∑∑∑

1exp0

exp0

1

2

exp04

1exp0

exp0

1

2

exp03

1

2

11exp02

111exp0

11exp0

1

2

11exp01

0020

43210

432432

432

432432

432

432

432432

432

111

1

,111

1

1

111

1

,...,

loglogloglog,log β

60

Page 64: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

5. まとめと考察

代替エンドポイントのバリデーションに関しては,大きくは 2 章で示したように主に単一

の試験を対象として Prentice(1989)の基準をもとに展開された種々の方法と,3 章で示した

ように複数の試験を利用したメタアナリシスに基く方法に分類される.前者については,種々

の問題を含むものの,代替エンドポイントを探索する場合において,各手法を熟知した上で

適用することにより,有益な情報が得られるものと考える.後者に関しては,2006 年にモン

トリオールで開催された IBC(International Biometric Conference)において,「Surrogate Endpoint: Wishful Thinking or Reality ?」と題したセッションが開かれ,いくつかのメタアナリシスによ

るアプローチを用いた発表がなされた.このセッションに関しては,事前に直腸癌の臨床試

験データを集めた 2 つのデータセットが演者に配布され,真のエンドポイント(生存期間)

に対する代替エンドポイント(無増悪期間)の評価が行われた.このセッションの詳細は,

Statistical Methods in Medical Research の 2008 年第 5 号に掲載されている. 一方,4 章で示した因果推論における反事実モデルをもとにした Principal 層別のアプロー

チは,上述の 2 つの方法とは異なるアプローチとして注目でき,今後,更なる評価のために

適用例の増加を期待したい. 最近では,代替エンドポイントの統計学的な観点によるバリデーションとは異なるアプロ

ーチも報告されている.Lassere(2007)は,OMERACT(Outcome Measures in Rheumatoid Arthritis Clinical Trials)により発表された代替エンドポイントの評価の枠組み(Lassera et. al., 2007)を改定したものを報告している.そこでは,統計学的な観点に加え,試験デザイン,目標と

するアウトカム等,多次元からなる項目により評価する枠組みを提示している.このような

アプローチは,まさに Biomarkers Definitions Working Group(2001)が述べているように「,,,

代替エンドポイントのバリデーション,という言葉は適切ではなく,代替エンドポイントの

評価,ととらえるべきであろう」ということに該当する.なお,Lassere(2007)には代替エ

ンドポイントに関する研究の歴史的な流れが紹介されているので,ぜひ一読されたい. 医薬品開発のための臨床試験において,代替エンドポイントが真のエンドポイントに替わ

り用いることができれば,優れた医薬品を短期間で医療現場に提供することが可能となる.

しかしながら,代替エンドポイントとして使用できることを明らかにするためには,本報告

書で述べた様々な方法およびアプローチをもってしても容易なことではない.代替エンドポ

イントが評価の土俵に上がるためには,代替エンドポイントを測定するとともに真のエンド

ポイントを指標とした臨床試験の実施が不可欠となる.また,単一の臨床試験では不十分な

場合があり,その場合には複数の臨床試験が必要となる.当然ながら,一つの製薬企業のみ

による実施は不可能であり,産官学の共同による実施が必要となる. 代替エンドポイントの評価は,非常に困難を極めるが,よりよい医薬品をできるだけ早く

医療の現場に届けるためにも,評価方法の更なる研究はもちろんのこと,臨床試験データの

蓄積をはかるためにも産官学が一体となった活動が望まれる.

61

Page 65: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

参考文献

1. A’Hern, R. P., Ebbs, S. R. and Baum, M. B. (1988). ‘Does chemotherapy improve survival in advanced breast cancer? A statistical overview’. British Journal of Cancer, 57, 615-618.

2. Anderson, T. W. (1971). The statistical analysis of time series, Wiely, New York. 3. Baker, S. G., Barnett, S.K. (2003). A perfect correlate does not a surrogate make. BMC Medical

Research Methodology, 3, 16. 4. Baker, S. G. (2006). Surrogate endpoints: Wishful thinking or reality? Journal of the National

Cancer Institute, 98, 502-503. 5. Begg, C. B., Leung, D.H. (2000). On the use of surrogate end points in randomized trials. Journal

of the Royal Statistical Society. Series A, 163, 15-28. 6. Berger, V. W. (2004). Dose the Prentice criterion validate surrogate endpoints? Statistics in

Medicine, 23, 1571-1578. 7. Biomarkers Definitions Working Group. (2001). Biomarkers and surrogate endpoints: Preferred

definitions and conceptual framework. Clinical Pharmacology & Therapeutics, 69, 89-95. 8. Black, D.M., et al. (1999). What proportion of the effects of raloxifene (RLX) on vertebral fracture

risk can be directly attributed to its bone mineral density (BMD) effects? Journal of Bone and Mineral Research, 14, S158.

9. Burzykowski, T., Buyse, M. (2006). Surrogate threshold effect: an alternative measure for meta-analytic surrogate endpoint validation. Pharmaceutical Statistics, 5, 173-186.

10. Burzykowski, T., et al. (2008). Evaluation of tumor response, disease control, progression-free survival, and time to progression as potential surrogate end points in metastatic breast cancer. Journal of Clinical Oncology, 26, 1987-1992.

11. Burzykowski, T., Molenberghs, G., Buyse, M., et al. (2001). Validation of surrogate endpoints in multiple randomized clinical trials with failure-time endpoints. Journal of the Royal Statistical Society. Series C, 50, 405-422.

12. Burzykowski, T., Molenberghs, G., Buyse, M. (2004). The validation of surrogate end points by using data from randomized clinical trials: a case-study in advanced colorectal cancer. Journal of the Royal Statistical Society. Series A, 167, 103-124.

13. Burzykowski, T., Molenberhgs, G, Buyse, M.(eds) (2005). Evaluation of surrogate endpoints, Springer, New York.

14. Buyse, M., et al. (2000). The validation of surrogate endpoints in meta-analyses of randomized experiments. Biostatistics, 1, 49-67.

15. Buyse, M., et al. (2007). Progression-free survival is a surrogate for survival in advanced colorectal cancer. Journal of Clinical Oncology, 33, 5218-5224.

16. Buyse, M., Molenberghs, G. (1998). Criteria for the validation of surrogate endpoints in randomized experiments. Biometrics, 54, 1014-1029.

62

Page 66: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

17. Bycott, P. W., Taylor, J. MG. (1998). An evaluation of a measure of the proportion of the treatment effect explained by a surrogate marker. Controlled Clinical trials, 19, 555-568.

18. The Cardiac Arrhythmia Suppression Trial (CAST) Investigators. (1989). Preliminary Report: effect of encainide and flecainide on mortality in a randomized trial of arrhythmia suppression after myocardial infarction. New England Journal of Medicine, 321, 406-12.

19. Carrol, R. J., Stefanski, L.A. (1990). Approximate quasilikelihood estimation in models with surrogate predictors. Journal of the American Statistical Association, 85, 652-663.

20. Chen, C., Wang, W., Snapinn, S. M. (2003). Proportion of treatment effect (PTE) explained by a surrogate marker. Statistics in Medicine, 22, 3449-3459.

21. Choi, S., et al. (1993). Are an incomplete surrogate marker for clinical progression in persons with asymptomatic HIV infection taking zidovudine. Annals of Internal Medicine, 118, 674-680.

22. Consensus Development Conference. (1991). Prophylaxis and treatment of osteoporosis. The American Journal of Medicine, 90, 107-110.

23. Corfu-A Study Group. (1995). Phase III randomized study of two fluorouracil combinations with either interferon alpha-2a or leucovorin for advanced colorectal cancer. Journal of Clinical Oncology, 13, 921-928.

24. Cummings, S.R., et al. (1999). How much of the reduction in risk of vertebral fractures by alendronate is explained by increased spine BMD? Journal of Bone and Mineral Research, 14, S159.

25. Cummings, S.R., et al. (2002). Improvement in spine bone density and reduction in risk of vertebral fractures during treatment with antiresorptive drugs. The American Journal of Medicine, 112, 281-289.

26. Daniels MJ, Hughes MD. (1997). Meta-analysis for the evaluation of potential surrogate markers. Statistics in Medicine, 16, 1965-1982.

27. Ellenberg, S.S., Hamilton, J. M. (1989). Surrogate endpoints in clinical trials: cancer. Statistics in Medicine, 8, 405-413.

28. Fischl, M. A., et al. (1987). The efficacy of azidothymidine (AZT) in the treatment of patients with AIDS and AIDS-related complex. The New England Journal of Medicine, 317, 185-191.

29. Fischl, M. A. et al. (1990). The safety and efficacy of zidovudine (AZT) in the treatment of subjects with mildly asymptomatic human immunodeficiency virus type 1 (HIV) infection. Annuals of Internal Medicine, 112, 727-737.

30. Fleming TR, DeMets DL. (1996). Surrogate end points in clinical trials: Are we being misled? Annals of Internal Medicine, 125, 605-613.

31. Fleming, T. R., et al. (1998). The Encyclopedia of Biostatistics, 6, 4425-431, Wiely, New York. 32. Fleming, T. R., Prentice, R. L., et al. (1994). Surrogate and auxiliary endpoints in clinical trials,

with potential application in cancer and AIDS research. Statistics in Medicine, 13, 955-968. 33. Follman. D. (2006). Augmented designs to assess immune response in vaccine trials. Biometrics,

63

Page 67: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

62, 1161-1169. 34. Frangakis, C. and Rubin, D. (2002). Principal stratification in causal inference. Biometrics, 58,

21-29. 35. Freedman, L. S., Graubard B.I. (1992). Statistical validation of intermediate endpoints for chronic

diseases. Statistics in Medicine, 11, 167-178 36. Freedman, L. (2007). Quantitative science methods for biomarker validation in chemoprevention

trials. Cancer Biomarkers, 3, 135-140. 37. Gail, M. H., et al. (2000). On meta-analytic assessment of surrogate outcomes. Biostatistics, 1,

231-246. 38. Greco, F. A., et al. (1996). Phase III randomized study to compare interferon alpha-2a in

combination with fluorouracil versus fluorouracil alone in patients wits advanced cancer. Journal of Clinical Oncology, 4, 2674-2681.

39. Gruttola V. De., et al. (1997). Perspective: Validating surrogate markers - Are we being naïve? The Journal of Infection Diseases, 175, 237-246.

40. Hamilton J. D., et al. (1992). A controlled trial of early versus late treatment with zidovudine in symptomatic human immunodeficiency virus infection: results of a Veterans Affairs Cooperative Study. The New England Journal of Medicine, 326, 437-443.

41. Hills, A., Seigel, D. (1989). Surrogate endpoints in clinical trials: ophthalmologic disorders. Statistics in Medicine, 8, 427-430.

42. Hughes, M. D. (2002). Evaluating surrogate endpoints. Controlled Clinical Trials, 23, 703-707. 43. Hughes, M. D. (2008). Practical issues arising in an exploratory analysis evaluating

progression-free survival as a surrogate endpoint for overall survival in advanced colorectal cancer. Statistical Methods in Medical Research, 17, 487-495.

44. Johnson JR, et al. (2003). End points and United States Food and Drug Administration approval of oncology drugs. Journal of Clinical Oncology, 21, 1404-1411.

45. Kay, S. R., et al. (1988). Reliability and validity of the positive and negative syndrome scale for schizophrenics. Psychiatry Research, 23, 99-110.

46. Lassere MN. (2007). The Biomarker-Surrogacy Evaluation Schema: a review of the biomarker-surrogate literature and a proposal for a criterion-based, quantitative, multidimensional hierarchical levels of evidence schema for evaluating the status of biomarkers as surrogate endpoints. Statistical Methods in Medical Research, 17, 303-340.

47. Lassere MN, et. al. (2007). Definitions and Validation Criteria for Biomarkers and Surrogate Endpoints: Development and Testing of a Quantitative Hierarchical Levels of Evidence Schema. The Journal of Rheumatology, 34, 607-615.

48. Li, Z., Meredith, M. P., Hoseyni, M. S. (2001). A method to assess the proportion of treatment effect explained by a surrogate endpoint. Statistics in Medicine, 20, 3175-3188.

49. Lin, D. Y., Fischl, M.A., Schoenfeld, D.A. (1993). Evaluating the role of CD4-lymphocyte counts

64

Page 68: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

as surrogate endpoints in human immunodeficiency virus clinical trials. Statistics in Medicine, 12, 835-842.

50. Lin, D. Y., Fleming, T. R., Gruttola, V. De. (1997). Estimating the proportion of treatment effect explained by a surrogate marker. Statistics in Medicine, 16, 1515-1527.

51. Lipid Research Clinics Program. (1984). The lipid clinics coronary primary prevention trial results. I. Reduction in incidence of coronary heart disease. Journal of the American Medical Association, 251, 351-364.

52. Molenberghs, G., Geys, H., Buyse, M. (2001). Evaluation of surrogate endpoints in randomized experiments with mixed discrete and continuous outcomes. Statistics in Medicine, 20, 3023-3038.

53. Molenberghs, G., Buyse, M., et al. (2002). Statistical challenges in the evaluation of surrogate endpoints in randomized trials. Controlled Clinical Trials, 23, 607-625.

54. Nair NPV and the Risperidone Study Group. (1998). Therapeutic equivalence of risperidone given once daily and twice daily in patients with schizophrenia. Journal of Clinical Psychopharmacology, 18,103-110.

55. Neyman, J.S. (1990). On the application of probability theory to agricultural experiments. Essay on principles. Section 9, Statistical Science, 5, 465-480. (English translation of the Polish original in Roczniki Nauk Rolniczych Tom X, 1-51.)

56. O'Brien W. A. et al. (1996). Changes in plasma HIV-1 RNA and CD4+ lymphocyte counts and the risk of progression to AIDS. The New England Journal of Medicine, 334, 426-431.

57. Osteoporosis Prevention, Diagnosis, and Therapy. NIH Consensus Statement 2000, 17, 1-36. (http://consensus.nih.gov/2000/2000Osteoporosis111html.htm)

58. Ovarian Cancer Meta-Analysis Project. (1991). Cyclophosphamide plus cisplatin versus cyclophosphamide, doxorubicin, and cisplatin chemotherapy of ovarian carcinoma: a meta-analysis. Journal of Clinical Oncology, 9, 1668-1674.

59. Ovarian Cancer Meta-Analysis Project. (1998). Cyclophosphamide plus cisplatin versus cyclophosphamide, doxorubicin, and cisplatin chemotherapy of ovarian carcinoma: a meta-analysis. Classic Papers and Current Comments. Journal of Clinical Oncology, 3, 237-243.

60. Petrylak, D. P., et al. (2006). Evaluation of prostate-specific antigen declines for surrogacy in patients treated on SWOG 99-16. Journal of the National Cancer Institute, 98, 516-520.

61. Pharmacological Therapy for Macular Degeneration Study Group. (1997). Interferon α-IIA is ineffective for patients with choroidal neovascularrization secondary to age-related macular degeneration. Results of a prospective randomized placebo-controlled clinical trials, Archives of Ophthalmology, 115, 865-872.

62. Prentice RL. (1989). Surrogate endpoints in clinical trials: Definition and operational criteria. Statistics in Medicine, 8, 431-440.

63. Qin, L. et al. (2008). Assessing surrogate endpoints in vaccine trials with case-cohort sampling and the Cox model. The Annals of Applied Statistics, 2, 386-407.

65

Page 69: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

64. Qu, Y., Case, M. (2006). Quantifying the indirect treatment effect via surrogate markers. Statistics in Medicine, 25, 223-231.

65. Riggs, B. L., et al. (1990). Effect of fluoride treatment on the fracture rate in postmenopausal women with osteoporosis. The New England Journal of Medicine, 322, 802-809.

66. Rosen, C. J. (2007). The Rosiglitazone story - Lessons from an FDA advisory committee meeting. The New England Journal of Medicine, 357, 844-846.

67. Rosner, B., Spiegelman, D., Willett, W. C. (1990). Correction of logistic regression relative risk estimates and confidence intervals for measurement error: the case of multiple covariates measured with error. American Journal of Epidemiology, 132, 734-745.

68. Rubin, D. (1978). Bayesian inference for causal effects. Annals of Statistics, 6, 34-58. 69. Sarker, S., et al. (2002). Relationships between bone mineral density and incident vertebral fracture

risk with raloxifene therapy. Journal of Bone and Mineral Research, 17, 1-10. 70. Sarker, S., Qu, Yongming. (2007). Quantifying the treatment effect explained by markers in the

presence of measurement error. Statistics in Medicine, 26, 1955-1963. 71. Taylor, J. M. G., Wang, Y., Thiébaut, R. (2005). Counterfactual links to the proportion of treatment

effect explained by a surrogate maker. Biometrics, 61, 1102-1111. 72. U.S. Food Drug Admin. Cent. Drug. Eval. Res. (2008). Guidance for industry: Diabetes mellitus:

developing drugs and therapeutic biologics for treatment and prevention (draft guidance). (http://www.fda.gov/cder/guidance/7630dft.pdf)

73. U.S. Food Drug Admin. Cent. Drug. Eval. Res. (2008). Guidance for industry Diabetes mellitus - evaluating cardiovascular risk in new antidiabetic therapies to treat type 2 diabetes. (http://www.fda.gov/cder/guidance/8576fnl.pdf)

74. Volberding, P. A., et al. (1990). Zidovudine in asymptomatic human immunodeficiency virus infection: a controlled trials in persons with fewer than 500 CD4-positive cells per cubic millimeter. The New England Journal of Medicine, 322, 941-949.

75. Wang, Y. and Taylor, J.M.G. (2002). A measure of the proportion of treatment effect explained by a surrogate endpoint. Biometrics, 58, 803-812

76. Watts, N., et al. (2000). BMD changes explains only a fraction of the observed fracture risk reduction in risedronate-treated patients. Osteoporosis International, 11, S203.

77. Wittes, J., Lakatos, E., Probstfield, J. (1989). Surrogate endpoints in clinical trials: cardiovascular diseases. Statistics in Medicine, 8, 415-424.

78. 田中 司郎 (2008). Principal Stratification を用いた代替エンドポイントの評価- 進行性前立

腺癌試験データへの適用 -. 東京大学大学院医学系研究課健康科学・看護学専攻,平成

19 年度博士論文

66

Page 70: 代替エンドポイントの評価 - JPMA...代替エンドポイントには上述のように利点が存在するが,それが本当に代替エンドポイン トではない場合,即ち代替エンドポイントが真のエンドポイントに結びつかない場合,重大

代替エンドポイントの評価

資料作成者 タスクフォース 5

小川 幸男 日本イーライリリー株式会社(推進委員兼タスクフォースリーダー)

上原 秀昭 株式会社ツムラ

竹村 徹 帝人ファーマ株式会社

西田 朋由 ノボノルディスク ファーマ株式会社

監修

統計・DM 部会 部会長 東宮 秀夫 大日本住友製薬株式会社

同 副部会長 酒井 弘憲 田辺三菱製薬株式会社

同 副部会長 渡橋 靖 第一三共株式会社

同 副部会長 小宮山 靖 ファイザー株式会社

以上の資料作成に当たり,医薬品評価委員会 川口委員長ならびに本資料の査読を実施頂いた

査読担当の諸氏に感謝致します.

67