臨床試験における生物統計入門

国立保健医療科学院

技術評価部

飛田英祐

e-hida@niph.go.jp

治験と臨床試験

治験

薬事法・GCP

医師主導

企業主導

臨床試験

臨床研究

医師、製薬企業がスポンサーとなって承認申請を目的として実施される臨床試験

人を対象に行う試験で、薬物や

機器の介入が及ぼす効果・安全

性・動態を確認する

予防方法、診断方法、治療方法の改善等を目的として、人を対象に実施される医学系研究

RCT（randomized controlled trial）

臨床研究

病気の予防方法、診断方法、治療方法の改善、病気の原因や

病気への理解並びに患者の生活の質の向上を目的として、人

を対象に実施される医学系研究

臨床試験（治験を含む）、症例研究、調査研究

無作為化比較試験（RCT）新しい治療法の効果を評価するためにヒトに施される実験であ

り、も質の高い科学的エビデンスを提供する

新治療を受ける群＋別の治療を受ける群（Control）無作為割り付け（Randomization）文書による被験者の同意（Informed Consent）

対照群（Control）の必要性

なぜ、対照群を設定する必要があるのか？

新治療薬を投与し、その投与前後での状態を比較するだけで

はダメなの？

例えば、

何もしなくても自然治癒、自然軽快が起こる

薬剤に対する代謝や反応性などに個人差が大きく、個人差に比べ

て薬剤の治療効果が小さい

治療以外の要因による見かけの軽快・治癒

等のような状況では、新治療薬を投与して改善したとしても、そ

の原因が新しい治療の作用なのか他の要因の作用なのかが区別

できない。

その区別をつけるために、対照薬群を設けて比較する

無作為化の必要性

誰が新治療を受けて、だれが対照治療を受けるの？

理想的な比較は、同一人物での比較であるが、

同時期に両方の薬剤を投与できない

先に投与された薬剤の効果で軽快・治癒

同程度の症状に対する比較が困難

投与される薬剤の順番の影響

先行薬剤の持ち越し効果

などの理由により同一人物での比較は困難

集団としてよく似た人を集める（選択・除外基準）

偶然の要素に基づき、この集団をいくつかのグループに分

けることで、平均的に同一のグループを得る

無作為化の必要性

ランダム化（無作為化） randomisation被験者をいずれかの治療群にランダムに割り付ける

平均的に類似した初期状態を確保した集団に分けられる

選択バイアスの除去比較可能性（公平性）の保証

比較の妥当性

未知予後要因についてもバイアスを除去できる

事後的な調整（重回帰や

共分散分析など）では、

未知要因のバイアスの

除去はできない

群間比較試験の構図

臨床試験での対象集団

患者集団全体母集団

標本集団

治療群Ａ

治療群Ｂ

無作為抽出

選択・除外基準

ランダム割り付け

一般化可能性

プロトコルにおける主要な規定事項

試験目的の明示とその設定根拠

統計的仮説

（優越性、非劣性、同等性、用量反応関係の有無など）

対象集団の規定（選択／除外基準）

試験薬（被験薬、対照薬）

対照の選択（単群、実薬（標準治療）、プラセボなど）

試験デザイン

並行群間比較、クロスオーバー、要因試験など

ランダム化（層別、小化法、クラスターなど）

盲検化（二重盲検、単盲検、非盲検、評価者盲検など）

プロトコルにおける主要な規定事項

評価項目（主要評価項目、副次評価項目）

主要評価項目については、事前に1つの項目を選択

統計解析

解析対象集団（中止・脱落等の症例の取扱い）

解析手法

解析や解釈にバイアスが入ったり、無理な解釈にならない

ような対策

中間解析の実施

目標症例数とその設定根拠

必要小限の被験者数

少の被験者と資源で、

大の精度を確保し、

偏りのない、明確な結論

を得ること

偏り（bias；バイアス）

バイアスとは？

推定される治療効果と真の治療効果の間に、治療効果

および偶然誤差（random error）以外の要因による系

統的な差が生じること

選択バイアス

評価バイアス

割り付けバイアス

公表バイアス

バイアスが入ると治療法間の差は真の効果の差を反映

しない

つまり間違った結論・判断をしてしまう可能性が生じる

バイアスを回避するために

ランダム化（無作為化） randomisationもし無作為化していなければ

プラセボ群には相対的に軽い患者を、被験薬群には重い患者を割り付けるなど

選択、割り付けバイアスが生じる

盲検化 blinding or masking非盲検である場合

効果を実際以上に被験薬で高く、プラセボ群で低く判定する

被験薬での有害事象を因果関係ありと判断する

効果が不十分なのはプラセボ群だからと判断して中止する

など

選択、評価、処置バイアスが生じる

交互作用とバイアス

バイアスは治療効果に生じる系統的な偏りであり、治療効果

を正しく推定するために除去すべき

交互作用とは、治療効果が他の要因（施設、性別、年齢等）

により変わること

量的交互作用Quantitative Interaction要因のレベルが異なるとそれに応じて治療効果の大きさが

変わること

質的交互作用Qualitative Interaction要因のレベルの少なくとも一つにおいて治療効果の方向

までもが変わること

交互作用は除去すべきものではなく、その要因によって

治療効果が異なることを結論すべき

量的交互作用と質的交互作用

試験薬

対照薬

男性女性

試験薬

対照薬

男性女性男性女性

試験薬

対照薬

1）交互作用なし

2）量的交互作用 3）質的交互作用

解析対象集団

ITT（Intention-to-treat）の原則

予定された試験治療のコースを遵守したかどうかに係わらず、割り

付けられたグループのまま追跡され、評価され、解析されるべきで

ある

試験計画違反や中止の有無に係わらず、全ての無作為化され

た被験者を解析対象とする

FAS（Full analysis set）無作為化された全被験者から除くべき理由のある低限の被験者

を除外した集団

主要な登録基準を満たしていない

試験治療を一回も受けていない

無作為化後のデータが無い被験者

PPS（Per protocol set）プロトコルに適合した被験者の集団（逸脱、追跡不能などを除外）

脱落、中止した被験者を

除外してはならない！

脱落例の除外は重大な偏りをもたらす

解析対象集団

CONSORT Statement

臨床試験におけるデータの特性

計画していた通りに全ての観測時点で、全ての症例に対し

てデータが測定されることはまれであり、欠測・脱落データ

が必ず生じてしまう

欠測値を含む解析上の問題点

症例数の減少に伴う「推定精度の低下」

検出力の低下、信頼区間幅の広がり

症例の状態、特性に応じた選択的な欠測に伴う「バイアス」

選択バイアスが生じ、解析結果の乖離

欠測値の補完方法または解析方法は試験計画書で定める

終の観測値を用いる（LOCF)

既存のも悪い値（試験薬剤にとって不利な値）を用いる

脱落までの状態及び脱落理由などから総合判定をする

統計モデルの利用

LOCFの偏り

進行性疾患

・悪化による脱落のLOCFは相対的に

軽度悪化に偏る？

・後まで観測した結果より良い

悪化

自然経過

自然治癒傾向

・無効による脱落のLOCFは相対的に

不十分な改善に偏る？

・後まで観測した結果より悪い

悪化

自然経過

補完した値のもたらす偏りの性質を明らかにし、統計モデルを利用する

際にはモデルの妥当性を示すことは必須

1週 2週 3週 4週 5週 6週

15mg/日群（n）65

-6.0±5.0

-9.1±6.4

-10.8±6.3

-11.8±6.7

-12.6±6.6

-13.3±6.8

-6.2±4.7

-9.0±5.8

-11.2±6.0

-12.5±6.4

-13.4±6.8

-13.8±6.9

-5.0±5.5

-7.8±6.0

-9.4±6.9

-10.4±7.1

-11.6±7.6

-11.9±7.6

プラセボ群（n）70

-4.3±4.9

-6.5±6.0

-8.4±6.7

-9.5±7.2

-9.9±7.5

-10.4±7.5

1週 2週 3週 4週 5週 6週終了

（中止）時

-6.2±4.9

-9.6±6.0

-11.5±5.8

-12.4±6.2

-13.7±5.6

-14.6±5.9

-13.3±6.8

-6.3±4.7

-9.4±5.6

-11.9±5.5

-13.5±5.6

-15.0±5.5

-15.4±5.6

-13.8±6.9

-5.3±5.5

-8.7±5.2

-10.9±5.8

-12.4±5.7

-13.9±5.9

-14.8±5.5

-11.9±7.6

プラセボ群（n）68

-4.4±4.9

-6.8±6.0

-9.4±6.3

-11.6±6.8

-11.6±7.1

-12.3±6.8

-10.4±7.5

ミルタザピンのプラセボ対照用量検討試験うつ病患者対象のRCT；主要評価項目HAM-Dの変化量

平均値±標準偏差

FASにおける結果、欠測値については、LOCFにより補完

FASにおける観測値データ

主要・副次評価項目

主要評価項目(primary endpoint)試験の主要な目的に直結した医学的にも裏付けられた

客観的評価が可能な説得力のある証拠を与え得る項目

真のエンドポイントか代替エンドポイントか

試験の実施可能性

試験期間

必要症例数

などの試験の重要な特性に関連

評価時点も含めて検討することが必要

副次評価項目(secondary endpoint)主要評価項目以外の評価項目

評価項目と評価時点

評価する時点についても事前に決めておく必要がある

（評価時点を含めた主要・副次評価項目を設定すべき）

比較方法

優越性（superiority）試験薬が対照薬よりも優れることを示す

非劣性（non-inferiority）試験薬が対照薬より、ある一定の値Δ以上に劣らない

ことを示す

Δ：非劣性マージン

同等性（Equivalence）試験薬と対照薬の

効果が異ならない

（同等）ことを示す

-Δ Δ0

δ=試験薬の効果－対照薬の効果

試験薬が優れる

統計的仮説

仮説（優越性）；

帰無仮説：「A治療群の効果＝ B治療群の効果」

対立仮説：「A治療群の効果 ≠ B治療群の効果」

仮説（非劣性）；

帰無仮説：「A治療群の効果 ≦ B治療群の効果－Δ」

対立仮説：「A治療群の効果＞ B治療群の効果－Δ」

高い値ほど効果が高い場合

Δ：非劣性マージン

「効果」：

平均値（母平均）、有効率（母比率）、○年生存率（ハザード）など

帰無仮説を有意水準α（両側5%、片側2.5%）で検定する

統計手法の基本的な一例

目的連続変数 2値データ生存時間

分布の記述ヒストグラム、

箱ヒゲ図、散布図

ヒストグラム、

分割表

生存曲線

（Kaplan-Meier法）

要約統計量平均値、中央値、分散、

SD、SE、パーセント点、

相関係数

頻度、一致度、

相関係数

○年生存割合、

中央生存期間

検定t検定、分散分析、

Wilcoxon検定

χ2検定、

Fisher正確検定log-rank検定

検定（調整）共分散分析Mantel-Haenszel

検定、

logistic回帰分析

層別log-rank検定、

Cox比例ハザード

モデル

標準偏差（SD）と標準誤差（SE）

標準偏差（Standard Deviation；SD）

データのバラツキの大きさを表す指標のひとつ

標準誤差（Standard Error；SE）データではなく推定値のバラツキの大きさを表す指標のひとつ

データを要約する際に

生データ（個人個人のデータ）のバラツキを表したいのか

ある推定量のバラツキ（推定精度）を表したいのか

視覚的な表示例

塩酸セルトラリンのプラセボを対照としたランダム化治療中止試験二重盲検期のHAM-D合計点の推移

塩酸セルトラリンのプラセボを対照としたランダム化治療中止試験二重盲検期の再燃（HAM-D≧18点、全般改善度「不変以下」）までの期間

解析方法の例_生存時間解析（Kaplan-Meier）

目標症例数の設計

なぜ症例数を見積もる？

統計学的有意差検定で治療効果が有意とならなかった

場合の解釈として

治療の真の効果が期待されたほどではないのか？

治療の真の効果は期待された程度にあるが、例数が少な

かったので有意にならなかったのか？

の区別がつかない。

倫理的には、多すぎても少なすぎても問題であり、必要な

小限の症例数をリクルートすべき

計画した臨床試験デザインでの実施可能性の検討

具体的な計算方法については、「無作為化比較試験」参照

症例数設計における検討事項

解析対象集団は？

脱落、欠測データの取扱い

エンドポイントは妥当？

想定される群間差の見積もりは妥当?（臨床的意義、達成可能性）

ベースラインおよび対照群の成績の想定は妥当?過去の試験成績の妥当性

集積見込みは?試験実施期間（症例登録期間）

中間解析の有無は？

センスの良い試験デザイン

センスの良いデザインとは

エンドポイント

無作為化

交絡因子

バイアス

を十分に考慮したセンスある研究デザインが研究成功のための必須条件

計画段階から経験のある生物統計家との協力・議論が必要

統計家の臨床的知識

医師の統計学的知識

科学院における研修の案内（生物統計学）

国立保健医療科学院技術評価部では、生物統計学の

教育プログラムとして以下のコースを開講しています。

専門課程生物統計分野（1～3年間）

インターネットによる遠隔教育「生物統計学」（3ヵ月）

短期研修

「臨床試験に係わる臨床医向け生物統計学研修」

プロトコルが作成できる即戦力となる臨床医の育成

期間：1ヵ月（科学院での講義6日間+遠隔教育）

http://www.niph.go.jp/entrance/h22/index.html

参考図書

これからの臨床試験（1999）；椿広計、藤田利治、佐藤俊哉編、朝倉書店

学会・論文発表のための統計学（1999）；浜田知久馬著、真興交易医書出版部

臨床研究デザイン（1996）；折笠秀樹著、真興交易医書出版部

宇宙怪人しまりす医療統計を学ぶ（2005）；佐藤俊哉著、岩波書店

医学統計シリーズ

統計学のセンス（1998）；丹後俊郎著、朝倉書店

無作為化比較試験（2003）；丹後俊郎著、朝倉書店

新版医学への統計学（1993）；古川俊之監修、丹後俊郎著、朝倉書店

臨床試験ハンドブック（2006）；丹後俊郎・上坂浩之編、朝倉書店

医学統計学の事典（2010）；丹後俊郎・小西貞則編、朝倉書店

臨床試験における生物統計入門 -...

Documents

臨床試驗的研究設計 2 hr

table of contents...1.2.3 dcv/asv/bcv fdc..... 13 1.3...

8 臨床試験の試験成績等の目次...221 8...

総説臨床試験デザイン · 2014-11-17 ·...

第13回がん臨床試験のcrcセミナー...

臨床試験の被験者レベルデータの共有ªぜ今ctdsか？...

臨床心理学的講義法に関する考察 :...

臨床試験データ管理システム demandr6 -...

m10 - jpmam10: bioanalytical method validation type of...

ヒト初回投与試験(fih 試験)を含む...

第4 部非臨床試験報告書（薬理試験）...1.12...

臨床試験のモニタリングと監査に関する...

生醫所簡介homepage.ntu.edu.tw/~scoffice/files/生醫所簡介_20170823.pdf ·...

臨床試驗的研究設計簡介 pro tocol design

科学技術振興調整費成果報告書 - jst ·...

6.臨床試驗的研究設計簡介署中

ara-aによる単純ヘルペスウイルス脳炎治療の...

in-ペンテトレオチド (mp-1727) 第 iii...

非臨床安全性試験、glp -...

4．臨床に関する資料...

臨床試験における 生物統計入門 -...

臨床試験における生物統計入門 -...