rによる医療統計　第1部

Rによる医療統計 ver 2016.4

梶原浩太郎

第1部医療統計の基礎知識

1

ユニバーサルデザイン

可読性の高いユニバーサルフォント

色盲でも見やすい配色

直感で理解しやすいピクトグラム

色々考えて作ってます

1. なぜ，医療統計が必要か

2. 研究デザインについて

3. 医療統計のキホン

4. 医療統計学記述統計

5. 〃推測統計

6. 〃その他

統計と医療

しかし，医療統計は，

① 普通の統計より難しい

② 多くの医師は知らない

統計医療

あることが偶然起きるかどう

か，確率で示す

検査の精度・治療の奏効率を

確率で考える

統計と医療は，確率を扱う点で似ている

EBM

E・B・M !! E・B･･･

統計を知らずして，EBMを語ることなかれ

EBM

① 目の前の患者さんの診療における

臨床的問題点を探す

② それを解決するための文献を探す

③ その文献の妥当性，信頼性，結果，臨床的意義を

検討する

④ 患者さんに説明し，方針を決める

まずは臨床的問題点

日常診療のギモン

（Clinical Question）

この新薬は，どれくらい効くの？

今まで慣例でやってきたけど、これって意味ある？

偉い先生はああ言っているけど、本当？

製薬会社はこう宣伝しているけど，嘘じゃないの？

新しい治療法を思いついたけれど，効果があるの？

臨床的問題点は，日常診療のギモンからでもOK

Evidence

医療統計

研究

Research Question

Clinical Question

システマティック・レビュー

メタアナリシス

ランダム化比較試験

非ランダム化比較試験

コホート研究

ケースコントロール研究

症例報告

専門委員会や権威者の意見

エビデンスレベル

高いエビデンスレベルには，医療統計は必須

間違った統計法で発表する医師

査読で指摘せずに載せる雑誌

商業ベースの国内誌

企業の宣伝目的の委託研究に多い

でも･･･

統計処理を，製薬会社任せ？

統計の不勉強や，製薬会社との癒着は，

時に「不勉強だった」では済まない事案

を引き起こす

臨床試験の弊害

参加する患者さんは，原則メリットを

受けられない．

参加する患者さん・医療者は費用・時間・

労力などを要する．

統計の間違い・いい加減な試験デザインは

参加してくれる患者さんに失礼！

医療スキャンダル

D G Altman

" What, then, should we think about researchers who use

the wrong techniques (either wilfully or in ignorance), use

the right techniques wrongly, misinterpret their results,

report their results selectively, cite the literature selectively,

and draw unjustified conclusions? "

"Yet numerous studies of the medical literature, in both

general and specialist journals, have shown that all of the

above phenomena are common. This is surely a scandal." (BMJ 1994; 308: 283)

統計は学生時代に習ったきりだし

そもそも数学専門じゃないし

臨床で忙しいし

本を読む時間はないし

数式も分からないし･･･．

自分もそう．

まだまだ分からないことも多いけれ

ど，一緒に勉強していきましょう．

医療統計学のつまずき所

用語がややこしくてバラバラ

数式が理解できない

周りに教えてくれる人がいない

用語統一

理解は後

まずは使い方

slideshareとか

医療統計学を学ぶメリット

臨床試験が組めるようになり，

日常臨床のギモンを，自分の力で解決できる

他の患者さんを助けるエビデンスになる

論文の読み方が分かるようになり，

エセ医学や統計を悪用する人に騙されにくくなる

統計？

• 犯罪者の98％はパンを食べている

• パンを日常的に食べて育った子供の約半数は，テストが平均点以下

• 暴力的犯罪の90％は，パンを食べてから24時間以内に起きている

• パンは中毒症状を引き起こす．被験者に最初はパンと水を与え，後に水

だけを与える実験をすると，2日もしないうちにパンを異常にほしがる

• 新生児にパンを与えると、のどをつまらせて苦しがる

（2chコピペより引用）

似たようなデータは，身の回りにあふれている

意味のあるデータか，ないデータか

• 宝くじ売り場の当選金額

• 占い

• ダイレクトメールの広告

• 営業社員の持ってくるデータ

統計学を学ぶことは，自身の身を守ることにもなる





5. 〃推測統計

6. 〃その他

研究デザイン

• 観察研究(observational study)

データ収集のみ

• 介入研究(interventional study)

治療などの介入行為をして，その影響を調べる

いずれも「人を対象とする医学系研究に関する倫理指針」に従う

観察研究

横断研究(cross-sectional study) ：1回だけの調査

縦断研究(longitudinal study) ：複数回の調査

ケース・コントロール研究(case-control study)

病気がある人は，過去にある要因があるか．

肺癌患者は喫煙歴があるか，など．

クロスセクショナル研究

ある時点の調査．一斉アンケートなど．

コホート研究(cohort study)

ある要因がある人が，病気になるか

喫煙者が肺癌になるかどうか，など．

観察研究

• 観察の時間の流れ

前向き prospective これからのデータで

後ろ向き retrospective 今までのデータで

• 観察の方向性

順行forward 曝露 → 疾病発生

逆行backward 曝露 ← 疾病発生

（山崎力, 小出大介. 臨床研究いろはにほ. ライフサイエンス出版, 28, 2015.より引用）

横断研究

• 追跡しなくて良い分，比較的経費がかからない．

• 曝露状況を調べるのは調査時点であり，さかの

ぼって調べるよりは妥当性が高い．

• 曝露状態が，疾病発生の原因なのか結果なのか

分からないときがある．（喫煙 → 肺癌 → 禁煙の流れを見たときに，禁煙が肺癌のリスク因子に見

えてしまうことがある）

容易だが，因果関係を解明するには弱い

コホート研究

• 調査開始時点で疾病が発生していない集団を，曝露の有無

で分けて疾病が発生しないか観察していく

• 順行，前向き

• 追跡するのに，労力，時間，費用を要する

• 曝露情報の妥当性が高い

• 追跡中にdropoutしてしまうと疾病発生情報の妥当性が下が

る．稀な疾患には向かない．

• 対照群は同じ観察集団から選ぶ方法や，一般集団を対象と

する方法がある．

大変だが，因果関係を解明するのは強い

回顧的コホート研究

後ろ向きコホート研究

• 調査開始時までのデータベースを使って，調査

開始時（または開始後）の疾病発生を調査する．

• 順行，後ろ向き

• 調査開始は曝露が起こった後

• 時間を比較的要さない

既存のデータベースを作った先人の力を借りるコホート

ケース・コントロール研究

症例対照研究

(case-control study)

• 現在の疾病を発生している群と，発生していない群で過去

の曝露を比較する．逆行，後ろ向き

• 短期間でできる

• 曝露情報は過去のものなので妥当性が劣る．稀な曝露には

向かない．

• 稀な疾患に向く

• 対照群は同一の医療機関を受診した他疾患の患者や，一般

集団から選ぶ方法がある．

ケースコントロール

vs

コホート

コホートが最高という派閥と，

ケースバイケースという派閥が

ある

介入研究

• 対象者間比較 (inter-subjective comparison)

A薬を使う群と，B薬を使う群に分ける

A薬 B薬

A薬 B薬

• 対象者内比較 (intra-subjective comparison)

クロスオーバー研究 (cross-over study)

同じ患者でA薬を使い，薬の効果が切れた後にB薬を使う．

必要症例数が半分で済むが，エンドポイントが死亡などだと使えない

研究デザイン

（山崎力, 小出大介. 臨床研究いろはにほ. ライフサイエンス出版, 27, 2015.より引用）


• 「究極の後付け解析」と称される．ある条件を

決めてデータを抽出し，フォレストプロット

forest plotを作る．

• 研究間での患者背景の違いや，negative dataが

入りにくくなる出版バイアスに注意．

システマテックレビュー

• 系統的に論文を集め整理した総説．コクランレ

ビューなど．


A 有効無効有効率

治療群 9 1 90%

対照群 17 3 85%

B 有効無効有効率

治療群 3 17 15%

対照群 1 9 10%

有効無効有効率

治療群 12 18 40%

対照群 18 12 60%

治療群の方が有効率が高いはずなのに？

～シンプソンのパラドックス～

データを

そのまま足し合わせることではない


サンプルサイズが多い試験の方が，偶然誤差による

ばらつきは小さい.

⇒ サンプルサイズが大きい試験に，より重みを置く

それぞれの試験の効果量を，サンプルサイズの大きさ

によって重み付け

効果量を統合していく

メタアナリシスの解析方法

固定効果モデル

fixed effect model

変量効果モデル

random effect model

全ての研究の母集団は同じと考える研究の母集団は異なると考える

ex) EGFR-TKIが効きやすい東洋人の母集

団，重症度の高い母集団

• 効果が過大評価されやすい

母集団に違いがあって効果が出ているよう

に見えることがある

• 他の母集団に結果を当てはめるこ

とができない

• 効果が過小評価されやすい

• より普遍的な結果と考えることが

できる

メタアナリシスのバイアスの評価

• 一次研究でのバイアス

• メタアナリシスを行う過程でのバイアス

質が低い一次研究

使わない

感受性分析（質が低い研究を入れる場合と入れない場合で比較）

選択バイアス

言語バイアス･･･negative dataは母国語の雑誌に多いかもしれない

データベースバイアス･･･どこを選ぶか

出版バイアス

negative dataは出版されにくい

ファンネルプロット，Rank correlation test，Linear regression testで評価

メタアナリシスの異質性の評価

異質性とは，複数の臨床研究で結論が一致しないこと

• 元の臨床研究のバイアス

• 偶然誤差

• 研究デザイン・患者背景の違い

異質性がない目安

• Cocran's Q で P> 0.05～0.1

• I2（I統計量）で25～50%以下

ファンネルプロット funnel plot

• funnelは「漏斗」の意

• X軸に効果量，Y軸に研究の精度

頂点はサンプルサイズの大きい研究が，

底辺はサンプルサイズの小さい研究でばらつく

対称の三角形になれば出版バイアスはない

95%CIが基準線をまたいでいない試験は6つあるが，全体で見ると差はある

Maloneyの試験は外れているので，random

effect modelでは重み付けが軽くなっている

modelによる結果の違いはない

研究の異質性はあり

⑯を除くと異質性はなくSMDは

Fixed-effect model 0.22

Randomeffect model 0.24

⑯㉘が重みが大きい

フォレストプロット

（JAMA Intern Med; 175: 1301-9, 2015. ）

非劣勢試験

• 試験薬が対象薬に比べ，有効性以外の利点

がある場合，有効性が劣っていないことを

証明する．

• per protocolanalysisがよい．片側検定でも

良い．

どの程度の非劣性マージンかは解析者に決められることと，そもそも非劣性ができる

だけの他のメリットがあるのかなど，問題の多い試験とされています．

里見先生曰く，「いつ爆発するかわからない不発弾（「誰がそんなマージンを許容す

ると決めたんだ」という患者団体からの苦情）を抱えた試験」だそうです

非劣勢試験

臨床的に許容できる差（非劣勢マージンΔ）を決め，差の95％

信頼区間の下限値が－Δよりも大きければ，非劣勢がある．

（奥田千恵子．親切な医療統計学．金芳堂 , 194, 2014.より引用）

非劣勢試験

既存薬新規薬

必要な下駄が10cmくらいだったら，君の身長は彼に劣っていないと

考えて良いよ･･･ほんとに？





5. 〃推測統計

6. 〃その他

医学統計の3大意義

1. 現状の把握

2. 予測する

3. 因果関係を示す

現状の把握

• 喘息死は減ってきているか

• 気管支喘息はどのようなサブタイプに分かれるか

予測する

• この検査が陽性のとき，病気の確率は

• この薬が効く確率は

• 推定予後は

因果関係を示す

• タバコを吸ったら肺癌になりやすくなる

• この薬を使ったら．治る確率が高くなる

• 曝露により疾病のリスクが上がるか（疫学）

最も難しいのは，因果関係

非常に難しいので

因果関係の話を中心に

ある人がある薬を飲んだ

効く？効かない？

テレビで，

「○○を使って体重が減るか試してみまし

た．その結果はなんと･･･」

臨床試験・統計ではありませんが，どこが

問題？

統計としての問題 • p値がない

• 検出力が低い

･･･などなど

試験デザインとしての問題 • ダイエット意識が強い集団が対象

• 盲検化していない

･･･などなど

バラエティなので，実際の統計や科学的には全く正しくなくても，視聴者が楽しめれば

（そして売り上げや視聴率が上がれば），それで良いのでしょうが，実際の臨床試験はそ

んなに簡単にはいきません．

因果関係を示すのは，たやすいことではない

コントロール（対照群）

「ある人がある薬を飲んだら効くか？」は，

時間を戻したり未来が見えないと無理．

代替案として，「飲んだ」「飲まなかっ

た」という2群を，臨床試験で比べること

で，擬似的に未来を予測しようとしている

きりかえ式タイムスコープが開発されれば，分かるかもしれ

ませんね．（藤子・F・不二雄. ドラえもん; 27: 65-74, 1983.）

因果関係

原因と結果の関係（因果関係）を示したい

原因結果

薬を飲んだら治る

タバコを吸ったら肺癌になる

因果関係

強固な関連原因と結果に密な関連

一致した関連他の集団でも再現性がある

時間的な関係原因が結果よりも先

量反応関係原因の量が多いほど結果が多い

整合性のある，もっともらしい関連生物学などで機序を説明できる

治療なし

治療あり

結果

結果

この差を

効果と考える

「薬を飲んだ ⇒ 効く」という因果関係を考えると，

処置群と対照群で，結果に影響を与える背景が同じ

かどうか？同じであれば，

効果＝薬を飲んだら効くという因果関係

因果関係を示すために

• 正しくデータを観測する

バイアスを除く

• 原因と結果の関係を正しく評価する

交絡を除く

真の値 true value

1個体の真の値

Aさんの現在の身長は，175.216165655･･･cm．値としてはあ

る値があるはずだが，測定器の限界などで完全には測ること

ができない．

集団の真の値

日本人にB薬を投与すると，2週間後に体重は平均？kg減る．

値としてはある値があるはずだが，現実的に日本人全員を同

時に量ることはできない．

真の値は，確かに存在するが推測するしかない

誤差

真の値と測定値の差のこと．

機械の精度，測定する時間，個人の体質による誤差など

ランダムに起きる偶然誤差は統計学で解析できるが，真の

値よりもどちらか一方に偏って起きるバイアス（系統誤

差）は統計ではどうにもならない．

（奥田千恵子．親切な医療統計学．金芳堂 , 13, 2014. より引用）

どうにもならないバイアスは，試験デザインで除く

バイアス

• 選択バイアス

入院患者を対象とすると，重症例や合併症が多い

臨床試験の参加者は，アドヒアランスが良い

健康教室の参加者は，健康への興味が大きい

喫煙者への喫煙アンケートの回収率は悪い

対照試験で，群によって脱落者が異なる（脱落バイアス）

• 情報バイアス

悪い結果は良く覚えている

嫌な質問には答えない

プラセボ効果

バイアス

• 出版バイアス

negative dataは出版されにくい

negatice dataの論文は母国語に多い

国際誌Aに落ちた国内誌Bに落ちた商業誌でいいや

試験デザインで

いかにバイアスを除くか？

基準

• 取り込み基準（inclusion criteria）誰でも同じようなサンプルが集められる取り込み基準が良い．

• 除外基準（exclusion criteria）除外基準を多くすると内的妥当性が上がるが，外的妥当性は下がり，サンプルサイズが集められなくなることもある．

一般化可能性・比較可能性

一般化可能性（外的妥当性）

研究対象以外の人にも結果を適用できる可能性．普遍性．

普遍性がないと，臨床試験の結果を目の前の患者さんに適

用できる可能性が低くなってしまう

ごく一部の限られた患者さんでは

このようなデータでした

一般化可能性・比較可能性

比較可能性（内的妥当性）

結論が研究結果から適切に導かれたものか．再現性．

再現性のない試験は，確からしくない．

メンデルは，データが綺麗すぎるという指摘もあるが，

再現性があるので評価された

ランダム割り付けで，比較可能性↑

母集団から無作為抽出で，一般化可能性↑

比較可能性と一般化可能性は同時に上げられない

エンドポイント（評価項目）

真のエンドポイント

重篤な疾患，死亡などの臨床転帰．

これを目標にしたいが，結果が出るのに時間がかかる，頻

度が少ないため症例収集が難しい．

代理エンドポイント

検査値や画像など，手に入りやすいが，真のエンドポイン

トとどれだけ相関するかが問題となる．


一次エンドポイント

1つの臨床試験で検証できる唯一のもの．これを目標に臨

床試験が組み，症例を集める．

二次エンドポイント

せっかく観測された貴重なデータで他の情報が得られない

か検証するもの．

もともとこれを目標に組まれた臨床試験ではないため，参

考程度にしかならない．もし有意な結果が得られたら，次

の臨床試験の参考にする．

サブグループ解析は階層をつけた解析で，結果の解釈は二

次エンドポイントに近い．


ハードエンドポイント

死亡，発症など基準が明らかなもの．医師の作為が入らない

と考えられるもの．

ソフトエンドポイント

入院や，画像読影など，医師の作為が入りうるもの

複合エンドポイント

いくつかのエンドポイントを合わせて解析する．発症率の少

ないイベントを解析しやすくなる一方で，ソフトエンドポイ

ントの作為が入りやすくなるリスクがある．

セカンダリエンドポイントが強調されやすい有名な論文

• Woodcock A, et al. Efficacy and safety of fluticasone

furoate/vilanterol compared with fluticasone propionate/salmeterol

combination in adult and adolescent patients with persistent

asthma: a randomized trial. Chest. 144: 1222-1229, 2013.

• 複合エンドポイント，データのクリーニングミス，多数のセカンダ

リエンドポイント･･･の論文は言うまでもなく撤回されました．

この論文自体は，デザイン・内容とも良い論文だと思っています．

論文のなかで一部に小さく書いてある内容を誇張して言う人に，問

題はないのかと聞きたくなるところです

PROBE法（prospective randomized open blinded-

endpoint）

• 前向き，ランダム化，盲検化はエンドポイント

の判定のみの試験デザイン

• 割り付けを知らない解析者がエンドポイントを

判定･･･でも，医師や患者は割り付けを知ってい

るので，ソフトエンドポイントでバイアスが入

りやすい．

某臨床試験で，入院によるエンドポイントの差が大きかったというものです

盲検化

こちらの群は，

頻繁に検査して

薬を追加しよう･･･

こちらの群の薬じゃ

効かないと思うな･･･

盲検化

被験者，医師，データ解析者が介入試験の割り付け

群を知ってしまうと，治療態度や内容に影響してし

まうかもしれない．

これを避けるための盲検化（blinding）．

Double-blindは，被験者と医師への盲検化．

盲検化のために偽薬（プラセボ）を使うこともある．

偽薬（プラセボ）

薬がない方の群に

なってしまったから

効かないに違いない

薬がある方の群になったから

効くに違いない！

偽薬（プラセボ）

プラセボ効果を避けたり，盲検化のために

偽薬（プラセボ）を使うこともある．

臭い，外観，カプセルの透光性，明らかな

vital変化などプラセボが作りにくいことも

ある．特に漢方薬．

皇居ランナーは，年収が多いこれは因果関係？

皇居

ランナー

年収が

多い

じゃあ，走ったら年収上がるの？

原因と結果に見えるものは，

本当に「原因」と「結果」？

「真の」因果関係

皇居

ランナー

年収が

多い

皇居周辺の

大企業に勤務

ランニングする

だけの生活的余裕

交絡因子

• 原因と結果の因果関係（疫学では曝露と疾病発生）を考える

にあたって，交絡因子が「研究目的とする原因」と「結果」

の両方に影響することで，あたかも「研究目的とする原因」

と「結果」に因果関係があるように見えてしまう（疑似相関

が現れる）のが交絡．

原因結果

交絡因子

交絡因子

• 交絡因子は，原因と結果の中間変数ではない．

• 交絡因子は原因によって起きるわけではないが，

原因と関連はある．

皇居

ランナー

年収が

多い

皇居周辺の

大企業に勤務



中間変数

原因結果

• 結果変数（従属変数）：結果

• 目的変数（独立変数）：原因

• 共変量：目的変数と結果変数のどちらにも関連のある変数．

• 中間変数：目的変数から影響を受け，結果変数に影響を与える変数

共変量の影響を除いて，目的変数の結果変数への影響を調べる

交絡因子を，変数で説明するときに共変量と言います．

（星野崇宏. 調査観察データの統計科学. 岩波書店, 7,

2009.より引用）

統計で因果関係を示すために

正しくデータを観測する

バイアスを除く

原因と結果の関係を正しく評価する

交絡を除く

交絡を除くために

多変量解析で説明変数に加える

背景を揃える

ランダム化，層別解析，マッチング

ランダム化は未知の交絡も除けるが，それ以外の方法は何が

交絡なのかを予測しないと解析できない．

層別解析の弱点

nが足りなくなる

因子B

アウトカム

アウトカム

因子B

因子Aで

層別

多変量解析のメリット

因子A

因子B

因子C

1つのアウトカムに対し，多数の因子を同時に評価できる．

単変量解析では分からない因果関係を見つけることができる．

皇居

ランナー

年収が

多い

皇居周辺の

大企業に勤務



これが因果関係として，解析でどのように見えるか？

単変量解析で見ると多変量解析で見ると

皇居

ランナー

年収が

多い

皇居周辺の

大企業に勤務



皇居

ランナー

年収が

多い

単変量では因果関係が見えない

皇居周辺の

大企業に勤務



皇居ランナーであることが年収が多い原因に見える

皇居ランナーであることは年収が多い原因ではなく，他に原因がある．

単変量解析で見ると多変量解析で見ると

皇居

ランナー

年収が

多い

皇居周辺の

大企業に勤務



皇居

ランナー

年収が

多い

単変量では関連がないように見えて

多変量で姿を現す因子（抑制変数）がある

皇居周辺の

大企業に勤務



皇居周辺の大企業に勤務は年収が多い原因には見えない

皇居周辺の大企業に勤務は年収が多い原因である

共分散分析で見ると

皇居

ランナー

年収が

多い

皇居周辺の

大企業に勤務



ちなみに

共分散分析では因子同士の関係も分かる

多変量解析は因果関係を示すのに良い方法の1つ

ランダム化・マッチング

ランダム化

ランダム割り付けマッチング

• 介入研究で用いる

• 調べる要因以外の背景因子が公

平になるように，群をランダム

に割り付ける

• 未測定や未知の特性もランダム

化できる

• 倫理的・社会的にランダム化で

きないことがある

• ケースコントロール研究で用い

る

• 解析者が揃える背景因子を決め，

データを組み合わせる

• 解析から除外されるデータがあ

る

• 危険因子をマッチングさせると

危険因子として観察されない

（オーバーマッチング）

ランダム化・マッチング

ランダム化

ランダム割り付けマッチング

例）

年齢，性別，疾患のサブタイプ，

重症度・・・

その他全てまとめてランダム化

例）

年齢，性別，疾患のサブタイプ，

重症度は同じになるもので，2群

を組み合わせる．

その他の因子は，揃えられない

（主要な因子を見落としたり，

データがないと結果が大きく異な

る）

ランダム化は均一とは限らない

大数の法則

数多くの試行を繰り返すことで経験的確率と理論的確率が一致する．

例）厳密に作られたサイコロで1が出る確率は1/6だが，10回や20回振っ

ても，期待値通りに1は出ない．しかし，何千，何万回と回数を増やせば，

1/6に近づく．

n数が少ないと，偶然誤差が大きくなりやすい

• 患者を1:1で振り分けても，n数に違いが出やすい

• 振り分けた患者背景に差が出やすい

臨床試験のnは少ないので，ランダム化でも患者背景が均一に

ならないことは多々あります．患者背景の比較が必要です．

ランダム化できないとき

現実の制約

n数が現実で少なすぎるとき

法律などで制限されているとき

倫理

どちらかの群が明らかに有害である場合はランダム化できな

い（試験が組めない）

ランダム割り付け法

均等ランダム割り付け（単純ランダム割り付け）

乱数で無作為に割り付ける．簡単．ただし必ずしも同数にはならない．

ブロックランダム割り付け

一定人数ごとのブロックをつくり，その中で無作為に割り付ける．

均等に割り付けやすい．

層別ランダム割り付け

性別，年齢などの要因で対象を層別に分け，各層内で無作為に割り付ける．

最小化法

被験者を登録する毎に，性別，年齢などの要因や，均等になるよう割り付

ける．ランダム化が強くないが，均等に群を割り付けできる．

我々は小規模なので，簡単な単純ランダム化法を使っています

ランダム化の手段

患者ID，Excelの乱数，乱数表，封筒法，サイコロなど

色々な方法があるが，「事前にどちらの群になるか予測で

きるのは良くない」とされる．

個人的にはカジノで使われるものと同じプレシジョンダ

イスを目の高さから自然落下で使っています．もちろん，

ギャンブラーのように好きな目を出すことはできませ

ん･･･（高橋和希. 遊☆戯☆王 7巻. 集英社, 1998. さいふうめい，星野泰視. 哲也. 講談社,

1998.）

マッチングの手段

完全マッチング

患者背景（例えば年齢・性別・重症度など）が一致する患者同士をマッチ

ングする．共変量が多いとマッチングが困難になり（次元の呪い），マッ

チングできない例による検出力低下（サポート問題）がある．

傾向スコアマッチング Propensity score matching

例えば，患者背景から処置群になる確率を傾向スコアとして，傾向スコア

が近いもの同士をマッチングさせる．

簡便だが，未知の背景因子を揃えられない，サンプルサイズの計算が困難．

欠損値で解析できない症例を減らす多重補完法multipul imputationがある．

傾向スコアマッチングでは，完全マッチングと比べて1次元になるので次元の呪いから

解き放たれ，サポート問題も減ります．構造方程式モデリングと比べ，モデル設定を行

わなくても良いこと，モデルの誤設定に強いのが特徴です．

傾向スコア

Propensity score

• ある対象者が，共変量の値のもとで処置群に割り当てら

れる確率．

• ロジスティック回帰分析で求められることが多い．

• 例えば，「肺炎の際にシベレスタットを使うかどうか，

その確率は何によって決まっているか？年齢，性別，

APACHEⅡスコア，肺炎の病型，腎不全，･･･これらの患

者背景のとき，シベレスタットが使われる群になる確率

は○○%」と考える．

統計学的には「第i 被験者の共変量ベクトルをx i ，割付変数の値をz i とするとき，

群1へ割付られる確率e i = P r（z i = 1 | x i ）を第i 被験者の傾向スコアという」で

す

傾向スコアの

解析に必要な共変量 • 理論上調整が必要な変数､または先行研究で関連が指摘

されている変数．下図の(a)．中間変数は除く．

一流紙に掲載された論文で，どのような共変量が使われたかをまとめた表があり

ます．(星野崇宏, 岡田謙介.傾向スコアを用いた共変量調整による因果効果の推

定と臨床医学・疫学・薬学・公衆衛生分野での応用について. J.Natl.Inst.Public

Health, 55:230-243, 2006 )

（星野崇宏. 調査観察データの統計科学. 岩波書店,

119, 2009.より引用）

強く無視できる割り当て

• 回帰分析，Propensity Scoreでは「強く無視できる

割り当て」の条件を仮定する．

• 「処置群と対照群のどちらに割り振られるかは，

共変量だけで予測できる」という仮定．

• この仮定が成り立っているか直接証明する方法は

ない．間接的に示す方法として，c統計量＞0.8．

統計学的には，「割り当てはあくまで共変量にのみ依存し，結

果変数には依存しない」という仮定です．

傾向スコアによるマッチング例えば，年齢や基礎疾患により薬剤を使用している確率を傾向スコアと

して，傾向スコアが近いもの同士をマッチングさせる

マッチできない症例は，調査労力がかかっていても解析できず．

結果が誰にでも適応できる可能性（一般化可能性・外的妥当性）が下がる

（新谷歩. 今日から使える医療統計. 医学書院,111, 2015.より引用）

傾向スコアの逆数によるマッチング

少ないスコアの部分の1つのデータを，まるで複数のデータのよう

に扱うことでデータ損失を減らす．

一票の格差ってやつです

（新谷歩. 今日から使える医療統計. 医学書院,112, 2015.より引用）

• intent to treat（ITT）解析

ランダム割り付けを重視．中途脱落は治療効果なしとして初めに割り付け

た群で解析する．脱落例は脱落直前の値や，最悪のアウトカムとみなして

計算する．ITTが良い．

• per protocol分析（PP）解析

試験を完遂した例のみを解析．ランダム化が崩れ，治療効果を過大に評価

しやすい．

• Full analysis（FAS）解析

全く薬を服用していない患者や研究開始後のデータが全くない場合など，

よほど極端な例のみ除外．

効果は出たけど中途脱落が多い薬は，何か理由があって脱落しており一般化妥当性が低

いと考えられます．また，per protocol分析を悪用すると，都合の悪いデータを消して，

効果を過剰に評価することができてしまいます．

脱落例の扱い

ITTの向き・不向き • per protocolは，ランダム化が崩れることによる差が

出やすい

• ITTはランダム化を優先するので，差が出にくくなる．

• 差が出ることを目標にする通常の試験にはITTが良い．

• 差が出ないことを目標にする試験（非劣勢試験）は，

Per Protocolが良い．

「論文を出したい」気持ちからは逆にしたくなりますが，学問的に

考えてみましょう





5. 〃推測統計

6. 〃その他

それぞれ医療統計で使うところが違うので，順に

見ていきましょう

（涌井良幸，涌井貞美．中学数学で分かる統計の授業，日本実業出版社，017, 2013.より引用）

記述統計

代表値 • 平均値（mean）

• 中央値（median）

• 最頻値（mode）

散布度 • 範囲(range)

• 平均偏差

• 分散(variance)

• 標準偏差(standers

devition)

統計として観測されたデータ（変数）を測定項目ごとに集計し

てグラフなどを用いて特性を整理し記述する．

医療統計として患者背景や概要を表すことができる．

Patients'

characteristics

Baseline

Drug:V Non-ARB

SBP 157 ± 14 157 ± 14

DBP 88 ± 11 88 ± 11

mean ±SD

概要の表はどの論文にもありますね

PMID: 23376450

グラフ

最低値（または10%値）

25%値

75%値

最高値（または90%値）

中央値

箱ひげ図

ヒストグラム散布図

高血圧あり

高血圧なし

喫煙あり a c

喫煙なし b d

クロス集計表

棒グラフ

エラーバーは

標準偏差

記述統計には様々なグラフが用いられます

代表値

• 平均値＝データの総和 / 標本数(n) 偏っていないデータは平均値で示す

• 中央値＝大きさ順位が中央の値偏っているデータは中央値で示す

• 最頻値＝最も頻度が多い値

アンケート項目，多数決など

1 2 3 4 5 6 7 7 8

平均値 = (1+2+3+4+5+6+7+7+8)/9 = 4.7

中央値 = 5

最頻値 = 7

偏っていなければ平均値と中央値はほぼ一致し，

平均値を使います

偏っていない場合の代表値

偏っている場合の代表値

例）架空のZ企業の年収

Aさん 300万

Bさん 600万

C さん 700万

D社長 10,000万

偏っている場合には中央値の方が実態を

反映していますね

中央値 650

万

平均値 2900

万

データのばらつき散布度

（涌井良幸，涌井貞美．中学数学で分かる統計の授業，日本実業出版社，36, 2013.より引用）

• 範囲(range)

• 分散(variance)

｛(個々のデーター平均値)2 の総和｝/n

• 標準偏差(SD:standers devition)

√（分散）

データの範囲

• 範囲「[最低値～最高値]」で示す．

最低値＝最小値最高値＝最大値

• 標準偏差

偏っていないデータは「標準偏差」で示す．

大きいほどばらついている．

• 4分位範囲(liter-quartle range)

偏っているデータは(25%値－ 75%値）」で示す．

最頻値ヒストグラム

階級度数相対度数

10-20 4 0.02

20-30 8 0.04

30-40 22 0.11

40-50 14 0.07

50-60 26 0.13

60-70 54 0.27

70-80 44 0.22

80-90 28 0.14

この場合は年齢

この場合は人数

全体を1としたときの割合

度数分布表

正規分布 • 「偏っているか」というのは，統計用語では「確率分布

が正規分布にしたがうかどうか」

• データが正規分布かどうかで解析法が変わる．

• 平均±SDに約70%が，平均±2SDに約95％の対象者が入る．

• 医療データは対数をとると正規分布することがある．

（西内啓．世界一やさしくわかる医療統計．秀和システム，66，2011.より引用）

医療統計の解析には様々な分布が使われているのですが，名前を覚える必要まではな

いと思います

（栗原伸一. 入門統計学. オーム社; 26; 2011.より引用）

確率分布

データの表現法

最低値（または10%値）

25%値

75%値

最高値（または90%値）

中央値

箱ひげ図棒グラフ

エラーバーは標準偏差

正規分布するデータ正規分布しないデータ

「平均値（標準偏差）」

「平均値 ± 標準偏差」は使わない方が良い

「中央値 (25%値－ 75%値） [最低値～最高値] 」

クロス表・リスク・オッズ

無効有効リスク

（無効率）オッズ

プラセボ a c p1=a/(a+c) p1/(1-p1)

A薬 b d p2=b/(b+d

) p2/(1-p2)

A薬（処置群）の，プラセボ（対照群）に対する

リスク比（相対危険度 relative risk）＝p1 / p2

リスク差（寄与危険度 attributable risk）= p1-p2

オッズ比 odd ratio＝{p1 (1-p2)] / {p2 (1-p1)}

本によってa～dの順番が違っているので気をつけましょう

（落合隆志. 世界一分かりやすい医学統計シンプルスタイルプラス. SCICUS, 174, 2010.より引用）

MRが言うのは，大体リスク比です．リスク差やNNTも含めて，

効果を判定しましょう．

コホート

健康な ○○例を追ったら，

10年後に肺癌はa+b例になった

有病率が分かる！

ケース・

コントロール

肺癌のa+b人と，肺癌ではないc+d

人を集めた

有病率は･･･分からない

a+b人とc+d人を有病率の通りに均

等には集められない

コホート研究のリスク・オッズ

症例非症例

曝露 a b

非曝露 c d

母集団からランダム抽出して経過を追った結果なので，

有病率＝ a+c/a+b+c+d

リスク比＝（暴露群の発生率）/（非暴露群の発生率）

＝(a/a+b)/(c/c+d)

オッズ比は意味が乏しいので示さなくて良い

コホート研究で右のような表が

得られたとき，

ケースコントロール研究の

リスク・オッズ

先にa+cとb+dを抽出して前を振り返った結果なので，

有病率＝不明

リスク比＝（暴露群の発生率）/（非暴露群の発生率）

＝(a/a+b)/(c/c+d)

と一見計算できるように見えるが，a+cとb+dを有病率に

従って抽出していないため，正確な値が出ないので

オッズ比(＝ad/bc)で出す

症例非症例

曝露 a b

非曝露 c d

a+c b+d

ケース・コントロール研究で右

のような表が得られたとき，

リスク・オッズ

ケース・コントロール研究(case-control study)

オッズ比で示す．

稀な疾患の場合のみ，オッズ比≓リスク比となる

コホート研究(cohort study)

リスク比（相対危険度），リスク差（寄与危険度）で示す

ランダム化比較試験リスク比（相対危険度），リスク差（寄与危険度），治療必要数（NNT: Number need to treat）で示す

NNT：何人治療すると1人の発症/死亡を防げるか

1に近く小さいほどよい

NNT = 1/（リスク差の絶対値）





5. 〃推測統計

6. 〃その他

推測統計

母集団

標本

標本がこれだから、母集団はこんな感じかなぁ･･･

統計学として標本をランダムに抽出して要約値を調べるこ

とで，母集団の要約値を推測する方法．

医療統計として症例報告よりも上のエビデンスの論文に必須

母集団と標本

母集団

標本

母集団 population は，

全人類の肺癌患者

日本の成人喘息患者

など調べたいものによって様々．

母集団全てを調べることは現実的に難しい

なので，n数の標本sampleを調べることで，母集団の要約値（母平均や母分散）を調べる．

国勢調査，人口動態統計は滅多にない全数調査です

検定（test）

• 仮説検定

推定（estimation）

• 点推定（不偏推定）

• 区間推定

区間で母数を推定する．95％信頼区間など．

点推定（不偏推定）

標本集団の要約値から母集団を推定する．

• 不偏平均 𝜇 ＝標本平均 𝑋

• 不偏分散 𝜎2

＝｛(個々のデーター平均値)2 の総和｝/n-1

• 不偏標準偏差＝ √（不偏分散）

不偏推定量のギリシャ文字の上についているのは「ハット」といいます．

点推定は母集団のあくまで推定値で，nが少ないとズレも大きくなります．

（栗原伸一 . 入門統計学 −検定から多変量解析・実験計画法まで. オーム社, 46, 2011. より引用）

観測された標本の統計量から，母集団に関する統計量を推測します．

点推定で推定した値が，不偏推定量です．

信頼区間

• 信頼区間（confidence interval）は真の値の範囲を表す

際に用いる．

• 推定値が比であれば，信頼区間が1をまたいでいなけれ

ば差は有意と判定される

• パラメトリック検定で求められる

日本人の平均身長は，

100～200 cmの中にあります

信頼区間を見ると，その結果にどのよ

うな意味があるのかが分かります

信頼区間 • 95%信頼区間は，「標本を抽出して信頼区間を求めるこ

とを何回も繰り返せば，その95%は真の値を含む」と言

うこと．

• 「真の値」は知り得ないがどこか1つなので，手元の信

頼区間が「真の値」を含んでいる確率は0か1．

（奥田千恵子．医療系はじめまして！統計学，金芳堂 , 154, 2015 .より引用）

95%信頼区間の誤解

（誤）「95%の確率で信頼区間の中に真の値を含む」

（正）「標本を抽出して信頼区間を求めることを何回

も繰り返せば，その95%は真の値を含む」

入門書では，分かりやすさを優先して厳密には間違った

説明をすることがあります．ただし，この間違った解釈

をしても，臨床上では大きな問題にはなりません

仮説検定とは

差がない差がある

どちらか

概ね

差がない

差がない

こともない

一部の人が

差に気づく

多くの人が

差に気づく

どちらかと

いうと

差がない

差を示す

ことは困難

こんなことはなく，事実は一つ

仮説検定

帰無仮説

H0

帰無仮説はタテマエで，

間違いだと疑っているもの

もし帰無仮説が正しいなら，観測されたデータを得る確率は少ないことがわかった！

対立仮説

H1

それなら対立仮説の方が

正しいじゃないか！

仮説の矛盾を証明する，いわゆる背理法です．統計学的には「母集団に

関する仮説を立て」，「観測された結果から統計量を計算し」，「帰無

仮説が正しいと仮定したもとで，観測された結果が起きる確率を計算」

し，「その値が有意水準未満であれば帰無仮説を棄却し，有意水準以上

なら帰無仮説を棄却できない」となります．

P値（p values）とは

（誤）「帰無仮説が正しい確率」

p値は帰無仮説を真としたときの値なので，帰無仮説が正し

い確率は1

（正）「帰無仮説が真であるとすれば，サンプルから

観測された値が起こる確率」

入門書では，分かりやすさを優先して厳密には間違った

説明をすることがあります．ただし，この間違った解釈

をしても，臨床上では大きな問題にはなりません

p値の表現

Annals of international Medicine の場合

0.2< p のとき 0.01< p< 0.2 のとき p<0.001 のとき

小数点以下第2位まで記載小数点以下第3位まで記載 p < 0.001 と記載

国際誌にアクセプトされる医学論文の場合

p<0.001 のとき

通常

p < 0.001 と記載小数点3桁まで

他にも論文の記載の約束はいろいろありますが，詳しくは

「Thomas A.Lang, Michelle Secic. わかりやすい医学統計の報告.

中山書店, 2011.」がお勧めです．

両側検定片側検定

• 原則は両側検定

例えば「A群とB群は同じではない」という対立仮説を立

てて両側検定を行う．

• もし，明らかにどちらの大小が予測できる場合は片側検

定で， p値がより低く出る．

例えば「A群はB群より低い」という対立仮説を立てて片

側検定を行う．

あらかじめ「結果が分かりすぎている」介入比較

試験を組んではいけないという医療倫理に気をつけましょう．

片側検定をして良い場合はほとんどありません

p値と差の大きさ

• p値が低いことは，差の大きさを示さない血圧差が20mmHgでも差が出るときと出ないときがある

• 統計学的に有意差あり（p<0.05）でも，

本当に差があるのか，それが臨床的に意

味のある差かどうかは分からない．ある薬を使うと血圧が3mmHg下がったのは，臨床的に意味があるのか？

5%の確率で，有意差がないのに差があると判定していないか？

差を評価するには「95%信頼区間」や「効果量」

という方法もあります

P<0.05の 0.05って何？

• 臨床試験・統計解析の前に，p値がいくら以下

なら「偶然ではなく有意」として帰無仮説を棄

却するか決めておく．

• それが有意水準・危険率 α（significant level）

• αを0.05 (5%)にすること，信頼区間を95%にす

るのはただの慣例

「臨床試験のための統計的原則」では，片側2.5%, 両側5%と取り決めてい

ます．0.05はFisherが定着させたとも言われています（American

Psychologist. 1982; 37: 553-558.）

p=0.049 と p=0.051の間

• 解析前に有意水準を0.05にしたのなら，0.049は

有意であり，0.051は有意ではない．

• p< 0.05のときに，「統計的に有意な傾向があ

る」というのはダメ．差の信頼区間などを表記

する

• p値自体はn数で変わるため，p=0.049であろう

が，p=0.051であろうが，臨床的に意味のある

差があるかどうかを考える．

αエラーとβエラー

真理

検定

結果

差がある差がない

帰無仮説を棄却

（差がある）

正しい判断第1種の過誤

α

帰無仮説を棄却できない（差があるとはいえない）

第2種の過誤

β

正しい判断

• 第1種の過誤は、本当は「差がない」のに「差がある」

と判定する誤りあわてもののαエラー

• 第2種の過誤は、本当は「差がある」のに「差がない」

と判定する誤りぼんやりもののβエラー

αエラーとβエラー

• αエラーとβエラーは，両方同時に小さくするこ

とはできない

• エラーした場合にどちらがマシかを考える

• 効果があるかもしれない薬を見落とす？

探索的試験は，α大 β小に

• 副作用が多い薬を見落とす？

検証的試験は，通常通り

p値と差の大きさ • 何度も言うが p値が低いことは，差の大きさを示さない

• nさえ増やせば，小さな差でもp値はどんどん下がっていく

要因2あり要因2なし

要因1あり 10 9

要因1なし 10 5

要因2あり要因2なし

要因1あり 100 90

要因1なし 100 50

p=0.01 p=0.64

p=0.61

比はそのまま

nを8倍に

p=0.12

効果量 effect size

• 単位やnの大きさにかかわらず，差の大きさ

を示す

• p値と異なり，他の論文とも比較できる

• 事前設計のサンプルサイズの計算，事後の差

の大きさを示す，メタアナリシスに使われる．

(水本篤, 竹内理. 研究論文における効果量の報告のために. 英語教育研究; 57-66,

31, 2008. より引用)

これらの数値は絶対的なものではなく，著名な先生方が決めたものだが，特に改訂なく使われている様子

効果量・α・β・n

効果量

検出力 1－β

標本数

n

有意水準

α 4つのうち，3つが定まれば

残り1つは計算で求められる

事前に，効果量，α，βを決めて，サンプルサイズを出す

事後に，効果量を計算で求めてから，

効果量，α，nから，事後の検出力を出す

p＞0.05で

帰無仮説を棄却できなかったとき

• 帰無仮説が棄却できなければ「差があるともないとも言えな

い」

• 同等性を示したいのであれば，近いものは非劣勢試験だが，

かなりのn数が必要．

• 差があっても小さいと示唆するには，効果量を示す

p＞0.05であり，同等と考えられました

という間違った評価をする方が後を絶ちま

せん･･･．

帰無仮説を棄却できなかったときに

考えること

βエラーが小さい

効果量が小さい

効果量が大きい

検出力が高かったのに差が

出なかった

臨床的な差が少ないのでは．

本当は臨床的な差があるかも

しれない．もし，あと何例あ

ればp<0.05になっただろう

事後検出力はnegative dataでは非常に低く出るので，

事後解析にあまり意味がないとする意見もあります

（数学いらずの医科統計学）





5. 〃推測統計

6. 〃その他

感度・特異度

検査

陽性陰性

疾患あり a

真の陽性 c

見落とし

疾患なし b

過剰診断 d

真の陰性

感度 a/a+c 疾患ありを陽性と判定する

特異度 d/b+d 疾患なしを陰性と判定する

偽陽性 b/b+d 疾患なしだが検査陽性と誤判定する

偽陰性 c/a+c 疾患ありだが検査陰性と誤判定する

陽性尤度比感度/(1-特異度) 検査陽性だった場合に，検査陰性と比べ疾患がある可能性が何倍か

陰性尤度比 (1-感度)/特異度

検査陰性だった場合に，検査陽性と比べ疾患がある可能性が何倍か

陽性的中率・陰性的中率

検査

陽性陰性計

疾患あり有病率×n

疾患なし（1-有病率）×n

計 n

実臨床で知りたいのは，例えば「腫瘍マーカーの感度が何%か」ではなく，「腫瘍マーカーが陽性なら癌の可能性は何%か」である

まずは全体をnとし，有病率から表をうめていく

検査

陽性陰性計

疾患あり (有病率×n)×感度 (有病率×n)×(1-感度) 有病率×n

疾患なし (1-有病率)×n×(1-特異度) (1-有病率)×n×特異度 (1-有病率)×n

計 n

検査の感度，特異度を入れていく

陽性的中率＝検査陽性のとき疾患ありの確率

＝有病率×感度 / 有病率×感度+ (1-有病率)×(1-特異度)

ROC曲線検査の閾値（カットオフ値）を決めるための曲線．

感度を縦軸に，特異度を逆の横軸にする

閾値を高くすると，感度↓ 特異度↑

閾値を低くすると，感度↑ 特異度↓

左上の方の点が，カットオフと

して用いられやすい．

ただし，疾患の性質によって感

度・特異度を適宜調整する．

生存時間解析生存時間曲線・カプラン・マイヤー曲線（Kaplan-

Meier curve）

観察の

打ち切りあり

生死不明の対象（Drop out），研究の終了時点で生存（生存期間が観察できなかった）

観察の

打ち切りなし研究期間中に死亡（生存期間が観察できた）

打ち切りは悪い印象に聞こえるが，

打ち切るのは患者さんではなく，

データを打ち切ると言うこと．

打ち切りが多いと，推定精度が

どんどん落ちてしまう

もしリスクが高い人が死亡前に転院などで打ち切りとなってしまうと，

生存割合が高く算出されてしまいます

生存期間中央値は，生存曲線で

縦軸の割合が50%となるところ

カプラン･マイヤー曲線の書き方

例えば

イベントを死亡．打ち切りをDrop out・研究の終了時点で生存とする．

イベントが発生毎に，

生存率＝（イベント発生直前の生存率）

×{1－ (そのイベント人数/イベント発生直前までの生存数)}

打ち切りはイベントではないので，生存率はそのまま．

アンケートの作り方

• 回収率の良いアンケートを作る

• 標本抽出法，調査方法，量的調査と質的調査について詳しく知りた

い場合は，「高橋信. マンガでわかる統計学因子分析編, オーム社,

2006.」，「スティーブンB.ハリー，スティーブンＲカミングス, 医

学的研究のデザイン, メディカル・サイエンス・インターナショナ

ル」を参照

• 問診票は「実態」「意識」「属性」の順に聞く．

プライバシー関係はできるだけ後に．

• 一つの質問に，2つ以上意味を持たせない．1つの質問に1つの意味

（×）○○や××は良かったですか？

診察前後に行うアンケートは，かなりの高い回答率

を得ることができます

アンケートの作り方

• 質問に前振りをつけて誘導しない．

• 自由回答よりも選択回答式に．

• 段階評価（リッカート法）は5段階程度に．偶数で真ん

中を含めないと，回答者への心理的負担が大きくなる．

• 順位付けは回答者の負担になるので避ける

（×）これらを，大事と思う順に順位をつけてください

アンケートの信頼性を評価するのにクロンバックの

α係数がありますが，本稿では割愛します

カッパ（Κ）係数 • 2つの定性検査の，偶然によらない一致率．

• 例えば，同じ測定者が同じ対象者に対して測定を繰り返

したときに，どれだけ一致した結果を得ることができる

か．画像所見の複数の読影医師の一致率などに使われる．

Κ

～0.4 低い一致度

0.4～0.6 中等度の一致度

0.6～0.8 かなりの一致度

0.8～1 高い一致度

他にも測定値や調査票の結果の一貫性を示すのに，級内相関係数，ケ

ンドールの一致係数を求める方法もありますが，本稿では割愛します

rによる医療統計 第1部

Health & Medicine

rによる医療統計　第1部