統計解析の基礎...5 基本統計量 1.2 確認問題1-1...

19

Upload: others

Post on 11-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答
Page 2: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答
Page 3: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答
Page 4: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

i

はじめに

現在の社会インフラにコンピュータは必要不可欠な機器です。毎日の生活の中で私たちが利用

している個人用コンピュータ,いわゆるパーソナルコンピュータの利用方法は時代とともに変

化してきましたが,大きな変化がこれまでにいくつかありました。

ひとつはおよそ40年前の1979年(昭和54年)に発売された表計算ソフトウェア,VisiCalc

(ビジカルク)です。このソフトウェアはApple社のApple IIで動作するもので,ダニエル・ブ

リックリンとボブ・フランクストンの二人が開発しました。ダニエル・ブリックリンはソフトウェ

アの概念を中心に,ボブ・フランクストンは実際のプログラミングを中心に開発を行いました。

ダニエル・ブリックリンはマサチューセッツ工科大学でコンピュータについて勉強し,会社に

勤めた後にハーバード大学のビジネススクールで学びました。ビジネススクールではケースメ

ソッドと呼ばれる会社の経営方法のシミュレーションを行い,利益を上げるために必要な原価

計算を行う課題が数多くあります。この膨大な計算を行う際に電卓を繰り返し利用するのでは

なく,数値を変更するだけですべての再計算を行うソフトウェアの必要性を感じたのです。そし

て,彼は友人のマサチューセッツ工科大学の当時学生であったボブ・フランクストンとともに

ビジカルクを開発しました。発売後,このソフトは2年間で20万本以上を売り上げるという大

成功を収めました。

大成功の理由は以下のとおりです。電卓利用では数値と演算記号を入力して,式を計算させ出

力結果を紙に記載し,さらに必要な計算を続けます。必要に応じ再計算や式を変更して必要な

答えを求めます。一方,表計算ソフトウェアはコンピュータ上で動作し,数値と式を記憶して利

用者と対話しながら動作します。Apple IIは家庭用TVに接続して,40文字25行の表示や,図

形を表示させることが可能で,入力データや式を表示しながら計算結果も表示することができ

ました。計算に利用するデータはワープロのように簡単に再利用できます。すなわち条件を変

えて様々なシミュレーションを簡単に実行することが可能です。そして,ビジカルクを利用し

たいがためにハードウェアを購入するという,ビジネスソフトウェアの重要性が認められた最

初のソフトウェアとなりました。その後,同様な機能をもつロータス・デベロップメント社の

Lotus1-2-3やマイクロソフト社のMultiplanやExcelが市場に発表されました。

もうひとつの大きなことは,今から22年前の1995年に発売されたOS(オペレーティングシ

ステム)のWindows95です。このOSにはインターネットへの接続や利用に必要なソフトが

ほとんど含まれていたため,インターネット利用者の爆発的な増加に貢献したといわれています。

Page 5: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

ii

それまでコンピュータは単独でワープロや表計算ソフトのビジネスアプリケーション利用や

ゲームソフト利用をするのが一般的で,ネットワーク利用は電話回線経由のパソコン通信程度

でした。それがコンピュータをインターネットに接続し,Internet Explorerと呼ばれるブラウ

ザを利用してデータを閲覧するようになり,ネットサーフィンという言葉が生まれました。ブラ

ウザは文字データだけではなく音楽,写真や映像などの様々なメディアを扱うことができまし

た。さらにデータを閲覧するだけでなく,ブログを作成したりホームページサーバを立ち上げた

りして,自ら情報発信することも簡単にできました。当初,インターネット世界として閉じてい

たものが,現実社会と相互に影響を与える関係になり,さらに一体化しているといってもよい状

況になりました。そして,現在では携帯電話をはじめ様々な機器がインターネットに接続される

IoT (Internet of Things) 時代となり,様々なデジタルデータがネットワーク上で転送されてい

ます。さらに今後,自動運転やAI (Artificial Intelligence) 技術と第5世代の高速なデータ通信

が利用できる時代がまもなく現実のことになりそうです。

最初の変化であった表計算ソフトの利用が広まる際には,会計事務所の仕事を奪い,経理関係

の会社が倒産するのではないかとの噂が流れたこともありましたが,実際にそのようなことは

起こりませんでした。現在のAIも多くの仕事を人間から奪うという考えもありますが,表計算

ソフトと同じように仕事の手段や考え方を変えるツールと考えるべきでしょう。ただし,ツール

である表計算ソフトやAIの結果を鵜呑みにするのは大変危険で,データ処理の手法や基本的な

考え方をきちんと押さえておかないと誤った結果に振り回されることになります。この本では

データの分析や統計・確率の考え方について基礎的な説明を行うとともに,現在広く利用され

ている表計算ソフトであるExcelを活用する方法について説明します。膨大なデータの中から意

味のある情報を引き出す方法の参考になれば幸いです。さらにその情報を自分の知識とし,AIや

情報機器をはじめとする各種ツールを活用できる知恵を身につけてください。

最後に共立出版株式会社編集制作部の吉村修司氏には企画から編集校正までお世話になりま

した。また,表紙や図表などは岡田明子女史の手を煩わせ,祝日竜馬平和氏にはデザインやDTP作業

などで多大なる協力を頂きました。ここに記して感謝いたします。

2017年12月

著者

本書で使用するExcelデータファイルは下記よりダウンロードできます。ご活用ください。

http://www.kyoritsu-pub.co.jp/bookdetail/9784320113336

Page 6: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

iii

第1章 統計・確率・検定 1

1.1 統計解析の基礎 11.1.1 データの収集と解析の流れ………………………………………………………………………………11.1.2 データの性質………………………………………………………………………………………………1

1.2 基本統計量 2

1.3 確率 61.3.1 二項分布……………………………………………………………………………………………………71.3.2 正規分布……………………………………………………………………………………………………8

1.4 検定とは 111.4.1 検定手法………………………………………………………………………………………………… 11

コラム 1 表計算ソフトの歴史 12

第2章 基本操作 132.1 Excel の起動,保存,終了 13

2.1.1 Excel の起動…………………………………………………………………………………………… 132.1.2 保存……………………………………………………………………………………………………… 152.1.3 パスワードを利用した保護 …………………………………………………………………………… 152.1.4 Excel の終了…………………………………………………………………………………………… 16

2.2 データの入力方法 162.2.1 セルの選択方法………………………………………………………………………………………… 162.2.2 セルの表示形式………………………………………………………………………………………… 172.2.3 データの入力,編集,削除…………………………………………………………………………… 192.2.4 連続したデータを入力する(オートフィル)…………………………………………………………… 202.2.5 並べ替え………………………………………………………………………………………………… 20

2.3 表の作成 222.3.1 罫線を引く……………………………………………………………………………………………… 222.3.2 セルの背景に色をつける……………………………………………………………………………… 242.3.3 セルの書式設定を変更する…………………………………………………………………………… 252.3.4 セルの配置を変更する………………………………………………………………………………… 25

2.4 計算方法 262.4.1 計算式を入力する(四則演算)………………………………………………………………………… 262.4.2 基本の計算(合計,平均,最大値,最小値)………………………………………………………… 26

コラム 2 2つのセル指定方法 30

目 次

Page 7: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

iv

目 次

第3章 関数 313.1 関数の基礎 31

3.1.1 計算のしかた…………………………………………………………………………………………… 313.1.2 関数の表し方…………………………………………………………………………………………… 323.1.3 引数……………………………………………………………………………………………………… 32

3.2 関数の利用法 333.2.1 関数の入力方法………………………………………………………………………………………… 333.2.2 セル参照………………………………………………………………………………………………… 36

3.3 日付と時間 383.3.1 日付の取り扱い………………………………………………………………………………………… 383.3.2 時間の取り扱い………………………………………………………………………………………… 39

3.4 エラー値 403.4.1 エラー値の種類と意味………………………………………………………………………………… 403.4.2 エラー値の対処法……………………………………………………………………………………… 40

3.5 主要関数 40財務 40/論理 41/文字列操作 42/日付・時刻 43/検索・行列 45/数学 47/

統計 49/互換性 52/その他 53

第4章 クロス集計 574.1 クロス集計とは 57

4.2 関数を用いたクロス集計 584.2.1 関数を用いた単純集計………………………………………………………………………………… 584.2.2 関数を用いたクロス集計……………………………………………………………………………… 59

4.3 ピボットテーブルを用いたクロス集計 614.3.1 ピボットテーブルの新規作成 ………………………………………………………………………… 614.3.2 ピボットテーブルへのフィールドの配置……………………………………………………………… 624.3.3 ピボットテーブルのスタイル変更……………………………………………………………………… 644.3.4 ピボットテーブルのデータ編集 ……………………………………………………………………… 654.3.5 ピボットテーブルによるグラフ作成…………………………………………………………………… 69

参考1 日本の統計データを知るサイト「政府統計の総合窓口」 72

第5章 グラフ作成の基礎 735.1 グラフの種類と要素 73

5.1.1 グラフの種類…………………………………………………………………………………………… 735.1.2 グラフの要素…………………………………………………………………………………………… 75

5.2 グラフの作成方法 765.2.1 グラフの挿入…………………………………………………………………………………………… 765.2.2 グラフの編集…………………………………………………………………………………………… 775.2.3 グラフの移動…………………………………………………………………………………………… 81

Page 8: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

v

目 次

5.3 グラフの書式変更 825.3.1 縦軸の目盛範囲(最小値と最大値)と表示単位を変更する【軸の書式設定】…………………… 825.3.2 縦軸ラベルを縦書きにする【軸ラベルの書式設定】………………………………………………… 845.3.3 グラフ要素の間隔を変更する【データ系列の書式設定】…………………………………………… 855.3.4 横軸ラベルの表示間隔を変更する【軸の書式設定】………………………………………………… 865.3.5 グラフの色を変更する………………………………………………………………………………… 87

5.4 複合グラフの作成方法 89

第6章 分析ツールを用いた統計解析 916.1 分析ツールの設定 91

6.2 基本統計量 926.2.1 基本統計量と関数の関係……………………………………………………………………………… 926.2.2 分析ツールを用いた基本統計量の求め方…………………………………………………………… 93

6.3 ヒストグラム 956.3.1 度数分布とヒストグラム ……………………………………………………………………………… 956.3.2 分析ツールを用いた度数分布表とヒストグラムの作成……………………………………………… 96

6.4 t検定 1016.4.1 データ取り込み……………………………………………………………………………………… 1016.4.2 t検定統計量計算…………………………………………………………………………………… 1016.4.3 分析ツールの利用…………………………………………………………………………………… 102

参考2 データカタログサイト 104

第7章 データベース 1057.1 データベースとは 105

7.2 オートフィルターを用いたデータ抽出 105

7.3 関数を用いたデータ抽出 1077.3.1 1つの検索キーを用いたデータ抽出(VLOOKUP 関数 ) ……………………………………… 1077.3.2 2 つの検索キーを用いたデータ抽出(INDEX 関数,MATCH 関数 )………………………… 108

第8章 マクロ 1118.1 マクロの基礎 111

8.1.1 マクロとは………………………………………………………………………………………………1118.1.2 マクロファイル …………………………………………………………………………………………1118.1.3 マクロ利用環境の設定…………………………………………………………………………………112

8.2 マクロの記録による作成 1138.2.1 マクロの記録……………………………………………………………………………………………1138.2.2 マクロの確認……………………………………………………………………………………………1148.2.3 マクロの実行……………………………………………………………………………………………1158.2.4 マクロの削除……………………………………………………………………………………………116

Page 9: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

vi

目 次

8.3 VBAによるマクロの作成 1168.3.1 MicrosoftVisualBasicforApplications の起動と設定………………………………………1178.3.2 VBAによるマクロの入力………………………………………………………………………………119

8.4 マクロを利用したオリジナル関数の作成 1228.4.1 オリジナル関数の定義……………………………………………………………………………… 1228.4.2 オリジナル関数の実行……………………………………………………………………………… 123

コラム 3 数値の罠 124

第9章 シミュレーション 1259.1 シミュレーションとは 125

9.2 定期積立 1259.2.1 定期積立ワークシート作成………………………………………………………………………… 1259.2.2 定期積立シミュレーション ………………………………………………………………………… 1269.2.3 関数とゴールシークを用いた定期積立シミュレーション………………………………………… 126

9.3 車の購入 1289.3.1 車購入ローンワークシート作成 …………………………………………………………………… 1289.3.2 車購入ローンシミュレーション……………………………………………………………………… 1299.3.3 FV 関数を用いた車購入ローンシミュレーション………………………………………………… 1299.3.4 PMT 関数を用いた車購入ローンシミュレーション……………………………………………… 130

9.4 奨学金の返済 1319.4.1 奨学金返済ワークシート作成……………………………………………………………………… 1319.4.2 返済シミュレーション ……………………………………………………………………………… 132

9.5 住宅購入 1339.5.1 住宅購入ワークシート作成 ………………………………………………………………………… 1339.5.2 住宅購入シミュレーション ………………………………………………………………………… 134

9.6 生涯賃金の推定 1349.6.1 長野県職員モデル給与からの賃金推定…………………………………………………………… 1349.6.2 国家公務員モデル給与からの賃金推定…………………………………………………………… 1369.6.3 厚生労働省の賃金構造基本統計調査からの賃金推定…………………………………………… 1379.6.4 発展課題……………………………………………………………………………………………… 138

9.7 ライフシミュレーション 1399.7.1 可処分所得の推定…………………………………………………………………………………… 1409.7.2 所得の推定…………………………………………………………………………………………… 1409.7.3 社会保障費の推定………………………………………………………………………………………1419.7.4 税金の推定………………………………………………………………………………………………1419.7.5 前提条件とイベントの設定………………………………………………………………………… 1429.7.6 支出の推定…………………………………………………………………………………………… 1449.7.7 貯蓄残高……………………………………………………………………………………………… 1449.7.8 キャッシュフローの推定 …………………………………………………………………………… 144

確認問題解答 149

索引 ………………………………………………………………………………………………………… 159

Page 10: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

1

1.1 統計解析の基礎コンピュータやネットワーク環境の進展に伴い,私たちは気軽にデータや情報を手にすることができるようになりました。「情報」や「データ」などの言葉は,時として同じような意味合いで使われることがあります。しかし,「データ」は様々な数値の集まりを指します。つまり多くの場合,データは貴重なものではありますが,それだけでは意味をもちません。例えば英語の試験で80点を取ったとします。これもデータの1つではありますが,これだけでは80点が良い点数なのか,悪い点数なのかが判断できません。しかし,例えば学年全体の点数を集めて平均点を出したり,偏差値を求めたりすれば,私たちは80点を客観的に判断することができます。このときに集められたデータ群は「統計」として様々な解析が可能になります。統計解析を行えば,データから様々な「情報」が読み取れます。私たちは世の中にあふれる「データ」を統計的に活用することによって,様々な「情報」を得ることができるのです。

1.1.1 データの収集と解析の流れデータは何らかの目的のもとに集められた情報です。データの収集は目的に応じて,データを取得する対象(相手)や取得方法(測定方法)を選択する必要があります。例えば,若者向け自動車の販売戦略に関するデータを得るために,20~ 30歳代の免許保有者を対象にアンケート調査を実施したり,駅前広場の再開発のために,乗降客数調査や駅周辺店舗のヒアリング調査を実施したりするのです。このようにして得られたデータは,データの性質や使用目的に応じて様々な解析を行います。この解析は,様々な項目(変量)を総合的に解析するという意味で「多変量解析」とも呼ばれます。「多変量解析」と聞くと,専門的でとても難しいイメージを抱く人も多いかと思いますが,実は多変量解析は身近な統計分析です。特別な処理機器や専用の分析ソフトがなくても,手軽に本格的な解析が可能です。本テキストでは,表計算ソフトとして知られているマイクロソフト社の「Excel」を活用した統計解析検定を紹介します。

1.1.2 データの性質データには,種類や形式によって異なる性質があります。性質に応じた解析の選択が必要ですから,まずはデータの性質を把握しておきましょう。まず,データの種類には「定量データ」と「定性データ」の2種類があります。「定量データ」は数量として比較することが可能なデータを示し,例えば交通量(台),所要時間(分),料金(円)などが該当します。一方の「定性データ」は数量として表せないデータを示し,例えば性別,職業,好きな果物の順位,満足度などがあります。

第   章1 統計・確率・検定

Page 11: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

2

第 1 章  統計・確率・検定

「定量データ」と「定性データ」には,それぞれデータの形式に応じて,「比例尺度」,「間隔尺度」,「名義尺度」,「順序尺度」があります。

(1)比例尺度四則演算が可能な数値を扱う定量データ。0やマイナスを含めて,数値の大小に意味があります。

例:身長(cm),体重(kg),降水量(mm),得点(点)

(2)間隔尺度数量的な大小関係を比較する定量データ。データの取り扱いは任意に設定した一定の間隔で測ります。

例:顧客満足度(非常に満足,満足,やや不満,不満)

(3)名義尺度次の例のようにコード化された数値で表す定性データ。

例:性別(男性=1,女性=2),海外旅行経験(有=1,無=0)

(4)順序尺度順序を示す数値を扱う定性データ。数値なのでデータ間の大小関係を比較できますが,四則演算においては差を除いて意味をもたないので注意しましょう。

例:学年1位,お客様満足度第1位

順序尺度

名義尺度

データ

定性データ

定量データ

種類 形式

間隔尺度

比例尺度

▶▶図1.1 データの種類

自分でアンケート調査などを実施してデータを得る場合には,設問を検討する際にこのようなデータの性質の違いも考慮する必要があります。Excelでデータを扱う際には,基本的には調査で得られた値をそのままセルに入力すれば,データベース機能を用いて分類,整理することができます。さらにExcelでは,関数やマクロなどの機能を用いて統計解析し,グラフ機能を用いて視覚化することができます。本章では統計や検定の基礎を学習し,次章以降でExcelを用いた解析を身につけましょう。

1.2 基本統計量データのもつ基本的性質を数値で表現したものを「基本統計量」といいます。「基本統計量」は大別すると「代表値」と「散布度」の2つの概念に分けることができます。

Page 12: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

3

1.2 基本統計量

「代表値」はデータを代表する値で,「平均値」,「中央値」,「最頻値」,「最大値」,「最小値」などがあります。一方「散布度」はデータのばらつきを示す値で,「分散」,「標準偏差」,「四分位範囲」などがあります。

基本統計量

散布度

代表値

分   散

標準偏差

四分位範囲

平 均 値

中 央 値

最 頻 値

最 大 値

最 小 値

▶▶図1.2 基本統計量の概念

(1)平均値平均値はすべてのデータの合計をデータ数で除した数です。テストの平均点などのように,最もなじみのある代表値だといえるでしょう。平均値は統計では一般的に次式のように定義されます。

X Xi∑nn

i=1

1=

Xi X( )∑nn

i=1

22 1= -

平均

分散 ss 2s=標準偏差

Xの平均 データ部Xiの合計

データ部Xiは1からn個まであります データ数nで割ります

最頻値

1 2 3 1 3 2 1中央値

最小値

最大値

平均値

50% 50%

合計を母数で割った数

▶▶図1.3 平均値の概念

(2)中央値中央値はデータを小さい順(または大きい順)に並べ替えたときに,中央(真ん中)にある値を指します。ただし,データ数が偶数の場合は,中央に近い2つの値の単純平均とします。平均値と中央値は似ており,明確な使い分けはありませんが,データに外れ値(他の値と比べて突出して異なる値)が含まれる場合は,中央値の方が誤差の少ない結果が得られます。(コラム3「数値の罠」(p.124)も参照してください。)

Page 13: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

4

第 1 章  統計・確率・検定

1 2 3 1 3 2 1中央値

最小値

最大値

並べた時の中央

▶▶図1.4 中央値の概念

(3)最頻値データ群の中で最も頻繁に出現する値を指します。平均値や中央値のようにデータの特徴を表す代表値ですが,一番多く出現する値は1つとは限らないため,最頻値も1つとは限りません。また,データに同じ値がない場合には,値をいくつかの区分に分けたヒストグラムを作成し,区間ごとの頻度を求めるのが一般的です。

最頻値

1 2 3 1 3 2 1中央値

最小値

最大値

平均値

50% 50%

一番多く出てきた数 一番多い区間

▶▶図1.5 最頻値の概念

(4)最大値データ群の中で最も大きな値を指します。

1 2 3 1 3 2 1中央値

最小値

最大値

一番大きい

▶▶図1.6 最大値の概念

(5)最小値データ群の中で最も小さな値を指します。

一番小さい

1 2 3 1 3 2 1中央値

最小値

最大値

▶▶図1.7 最小値の概念

Page 14: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

5

1.2 基本統計量

確認問題1-1

次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。

英語 解答

Aさん 4 平均値

Bさん 4 中央値

Cさん 3 最頻値

Dさん 2 最大値

Eさん 5 最小値

(6)分散分散はデータが平均からどの程度離れているかを表す数値です。分散は,それぞれの値から平均値▶を引いた変数(偏差)を2乗した値の合計値から平均をとったものです。

X Xi∑nn

i=1

1=

Xi X( )∑nn

i=1

22 1= -

平均

分散 ss 2s=標準偏差

データ数nで割ります

2乗にします

偏差 偏差の2乗の合計

▶▶図1.8 分散の式

(7)標準偏差標準偏差はデータの散らばり方を表す数値の1つで,分散の正の平方根です。平均からの偏差の大小を表しますから,値が0に近いほどばらつきがないといえます。標準偏差は単位が元のデータと同じなので,意味がわかりやすいでしょう。

X Xi∑nn

i=1

1=

Xi X( )∑nn

i=1

22 1= -

平均

分散 ss 2s=標準偏差分散の平方根

▶▶図1.9 標準偏差の式

(8)四分位範囲四分位範囲はデータを昇順(小さい順)に並べたときに,小さい方から4

1の値を第1四分位値,大きい方から4

1の値を第3四分位値といいます。第2四分位値は中央値と同じです。

Page 15: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

6

第 1 章  統計・確率・検定

四分位値の求め方としては,まずデータを並べ替えてから半分にして中央値を求めます。次に前半部分の中央値(第1四分位値),後半部分の中央値(第3四分位値)を求めるとわかりやすいでしょう。

小 大

中央値

第1四分位値 第3四分位値

▶▶図1.10 四分位範囲の概念

確認問題1-2

次のデータについて,解答欄にある基本統計量を求めなさい。

ID データ ①平均との差 ①の2乗

1 151

2 132

3 147

4 129 解答

5 135 平均

6 120 分散

7 137 標準偏差

8 115 中央値

9 120 第1四分位値

10 134 第3四分位値

1.3 確率確率はある事象(状況)が確かに起こる率(割合)のことです。これまで学習した確率は数学的確率の考え方が中心で,同様に確からしいという条件でサイコロやコインを投げたときのある事象が起こる割合について議論することが多かったと思います。これ以外の確率として,寿命や天候,機器の故障が起こるような,確率を頻度で定義する統計的確率の考え方があります。ここでは統計的確率を中心に説明します。ある事象が起こる確率を ( )と表記することにします。例えば,サイコロを振ったときに出る目をとします。通常のサイコロでは出る目は同様に確からしいので確率は6

1で, ( )= 61と表せます。▶

Page 16: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

7

1.3 確率

ここで を確率変数と呼びます。サイコロの場合, は1,▶2,▶3,▶4,▶5,▶6の6種類の固定された値を取り,離散型確率変数と呼ばれます。一方,ある日の最高気温や雨が降るかどうかの予想やダーツをマトの中心に向かって投げたときに実際に刺さった位置のずれを考えたとき,確率変数 は連続な値を取るので,連続型確率変数と呼びます。連続型確率変数の場合, ( )は単一の値にならず,確率密度関数と呼ばれる式で表すことになります。確率密度関数としてよく知られているものは二項分布や正規分布などがあります。

1.3.1 二項分布コインを投げる場合を考えます。表が出たらTとし,裏が出たらFとします。このように2種類の離散型確率変数を示す場合をベルヌーイ試行と呼ばれます。例えば,4回コインを投げた場合の事象表は表1.1のようになります。

すべて裏 1回表 2回表 3回表 すべて表

FFFF TFFF TTFF TTTF TTTT

FTFF TFTF TTFT

FFTF TFFT TFTT

FFFT FTTF FTTT

FTFT

FFTT

1通り 4通り 6通り 4通り 1通り

▶▶表1.1 コインを4回投げたときの目(二項分布の例)

1回コインを投げたときに表が出る確率を とし,出ない確率を とします。ここで =1− と書くことができます。コインの場合は = = 2

1となります。1回も表が出ない確率は1通りで (0)=1×4=1×( )21

4=0.0625で,1回だけ表が出る場合は4通りあるので (1)=4× × 3=4×2

1×( )213

=0.25,2回表が出る場合は6通りで (2)=6× 2× 2=6×( )212×( )21

2=0.375,3回表が出る場合

は4通りで (3)=4× 3× =4×( )213×21 =0.25で,4回表が出る場合は1通りで (4)=1× 4=1

×( )214=0.0625となります。この ( )は4回コインを投げたとき表の出る回数を としたときの確

率です。また,これら5つの確率を合計すると1になります。次にサイコロを4回投げ,5の目が何回出るかを考えます。このとき5が出たらT,出なかったらFとすれば,先ほどのコインと同じ事象表で表せます。ただし,確率は異なり =6

1, =1−61 = 6

5 となります。同様に5が出る回数を とすると▶(0) = 1× 4 = 1×( )65

4= 0.4823, (1) = 4× × 3=4×6

1 ×( )653=0.3858, (2)=6× 2▶

× 2 = 6×( )612× ( )65

2=0.1157, (3)=4× 3× =4× ( )61

3× 65 =0.0154, (4)=1× 4=▶

1×( )614=0.0008となります。

このような分布を二項分布と呼びます。これらをグラフで表すと図1.11と図1.12になります。この関数を確率質量関数または確率多角形と呼びます。また が になる確率を式で表すと▶

Page 17: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

8

第 1 章  統計・確率・検定

ss

となります。

1 2 3 4:表の出る数

: の目が出る数

0.4

0.3

0.2

0.1

0

1 2 3 4

0.1

0.2

0.3

0.4

0.5

0.6

0

0

0

(b)

(a)

(b) (c)(a)

(a)

(c)

(b)

99.72%

68.26%

95.44%

(c)

▶▶図1.11 コインを投げたときの確率多角形1 2 3 4:表の出る数

: の目が出る数

0.4

0.3

0.2

0.1

0

1 2 3 4

0.1

0.2

0.3

0.4

0.5

0.6

0

0

0

(b)

(a)

(b) (c)(a)

(a)

(c)

(b)

99.72%

68.26%

95.44%

(c)

▶▶図1.12 サイコロを4回投げたときの確率多角形

1.3.2正規分布実験データやテスト結果などは通常,正規分布に従うことが知られています。この分布は平均値 ,標準偏差 を用いて次の式で表すことができます。

ss

Page 18: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

9

1.3 確率

図1.13は平均が ,標準偏差が(a)0.4,(b)1,(c)2.25の正規分布です。図からわかるように左右対称で,標準偏差が小さいほど分布(幅)が狭くなります。

1 2 3 4:表の出る数

: の目が出る数

0.4

0.3

0.2

0.1

0

1 2 3 4

0.1

0.2

0.3

0.4

0.5

0.6

0

0

0

(b)

(a)

(b) (c)(a)

(a)

(c)

(b)

99.72%

68.26%

95.44%

(c)

▶▶図1.13 異なる標準偏差の正規分布

実際のデータは完全に正規分布に従うわけではなく,ずれが生じます。これを表す指標として歪度と尖度があります。

(1)歪度歪度はデータ分布の非対称性を表す指標です。Excelの関数ではSKEWで求めることができます。歪度が0の場合(a)は完全対称です。プラスの値の場合(b)は右側に歪んでいる,すなわち左側にピークがあり右側にテール(すそ)を引いている分布となります。またマイナスの値の場合(c)は左側に歪んでいる,すなわち右側にピークがあり左側にテールを引いている分布となります。

1 2 3 4:表の出る数

: の目が出る数

0.4

0.3

0.2

0.1

0

1 2 3 4

0.1

0.2

0.3

0.4

0.5

0.6

0

0

0

(b)

(a)

(b) (c)(a)

(a)

(c)

(b)

99.72%

68.26%

95.44%

(c)

▶▶図1.14 異なる歪度の分布

Page 19: 統計解析の基礎...5 基本統計量 1.2 確認問題1-1 次のデータについて,平均値,中央値,最頻値,最大値,最小値を答えなさい。英語 解答

10

第 1 章  統計・確率・検定

(2)尖度尖度はデータ分布の外れ値を表す指標です。Excelの関数ではKURTで求めることができます。尖度が0の場合(a)は正規分布です。プラスの値の場合(b)は正規分布よりトップが高く,尖っている分布となります。またマイナスの値の場合(c)は正規分布よりトップが低くく,なだらかな分布となります。

1 2 3 4:表の出る数

: の目が出る数

0.4

0.3

0.2

0.1

0

1 2 3 4

0.1

0.2

0.3

0.4

0.5

0.6

0

0

0

(b)

(a)

(b) (c)(a)

(a)

(c)

(b)

99.72%

68.26%

95.44%

(c)

▶▶図1.15 異なる尖度の分布

また,平均値から標準偏差を引いた値( − )から,平均値に標準偏差を足した値( + )の範囲に,値が含まれる確率はその面積合計となり0.6826▶(68.26%)となります。さらに平均値から標準偏差の2倍の範囲( ±2 )に値が含まれる確率は95.44%に,標準偏差の3倍の範囲( ±3 )に値が含まれる確率は99.72%になります。したがって,正規分布に従うデータが標準偏差の2倍の範囲から外れる確率は4.56%になります。これを利用して,ある仮説が正しいかどうかを調べることを検定といいます。

1 2 3 4:表の出る数

: の目が出る数

0.4

0.3

0.2

0.1

0

1 2 3 4

0.1

0.2

0.3

0.4

0.5

0.6

0

0

0

(b)

(a)

(b) (c)(a)

(a)

(c)

(b)

99.72%

68.26%

95.44%

(c)

▶▶図1.16 正規分布の確率