第 1 章 データに関する理解
DESCRIPTION
第 1 章 データに関する理解. 統計学基礎 2012 年度. このスライドの内容. データの収集と定義 データの収集は、意外と難しいものである。データを収集する際には、対象を定義しなくてはならないが、定義がきちんとできるものや、あいまいになるものなど、さまざまである。 データの種類 同じように数値であらわされたデータであっても、実はさまざまな種類がある。データの種類が変われば、それにともなって、どのようにまとめればよいか、まとめ方も変わる。ここでは、データの種類と尺度から見た分類について学ぶ。. 問 3 階建の建物があり、そのビルにはネズミが多く出る。 - PowerPoint PPT PresentationTRANSCRIPT
第 1 章 データに関する理解
統計学基礎 2012年度
このスライドの内容
データの収集と定義 データの収集は、意外と難しいものである。データを
収集する際には、対象を定義しなくてはならないが、定義がきちんとできるものや、あいまいになるものなど、さまざまである。
データの種類 同じように数値であらわされたデータであっても、
実はさまざまな種類がある。データの種類が変われば、それにともなって、どのようにまとめればよいか、まとめ方も変わる。ここでは、データの種類と尺度から見た分類について学ぶ。
問 3 階建の建物があり、そのビルにはネズミが多く出る。 このビルにいるネズミの数を数えるにはどうすればよいか?
答え 1 階から順番に、 2 階、 3 階と数えていけばよい。
→ しかし、 1 階で数えたネズミを、 2 階でもう 1 度数えることもありうる。 1 階から 2 階に移動した際に、ネズミが 1 階に逃げ込むこともあるでしょう。
さて、どうする??
解決策(例) 1 階から 3 階まで、 3 人の人が同時に数える。 ネットなどをはって、他の階に逃げないようにする。 数え終わったネズミに、しるしをつけておく。 など
人間であれば、このような問題は起きないであろうか? → 教室に座っている学生の人数を数えることは簡単 → 教室の机といすを片付けて、動き回っている学生の人数を数え
ることは、少し工夫が必要
<国勢調査における日本の人口> 平成 22 年 10 月 1 日現在、 3 か月以上日本に住んでいるか、これ
から 3 か月以上日本に住む予定のすべての人を対象に、ふだん住んでいる場所で調査する。
→ 日本の人口、日本国内のある地域(たとえば周南市)の人口にこのような定義を与えている。
→ 単身者 (1 人ぐらしの学生、単身赴任 ) などは、注意が必要(重複のリスクが高い)
データの収集と定義
周南市に「お年寄り」がどれぐらいいるのかを調べたい⇒ 「お年寄り」として、何歳以上かを定義する。 老年人口として 65歳以上が広く用いられているが、これを用いるのであれ
ば、周南市にふだん住んでいる( 3か月以上) 65歳以上の人を数えればよい。
このクラスに「イケメン」がどれぐらいいるのかを数えたい⇒ 「イケメン」が定義できればよいが、これは難しい。 明らかに「イケメン」 「イケメンではない」であると、みんなが認めれば
それも定義になるのだが、それ以外があまりに多い。(自称「イケメン」なら、挙手すればよいのだが・・・。)
「貧困層」はどれぐらいいるのか?⇒ 「貧困層」 の定義は、微妙な例である。 たとえば、「年間収入 200万円未満」を「貧困層」とおいてみると、いろ
いろと問題が生じる。 単身で 180万円なのか、 5人家族で 180万円なのか。 持ち家があって 180万円なのか、借家で家賃を払って 180万円なのか。 → 社会保障の分野などでは、条件を細分化「貧困層」を定義しようとして
いる。データを収集する場合、その条件にあう人やモノなどを、何らかの形で定義する必要がある。
データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数1 2 男 山口県 170.3 61.2 1 602 3 女 山口県 155.4 48.6 4 903 4 男 広島県 168.2 54.2 5 804 2 男 福岡県 171.0 58.5 3 505 2 男 島根県 175.4 57.6 2 706 3 男 山口県 165.7 63.5 1 107 4 女 広島県 157.2 50.1 1 608 3 女 愛媛県 162.3 53.4 4 809 2 男 山口県 177.1 63.0 3 2010 3 男 山口県 165.0 52.5 3 80
• 学年、性別、出身地、身長、体重、家族の人数、テストの点数という 7つの変量(変数)について、 10個の観測値を持つデータ。
データを分析する場合、性別や出身地などの情報はなんらかの数値によって表されることが多い。
この例では出身地(都道府県コード)、性別(男-1、女-2)を数値で表している。
出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数1 2 1 35 170.3 61.2 1 602 3 2 35 155.4 48.6 4 903 4 1 34 168.2 54.2 5 804 2 1 40 171.0 58.5 3 505 2 1 32 175.4 57.6 2 706 3 1 35 165.7 63.5 1 107 4 2 34 157.2 50.1 1 608 3 2 38 162.3 53.4 4 809 2 1 35 177.1 63.0 3 2010 3 1 35 165.0 52.5 3 80
この表にある変量は次のように分類することができる。
<質的変量と量的変量> 数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。また、学年は実際に大学に在学している年数とは異なり、分類のための数値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味があるか」を考えてみる方法がある。
質的変量(質的変数)
量的変量(量的変数)
離散変量(離散変数)連続変量(連続変数)
性別、学年、出身地など
家族の人数、テストの点数など身長、体重など
<離散変量と連続変量> 量的変量はさらに離散変量と連続変量に分類される。 離散変量は家族の人数やテストの点数など、とびとびの値しかと
らない変量である。 一方、身長や体重などは正確に測ろうとする場合、無限に細かい
数値になる。 ( 身長 171.2865...cm) このような変量は連続変量である。
テストの点数(離散変量)
50 51 52 53
身長(連続変量)
170 171 172 173
データの種類によって、まとめ方が異なる
※ データの尺度
データの分類方法としては、尺度による分類方法もある。
質的変量
量的変量 間隔尺度比例尺度
名義尺度 順序尺度
質的変量
離散変量
連続変量
名義尺度
順序尺度
間隔尺度
比例尺度
量的変量
尺度による分類
※ 離散変量と連続変量のそれぞれに、間隔尺度と比例尺度のものがある。
ⅰ)名義尺度(性別、出身地など) データ同士を区別するためにつけたもの。性別で、男-1、女-2
などとしているが、男女を入れ替えても問題ない。
ⅱ)順序尺度(テストの順位、成績評価など) テストの順位や成績評価など、順番に意味があるものである。これ
は、入れ替えることはできない。
順序尺度
出席番号 テストの点数 成績1 60可2 90優3 80優4 50不可5 70良6 10不可7 60可8 80優9 20不可10 80優
出席番号 成績1 32 13 14 45 26 47 38 19 410 1
テストの点数をもとに、成績をつけ、優-1、良-2、可-3、不可-4とする。
この数値が少ない方が成績が良いことはわかるが、等間隔ではなく、算術平均をとる意味はない。
ⅲ)間隔尺度(テストの点数、日付など) テストの点数のように、順番に意味があり、さらにそれが等間隔に並んでいるもの。比例尺度との違いは、ゼロが絶対的な意味を持つかどうか。
ⅳ)比例尺度(身長、体重、家族の人数など) 比率尺度ともいう。体重 40kg は 20kg の 2倍というように、比に
も意味がある。
※ テストの点数 - ここでは、間隔尺度とした。その理由は、 0 点は「全く能力がない」ということではなく、たまたまその問題に正解することができなかった (易しい問題になれば、何点か取れる ) からである。
間隔尺度も比例尺度も、それぞれ離散変量の場合と連続変量の場合がある。この講義では、データをまとめる際に尺度の違いは意識しなくても構わない。