必修「数学Ⅰ」で統計を学ばせるための教材実践研究 ·...
TRANSCRIPT
必修「数学Ⅰ」で統計を学ばせるための教材実践研究
一橋大学 経済学研究科 駒野誠
1.研究の動機
筆者は、「数学は、無限を掴む」が大テーマであると考
え、そのためには、「無限を有限化する行為が欠かせず、
また、逆に有限個を無限にするという、他に類を見ない
学ぶべき価値がある」と考え生徒・学生に指導してきた。
無限のなかに‘共通点’を見いだし、それによって、
無限から有限の世界に誘うことが可能となる。このこと
は人間の思考効率化の特徴といってよいだろう。これは、
AI そのものの考え方かもしれない。
しかし、現在の学校教育での統計指導は、多くの定義・
公式を適用するいわば暗記ものになりがちである。
(統計に関わらず、答を速く出す算術が主眼になってい
るように感じる。ここで、塩野直道の要目カス論:「要目
として羅列してある数学的な話題は,生徒が数学的な活
動をして後に残った食べカスに過ぎない。活動の質自体
が重要な教育的内容である。」を思い出す。)答えを出す、
答は一つが数学と思い込まされてはいないだろうか。
「見えなかったモノが観えるようになる」を狙った、
モノの見方に新たな視点をプラスする数学としての力
を生徒につけさせられるとの認識が持てないためか、現
場での統計授業に力が入っていない現状がある。入試で
も、2022 年度以降の高大連携で、すぐにでも実行可能
で効果あることとして、各大学の入試において、受験生
の自分のノート 1 冊持ち込み OK の決断で、入試は新た
な歩を踏み出せるだろう。
偏差の平方の平均、2 乗の平均から平均の 2 乗を引い
たもの、が分散だ!覚えて置けとヤクザ調になったりす
る。暗記はある意味、考えることを放棄し、考えないで
済むという利点があるともいえるが、数学科の存在意義
は、算数の「…算」のような答えを出すマニュアル的算
術方法の暗記ではない。これを問題解決だとの勘違いが
あるのかもしれない。公式の文字に数を代入することが
数学であると生徒に思わせていたらダメだろう。
2.学校数学の役割
{‘かぞえる’, ‘くらべる’,‘はかる’,‘かえる’}
を四面体構造の頂点とする学校での数学教授の中心的
な概念が学校教育での dependable(頼りになる)とする。
その内部で、困ったときの対処法に、portable(持ち運び
可能)な{仲間をつくる,次元をあげる,相棒をみつける,
定義をする}の実行を試みる。また、これら全体を通じ、
個々の数式・定理・公式らを従え、最上位にあるべきは、
‘共通点’を見出すことが sustainable(持続可能)と考え
る。数学教育という塀の中での村社会にならないような
生き生きとした学びが肝要である。
3.問題点
新学習指導要領では、‘データの分析’が引き続き「数
学Ⅰ」で、「数学 B」では、ベクトルを「数学 C」へ追い
出し、‘数列’,‘統計的な推測’,‘数学と社会生活’が入
る。必修の「数学Ⅰ」で統計を扱う際に、未習の’ベクト
ル’、’数列’の使用禁止の影響が大である。具体的には、
添え字とΣである。
<箱ひげ図の扱い>
2022 年からは、‘四分位数’や‘箱ひげ図’が中学校
へ移行となる。しかし、「数学 A」の‘数学と人間の活
動’の章の中の整数の性質の学習で、もっと数学的に扱
うべきことがある。
〇「数学 A」整数とリンクさせる指導例
中学校へ移行した理由は、簡単なことだから中学へ、
が理由だとするならば、それ
は誤りである。
その理由を示そう。四分位数
と 箱 ひ げ 図 ( box-plot
diagram)は、データを小さい値の順にソーティングし、
4 等分に分割し、その位置にくる数を「四分位数」とい
い、小さい方から「第1四分位数𝑄1」、「第 2四分位数𝑄2」
(中央値)、「第 3 四分位数𝑄3」と呼ぶ。
Q は Quartile (4 分の 1 は quarter)の頭文字で、
四分位数(quartile) first-, second-, third- ただし、
4 等分の位置にデータがない場合もあり、その時は両隣
のデータの平均値を四分位数とするなど、見た目ほど簡
単ではない。箱にはデータが均等に分布しているわけで
はないことは特にわかりにくい。
指導例 データの個数に関して、半分半分とするのだか
ら、mod 4 つまり 4 で割った余りが0,1,2,3の 4
通りを考えさせることで、すべてを掴んだことになる。
データの個数を𝑛 としたときの図の記号は、|が両隣の
平均を四分位数とするとき、●はデータそのもの
𝑛 ≡ 0(𝑚𝑜𝑑 4) 〇 | 〇 | 〇 | 〇
𝑛 ≡ 1(𝑚𝑜𝑑 4) 〇 | 〇 ● 〇 | 〇
𝑛 ≡ 2(𝑚𝑜𝑑 4) 〇 ● 〇 | 〇 ● 〇
𝑛 ≡ 3(𝑚𝑜𝑑 4) 〇 ● 〇 ● 〇 ● 〇
よくある問題
問題 データの数と箱ひげ図が与えられたとき、4 等分
のところにデータが存在しているか否かが重要であり、
また、𝑄2が箱の中を仕切っているが、𝑄1と𝑄2の間にカー
テンℓを入れたとき、ℓよりも小さい数がどのように分布
しているかは不問である。そのため、ℓより小さいデー
タの最小値と最大値という問題が生じる。 そこで、す
べてを把握するために、データの個数で分類するのが数
学である。
30 人のデータの箱ひ
げ図が下図である。
30 個の分布 30≡2(mod 4) カーテンℓより小さいデー
タの個数 N は、8≦N≦15 なぜなら、⑦の 7 個が、
箱内でℓより左に全部あるときが最大個数で 15 個、⑦
の 7 個全部が箱内ℓの右かつ𝑄2の左にあるときが最小個
数の 8 である。
4.現状認識
(1) 教科書のあり方
繰り返すが、必修の「数学Ⅰ」では、新「数学 C」の
‘ベクトル’ で学習するベクトルの大きさや内積、新
「数学 B」で学ぶ‘数列’でのΣ記号などを用いること
はできないことを前提に教材を構成する必要がある。そ
のため、「数学Ⅰ」での、‘データの分析’における式変
形は、数学が得意な生徒たちにはΣ記号を導入して済ま
せられるが、数学が苦手な生徒たちにはΣ記号を短時間
で差し挟むことは指導上無理があり、Σは使えないため
に、平均のたびに、𝑥1+𝑥2+⋯+𝑥𝑛
𝑛 のように( +…+ )/ 𝑛
を多用しなければならず先生方は指導に苦労している
現状がある。
筆者がこの打開策を模索していて、共通点の‘平均’
に気が付いたとき、ワクワク感は最高潮であった。やは
り、‘共通点’は思考の根幹に位置づけられる。
(2) 定義と式変形
統計の代表値である、‘最頻値’、‘中央値’などは、デ
ータの和とは無関係であり、小中学校で済む内容である。
その後の代表値としての「数学Ⅰ」での内容は、‘分散’、
‘標準偏差’、‘共分散’、‘相関係数’だが、、‘回帰直線
の傾き(回帰係数)’なども学ばせたい。ここで暗記モノ
ではない、数学としての統計をしたいものである。
「数学Ⅰ」での‘データの分析’における共通点は、
平均を利用した値の処理であることである。
この‘共通点’を見出すことこそ、数学学習の最大の課
題ともいえる。純粋数学においても、共通点から同値関
係を考え、分類作業が始まる。この論文の肝は、いかに
して、Σを使わずに指導できるのか模索していたところ、
平均を計算する式たちに‘共通点’があり、Σを使わず
に種々の公式を変形することが容易にできたので、高校
生、大学生、教員に実践してみた結果、好評であったの
で報告する。この論考では、念のためΣなど一部両方併
記しておく。
0 1 1 7 ⑦ 7
7
min 第一 第二 第三 max
0 0 0 1 1
1 1
min 第一 第二 第三 max
0 0 1 1 1
1 1
min 第一 第二 第三 max
1 1 0 1 1
1 1
min 第一 第二 第三 max
1 1 1 1 1
1 1
5.表現方法
(1) データの表現
数学として、最初に困るのが、資料、データ𝑥という
表現である。集合なのか、順序対なのか、不明であるこ
と。集合ならば、データ𝑥 = {𝑥𝑖}(𝑖 = 1,2,3,・・・, 𝑛),y =
{𝑦𝑖}(𝑖 = 1,2,3,・・・, 𝑛)とするのだろう。集合よりも、
順序対のほうがよいのではないか。
順序対𝑥 = (𝑥1, 𝑥2,・・・, 𝑥𝑛),𝑦 = (𝑦1, 𝑦2,・・・, 𝑦𝑛)
といっても、𝑥𝑖という、「数学 B」の数列で学習する添
え字付きの数(関数)の前に使用しているという、
そこで、ベクトルに似せて、𝑥 = (𝑥1, 𝑥2,・・・, 𝑥𝑛)など
と書き、𝑥のメンバーたちと呼ぶことにする。
異なる種類のデータを扱うときやそこから組を作る
には順序が肝心となる。また、後に学ぶ、ベクトル、数
列につながるものでなければならない。リンクで見出す
’共通点’を有する知識でなければ、portable なモノに
ならず、社会に出て役に立たない。
(2) 平均をとる操作 bar
ここでは、これを‘平均化’と呼ぶことにする。
Bar は、否定としてド・モルガンの法則𝐴 ∩ 𝐵 = 𝐴 ∪ 𝐵
は、bar の配下にある 3 つを個々に否定したような、使
い勝手がよい法則である。次のような括弧の代用として
の使い方もある。例)𝑥2 = (𝑥 − 𝑝 + 𝑝)2 = (𝑥 − 𝑝)2 +
2𝑝(𝑥 − 𝑝) + 𝑝2 のようにテーラー展開では活躍する。
平均化では、bar を使うことの凄さは、添え字を使う
ことなく、Σも使う必要がないことである。
データ𝑥の平均 𝑥 =𝑥1+𝑥2+⋯+𝑥𝑛
𝑛 ・・・
1
𝑛∑ 𝑥𝑖𝑛𝑖=1 を
1 文字𝑥で表現できることである。凄い!
ことばに直せば、この「𝑥の平均」とは「𝑥のメンバーた
ちの平均をとる」ことをいう。平均値とは、和をとるこ
とが前提で、足した個数で割って得られる数のこと。
平均化の公式(bar)線形である:
この等式は後に度々使用するので、ここで 1 度だけ1
𝑛(…+ ⋯+⋯)を用いて証明しておく:
証明)① 通常の証明は、Σを利用して、
左辺=𝑎𝑥 + 𝑏𝑦 + 𝑐 =1
𝑛∑ (𝑎𝑥𝑖 + 𝑏𝑛𝑖=1 𝑦𝑖 + 𝑐) =
𝑎1
𝑛∑ 𝑥𝑖 + 𝑏𝑛𝑖=1
1
𝑛∑ 𝑦𝑖 +
1
𝑛∑ 𝑐𝑛𝑖=1 = 𝑎𝑥 + 𝑏𝑦𝑛
𝑖=1 + c = 右辺
◎シグマを使わない指導による証明
1
𝑛{(𝑎𝑥1 + 𝑏𝑦1 + 𝑐) + (𝑎𝑥2 + 𝑏𝑦2 + 𝑐) + ⋯+ (𝑎𝑥𝑛 + 𝑏𝑦𝑛 + 𝑐)}
= 𝑎 ×𝑥1+𝑥2+⋯+𝑥𝑛
𝑛+ 𝑏 ×
𝑦1+𝑦2+⋯+𝑦𝑛
𝑛+
𝑐+𝑐+⋯+𝑐
𝑛
= 𝑎𝑥 + 𝑏𝑦 + c //
② 𝑥 = 𝑦より、任意の𝑖で𝑥𝑖 = 𝑦𝑖であるから、平均 𝑥と
𝑦 は等しい。
③ 平均すると、1 つの定数になるので、平均しても変
化なし。//
よく知られている確率変数の変換である公式:
期待値 E(𝑎𝑥 + 𝑏) = 𝑎𝐸(𝑥) + 𝑏 ,
分散 𝑉(𝑎𝑥) = 𝑎2𝑉(𝑥)
この証明は、期待値 E(𝑎𝑥 + 𝑏) = 𝑎𝑥 + 𝑏 = 𝑎𝑥 + 𝑏 ,
𝑥の分散がV(𝑥) = (𝑥 − 𝑥)2 であるから、
𝑎𝑥の分散 V(𝑎𝑥) = (𝑎𝑥 − 𝑎𝑥)2={𝑎(𝑥 − 𝑥)}2
= 𝑎2(𝑥 − 𝑥)2 = 𝑎2V(𝑥) //
などにも容易に対応できる。
また、教科書(「数研出版」研究‘変量の変換’)で、変
量𝑥から変量𝑦への変数変換:𝑦 = 𝑎𝑥 + 𝑏の平均と分散の
計算を紹介している。
ここでは、平均化を用いて計算してみる。
平均は、𝑦 = 𝑎𝑥 + 𝑏 = 𝑎𝑥 + 𝑏
分散は、𝜎𝑦2 = (𝑦 − 𝑦)2 = ((𝑎𝑥 + 𝑏) − (𝑎𝑥 + 𝑏))
2
={𝑎(𝑥 − 𝑥)}2 = 𝑎2(𝑥 − 𝑥)2 = 𝑎2(𝑥 − 𝑥)2 = 𝑎2𝜎𝑥2
1 ページを割いて掲載されたことが、たったの数行で計
算終了となるほど容易になった。
主たる統計量の表つくり
𝑥 = 3 , 𝑦 = 5 , (𝑥 − 𝑥)2 = 𝑠𝑥2 = σ𝑥
2 , (𝑦 − 𝑦)2 =
𝑠𝑦2 = σ𝑦
2 , (𝑥 − 𝑥)(𝑦 − 𝑦) = 𝑠𝑥𝑦 = σ𝑥𝑦 など。
定義 𝑥の分散とは、偏差の平方の平均
つまり、𝑠𝑥2 = σ𝑥
2 = (𝑥 − 𝑥)2 =1
𝑛∑ (𝑥𝑖 − 𝑥)2𝑛𝑖=1
𝑥の標準偏差とは、𝑥の分散の平方根である。
① 𝑎𝑥 + 𝑏𝑦 + 𝑐=𝑎𝑥 + 𝑏𝑦 + c ,
② 𝑥 = 𝑦ならば𝑥 = 𝑦 , ③ (𝑥) = 𝑥
データ
メンバー メンバー
A 1 4 -2 -1 2 4 1 4 1 16
B 2 5 -1 0 0 1 0 10 4 25 0
C 3 5 0 0 0 0 0 15 9 25 0 0
D 4 4 1 -1 -1 1 1 16 16 16
E 5 7 2 2 4 4 4 35 25 49
データ数 データ数 5 データ数 5 データ数 5 データ数 5 データ数 5 データ数 5 5 5
和 和 5 和 10 和 6 和 80 和 55 和 131 0 0
平均 3 5 0 0 1 2 1.2 16 11 26.2 0 0
分散
標準偏差 1
5
相関係数
y
x-¯x
1.41 1.10
(xの偏差)の平方 積 平方xの偏差 yの偏差 偏差の積 (yの偏差)の平方
5 5 5 5
15 25 0 0
平方
0
0
𝑥 − 𝑥 y−y 𝑥 − 𝑥 𝑦− 𝑦 (𝑥 − 𝑥)2
(𝑥 − 𝑥)2
2
(y −𝑥)2
(𝑦 − 𝑦)2𝑥 𝑦 𝑦 − 𝑦
𝑥1
𝑥2
𝑥3
𝑥
𝑥
𝑦1
𝑦2
𝑦3
𝑦
𝑦
𝑥1 −𝑥
𝑥2−𝑥
𝑥3−𝑥
𝑥 −𝑥
𝑥 −𝑥
𝑥 − 𝑥
𝑦1 −𝑦
𝑦2 −𝑦
𝑦3 −𝑦
𝑦 −𝑦
𝑦 −𝑦
1 2
𝑥1− 𝑥 2
𝑥2−𝑥 2
𝑥3−𝑥 2
𝑥 −𝑥 2
𝑥 −𝑥 2
𝑦1 −𝑦 2
𝑦2 −𝑦 2
𝑦3 −𝑦 2
𝑦 − 𝑦 2
𝑦 −𝑦 2
𝑥1− 𝑥 𝑦1 −𝑦
𝑥2− 𝑥 𝑦2 −𝑦
𝑥3− 𝑥 𝑦3 −𝑦
𝑥 −𝑥 𝑦 −𝑦
𝑥 − 𝑥 𝑦 −𝑦
xy
𝑥1𝑦1
𝑥2𝑦2
𝑥3𝑦3
𝑥 𝑦
𝑥 𝑦
𝑥2 𝑦2
𝑥12
𝑥22
𝑥32
𝑥 2
𝑥 2
𝑦12
𝑦22
𝑦32
𝑦 2
𝑦 2
𝑥
𝑥 − 𝑥 𝑦 − 𝑦 𝑥𝑦 𝑥2 𝑦2
𝜎𝑥𝑦 𝜎𝑥2 𝜎𝑦
2
𝜎𝑥= − = −
𝜎𝑦
𝑥 − 𝑥
𝜎𝑥
𝑦 − 𝑦
𝜎𝑦
𝑥 − 𝑥
𝜎𝑥×𝑦 −𝑦
𝜎𝑦
− 2
−1 2
1 2
2
− 5
− 5
2 5
5 3
− 5 2 3
2 5 3
5 5 2 3
5 2 3
𝑥𝑦 = 𝜎𝑥𝑦 𝜎𝑥𝜎𝑦𝜎𝑥2
= −
𝜎𝑦2
𝑠𝑥 = σ𝑥 = √(𝑥 − 𝑥)2 = √1
𝑛∑ (𝑥𝑖 − 𝑥)2
𝑛
𝑖=1
𝑥, 𝑦の共分散とは、𝑥, 𝑦の偏差の積の平均である。
𝑠𝑥𝑦 = σ𝑥𝑦 = (𝑥 − 𝑥)(𝑦 − 𝑦) =1
𝑛∑ (𝑥𝑖 − 𝑥)
𝑛
𝑖=1(𝑦𝑖 − 𝑦)
(3) 記号の表現方法
𝑥, 𝑦の共分散𝑠𝑥𝑦 のディメンジョンがわかるには、𝑥, 𝑥
の共分散が𝑥の分散と言い換えられることである。
そこで、𝑠𝑥𝑥 = 𝑠𝑥2 = 𝑠𝑥2 = σ𝑥
2 等と表記できるが、標
準偏差𝑠𝑥 = σ𝑥 = √𝑠𝑥𝑥 = √𝑠𝑥2 = √𝑆𝑥2 等と複数の表現
ができるが、どれも一長一短である。
(4) 平均の式変形
本稿では、言葉の代わりにΣ計算も書いたが、「数学
Ⅰ」の授業ではΣは使わずに、定義の言葉通りの計算
を bar だけの計算で処理できるので、これまでになく
画期的であると自負している。
①𝑥の偏差𝑥 − 𝑥の平均=𝑥 − 𝑥=𝑥 − 𝑥 = 𝑥 − 𝑥 = 0
②𝑥の分散=偏差の平方(𝑥 − 𝑥)2の平均=(𝑥 − 𝑥)2
𝑠𝑥2 = (𝑥 − 𝑥)2 = 𝑥2 − 2𝑥𝑥 + (𝑥)2
= 𝑥2 − 2𝑥 ∙ 𝑥 + (𝑥)2 = 𝑥2 − (𝑥)2
この変形は、数学が苦手な生徒にも、得意な生徒にも、
先生方にも好評である。
2変数変換𝑧 = 𝑥 + 𝑦の分散も容易に計算できる;
𝑠𝑧2 = {(𝑥 + 𝑦) − (𝑥 + 𝑦)}
2
= {(𝑥 − 𝑥) − (𝑦 − 𝑦)}2
= {(𝑥 − 𝑥)2 − 2(𝑥 − 𝑥)(𝑦 − 𝑦) + (𝑦 − 𝑦)2}2
= (𝑥 − 𝑥)2 − 2(𝑥 − 𝑥)(𝑦 − 𝑦) + (𝑦 − 𝑦)2
= 𝑠𝑥2 − 2𝑠𝑥𝑦 + 𝑠𝑦
2
次に、相関係数や回帰直線を学ぶには、標準化の考えが
欠かせない。しかし、教科書では省かれ、相関係数が暗
記すべき公式となっている。しかし、barをとる計算に
よって、変換式などのチェックが容易になった。
(5) 「覧古考新」
「覧古」とは、Met Before(既習)のことであるが、そ
の後の成長によって、振り返ってみると、その当時は気
が付かなかったことが深く観えて、新たなことを考えだ
せる「考新」となること。
例)中学での直線 𝑦 = 𝑎𝑥 + 𝑏…①の学習が 2 点通過型
で、連立方程式による係数決定に偏っていることであ
る。それは、パラメータの消去方法として、通る点(1,
3)があれば、3 = 𝑎 × 1 + 𝑏…②
ここで、①-②で、パラメータの1つの𝑏を消去し、
𝑦 = 𝑎𝑥 + (3 − 𝑎) = 𝑎(𝑥 − 1) + 3 つまり、
通る点(1,3)の座標を‘見える化’した式: 𝑦 − 3 =
𝑎(𝑥 − 1) を紹介する指導がなされていないことに気付
かされる。後の接線の公式の指導で苦労することになる。
x 軸、y 軸上の両方に並べたデータをどうやって組に
するかという根本の問題である。
従来の「𝑥が 1のとき𝑦が 3、𝑥が 4のとき𝑦が 9である 1
次関数?」だけでなく、新種の問い「ある日、新芽 Aの
長さは1㎝で 1 週間後は 4 ㎝、新芽 B の長さは 3 ㎝で 1
週間後は 9㎝であった。」
データをどのように組にして、2次元座標平面上にプロ
ットするのか?
ここで、これらの芽の伸びが 1 次関数的だとすると、2
種 類 の 新 芽 A,B の 長 さ を 組 に し 、 点 (𝑥, 𝑦)
と見做したとき、ある日の長さは点(1,3)で、その 1週
間後は点(4,9)と見做して整理できる。
𝑦 − 3 =6
3(𝑥 − 1) ⇔
𝑦−3
6=
𝑥−1
3 ⇔ 𝑦 − 3 =
𝑡 , 𝑥 − 1 = 3𝑡(𝑡は実数) と表現できる。
(6) 標準化
‘標準化’とは、データを平均=0,標準偏差=1(分
散=1)に変換することである。数学的には‘正規化’と
呼ぶのがよいだろう。異なる2種類のデータを扱うには、
単位の統一が欠かせない。つまり、正規直交座標系に点
をプロットするためには、単位を統一する必要がある。
例)高校生の身長と体重では大方 3 桁、2 桁と異なる
ので、模式図となる見える化作業では、標準化が必要と
なる。エクセルでは、変換処理は容易である。
変換 𝑥 = (𝑥1, 𝑥2,・・・, 𝑥𝑛) →
z= (𝑧1, 𝑧2,・・・, 𝑧𝑛) の定義をz =𝑥−𝑥
𝜎𝑥とする。
𝑥の平均が𝑥,標準偏差が𝜎𝑥であるデータを、𝑧の平均
が 0,標準偏差が 1(分散も 1)のデータに𝑥から𝑧へ線
形変換したものである。 ‘見える化’する。
これは、データの組P(𝑥, 𝑧),2 点 A(𝑥, 0) , B(𝑥 + 𝜎𝑥 , 1)を
通過する直線であり、その式は、
𝑥 = 𝑥 + 𝜎𝑥𝑡 , 𝑧 = 0 + 𝑡 ( 𝑡は実数 )であり、z − 0 =
1
𝜎𝑥(𝑥 − 𝑥) である。変換式は、𝐳 =
−
𝝈 は標準測度とも
呼ばれている。
zの平均=z = (𝑥−𝑥
𝜎𝑥) =
𝑥−𝑥
𝜎𝑥= 0
zの分散 = (z − z)2 = (z − 0)2
= 𝑧2 = (𝑥−𝑥
𝜎𝑥)2
=(𝑥−𝑥)2
𝜎𝑥2 =
𝜎𝑥2
𝜎𝑥2 = 1
(7) 偏差値(標準化の一例)
Web 上でも、‘偏差値’についての公式を紹介してい
るが、変換の立場での記述はないようである。
ここでのキーワードは、‘標準化’と‘線形変換(一次
変換)’である。数学科の指導としては、生徒自身が
自分自身で公式が作れるような説明を有していること
が重要である。
標準化による変数変換の具体的な使用例が‘偏差値’
である。例)𝑥の平均 45
点、標準偏差 8 点のとき、
これに対応する𝑦の平均
を 50、標準偏差を 10 と
する線形変換が偏差値で
ある。 𝑥 = 45 + 8𝑡 , 𝑦 =
50 + 10𝑡 であり、対応す
るデータを組とし、平面
上の点と見做せば、これは 2点(45,50), (45 + 8,50 + 10)
を通る直線を求めることになる。𝑦 − 50 =10
8(𝑥 − 45)
つまり、 𝑦 = 50 + 10 ×𝑥−
8 である。
𝑧 =𝑥−
8で、標準化していることを確認してみよう:
zの平均 𝑧 = (𝑥−
8) = 0,
𝑧の分散= (𝑧 − 𝑧)2 = (𝑥−
8− 0)
2
= (𝑥−
8)2
=82
82= 1
∴ 𝑧の標準偏差=1
ここで、𝑧 =𝑥−
8は、𝑥の平均 45 点、標準偏差 8 点を
zの平均 0、zの標準偏差1への線形変換である。
なぜなら、2 点(45,0), (45 + 8,0 + 1) を通る直線
𝑧 − 0 =1
8(𝑥 − 45) である。すなわち、 𝑧 =
𝑥−
8
(8) 相関係数
相関係数 =𝜎𝑥𝑦
𝜎𝑥𝜎𝑦 この定義はどのように見出した
のか? ベクトルの内積の考えに依らず考えてみよう:
<ア> 𝑧 =𝑥−𝑥
𝜎𝑥, 𝑤 =
𝑦−𝑦
𝜎𝑦 とおくとき、𝑤 = 𝑧の係数
の意味を考える
従来の計算は、誤差の平方の和、𝜖𝑖2 = ∑ (𝑤𝑖 − 𝑧𝑖)
2𝑛𝑖=1
の最小値を平方完成(または微分)で求めることでした。
この回帰変数 (回帰直線の傾き)を‘最小2乗法’を利
用して求めてみよう:しかし、そこでの計算にはΣがあ
り面倒になるので、平均の最小値を考えることにする。
ここが Point である。
<数学の問題解決は、与えられたままや最初のままで処
理するのではなく、目的が同じ共通点を持つ仲間の式に
変形することを示すよい指導例でもある。>
回帰直線の意味は、2 種類で一方の原因が他方に結果
を出させているような関係が見えるときに有効な見え
る化の一つである。実際に実行してみると、
標準化されたデータ第𝑖番目の組を zw 座標平面上の
点と見做したP𝑖(𝑧𝑖 , 𝑤𝑖) (𝑖 = 1,2,3・・・, 𝑛)と直線𝑤 =
𝑧と w 軸方向の乖離である誤差(ギャップ)を𝜀𝑖とする
とき、この誤差の平方の和が最小となる傾き を求める
(これを‘最小 2 乗法’という)ことと、誤差の平方の
平均が最小となるような回帰直線の傾き とは同じであ
る。それは、𝜀𝑖 = 𝑤𝑖 − 𝑧𝑖であり、 ∑ 𝜀𝑖2𝑛
𝑖=1 = ∑ (𝑤𝑖 −𝑛𝑖=1
𝑧𝑖)2 の最小性は、
1
𝑛∑ 𝜀𝑖
2𝑛𝑖=1 =
1
𝑛∑ (𝑤𝑖 − 𝑧𝑖)
2𝑛𝑖=1 とし
ても縦軸方向の縮小なので最小性は不変である。これを
支える「カバリエリの原理」の指導も大切である。
そこで、ε2 =1
𝑛∑ (𝑤𝑖 − 𝑧𝑖)
2𝑛𝑖=1 とおけるが、これは、
ε2= (𝑤 − 𝑧)2 のことであるから、
𝜀2= 𝑤2 − 2 𝑧𝑤 + 2𝑧2 = 𝑤2 − 2 𝑧𝑤 + 2𝑧2 …*
ここで、𝑧, 𝑤は標準化されているので、
分散はそれぞれ𝑤2 = 1, 𝑧2 = 1であり、
𝑧𝑤 = (𝑥−𝑥
𝜎𝑥) (
𝑦−𝑦
𝜎𝑦) =
(𝑥−𝑥)(𝑦−𝑦)
𝜎𝑥𝜎𝑦=
𝜎𝑥𝑦
𝜎𝑥𝜎𝑦 であるから、
式*は、
ε2 = 2 − 2𝜎𝑥𝑦
𝜎𝑥𝜎𝑦+ 1 = ( −
𝜎𝑥𝑦
𝜎𝑥𝜎𝑦)2
+ 1 − (𝜎𝑥𝑦
𝜎𝑥𝜎𝑦)2
…★
このε2 の最小値は、 =𝜎𝑥𝑦
𝜎𝑥𝜎𝑦 のときである。
言い換えると、相関係数は、標準測度の積の平均である。
<イ> −1 ≦ ≦ 1について
𝜀2 = 2 − 2𝜎𝑥𝑦
𝜎𝑥𝜎𝑦+ 1 ≧ 0 であるから、
−20 20 40 60 80 100 x
−20
−10
10
20
30
40
50
60
70
80
90
y
O
A 45, 50( )
B 53, 60( )
★の最小値≧0⇔判別式=(𝜎𝑥𝑦
𝜎𝑥𝜎𝑦)2
− 1 ≦ 0
すなわち ( )2 − 1 ≦ 0 よって、−1 ≦ ≦ 1 であ
ることもわかる。
<ウ> 誤差の分散の最小値
誤差 𝜀𝑖 = 𝑤𝑖 − 𝑧𝑖の平均 ε = 𝑤 − 𝑧 = 0であるから、
式★は、誤差𝜀の分散
𝜎𝜀2 = (𝜀 − 𝜖)2 = 𝜀2 = ( −
𝜎𝑥𝑦
𝜎𝑥𝜎𝑦)
2
+ 1 − (𝜎𝑥𝑦
𝜎𝑥𝜎𝑦)
2
であるから、 =𝜎𝑥𝑦
𝜎𝑥𝜎𝑦のとき、誤差の分散ε2 が最小とな
ることを示している。これがデータの間を走る回帰直線
として最もフィットする(傾き)といえる。
<最小 2 乗法という表現は、計算方法であり、目標を表
現してはいないので教育的ではない。回帰直線とは、デ
ータの点の間を走る代表直線で、「その傾きは、誤差(デ
ータの点と直線との縦軸方向のギャップ)の分散が最小
となるとき」、が教育的であろう。>
これより、平均(𝑥, 𝑦)を原点(0,0)に平行移動し標準偏差
で割った標準化された座標系(正規直交座標系)におい
て、回帰直線の傾き(回帰変数)=相関係数である。
𝑦−𝑦
𝜎𝑦=
𝑥−𝑥
𝜎𝑥 ・・・①
<エ> 標準化以前の散布図おける回帰直線の傾き(回
帰係数)はどうなるのだろうか
𝑦−𝑦
𝜎𝑦=
𝑥−𝑥
𝜎𝑥…①は平均値の点(𝑥, 𝑦)を通る直線である。
では、点(𝑥, 𝑦)を通る直線 𝑦 − 𝑦 = 𝑎(𝑥 − 𝑥)…② の傾き
𝑎は何だろうか。実は簡単で、
①から𝑦 − 𝑦 = 𝜎𝑦
𝜎𝑥(𝑥 − 𝑥) これが②であるから
𝑎 = 𝜎𝑦
𝜎𝑥
𝑥を説明変数、𝑦を目的変数と呼ぶことがある。𝑥が原因
で𝑦がその結果というときに、𝑥が𝑦に与える影響を直線
で見える化したものである。
このように、たとえば、薬の用量𝑥とその効果𝑦の関係
のように、2 つのデータ間に明確な因果関係があるとき
を想定したときに用いるものである。
𝑦−𝑦
𝜎𝑦=
𝑥−𝑥
𝜎𝑥 ・・・①を再考してみよう:
単純に平均を取ると、 0=0 となり、新たな式はでてこ
ない。そこで、①の両辺に𝑥 − 𝑥を掛けて変形した、
(𝑥 − 𝑥)(𝑦 − 𝑦) = 𝜎𝑦
𝜎𝑥(𝑥 − 𝑥)2の両辺の平均を考える。
この式の平均は、(𝑥 − 𝑥)(𝑦 − 𝑦) = 𝜎𝑦
𝜎𝑥(𝑥 − 𝑥)2 これ
は、𝜎𝑥𝑦 = 𝜎𝑦
𝜎𝑥𝜎𝑥
2 ゆえに、 =𝜎𝑥𝑦
𝜎𝑥𝜎𝑦
つまり、最小 2 乗法を使わずに‘平均化’で導出可能
であることが分かったので指導しやすい。
<オ> 標準化していない散布図での回帰直線と最小 2
乗法
<従来の方法> 最小2乗法で、∑ {𝑦𝑖 − (𝑎𝑥𝑖 + 𝑏)}2𝑛𝑖=1
を最小にするような𝑎, 𝑏を平方完成または偏微分で求め、
𝑎 =𝜎𝑥𝑦
𝜎𝑥2 , 𝑏 = 𝑦 − 𝑎𝑥 であることを示す。結果、回帰直
線は平均点(𝑥, 𝑦)を通過することも示せる。しかし、従来
のままでは、Σを使わないと式が長くなり、平方完成も
辛くなる。だが、これも、データ第 𝑖番目の組を xy 座標
平面上の点と見做した P𝑖(𝑥𝑖 , 𝑦𝑖) (𝑖 = 1,2,3・・・, 𝑛)と、
直線𝑦 = 𝑎𝑥 + 𝑏と y 軸方向の誤差(ギャップ)を𝜀𝑖とし、
∑ ε𝑖2𝑛
𝑖=1 = ∑ {𝑦𝑖 − (𝑎𝑥𝑖 + 𝑏)}2𝑛𝑖=1 …#
ここで、ε2 =1
𝑛∑ ε𝑖
2𝑛𝑖=1 とおくと、#の最小値ではなく
#の平均である ε2= {𝑦 − (𝑎𝑥 + 𝑏)}2 の最小値を調べれ
ばよい。理由は平均をとっても最小性は不変である。
ε2 − (𝜀)2=𝜎𝜀2と分散との関係が気になる。
これは、ε2=𝜎𝜀2 + (𝜺)2 ≧ 𝜎𝜀
2 …♭となり、
等号は、𝜺 = 𝑦 − 𝑎𝑥 − 𝑏 = 0 のときであるとわかり、
結局、ε2の最小は、𝜎𝜀2が最小となる𝑎, 𝑏を求めればよ
い。
𝜀 − 𝜀 = {𝑦 − (𝑎𝑥 + 𝑏)} − {𝑦 − 𝑎(𝑥 − 𝑥)} であるから、
𝜎𝜀2 = (𝜀 − 𝜀)2 = {(𝑦 − 𝑦) − 𝑎(𝑥 − 𝑥)}2
= (𝑦 − 𝑦)2 − 2𝑎(𝑥 − 𝑥)(𝑦 − 𝑦) + 𝑎2(𝑥 − 𝑥)2
= 𝜎𝑦2 − 2𝑎𝜎𝑥𝑦 + 𝑎2𝜎𝑥
2 = 𝜎𝑥2 {(𝑎 −
𝜎𝑥𝑦
𝜎𝑥2)
2
−𝜎𝑥𝑦
2
𝜎𝑥 } + 𝜎𝑦
2
= 𝜎𝑥2 (𝑎 −
𝜎𝑥𝑦
𝜎𝑥2)
2
−𝜎𝑥𝑦
2
𝜎𝑥2 + 𝜎𝑦
2
これを最小にする𝑎は、𝑎 =𝜎𝑥𝑦
𝜎𝑥2 であることがわかった。
これが、回帰直線の傾き(回帰係数) 𝑎であり、♭の等号
成立が 𝜀 = 𝑦 − 𝑎𝑥 − 𝑏 = 0 のときより、切片は 𝑏 =
𝑦 − 𝑎𝑥 となり、回帰直線は平均点(𝑥, 𝑦)を通過するとい
う重要事項も同時に示せる。