必修「数学Ⅰ」で統計を学ばせるための教材実践研究 ·...

6
必修「数学Ⅰ」で統計を学ばせるための教材実践研究 一橋大学 経済学研究科 駒野誠 [email protected] 1.研究の動機 筆者は、「数学は、無限を掴む」が大テーマであると考 え、そのためには、「無限を有限化する行為が欠かせず、 また、逆に有限個を無限にするという、他に類を見ない 学ぶべき価値がある」と考え生徒・学生に指導してきた。 無限のなかに‘共通点’を見いだし、それによって、 無限から有限の世界に誘うことが可能となる。このこと は人間の思考効率化の特徴といってよいだろう。これは、 AI そのものの考え方かもしれない。 しかし、現在の学校教育での統計指導は、多くの定義・ 公式を適用するいわば暗記ものになりがちである。 (統計に関わらず、答を速く出す算術が主眼になってい るように感じる。ここで、塩野直道の要目カス論:「要目 として羅列してある数学的な話題は,生徒が数学的な活 動をして後に残った食べカスに過ぎない。活動の質自体 が重要な教育的内容である。」を思い出す。)答えを出す、 答は一つが数学と思い込まされてはいないだろうか。 「見えなかったモノが観えるようになる」を狙った、 モノの見方に新たな視点をプラスする数学としての力 を生徒につけさせられるとの認識が持てないためか、現 場での統計授業に力が入っていない現状がある。入試で も、2022 年度以降の高大連携で、すぐにでも実行可能 で効果あることとして、各大学の入試において、受験生 の自分のノート 1 冊持ち込み OK の決断で、入試は新た な歩を踏み出せるだろう。 偏差の平方の平均、 2 乗の平均から平均の 2 乗を引い たもの、が分散だ!覚えて置けとヤクザ調になったりす る。暗記はある意味、考えることを放棄し、考えないで 済むという利点があるともいえるが、数学科の存在意義 は、算数の「…算」のような答えを出すマニュアル的算 術方法の暗記ではない。これを問題解決だとの勘違いが あるのかもしれない。公式の文字に数を代入することが 数学であると生徒に思わせていたらダメだろう。 2.学校数学の役割 {‘かぞえる’, ‘くらべる’,‘はかる’,‘かえる’} を四面体構造の頂点とする学校での数学教授の中心的 な概念が学校教育での dependable(頼りになる)とする。 その内部で、困ったときの対処法に、 portable(持ち運び 可能)な{仲間をつくる,次元をあげる,相棒をみつける, 定義をする}の実行を試みる。また、これら全体を通じ、 個々の数式・定理・公式らを従え、最上位にあるべきは、 ‘共通点’を見出すことが sustainable(持続可能)と考え る。数学教育という塀の中での村社会にならないような 生き生きとした学びが肝要である。 3.問題点 新学習指導要領では、‘データの分析’が引き続き「数 学Ⅰ」で、「数学 B」では、ベクトルを「数学 C」へ追い 出し、‘数列’,‘統計的な推測’,‘数学と社会生活’が入 る。必修の「数学Ⅰ」で統計を扱う際に、未習のベクト 数列の使用禁止の影響が大である。具体的には、 添え字とΣである。 <箱ひげ図の扱い> 2022 年からは、‘四分位数’や‘箱ひげ図’が中学校 へ移行となる。しかし、「数学 A」の‘数学と人間の活 動’の章の中の整数の性質の学習で、もっと数学的に扱 うべきことがある。 〇「数学 A」整数とリンクさせる指導例 中学校へ移行した理由は、簡単なことだから中学へ、 が理由だとするならば、それ は誤りである。 その理由を示そう。四分位数 と 箱 ひ げ 図 ( box-plot

Upload: others

Post on 24-Jun-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 · 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 一橋大学 経済学研究科

必修「数学Ⅰ」で統計を学ばせるための教材実践研究

一橋大学 経済学研究科 駒野誠

[email protected]

1.研究の動機

筆者は、「数学は、無限を掴む」が大テーマであると考

え、そのためには、「無限を有限化する行為が欠かせず、

また、逆に有限個を無限にするという、他に類を見ない

学ぶべき価値がある」と考え生徒・学生に指導してきた。

無限のなかに‘共通点’を見いだし、それによって、

無限から有限の世界に誘うことが可能となる。このこと

は人間の思考効率化の特徴といってよいだろう。これは、

AI そのものの考え方かもしれない。

しかし、現在の学校教育での統計指導は、多くの定義・

公式を適用するいわば暗記ものになりがちである。

(統計に関わらず、答を速く出す算術が主眼になってい

るように感じる。ここで、塩野直道の要目カス論:「要目

として羅列してある数学的な話題は,生徒が数学的な活

動をして後に残った食べカスに過ぎない。活動の質自体

が重要な教育的内容である。」を思い出す。)答えを出す、

答は一つが数学と思い込まされてはいないだろうか。

「見えなかったモノが観えるようになる」を狙った、

モノの見方に新たな視点をプラスする数学としての力

を生徒につけさせられるとの認識が持てないためか、現

場での統計授業に力が入っていない現状がある。入試で

も、2022 年度以降の高大連携で、すぐにでも実行可能

で効果あることとして、各大学の入試において、受験生

の自分のノート 1 冊持ち込み OK の決断で、入試は新た

な歩を踏み出せるだろう。

偏差の平方の平均、2 乗の平均から平均の 2 乗を引い

たもの、が分散だ!覚えて置けとヤクザ調になったりす

る。暗記はある意味、考えることを放棄し、考えないで

済むという利点があるともいえるが、数学科の存在意義

は、算数の「…算」のような答えを出すマニュアル的算

術方法の暗記ではない。これを問題解決だとの勘違いが

あるのかもしれない。公式の文字に数を代入することが

数学であると生徒に思わせていたらダメだろう。

2.学校数学の役割

{‘かぞえる’, ‘くらべる’,‘はかる’,‘かえる’}

を四面体構造の頂点とする学校での数学教授の中心的

な概念が学校教育での dependable(頼りになる)とする。

その内部で、困ったときの対処法に、portable(持ち運び

可能)な{仲間をつくる,次元をあげる,相棒をみつける,

定義をする}の実行を試みる。また、これら全体を通じ、

個々の数式・定理・公式らを従え、最上位にあるべきは、

‘共通点’を見出すことが sustainable(持続可能)と考え

る。数学教育という塀の中での村社会にならないような

生き生きとした学びが肝要である。

3.問題点

新学習指導要領では、‘データの分析’が引き続き「数

学Ⅰ」で、「数学 B」では、ベクトルを「数学 C」へ追い

出し、‘数列’,‘統計的な推測’,‘数学と社会生活’が入

る。必修の「数学Ⅰ」で統計を扱う際に、未習の’ベクト

ル’、’数列’の使用禁止の影響が大である。具体的には、

添え字とΣである。

<箱ひげ図の扱い>

2022 年からは、‘四分位数’や‘箱ひげ図’が中学校

へ移行となる。しかし、「数学 A」の‘数学と人間の活

動’の章の中の整数の性質の学習で、もっと数学的に扱

うべきことがある。

〇「数学 A」整数とリンクさせる指導例

中学校へ移行した理由は、簡単なことだから中学へ、

が理由だとするならば、それ

は誤りである。

その理由を示そう。四分位数

と 箱 ひ げ 図 ( box-plot

Page 2: 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 · 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 一橋大学 経済学研究科

diagram)は、データを小さい値の順にソーティングし、

4 等分に分割し、その位置にくる数を「四分位数」とい

い、小さい方から「第1四分位数𝑄1」、「第 2四分位数𝑄2」

(中央値)、「第 3 四分位数𝑄3」と呼ぶ。

Q は Quartile (4 分の 1 は quarter)の頭文字で、

四分位数(quartile) first-, second-, third- ただし、

4 等分の位置にデータがない場合もあり、その時は両隣

のデータの平均値を四分位数とするなど、見た目ほど簡

単ではない。箱にはデータが均等に分布しているわけで

はないことは特にわかりにくい。

指導例 データの個数に関して、半分半分とするのだか

ら、mod 4 つまり 4 で割った余りが0,1,2,3の 4

通りを考えさせることで、すべてを掴んだことになる。

データの個数を𝑛 としたときの図の記号は、|が両隣の

平均を四分位数とするとき、●はデータそのもの

𝑛 ≡ 0(𝑚𝑜𝑑 4) 〇 | 〇 | 〇 | 〇

𝑛 ≡ 1(𝑚𝑜𝑑 4) 〇 | 〇 ● 〇 | 〇

𝑛 ≡ 2(𝑚𝑜𝑑 4) 〇 ● 〇 | 〇 ● 〇

𝑛 ≡ 3(𝑚𝑜𝑑 4) 〇 ● 〇 ● 〇 ● 〇

よくある問題

問題 データの数と箱ひげ図が与えられたとき、4 等分

のところにデータが存在しているか否かが重要であり、

また、𝑄2が箱の中を仕切っているが、𝑄1と𝑄2の間にカー

テンℓを入れたとき、ℓよりも小さい数がどのように分布

しているかは不問である。そのため、ℓより小さいデー

タの最小値と最大値という問題が生じる。 そこで、す

べてを把握するために、データの個数で分類するのが数

学である。

30 人のデータの箱ひ

げ図が下図である。

30 個の分布 30≡2(mod 4) カーテンℓより小さいデー

タの個数 N は、8≦N≦15 なぜなら、⑦の 7 個が、

箱内でℓより左に全部あるときが最大個数で 15 個、⑦

の 7 個全部が箱内ℓの右かつ𝑄2の左にあるときが最小個

数の 8 である。

4.現状認識

(1) 教科書のあり方

繰り返すが、必修の「数学Ⅰ」では、新「数学 C」の

‘ベクトル’ で学習するベクトルの大きさや内積、新

「数学 B」で学ぶ‘数列’でのΣ記号などを用いること

はできないことを前提に教材を構成する必要がある。そ

のため、「数学Ⅰ」での、‘データの分析’における式変

形は、数学が得意な生徒たちにはΣ記号を導入して済ま

せられるが、数学が苦手な生徒たちにはΣ記号を短時間

で差し挟むことは指導上無理があり、Σは使えないため

に、平均のたびに、𝑥1+𝑥2+⋯+𝑥𝑛

𝑛 のように( +…+ )/ 𝑛

を多用しなければならず先生方は指導に苦労している

現状がある。

筆者がこの打開策を模索していて、共通点の‘平均’

に気が付いたとき、ワクワク感は最高潮であった。やは

り、‘共通点’は思考の根幹に位置づけられる。

(2) 定義と式変形

統計の代表値である、‘最頻値’、‘中央値’などは、デ

ータの和とは無関係であり、小中学校で済む内容である。

その後の代表値としての「数学Ⅰ」での内容は、‘分散’、

‘標準偏差’、‘共分散’、‘相関係数’だが、、‘回帰直線

の傾き(回帰係数)’なども学ばせたい。ここで暗記モノ

ではない、数学としての統計をしたいものである。

「数学Ⅰ」での‘データの分析’における共通点は、

平均を利用した値の処理であることである。

この‘共通点’を見出すことこそ、数学学習の最大の課

題ともいえる。純粋数学においても、共通点から同値関

係を考え、分類作業が始まる。この論文の肝は、いかに

して、Σを使わずに指導できるのか模索していたところ、

平均を計算する式たちに‘共通点’があり、Σを使わず

に種々の公式を変形することが容易にできたので、高校

生、大学生、教員に実践してみた結果、好評であったの

で報告する。この論考では、念のためΣなど一部両方併

記しておく。

0 1 1 7 ⑦ 7

7

min 第一 第二 第三 max

0 0 0 1 1

1 1

min 第一 第二 第三 max

0 0 1 1 1

1 1

min 第一 第二 第三 max

1 1 0 1 1

1 1

min 第一 第二 第三 max

1 1 1 1 1

1 1

Page 3: 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 · 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 一橋大学 経済学研究科

5.表現方法

(1) データの表現

数学として、最初に困るのが、資料、データ𝑥という

表現である。集合なのか、順序対なのか、不明であるこ

と。集合ならば、データ𝑥 = {𝑥𝑖}(𝑖 = 1,2,3,・・・, 𝑛),y =

{𝑦𝑖}(𝑖 = 1,2,3,・・・, 𝑛)とするのだろう。集合よりも、

順序対のほうがよいのではないか。

順序対𝑥 = (𝑥1, 𝑥2,・・・, 𝑥𝑛),𝑦 = (𝑦1, 𝑦2,・・・, 𝑦𝑛)

といっても、𝑥𝑖という、「数学 B」の数列で学習する添

え字付きの数(関数)の前に使用しているという、

そこで、ベクトルに似せて、𝑥 = (𝑥1, 𝑥2,・・・, 𝑥𝑛)など

と書き、𝑥のメンバーたちと呼ぶことにする。

異なる種類のデータを扱うときやそこから組を作る

には順序が肝心となる。また、後に学ぶ、ベクトル、数

列につながるものでなければならない。リンクで見出す

’共通点’を有する知識でなければ、portable なモノに

ならず、社会に出て役に立たない。

(2) 平均をとる操作 bar

ここでは、これを‘平均化’と呼ぶことにする。

Bar は、否定としてド・モルガンの法則𝐴 ∩ 𝐵 = 𝐴 ∪ 𝐵

は、bar の配下にある 3 つを個々に否定したような、使

い勝手がよい法則である。次のような括弧の代用として

の使い方もある。例)𝑥2 = (𝑥 − 𝑝 + 𝑝)2 = (𝑥 − 𝑝)2 +

2𝑝(𝑥 − 𝑝) + 𝑝2 のようにテーラー展開では活躍する。

平均化では、bar を使うことの凄さは、添え字を使う

ことなく、Σも使う必要がないことである。

データ𝑥の平均 𝑥 =𝑥1+𝑥2+⋯+𝑥𝑛

𝑛 ・・・

1

𝑛∑ 𝑥𝑖𝑛𝑖=1 を

1 文字𝑥で表現できることである。凄い!

ことばに直せば、この「𝑥の平均」とは「𝑥のメンバーた

ちの平均をとる」ことをいう。平均値とは、和をとるこ

とが前提で、足した個数で割って得られる数のこと。

平均化の公式(bar)線形である:

この等式は後に度々使用するので、ここで 1 度だけ1

𝑛(…+ ⋯+⋯)を用いて証明しておく:

証明)① 通常の証明は、Σを利用して、

左辺=𝑎𝑥 + 𝑏𝑦 + 𝑐 =1

𝑛∑ (𝑎𝑥𝑖 + 𝑏𝑛𝑖=1 𝑦𝑖 + 𝑐) =

𝑎1

𝑛∑ 𝑥𝑖 + 𝑏𝑛𝑖=1

1

𝑛∑ 𝑦𝑖 +

1

𝑛∑ 𝑐𝑛𝑖=1 = 𝑎𝑥 + 𝑏𝑦𝑛

𝑖=1 + c = 右辺

◎シグマを使わない指導による証明

1

𝑛{(𝑎𝑥1 + 𝑏𝑦1 + 𝑐) + (𝑎𝑥2 + 𝑏𝑦2 + 𝑐) + ⋯+ (𝑎𝑥𝑛 + 𝑏𝑦𝑛 + 𝑐)}

= 𝑎 ×𝑥1+𝑥2+⋯+𝑥𝑛

𝑛+ 𝑏 ×

𝑦1+𝑦2+⋯+𝑦𝑛

𝑛+

𝑐+𝑐+⋯+𝑐

𝑛

= 𝑎𝑥 + 𝑏𝑦 + c //

② 𝑥 = 𝑦より、任意の𝑖で𝑥𝑖 = 𝑦𝑖であるから、平均 𝑥と

𝑦 は等しい。

③ 平均すると、1 つの定数になるので、平均しても変

化なし。//

よく知られている確率変数の変換である公式:

期待値 E(𝑎𝑥 + 𝑏) = 𝑎𝐸(𝑥) + 𝑏 ,

分散 𝑉(𝑎𝑥) = 𝑎2𝑉(𝑥)

この証明は、期待値 E(𝑎𝑥 + 𝑏) = 𝑎𝑥 + 𝑏 = 𝑎𝑥 + 𝑏 ,

𝑥の分散がV(𝑥) = (𝑥 − 𝑥)2 であるから、

𝑎𝑥の分散 V(𝑎𝑥) = (𝑎𝑥 − 𝑎𝑥)2={𝑎(𝑥 − 𝑥)}2

= 𝑎2(𝑥 − 𝑥)2 = 𝑎2V(𝑥) //

などにも容易に対応できる。

また、教科書(「数研出版」研究‘変量の変換’)で、変

量𝑥から変量𝑦への変数変換:𝑦 = 𝑎𝑥 + 𝑏の平均と分散の

計算を紹介している。

ここでは、平均化を用いて計算してみる。

平均は、𝑦 = 𝑎𝑥 + 𝑏 = 𝑎𝑥 + 𝑏

分散は、𝜎𝑦2 = (𝑦 − 𝑦)2 = ((𝑎𝑥 + 𝑏) − (𝑎𝑥 + 𝑏))

2

={𝑎(𝑥 − 𝑥)}2 = 𝑎2(𝑥 − 𝑥)2 = 𝑎2(𝑥 − 𝑥)2 = 𝑎2𝜎𝑥2

1 ページを割いて掲載されたことが、たったの数行で計

算終了となるほど容易になった。

主たる統計量の表つくり

𝑥 = 3 , 𝑦 = 5 , (𝑥 − 𝑥)2 = 𝑠𝑥2 = σ𝑥

2 , (𝑦 − 𝑦)2 =

𝑠𝑦2 = σ𝑦

2 , (𝑥 − 𝑥)(𝑦 − 𝑦) = 𝑠𝑥𝑦 = σ𝑥𝑦 など。

定義 𝑥の分散とは、偏差の平方の平均

つまり、𝑠𝑥2 = σ𝑥

2 = (𝑥 − 𝑥)2 =1

𝑛∑ (𝑥𝑖 − 𝑥)2𝑛𝑖=1

𝑥の標準偏差とは、𝑥の分散の平方根である。

① 𝑎𝑥 + 𝑏𝑦 + 𝑐=𝑎𝑥 + 𝑏𝑦 + c ,

② 𝑥 = 𝑦ならば𝑥 = 𝑦 , ③ (𝑥) = 𝑥

データ

メンバー メンバー

A 1 4 -2 -1 2 4 1 4 1 16

B 2 5 -1 0 0 1 0 10 4 25 0

C 3 5 0 0 0 0 0 15 9 25 0 0

D 4 4 1 -1 -1 1 1 16 16 16

E 5 7 2 2 4 4 4 35 25 49

データ数 データ数 5 データ数 5 データ数 5 データ数 5 データ数 5 データ数 5 5 5

和 和 5 和 10 和 6 和 80 和 55 和 131 0 0

平均 3 5 0 0 1 2 1.2 16 11 26.2 0 0

分散

標準偏差 1

5

相関係数

y

x-¯x

1.41 1.10

(xの偏差)の平方 積 平方xの偏差 yの偏差 偏差の積 (yの偏差)の平方

5 5 5 5

15 25 0 0

平方

0

0

𝑥 − 𝑥 y−y 𝑥 − 𝑥 𝑦− 𝑦 (𝑥 − 𝑥)2

(𝑥 − 𝑥)2

2

(y −𝑥)2

(𝑦 − 𝑦)2𝑥 𝑦 𝑦 − 𝑦

𝑥1

𝑥2

𝑥3

𝑥

𝑥

𝑦1

𝑦2

𝑦3

𝑦

𝑦

𝑥1 −𝑥

𝑥2−𝑥

𝑥3−𝑥

𝑥 −𝑥

𝑥 −𝑥

𝑥 − 𝑥

𝑦1 −𝑦

𝑦2 −𝑦

𝑦3 −𝑦

𝑦 −𝑦

𝑦 −𝑦

1 2

𝑥1− 𝑥 2

𝑥2−𝑥 2

𝑥3−𝑥 2

𝑥 −𝑥 2

𝑥 −𝑥 2

𝑦1 −𝑦 2

𝑦2 −𝑦 2

𝑦3 −𝑦 2

𝑦 − 𝑦 2

𝑦 −𝑦 2

𝑥1− 𝑥 𝑦1 −𝑦

𝑥2− 𝑥 𝑦2 −𝑦

𝑥3− 𝑥 𝑦3 −𝑦

𝑥 −𝑥 𝑦 −𝑦

𝑥 − 𝑥 𝑦 −𝑦

xy

𝑥1𝑦1

𝑥2𝑦2

𝑥3𝑦3

𝑥 𝑦

𝑥 𝑦

𝑥2 𝑦2

𝑥12

𝑥22

𝑥32

𝑥 2

𝑥 2

𝑦12

𝑦22

𝑦32

𝑦 2

𝑦 2

𝑥

𝑥 − 𝑥 𝑦 − 𝑦 𝑥𝑦 𝑥2 𝑦2

𝜎𝑥𝑦 𝜎𝑥2 𝜎𝑦

2

𝜎𝑥= − = −

𝜎𝑦

𝑥 − 𝑥

𝜎𝑥

𝑦 − 𝑦

𝜎𝑦

𝑥 − 𝑥

𝜎𝑥×𝑦 −𝑦

𝜎𝑦

− 2

−1 2

1 2

2

− 5

− 5

2 5

5 3

− 5 2 3

2 5 3

5 5 2 3

5 2 3

𝑥𝑦 = 𝜎𝑥𝑦 𝜎𝑥𝜎𝑦𝜎𝑥2

= −

𝜎𝑦2

Page 4: 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 · 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 一橋大学 経済学研究科

𝑠𝑥 = σ𝑥 = √(𝑥 − 𝑥)2 = √1

𝑛∑ (𝑥𝑖 − 𝑥)2

𝑛

𝑖=1

𝑥, 𝑦の共分散とは、𝑥, 𝑦の偏差の積の平均である。

𝑠𝑥𝑦 = σ𝑥𝑦 = (𝑥 − 𝑥)(𝑦 − 𝑦) =1

𝑛∑ (𝑥𝑖 − 𝑥)

𝑛

𝑖=1(𝑦𝑖 − 𝑦)

(3) 記号の表現方法

𝑥, 𝑦の共分散𝑠𝑥𝑦 のディメンジョンがわかるには、𝑥, 𝑥

の共分散が𝑥の分散と言い換えられることである。

そこで、𝑠𝑥𝑥 = 𝑠𝑥2 = 𝑠𝑥2 = σ𝑥

2 等と表記できるが、標

準偏差𝑠𝑥 = σ𝑥 = √𝑠𝑥𝑥 = √𝑠𝑥2 = √𝑆𝑥2 等と複数の表現

ができるが、どれも一長一短である。

(4) 平均の式変形

本稿では、言葉の代わりにΣ計算も書いたが、「数学

Ⅰ」の授業ではΣは使わずに、定義の言葉通りの計算

を bar だけの計算で処理できるので、これまでになく

画期的であると自負している。

①𝑥の偏差𝑥 − 𝑥の平均=𝑥 − 𝑥=𝑥 − 𝑥 = 𝑥 − 𝑥 = 0

②𝑥の分散=偏差の平方(𝑥 − 𝑥)2の平均=(𝑥 − 𝑥)2

𝑠𝑥2 = (𝑥 − 𝑥)2 = 𝑥2 − 2𝑥𝑥 + (𝑥)2

= 𝑥2 − 2𝑥 ∙ 𝑥 + (𝑥)2 = 𝑥2 − (𝑥)2

この変形は、数学が苦手な生徒にも、得意な生徒にも、

先生方にも好評である。

2変数変換𝑧 = 𝑥 + 𝑦の分散も容易に計算できる;

𝑠𝑧2 = {(𝑥 + 𝑦) − (𝑥 + 𝑦)}

2

= {(𝑥 − 𝑥) − (𝑦 − 𝑦)}2

= {(𝑥 − 𝑥)2 − 2(𝑥 − 𝑥)(𝑦 − 𝑦) + (𝑦 − 𝑦)2}2

= (𝑥 − 𝑥)2 − 2(𝑥 − 𝑥)(𝑦 − 𝑦) + (𝑦 − 𝑦)2

= 𝑠𝑥2 − 2𝑠𝑥𝑦 + 𝑠𝑦

2

次に、相関係数や回帰直線を学ぶには、標準化の考えが

欠かせない。しかし、教科書では省かれ、相関係数が暗

記すべき公式となっている。しかし、barをとる計算に

よって、変換式などのチェックが容易になった。

(5) 「覧古考新」

「覧古」とは、Met Before(既習)のことであるが、そ

の後の成長によって、振り返ってみると、その当時は気

が付かなかったことが深く観えて、新たなことを考えだ

せる「考新」となること。

例)中学での直線 𝑦 = 𝑎𝑥 + 𝑏…①の学習が 2 点通過型

で、連立方程式による係数決定に偏っていることであ

る。それは、パラメータの消去方法として、通る点(1,

3)があれば、3 = 𝑎 × 1 + 𝑏…②

ここで、①-②で、パラメータの1つの𝑏を消去し、

𝑦 = 𝑎𝑥 + (3 − 𝑎) = 𝑎(𝑥 − 1) + 3 つまり、

通る点(1,3)の座標を‘見える化’した式: 𝑦 − 3 =

𝑎(𝑥 − 1) を紹介する指導がなされていないことに気付

かされる。後の接線の公式の指導で苦労することになる。

x 軸、y 軸上の両方に並べたデータをどうやって組に

するかという根本の問題である。

従来の「𝑥が 1のとき𝑦が 3、𝑥が 4のとき𝑦が 9である 1

次関数?」だけでなく、新種の問い「ある日、新芽 Aの

長さは1㎝で 1 週間後は 4 ㎝、新芽 B の長さは 3 ㎝で 1

週間後は 9㎝であった。」

データをどのように組にして、2次元座標平面上にプロ

ットするのか?

ここで、これらの芽の伸びが 1 次関数的だとすると、2

種 類 の 新 芽 A,B の 長 さ を 組 に し 、 点 (𝑥, 𝑦)

と見做したとき、ある日の長さは点(1,3)で、その 1週

間後は点(4,9)と見做して整理できる。

𝑦 − 3 =6

3(𝑥 − 1) ⇔

𝑦−3

6=

𝑥−1

3 ⇔ 𝑦 − 3 =

𝑡 , 𝑥 − 1 = 3𝑡(𝑡は実数) と表現できる。

(6) 標準化

‘標準化’とは、データを平均=0,標準偏差=1(分

散=1)に変換することである。数学的には‘正規化’と

呼ぶのがよいだろう。異なる2種類のデータを扱うには、

単位の統一が欠かせない。つまり、正規直交座標系に点

をプロットするためには、単位を統一する必要がある。

例)高校生の身長と体重では大方 3 桁、2 桁と異なる

ので、模式図となる見える化作業では、標準化が必要と

なる。エクセルでは、変換処理は容易である。

変換 𝑥 = (𝑥1, 𝑥2,・・・, 𝑥𝑛) →

z= (𝑧1, 𝑧2,・・・, 𝑧𝑛) の定義をz =𝑥−𝑥

𝜎𝑥とする。

𝑥の平均が𝑥,標準偏差が𝜎𝑥であるデータを、𝑧の平均

が 0,標準偏差が 1(分散も 1)のデータに𝑥から𝑧へ線

形変換したものである。 ‘見える化’する。

これは、データの組P(𝑥, 𝑧),2 点 A(𝑥, 0) , B(𝑥 + 𝜎𝑥 , 1)を

通過する直線であり、その式は、

𝑥 = 𝑥 + 𝜎𝑥𝑡 , 𝑧 = 0 + 𝑡 ( 𝑡は実数 )であり、z − 0 =

Page 5: 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 · 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 一橋大学 経済学研究科

1

𝜎𝑥(𝑥 − 𝑥) である。変換式は、𝐳 =

𝝈 は標準測度とも

呼ばれている。

zの平均=z = (𝑥−𝑥

𝜎𝑥) =

𝑥−𝑥

𝜎𝑥= 0

zの分散 = (z − z)2 = (z − 0)2

= 𝑧2 = (𝑥−𝑥

𝜎𝑥)2

=(𝑥−𝑥)2

𝜎𝑥2 =

𝜎𝑥2

𝜎𝑥2 = 1

(7) 偏差値(標準化の一例)

Web 上でも、‘偏差値’についての公式を紹介してい

るが、変換の立場での記述はないようである。

ここでのキーワードは、‘標準化’と‘線形変換(一次

変換)’である。数学科の指導としては、生徒自身が

自分自身で公式が作れるような説明を有していること

が重要である。

標準化による変数変換の具体的な使用例が‘偏差値’

である。例)𝑥の平均 45

点、標準偏差 8 点のとき、

これに対応する𝑦の平均

を 50、標準偏差を 10 と

する線形変換が偏差値で

ある。 𝑥 = 45 + 8𝑡 , 𝑦 =

50 + 10𝑡 であり、対応す

るデータを組とし、平面

上の点と見做せば、これは 2点(45,50), (45 + 8,50 + 10)

を通る直線を求めることになる。𝑦 − 50 =10

8(𝑥 − 45)

つまり、 𝑦 = 50 + 10 ×𝑥−

8 である。

𝑧 =𝑥−

8で、標準化していることを確認してみよう:

zの平均 𝑧 = (𝑥−

8) = 0,

𝑧の分散= (𝑧 − 𝑧)2 = (𝑥−

8− 0)

2

= (𝑥−

8)2

=82

82= 1

∴ 𝑧の標準偏差=1

ここで、𝑧 =𝑥−

8は、𝑥の平均 45 点、標準偏差 8 点を

zの平均 0、zの標準偏差1への線形変換である。

なぜなら、2 点(45,0), (45 + 8,0 + 1) を通る直線

𝑧 − 0 =1

8(𝑥 − 45) である。すなわち、 𝑧 =

𝑥−

8

(8) 相関係数

相関係数 =𝜎𝑥𝑦

𝜎𝑥𝜎𝑦 この定義はどのように見出した

のか? ベクトルの内積の考えに依らず考えてみよう:

<ア> 𝑧 =𝑥−𝑥

𝜎𝑥, 𝑤 =

𝑦−𝑦

𝜎𝑦 とおくとき、𝑤 = 𝑧の係数

の意味を考える

従来の計算は、誤差の平方の和、𝜖𝑖2 = ∑ (𝑤𝑖 − 𝑧𝑖)

2𝑛𝑖=1

の最小値を平方完成(または微分)で求めることでした。

この回帰変数 (回帰直線の傾き)を‘最小2乗法’を利

用して求めてみよう:しかし、そこでの計算にはΣがあ

り面倒になるので、平均の最小値を考えることにする。

ここが Point である。

<数学の問題解決は、与えられたままや最初のままで処

理するのではなく、目的が同じ共通点を持つ仲間の式に

変形することを示すよい指導例でもある。>

回帰直線の意味は、2 種類で一方の原因が他方に結果

を出させているような関係が見えるときに有効な見え

る化の一つである。実際に実行してみると、

標準化されたデータ第𝑖番目の組を zw 座標平面上の

点と見做したP𝑖(𝑧𝑖 , 𝑤𝑖) (𝑖 = 1,2,3・・・, 𝑛)と直線𝑤 =

𝑧と w 軸方向の乖離である誤差(ギャップ)を𝜀𝑖とする

とき、この誤差の平方の和が最小となる傾き を求める

(これを‘最小 2 乗法’という)ことと、誤差の平方の

平均が最小となるような回帰直線の傾き とは同じであ

る。それは、𝜀𝑖 = 𝑤𝑖 − 𝑧𝑖であり、 ∑ 𝜀𝑖2𝑛

𝑖=1 = ∑ (𝑤𝑖 −𝑛𝑖=1

𝑧𝑖)2 の最小性は、

1

𝑛∑ 𝜀𝑖

2𝑛𝑖=1 =

1

𝑛∑ (𝑤𝑖 − 𝑧𝑖)

2𝑛𝑖=1 とし

ても縦軸方向の縮小なので最小性は不変である。これを

支える「カバリエリの原理」の指導も大切である。

そこで、ε2 =1

𝑛∑ (𝑤𝑖 − 𝑧𝑖)

2𝑛𝑖=1 とおけるが、これは、

ε2= (𝑤 − 𝑧)2 のことであるから、

𝜀2= 𝑤2 − 2 𝑧𝑤 + 2𝑧2 = 𝑤2 − 2 𝑧𝑤 + 2𝑧2 …*

ここで、𝑧, 𝑤は標準化されているので、

分散はそれぞれ𝑤2 = 1, 𝑧2 = 1であり、

𝑧𝑤 = (𝑥−𝑥

𝜎𝑥) (

𝑦−𝑦

𝜎𝑦) =

(𝑥−𝑥)(𝑦−𝑦)

𝜎𝑥𝜎𝑦=

𝜎𝑥𝑦

𝜎𝑥𝜎𝑦 であるから、

式*は、

ε2 = 2 − 2𝜎𝑥𝑦

𝜎𝑥𝜎𝑦+ 1 = ( −

𝜎𝑥𝑦

𝜎𝑥𝜎𝑦)2

+ 1 − (𝜎𝑥𝑦

𝜎𝑥𝜎𝑦)2

…★

このε2 の最小値は、 =𝜎𝑥𝑦

𝜎𝑥𝜎𝑦 のときである。

言い換えると、相関係数は、標準測度の積の平均である。

<イ> −1 ≦ ≦ 1について

𝜀2 = 2 − 2𝜎𝑥𝑦

𝜎𝑥𝜎𝑦+ 1 ≧ 0 であるから、

−20 20 40 60 80 100 x

−20

−10

10

20

30

40

50

60

70

80

90

y

O

A 45, 50( )

B 53, 60( )

Page 6: 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 · 必修「数学Ⅰ」で統計を学ばせるための教材実践研究 一橋大学 経済学研究科

★の最小値≧0⇔判別式=(𝜎𝑥𝑦

𝜎𝑥𝜎𝑦)2

− 1 ≦ 0

すなわち ( )2 − 1 ≦ 0 よって、−1 ≦ ≦ 1 であ

ることもわかる。

<ウ> 誤差の分散の最小値

誤差 𝜀𝑖 = 𝑤𝑖 − 𝑧𝑖の平均 ε = 𝑤 − 𝑧 = 0であるから、

式★は、誤差𝜀の分散

𝜎𝜀2 = (𝜀 − 𝜖)2 = 𝜀2 = ( −

𝜎𝑥𝑦

𝜎𝑥𝜎𝑦)

2

+ 1 − (𝜎𝑥𝑦

𝜎𝑥𝜎𝑦)

2

であるから、 =𝜎𝑥𝑦

𝜎𝑥𝜎𝑦のとき、誤差の分散ε2 が最小とな

ることを示している。これがデータの間を走る回帰直線

として最もフィットする(傾き)といえる。

<最小 2 乗法という表現は、計算方法であり、目標を表

現してはいないので教育的ではない。回帰直線とは、デ

ータの点の間を走る代表直線で、「その傾きは、誤差(デ

ータの点と直線との縦軸方向のギャップ)の分散が最小

となるとき」、が教育的であろう。>

これより、平均(𝑥, 𝑦)を原点(0,0)に平行移動し標準偏差

で割った標準化された座標系(正規直交座標系)におい

て、回帰直線の傾き(回帰変数)=相関係数である。

𝑦−𝑦

𝜎𝑦=

𝑥−𝑥

𝜎𝑥 ・・・①

<エ> 標準化以前の散布図おける回帰直線の傾き(回

帰係数)はどうなるのだろうか

𝑦−𝑦

𝜎𝑦=

𝑥−𝑥

𝜎𝑥…①は平均値の点(𝑥, 𝑦)を通る直線である。

では、点(𝑥, 𝑦)を通る直線 𝑦 − 𝑦 = 𝑎(𝑥 − 𝑥)…② の傾き

𝑎は何だろうか。実は簡単で、

①から𝑦 − 𝑦 = 𝜎𝑦

𝜎𝑥(𝑥 − 𝑥) これが②であるから

𝑎 = 𝜎𝑦

𝜎𝑥

𝑥を説明変数、𝑦を目的変数と呼ぶことがある。𝑥が原因

で𝑦がその結果というときに、𝑥が𝑦に与える影響を直線

で見える化したものである。

このように、たとえば、薬の用量𝑥とその効果𝑦の関係

のように、2 つのデータ間に明確な因果関係があるとき

を想定したときに用いるものである。

𝑦−𝑦

𝜎𝑦=

𝑥−𝑥

𝜎𝑥 ・・・①を再考してみよう:

単純に平均を取ると、 0=0 となり、新たな式はでてこ

ない。そこで、①の両辺に𝑥 − 𝑥を掛けて変形した、

(𝑥 − 𝑥)(𝑦 − 𝑦) = 𝜎𝑦

𝜎𝑥(𝑥 − 𝑥)2の両辺の平均を考える。

この式の平均は、(𝑥 − 𝑥)(𝑦 − 𝑦) = 𝜎𝑦

𝜎𝑥(𝑥 − 𝑥)2 これ

は、𝜎𝑥𝑦 = 𝜎𝑦

𝜎𝑥𝜎𝑥

2 ゆえに、 =𝜎𝑥𝑦

𝜎𝑥𝜎𝑦

つまり、最小 2 乗法を使わずに‘平均化’で導出可能

であることが分かったので指導しやすい。

<オ> 標準化していない散布図での回帰直線と最小 2

乗法

<従来の方法> 最小2乗法で、∑ {𝑦𝑖 − (𝑎𝑥𝑖 + 𝑏)}2𝑛𝑖=1

を最小にするような𝑎, 𝑏を平方完成または偏微分で求め、

𝑎 =𝜎𝑥𝑦

𝜎𝑥2 , 𝑏 = 𝑦 − 𝑎𝑥 であることを示す。結果、回帰直

線は平均点(𝑥, 𝑦)を通過することも示せる。しかし、従来

のままでは、Σを使わないと式が長くなり、平方完成も

辛くなる。だが、これも、データ第 𝑖番目の組を xy 座標

平面上の点と見做した P𝑖(𝑥𝑖 , 𝑦𝑖) (𝑖 = 1,2,3・・・, 𝑛)と、

直線𝑦 = 𝑎𝑥 + 𝑏と y 軸方向の誤差(ギャップ)を𝜀𝑖とし、

∑ ε𝑖2𝑛

𝑖=1 = ∑ {𝑦𝑖 − (𝑎𝑥𝑖 + 𝑏)}2𝑛𝑖=1 …#

ここで、ε2 =1

𝑛∑ ε𝑖

2𝑛𝑖=1 とおくと、#の最小値ではなく

#の平均である ε2= {𝑦 − (𝑎𝑥 + 𝑏)}2 の最小値を調べれ

ばよい。理由は平均をとっても最小性は不変である。

ε2 − (𝜀)2=𝜎𝜀2と分散との関係が気になる。

これは、ε2=𝜎𝜀2 + (𝜺)2 ≧ 𝜎𝜀

2 …♭となり、

等号は、𝜺 = 𝑦 − 𝑎𝑥 − 𝑏 = 0 のときであるとわかり、

結局、ε2の最小は、𝜎𝜀2が最小となる𝑎, 𝑏を求めればよ

い。

𝜀 − 𝜀 = {𝑦 − (𝑎𝑥 + 𝑏)} − {𝑦 − 𝑎(𝑥 − 𝑥)} であるから、

𝜎𝜀2 = (𝜀 − 𝜀)2 = {(𝑦 − 𝑦) − 𝑎(𝑥 − 𝑥)}2

= (𝑦 − 𝑦)2 − 2𝑎(𝑥 − 𝑥)(𝑦 − 𝑦) + 𝑎2(𝑥 − 𝑥)2

= 𝜎𝑦2 − 2𝑎𝜎𝑥𝑦 + 𝑎2𝜎𝑥

2 = 𝜎𝑥2 {(𝑎 −

𝜎𝑥𝑦

𝜎𝑥2)

2

−𝜎𝑥𝑦

2

𝜎𝑥 } + 𝜎𝑦

2

= 𝜎𝑥2 (𝑎 −

𝜎𝑥𝑦

𝜎𝑥2)

2

−𝜎𝑥𝑦

2

𝜎𝑥2 + 𝜎𝑦

2

これを最小にする𝑎は、𝑎 =𝜎𝑥𝑦

𝜎𝑥2 であることがわかった。

これが、回帰直線の傾き(回帰係数) 𝑎であり、♭の等号

成立が 𝜀 = 𝑦 − 𝑎𝑥 − 𝑏 = 0 のときより、切片は 𝑏 =

𝑦 − 𝑎𝑥 となり、回帰直線は平均点(𝑥, 𝑦)を通過するとい

う重要事項も同時に示せる。