平均数

平均数标准差方差分析多重比较

集中点离散程度差异显著性

一个变量（产量）

施肥量

播种密度

品种

在实际研究中，事物之间的相互关系涉及两个或两个以上的变量，只要其中的一个变量变动了，另一个变量也会跟着发生变动，这种关系称为协变关系，具有协变关系的变量称为协变量。

确定的函数关系确定的函数关系

PV=RT 气体压强

S=πr2 圆的面积协

变

量

S=a b 长方形面积

身高与胸围、体重

施肥量与产量

溶液的浓度与 OD值

人类的年龄与血压

温度与幼虫孵化

不完全确定的函数关系( 相关关系 )

协

变

量

相关变量

一个变量的变化受另一个变量或几个变量的制约

因果关系

平行关系两个以上变量之间共同受到另外因素的影响

动物的生长速度受遗传、营养等影响

子女的身高受父母身高的影响

人的身高和体重之间的关系

兄弟身高之间的关系

为了确定相关变量之间的关系，首先应该收集一些数据，这些数据应该是成对的，然后在直角坐标系上描述这些点，这一组点集称为散点图。

散点图 (scatter diagram)散点图 (scatter diagram)

为了研究父亲与成年儿子身高之间的关系，卡尔 .皮尔逊测量了 1078对父子的身高。把 1078对数字表示在坐标上，如图。用水平轴 X上的数代表父亲身高，垂直轴 Y上的数代表儿子的身高， 1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云，中间的点密集，边沿的点稀少，其主要部分是一个椭圆。

散点图 (scatter diagram)散点图 (scatter diagram)

两个变量间关系的性质（正向协同变化或负向协同变化）和程度（关系是否密切）

两个变量间关系的类型（直线型或曲线型）

是否有异常观测值的干扰

1 2 3 4 5 6

4

3

2

1

1 2 3 4 5 6

4

3

2

1

1 2 3 4 5 6

4

3

2

1

正向直线关系

负向直线关系

曲线关系定性研究

回归 (regerssion)

相关 (correlation)

定量研究

曲线

直线型

非直线型

变量二元

多元

直线型

二元

直线相关与回归分析直线相关与回归分析

第九章

第一节

第二节

第三节

回归与相关的概念

直线回归

直线相关

直线回归与相关分析第九章

第一节：回归与相关的概念

相关变量

因果关系

平行关系

回归分析（ regression analysis ）

相关分析（ correlation analysis ）

一个变量的变化受另一个变量或几个变量的制约

两个以上变量之间共同受到另外因素的影响

在生物学中，研究两个变量间的关系，主要是为了探求两变量的内在联系，或从一个变量 X（可以是随机变量，也可以是一般的变量），去推测另一个随机变量 Y。

x y施肥量(可以严格地人为控制 )

产量

如果对 x的每一个可能的值，都有随机变量y的一个分布相对应，则称随机变量 y对变量 x存在回归 (regression) 关系。

自变量 (independent variable) 因变量 (dependent variable)

因果关系一个变量的变化受另一个变量或几个变量的制约

在大量测量各种身高人群的体重时会发现，虽然在同样身高下，体重并不完全一样。但在每一身高下，都有一个确定的体重分布与之相对应 ;

在大量测量各种体重人群的身高时会发现，虽然在同样体重下，身高并不完全一样。但在每一体重下，都有一个确定的身高分布与之相对应 ;

身高与体重之间存在相关关系。

X 身高 Y 体重

X 体重 Y 身高

相关关系

第二节：直线回归 Linear Regression

一、直线回归方程的建立

二、直线回归的数学模型和基本假定

三、直线回归的假设检验

四、直线回归的区间估计

简单回归 (Simple Regression)

一、直线回归方程的建立

直线回归就是用来描述一个变量如何依赖于另一个变量

温度天数

Y=a+bx^

直线回归方程 (linear regression equation)

截距 (intercept)回归截距

斜率 (slope)回归系数 (regerssion coefficient)

自变量

与 x 值相对应的依变量 y 的点估计值

0 x

y

a>0,b>0

a<0,b>0

a>0,b<0

a=0

b=0

bxay ˆ

变量 1 变量 2

收集数据

散点图

温度天数

X Y平均温度（℃）历期天数（ d ）

11.8 30.1

14.7 17.3

15.6 16.7

16.8 13.6

17.1 11.9

18.8 10.7

19.5 8.3

20.4 6.7

黏虫孵化历期平均温度与历期天数关系图

0

10

20

30

40

10 12 14 16 18 20 22温度

天数

（天

）

（℃）

bxay ˆ

回归直线在平面坐标系中的位置取决于 a,b 的取值。

n

yy1

2)ˆ(

ybxay ˆ

nn

bxayyyQ1

2

1

2 )()ˆ(

最小最小二乘法(method of least square)

nn

bxayyyQ1

2

1

2 )()ˆ(

0)(2 bxaya

Q

0)(2 xbxayb

Q

最小

xbya

nxx

nyxxyb

/)(

/))((22

x

xy

SS

SP

xx

yyxxb

2)(

))((

bxay ˆ

n

yyQ1

2)ˆ( 为最小值

0)ˆ( yy

),( yx

基本性质基本性质

bxay ˆ

xbya

)(ˆ xxbyy

X Y平均温度（℃）历期天数（ d ）

11.8 30.1

14.7 17.3

15.6 16.7

16.8 13.6

17.1 11.9

18.8 10.7

19.5 8.3

20.4 6.7

7.134x

19.23232x

3.115y

03.20392y

8n

8375.16 n

xx

4125.14 n

yy

1788.55)()( 2

22 xx

n

xxSSx

2688.377)()( 2

22 yy

n

yySS y

6937.139)()()()(

yyxxn

yxxySPxy

5317.2x

xy

SS

SPb

0400.57 xbya

xy 5317.20400.57ˆ

0

10

20

30

40

10 12 14 16 18 20 22温度

天数

（天

）

（℃）

xy 5317.20400.57ˆ

11.8-----20.4

用 x估计 y，存在随机误差，必须根据回归的数学模型对随机误差进行估计，并对回归方程进行检验。

ybxay ˆ 误差

二、数学模型和基本假定

y

y

)( xx

y 的总体平均数

因 x引起 y的变异y的随机误差

)( xxy y

xy

总体回归截踞总体回归系数随机误差

直线回归的数学模型

(model of linear regression)直线回归的数学模型

(model of linear regression)

基本假定

x 是没有误差的固定变量，或其误差可以忽略，而 y是随机变量，且有随机误差。x是的任一值对应着一个 y总体，且作正态分布，其平均数μ＝ α+βx ，方差受偶然因素的影响，不因 x的变化而改变。

随机误差 ε是相互独立的，呈正态分布。

ybxay ˆ

xy

三、直线回归的假设检验

bxay ˆ

有意义

指导实践？是否真正存在线性关系

回归关系是否显著

一、直线回归的变异来源y=a+bx

y

(x,y)

y-y

y-y

y-y 实际值与估计值之差，剩余或残差。

y-y 估计值与均值之差，它与回归系数的大小有关。

22 )ˆ()ˆ()( yyyyyy

)ˆ () ˆ ( 2 )ˆ ( ) ˆ (2 2

y y y y y y y y

0 ) ( ) (

) ( ) ( ) ( )ˆ () ˆ (

2 2

x

x xx xySS

SS

SPSP

SS

SPSS b bSP

x x b y y x x b y y y y

2 2 2)ˆ ( ) ˆ ( ) ( y y y y y y

检验线性回归系数的显著性，采用 t检验法进行。

假设H0:β=0 　

HA:β≠0

检验样本回归系数 b是否来自β=0 的双变量总体，以推断线性回归的显著性。

( 三） t检验

2 2 2)ˆ ( ) ˆ ( ) ( y y y y y y

依变量 y的平方和，总平方和， SSy,SS 总

回归平方和 U 离回归平方和 Q

2

) (y y

y 的离均差，反映了 y的总变异程度，称为 y的总平方和。

说明未考虑 x与 y的回归关系时 y的变异。

y SS

2) ˆ ( y y

反映了由于 y与 x间存在直线关系所引起的 y的变异程度，因 x的变异引起 y变异的平方和，称为回归平方和。它反映在 y的总变异中由于 x与 y的直线关系，而使 y 变异减小的部分，在总平方和中可以用 x解释的部分。

U值大，说明回归效果好。

回归平方和(regression sum of squares)

U

2)ˆ ( y y

误差因素引起的平方和，反映了除去 x与 y的直线回归关系以外的其余因素使 y 引起变化的大小。

反映 x对 y的线性影响之外的一切因素对 y的变异的作用，也就是在总平方和中无法用 x解释的部分。

离回归平方和误差平方和，剩余平方和

(residual sum of squares)Q

在散点图上，各实测点离回归直线越近， Q值越小，说明直线回归的估计误差越小。

2 2 2)ˆ ( ) ˆ ( ) ( y y y y y y

依变量 y的平方和，总平方和， SSy,SS 总

回归平方和 U 离回归平方和 Q

Q U SSy

Q U SSy

2 2 2)ˆ ( ) ˆ ( ) ( y y y y y y

Q U ydf df df

2) ˆ ( y y U

x SS b x x b

y x x b y U2 2 2

2

) (

) (

x

xyxy

SS

SPbSP U

2

x

xy

SS

SPb

U SS Qy

2)ˆ ( y y Q

Q U SSy

2 2 2)ˆ ( ) ˆ ( ) ( y y y y y y

Q U ydf df df

直线回归分析中，回归自由度等于自变量的个数，只涉及到 1个自变量

df 回归＝ 1

df 总＝ n-1

df 离回归＝ n-2

2/ n

Qs xy

Q/n-2

离回归标准差

回归估计标准误

剩余标准差

离回归方差

)( xxy

总体回归截踞总体回归系数随机误差α：它是 y的本底水平，即 x 对 y没有任何作用时， y的数量表现。

βx：它描述了因变量 y的取值改变中，由 y与自变量 x的线性关系所引起的部分，即可以由 x直接估计的部分。误差：它描述了因变量 y的取值改变由 x以外的可能与 y有关的随机和非随机因素共同引起的部分，即不能由 x直接估计的部分。

两个变量是否存在线性关系，可采用 F检验法进行。

)( xxy

总体回归截踞总体回归系数随机误差

若 x 与 y间不存在直线关系，则总体回归系数 β=0; 若 x 与 y间存在直线关系，则总体回归系数 β≠0

假设 H0:两变量间无线性关系　

HA:两变量间有线性关系

在无效假设存在下，回归方差与离回归方差的比值服从 F分布。

)2(2/

1/

n

Q

U

nQ

UF df1= 1

df2= n-2

H0: 黏虫孵化历期平均温度 x与历期天数 y之间

不存在线性关系　

HA:两变量间有线性关系变异来源 df SS s2 F F0.05 F0.01

回归 1 353.6628 353.6628 89.89** 5.99 13.74

离回归 6 23.6060 3.9343

总变异 7 377.2688

bb s

b

s

bt

x

xyxyb

SS

s

xx

s

xxn

yys /

2

2/

2

2

)()()2(

)ˆ(

df=n-2

回归系数的标准误

9835.12/

n

Qs xy

1788.55xSS

5317.2b

48.91788.55/9835.1

5317.2

//

xxyb SSs

b

s

bt

48.9t

707.3)6(01.0 t

否定 H0:β=0 ，接受 HA:β≠0 ，认为黏虫孵化历期平均温度与历期天数间有真实直线回归关系。

48.9bs

bt 89.89

2/

1/

nQ

UF

同一概率值

F（一尾）值（ df1=1,df2=n-2）

t值（两尾）（ df=n-2）2tF

28704.8989.89 tF

2

222 )(

bb s

b

s

bt

2/

2

2/

22

/ xy

x

xxy s

SSb

SSs

bt

FnQ

Ut

)2/(2

x

xyb

SS

ss /

xx

SS

SPbSP SS b U

22


bxay ˆ

ebxay

)( xxy点估计点估计


a 和 b的置信区间（一）

μy/x 的置信区间和单个 y的预测区间（二）

μy/x 和单个 y观测值置信区间图示（三）

( 一） a和 b的置信区间

bxay ˆ

ebxay

)( xxy


xbya

)1

(2

2/

2

xxya SS

x

nss

)1

(2

/x

xya SS

x

nss

as

at

df = 2


a

a

staL

staL

2

1

总体回归截距 α 的置信区间

)1

(2

/x

xya SS

x

nss


总体回归系数 β 的置信区间

b

b

stbL

stbL

2

1

x

xyb

SS

ss /

8375.16 n

xx

9835.12/

n

Qs xy

1788.55)()( 2

22 xx

n

xxSSx

3009.1)1

(2

/ x

xya SS

x

nss 2670.0/

x

xyb

SS

ss

707.3

447.2

)6(01.0

)6(05.0

t

t

2233.60

8567.53

2

1

a

a

staL

staL

8784.1

1850.3

2

1

b

b

stbL

stbL

3009.1as

0400.57a

2670.0bs

5317.2b

xy 5317.20400.57ˆ

95%的样本回归截距落在该区间内

95%的样本回归系数落在该区间内

( 二） μy/x 的置信区间和单个 y的预测区间

xy /

)(ˆ xxbybxay

不包含随机误差

由回归方程预测 x为某一定值时 y的观测值所在区间，则 y观测值不仅受到 y和 b的影响，也受到随机误差的影响。

xy 5317.20400.57ˆ

bxay ˆ

)( xxy

y 总体的平均数单个 y值所在的区间x

点估计点估计


xxyy SS

xx

nss

22

/2ˆ

)(1

xxyy SS

xx

nss

2

/ˆ

)(1

y

xy

s

yt

ˆ

/ˆ

df = n-2

y 总体的平均数单个 y值所在的区间xy 总体的平均数

y

y

styL

styL

ˆ2

ˆ1

ˆ

ˆ

xy /

xxyy SS

xx

nss

2

/ˆ

)(1

黏虫孵化历期平均温度为 15℃时，历期天数为多少天（取 95 ％置信概率）？

8559.0)(1 2

/ˆ

x

xyy SS

xx

nss

0645.1915)5317.2(0400.57

ˆ

bxay

1589.21ˆ

9701.16ˆ

ˆ2

ˆ1

y

y

styL

styL

xxyy SS

xx

nss

22

/2 )(1

1

xxyy SS

xx

nss

2

/

)(11

ys

yyt

ˆ

df =n- 2

y 总体的平均数 x 单个 y值所在的区间单个 y值所在的区间

y

y

styL

styL

ˆ

ˆ

2

1

y

xxyy SS

xx

nss

2

/

)(11

某年的历期平均温度为 15℃时，该年的历期天数为多少天（取 95 ％置信概率）？

1603.2)(1

12

/

x

xyy SS

xx

nss

0645.1915)5317.2(0400.57

ˆ

bxay

3508.24ˆ

7782.13ˆ

2

1

y

y

styL

styL


1603.2)(1

12

/

x

xyy SS

xx

nss

3508.24ˆ

7782.13ˆ

2

1

y

y

styL

styL

8559.0)(1 2

/ˆ

x

xyy SS

xx

nss

1589.21ˆ

9701.16ˆ

ˆ2

ˆ1

y

y

styL

styL

( 三） μy/x 和单个 y观测值置信区间图示

0

5

10

15

20

25

30

35

9 12 15 18 21

预测值均值下限均值上限预测值下限预测值上限

xxyy SS

xx

nss

2

/

)(11

xxyy SS

xx

nss

2

/ˆ

)(1

xx

xSS

n

正比反比

愈靠近 x ，对 y总体平均值或单个 y的估计值就愈精确，而增大样本含量，扩大 x的取值范围亦可提高精确度。

作回归分析时要有实际意义。

直线回归注意问题

不能把毫无关联的两种现象勉强作回归分析，即便有回归关系也不一定是因果关系，还必须对两种现象的内在联系有所认识，即能从专业理论上作出合理解释或有所依据。

进行直线回归分析之前，绘制散点图。


当观察点的分布有直线趋势时，才适宜作直线回归分析。

散点图还能提示资料有无异常值，即对应于残差绝对值特别大的观测数据。异常点的存在往往对回归方程中的 a 和 b 的估计产生较大的影响。因此，需要复查此异常点的值。

直线回归的适应范围一般以自变量的取值为限。


在自变量范围内求出的估计值，一般称为内插 (interpolation); 超过自变量取值范围所计算出的估计值，称为外延 (extrapolation) 。

若无充分理由证明超过自变量取值范围还是直线，应该避免外延。

描述两变量间的依存关系。

直线回归的应用

xy 5317.20400.57ˆ

利用回归关系进行预测 (forecast) 。


xy 5317.20400.57ˆ

将自变量作为预报回子，代入方程对预报量进行估计，其波动范围可按个体 y值容许区间方法计算。

回归方程进行统计控制 (statistical control).


NO2 浓度

Y(NO2 浓度， mg/m3)= -0.064866+0.000133x( 车流量，辆／小时）

^

第三节：直线相关 Linear Correlation

一、相关系数和决定系数

二、相关系数的假设检验

三、相关系数的区间估计

一、相关系数和决定系数

x y

线性关系了解 x和 y相关以及相关的性质

相关系数

相关类型

正相关负相关零相关

III

III IV

III

III IV

III

III IV

),( yx

),( yyxx

III

III IV

0,0: yyxxI

0,0: yyxxII

0,0: yyxxIII

0,0: yyxxIV

0))(( yyxx

III

III IV

0))(( yyxx 0))(( yyxx

III

III IV

III

III IV

0))(( yyxx

))(( yyxx

直线相关的两个变量的相关程度和性质

1

))((

n

yyxx

乘积和

互变量

（ 1)单位问题

（ 2)x 与 y本身的变异不影响 x与 y之间的相关性

？ｎ

1

))((

n

yyxx

1

)(

1

)(

1

))((

22

n

yy

n

xx

n

yyxx

r

22 )()(

))((

yyxx

yyxx

22 )()(

))((

yyxx

yyxxr

两个变量的变异程度

两个变量的度量单位

两个变量的个数

r 可以用来比较不同双变量的相关程度和性质。

22 )()(

))((

yyxx

yyxxr

22 )()(

))((

yx

yx

yx

yx

样本

总体

22 )()(

))((

yyxx

yyxxr

两个变量在相关系数计算中的地位是平等的，没有自变量和依变量之分

相关

回归区别

联系

yyyxyx

xy

SS

U

SS

bSP

SS

SP

SS

SP

SSSS

SPr

yyyxyx

xy

SS

U

SS

bSP

SS

SP

SS

SP

SSSS

SPr

yy

y

y SS

Q

SS

QSS

SS

Ur

12

决定系数coefficient of determination

yy

y

y SS

Q

SS

QSS

SS

Ur

12

变量 x引起 y变异的回归平方和占 y 总变异平方和的比率

当 SSy 固定时，回归平方和 U的大小取决于 r2 。

回归平方和 U是由于引入了相关变量而使总平方和 SSy减少的部分。

12 rSSU y 说明引入相关的效果好

yy

y

y SS

Q

SS

QSS

SS

Ur

12

10 2 r

11 r

1r

1r 1r 0Q

用 y 可以准确预测 y值

x 与 y 完全相关。

完全正相关完全负相关

散点图上所有点必在一条直线上。

ySS

Qr 12

0rySSQ

回归一点作用也没有，即用 x 的线性函数完全不能预测 y 值的变化。

1rySS

Qr 12

x 与 y 之间不存在直线相关关系，这时散点图分布紊乱，没有直线的趋势，但可能存在非线性关系。

III

III IV

10 r

x 的线性函数对预测 y值的变化有一定作用，但不能准确预测，说明 y还受其他因素（包括随机误差）的影响。

相关系数 (r) 和决定系数 (r2) 的区别(1) 除去 r =1和 0的情况外， r 2 < r ，这样可以防止对相关系数所表示的相关程度作夸张的解释。

（ 2） r可正可负， r2 取正， r2 一般只用于表示相关程度而不表示相关性质。

温度天数

9682.02688.3771788.55

6937.139

yx

xy

SSSS

SPr

9374.02 r

黏虫孵化历期平均温度与历期天数成负相关。

x和 y的变异有 93.74 ％可用二者之间的线性关系来解释。

ρ=0x y

(x1,y1)

(x2,y2)

(x3,y3)

(xn,yn)yx

xy

SSSS

SPr

P ?

二、相关系数的假设检验

r 是线性关系强弱的指标

2/)ˆ(

)ˆ(

2/ 2

2

nyy

yy

nQ

UF

2

1

2

1

ndf

df

xSSbU 2

2

2

2)(

)(

))((xx

xx

yyxxU

2

2

2)(

)(

))((xx

xx

yyxxU

2

22

2

)()()(

))((yy

yyxx

yyxxU

22

2

2

22

)(

)()()(

))((

yyr

yyyyxx

yyxxU

H0:β=0 　

HA:β≠0

检验样本回归系数 b是否来自β=0 的双变量总体，以推断线性回归的显著性。

对于相关系数 r作显著性检验的无效假设为ρ=0 ，即测定 r来自 ρ=0 总体的概率，也就是判断 r所代表的总体是否存在直线相关。

总体相关系数 ρ=0

22 )( yyrU

22222 )()1()()( yyryyryyUSSQ y

2/)1(2/ 2

2

nr

r

nQ

UF

2

1

2

1

ndf

df

2)1( 2

nr

rt 2ndf 2

)1( 2

n

rs r

相关系数 r的标准误

2tF

（１）假设

（ 2 ）水平

（ 3 ）检验

（ 4 ）推断

H0:ρ=0 ； HA:ρ≠0

选取显著水平α

2)1( 2

nr

r

s

rt

r

在α显著水平上，否定 H0 ，接受 HA ；推断 r显著。

)2( ntt 在α显著水平上，接受 H0 ，否定 HA ；推断 r不显著。

)2( ntt

r经显著性检验的结果呈不显著时，便推断两变数间不存在相关关系，这时不能用 r代表其相关密切程度。

（１）假设

（ 2 ）水平

（ 3 ）检验

（ 4 ）推断

H0:ρ=0 ； HA:ρ ≠ 0

选取显著水平α＝ 0.01

48.91021.0

9682.0

2)1( 2

nr

r

s

rt

r

否定 H0 ，接受 HA ；推断 r极显著，黏虫孵化历期温度与历期天数之间存在着极显著的直线相关关系。

707.3)6(01.0 tt

48.91021.0

9682.0

2)1( 2

nr

r

s

rt

r

48.91788.55/9835.1

5317.2

//

xxyb SSs

b

s

bt

必然结果

bs

bt

x

xyxyb

SS

s

xx

s

xxn

yys /

2

2/

2

2

)()()2(

)ˆ(

22/

n

bSPSS

n

Qs y

xy

)2/()(

nbSPSS

SSb

s

bt

y

x

b

)2/()1(

nSS

SPSSSP

SS

SSSSSP

t

y

xy

xx

)2/()1(

nSSSSSPSP

SSSS

SP

t

yx

yx

rs

r

nr

rt

)2/()1( 2

)2/()1(

nSSSSSPSP

SS

SSSSSP

t

yxy

xx

)2/()(

nbSPSS

SSb

s

bt

y

x

b

2)1( 2

nr

r

s

rt

r

2)1( 2

22

nr

rt

2

22

2 tn

tr

22 tn

tr

r 与 t 符号相同。

)2()2( nn rt

)2(, nrr

相关系数的假设检验可不计算t 值，直接从附表 12查出 df=n-2时 r的临界值。

)2(, nrr

椰子树的产量数X( 个 )

椰子树的高度Y( 尺 )

X( 个 ) 120 121 123 126 128

Y( 尺 ) 21 23 22 25 24

8783.07996.0 )3(05.0 rr

椰子树的产果树与树高之间无直线相关关系。当样本太小时，即使 r 值达到 0.7996，样本也可能来自总体相关系数 ρ=0 的总体。

不能直观地由 r值判断两变数间的相关密切程度。试验或抽样时，所取的样本容量 n大一些，由此计算出来的 r值才能参考价值。

1

2

三、相关系数的区间估计

r 值经假设检验达到显著水平，需要由 r估计总体相关系数 ρ所在的区间。

ρ y(x1,y1)

(x2,y2)

(x3,y3)

(xn,yn)yx

xy

SSSS

SPr

X

ρ ＝ 0

两变量无直线相关关系

Nr

ρ≠ 0

两变量有直线相关关系

tNr ,

)1

1lg(1513.1)

1

1ln(5.0

r

r

r

rz

)3(

1

nz

z

z

uzL

uzL

2

1

)1(

)1(2

2

L

L

e

er

正态分布

0627.2)9682.01

9682.01ln(5.0

)1

1ln(5.0

r

rz

4472.0)38(

1

)3(

1

nz

1862.1

9392.2

2

1

z

z

uzL

uzL

9682.0r

8294.0)1(

)1(

9944.0)1(

)1(

2

2

1

1

2

2'2

2

2'1

L

L

L

L

e

eL

e

eL

黏虫孵化历期温度与历期天数的总体相关系数 ρ的 95 ％的置信区间为（ -0.9944， -0.8294）。

相关与回归的联系

回归方程的显著性

回归系数的显著性

相关系数的显著性一致

x ybxay ˆ

rbbxay ˆ

三者同时显著或不显著。

r与 b的符号一致，由两变量离均差乘积之和的符号决定。


)2(2/

1/

n

Q

U

nQ

UF

bb s

b

s

bt

rr s

r

s

rt

rbbxay ˆ

r ： +, 两变量间的相互关系是同向变化的。

b ： +,x 增（减）一个单位， y 平均值增（减） b 个单位。


用回归解释相关。

ySS

Ur 2


y 关于 x 的直线回归系数 x 关于 y 的直线回归系数

2/)(

))((

xx

yyxxb xy

2/)(

))((

yy

yyxxb yx

22

// rSSSS

SPbb

yxxyyx

x y

yx SSSS

yyxxr

))((

回归

相关

x 是可以精确测量和严格控制的变量。

y服从正态分布。

x服从正态分布。 y服从正态分布。

xbay xyxy //ˆ ybax yxyx //ˆ

I 型回归

II 型回归

相关与回归的区别资料要求

x y

两变量间依存变化的数量关系

两变量间相关关系

回归

相关

相关与回归的区别应用

x y

单向x y

x y双向

回归系数与相关系数的正负号都由两变量离均差积之和的符号决定，所以同一资料的 b与其 r的符号相同。

回归系数有单位，形式为（应变量单位 /自变量单位），相关系数没有单位。

相关系数的范围在 -1 ～ +1之间，而回归系数没有这种限制。

有些资料用相关表示较适宜，比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。

有些资料用相关和回归都适宜，此时须视研究需要而定。

就一般计算程序来说，是先求出相关系数r并对其进行假设检验，如果 r显著并有进行回归分析之必要，再建立回归方程。

作相关与回归分析要有实际意义。作相关与回归分析要有实际意义。

不要把毫无关联的两个事物或现象用来作相关或回归分析。

****

如儿童身高的增长与小树的增长，作相关分析是没有实际意义的，如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许算得的 r、 b 是显著的，也是没有意义的。

相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向，并不能阐明两事物或现象间存在联系的本质。

对相关分析的作用要正确理解。对相关分析的作用要正确理解。*** *

相关并不一定就是因果关系，切不可单纯依靠相关系数或回归系数的显著性“证明”因果关系之存在。

要证明两事物间的因果关系，必须凭籍专业知识从理论上加以阐明。但是，当事物间的因果关系未被认识前，相关分析可为理论研究提供线索。

适合相关和回归分析的资料通常有两种适合相关和回归分析的资料通常有两种

一个变量 X是选定的，另一个变 Y是从正态分布的总体中随机抽取的。

*** *

11

回归分析

由一个变量推算另一个变量

说明两变量间的相互关系

两变量 X、 Y（或 X1、 X2）都是从正态分布的总体中随机抽取的，即是正态双变量中的随机样本。

22

回归分析

相关分析

在回归分析中，由 X推算 Y与由 Y推算 X的回归方程是不同的，不可混淆。

必须正确选定自变量与应变量。

一般说，事物的原因作自变量 X，当事物的因果关系不很明确时，选误差较小的即个体变异小的变量作自变量 X，以推算应变量 Y。

回归方程的适用范围有其限度，一般仅适用于自变量 X的原数据范围内，而不能任意外推。因为我们并不知道在这些观察值的范围之外，两变量间是否也呈同样的直线关系。

平均数

Documents