平均数
DESCRIPTION
平均数. 标准差. 方差分析. 多重比较. 集中点. 离散程度. 差异显著性. 一个变量 (产量). 品种. 施肥量. 播种密度. 在实际研究中,事物之间的相互关系涉及 两个或两个 以上的变量,只要其中的一个变量变动了,另一个变量也会跟着发生变动,这种关系称为 协变关系 ,具有协变关系的变量称为 协变量 。. 协 变 量. S = π r 2 圆的面积. PV =R T 气体压强. S = a b 长方形面积. 确定的函数关系. 协 变 量. 施肥量与产量. 温度与幼虫孵化. 人类的年龄与血压. 身高与胸围、体重. - PowerPoint PPT PresentationTRANSCRIPT
平均数 标准差 方差分析 多重比较
集中点 离散程度 差异显著性
一个变量(产量)
施肥量
播种密度
品种
在实际研究中,事物之间的相互关系涉及两个或两个以上的变量,只要其中的一个变量变动了,另一个变量也会跟着发生变动,这种关系称为协变关系,具有协变关系的变量称为协变量。
确定的函数关系确定的函数关系
PV=RT 气体压强
S=πr2 圆的面积协
变
量
S=a b 长方形面积
身高与胸围、体重
施肥量与产量
溶液的浓度与 OD值
人类的年龄与血压
温度与幼虫孵化
不完全确定的函数关系( 相关关系 )
协
变
量
相关变量
一个变量的变化受另一个变量或几个变量的制约
因果关系
平行关系 两个以上变量之间共同受到另外因素的影响
动物的生长速度受遗传、营养等影响
子女的身高受父母身高的影响
人的身高和体重之间的关系
兄弟身高之间的关系
为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点图。
散点图 (scatter diagram)散点图 (scatter diagram)
为了研究父亲与成年儿子身高之间的关系,卡尔 .皮尔逊测量了 1078对父子的身高。把 1078对数字表示在坐标上,如图。用水平轴 X上的数代表父亲身高,垂直轴 Y上的数代表儿子的身高, 1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。
散点图 (scatter diagram)散点图 (scatter diagram)
两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切)
两个变量间关系的类型(直线型或曲线型)
是否有异常观测值的干扰
1 2 3 4 5 6
4
3
2
1
1 2 3 4 5 6
4
3
2
1
1 2 3 4 5 6
4
3
2
1
正向直线关系
负向直线关系
曲线关系 定性研究
回归 (regerssion)
相关 (correlation)
定量研究
曲线
直线型
非直线型
变量二元
多元
直线型
二元
直线相关与回归分析直线相关与回归分析
第九章
第一节
第二节
第三节
回归与相关的概念
直线回归
直线相关
直线回归与相关分析 第九章
第一节:回归与相关的概念
相关变量
因果关系
平行关系
回归分析( regression analysis )
相关分析( correlation analysis )
一个变量的变化受另一个变量或几个变量的制约
两个以上变量之间共同受到另外因素的影响
在生物学中,研究两个变量间的关系,主要是为了探求两变量的内在联系,或从一个变量 X(可以是随机变量,也可以是一般的变量),去推测另一个随机变量 Y。
x y施肥量(可以严格地人为控制 )
产量
如果对 x的每一个可能的值,都有随机变量y的一个分布相对应,则称随机变量 y对变量 x存在回归 (regression) 关系。
自变量 (independent variable) 因变量 (dependent variable)
因果关系 一个变量的变化受另一个变量或几个变量的制约
在大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。但在每一身高下,都有一个确定的体重分布与之相对应 ;
在大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。但在每一体重下,都有一个确定的身高分布与之相对应 ;
身高与体重之间存在相关关系。
X 身高 Y 体重
X 体重 Y 身高
相关关系
第二节:直线回归 Linear Regression
一、直线回归方程的建立
二、直线回归的数学模型和基本假定
三、直线回归的假设检验
四、直线回归的区间估计
简单回归 (Simple Regression)
一、直线回归方程的建立
直线回归就是用来描述一个变量如何依赖于另一个变量
温度 天数
Y=a+bx^
直线回归方程 (linear regression equation)
截距 (intercept)回归截距
斜率 (slope)回归系数 (regerssion coefficient)
自变量
与 x 值相对应的依变量 y 的点估计值
0 x
y
a>0,b>0
a<0,b>0
a>0,b<0
a=0
b=0
bxay ˆ
变量 1 变量 2
收集数据
散点图
温度 天数
X Y平均温度(℃) 历期天数( d )
11.8 30.1
14.7 17.3
15.6 16.7
16.8 13.6
17.1 11.9
18.8 10.7
19.5 8.3
20.4 6.7
黏虫孵化历期平均温度与历期天数关系图
0
10
20
30
40
10 12 14 16 18 20 22温度
天数
(天
)
(℃)
bxay ˆ
回归直线在平面坐标系中的位置取决于 a,b 的取值。
n
yy1
2)ˆ(
ybxay ˆ
nn
bxayyyQ1
2
1
2 )()ˆ(
最小最小二乘法(method of least square)
nn
bxayyyQ1
2
1
2 )()ˆ(
0)(2 bxaya
Q
0)(2 xbxayb
Q
最小
xbya
nxx
nyxxyb
/)(
/))((22
x
xy
SS
SP
xx
yyxxb
2)(
))((
bxay ˆ
n
yyQ1
2)ˆ( 为最小值
0)ˆ( yy
),( yx
基本性质基本性质
bxay ˆ
xbya
)(ˆ xxbyy
X Y平均温度(℃) 历期天数( d )
11.8 30.1
14.7 17.3
15.6 16.7
16.8 13.6
17.1 11.9
18.8 10.7
19.5 8.3
20.4 6.7
7.134x
19.23232x
3.115y
03.20392y
8n
8375.16 n
xx
4125.14 n
yy
1788.55)()( 2
22 xx
n
xxSSx
2688.377)()( 2
22 yy
n
yySS y
6937.139)()()()(
yyxxn
yxxySPxy
5317.2x
xy
SS
SPb
0400.57 xbya
xy 5317.20400.57ˆ
0
10
20
30
40
10 12 14 16 18 20 22温度
天数
(天
)
(℃)
xy 5317.20400.57ˆ
11.8-----20.4
用 x估计 y,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进行检验。
ybxay ˆ 误差
二、数学模型和基本假定
y
y
)( xx
y 的总体平均数
因 x引起 y的变异y的随机误差
)( xxy y
xy
总体回归截踞 总体回归系数 随机误差
直线回归的数学模型
(model of linear regression)直线回归的数学模型
(model of linear regression)
基本假定
x 是没有误差的固定变量,或其误差可以忽略,而 y是随机变量,且有随机误差。x是的任一值对应着一个 y总体,且作正态分布,其平均数μ= α+βx ,方差受偶然因素的影响,不因 x的变化而改变。
随机误差 ε是相互独立的,呈正态分布。
ybxay ˆ
xy
三、直线回归的假设检验
bxay ˆ
有意义
指导实践 ?是否真正存在线性关系
回归关系是否显著
一、直线回归的变异来源y=a+bx
y
(x,y)
y-y
y-y
y-y 实际值与估计值之差,剩余或残差。
y-y 估计值与均值之差,它与回归系数的大小有关。
22 )ˆ()ˆ()( yyyyyy
)ˆ () ˆ ( 2 )ˆ ( ) ˆ (2 2
y y y y y y y y
0 ) ( ) (
) ( ) ( ) ( )ˆ () ˆ (
2 2
x
x xx xySS
SS
SPSP
SS
SPSS b bSP
x x b y y x x b y y y y
2 2 2)ˆ ( ) ˆ ( ) ( y y y y y y
检验线性回归系数的显著性,采用 t检验法进行。
假 设H0:β=0
HA:β≠0
检验样本回归系数 b是否来自β=0 的双变量总体,以推断线性回归的显著性。
( 三) t检验
2 2 2)ˆ ( ) ˆ ( ) ( y y y y y y
依变量 y的平方和,总平方和, SSy,SS 总
回归平方和 U 离回归平方和 Q
2
) (y y
y 的离均差,反映了 y的总变异程度,称为 y的总平方和。
说明未考虑 x与 y的回归关系时 y的变异。
y SS
2) ˆ ( y y
反映了由于 y与 x间存在直线关系所引起的 y的变异程度,因 x的变异引起 y变异的平方和,称为回归平方和。它反映在 y的总变异中由于 x与 y的直线关系,而使 y 变异减小的部分,在总平方和中可以用 x解释的部分。
U值大,说明回归效果好。
回归平方和(regression sum of squares)
U
2)ˆ ( y y
误差因素引起的平方和,反映了除去 x与 y的直线回归关系以外的其余因素使 y 引起变化的大小。
反映 x对 y的线性影响之外的一切因素对 y的变异的作用,也就是在总平方和中无法用 x解释的部分。
离回归平方和误差平方和,剩余平方和
(residual sum of squares)Q
在散点图上,各实测点离回归直线越近, Q值越小,说明直线回归的估计误差越小。
2 2 2)ˆ ( ) ˆ ( ) ( y y y y y y
依变量 y的平方和,总平方和, SSy,SS 总
回归平方和 U 离回归平方和 Q
Q U SSy
Q U SSy
2 2 2)ˆ ( ) ˆ ( ) ( y y y y y y
Q U ydf df df
2) ˆ ( y y U
x SS b x x b
y x x b y U2 2 2
2
) (
) (
x
xyxy
SS
SPbSP U
2
x
xy
SS
SPb
U SS Qy
2)ˆ ( y y Q
Q U SSy
2 2 2)ˆ ( ) ˆ ( ) ( y y y y y y
Q U ydf df df
直线回归分析中,回归自由度等于自变量的个数,只涉及到 1个自变量
df 回归= 1
df 总= n-1
df 离回归= n-2
2/ n
Qs xy
Q/n-2
离回归标准差
回归估计标准误
剩余标准差
离回归方差
)( xxy
总体回归截踞 总体回归系数 随机误差α:它是 y的本底水平,即 x 对 y没有任何作用时, y的数量表现。
βx:它描述了因变量 y的取值改变中,由 y与自变量 x的线性关系所引起的部分,即可以由 x直接估计的部分。误差:它描述了因变量 y的取值改变由 x以外的可能与 y有关的随机和非随机因素共同引起的部分,即不能由 x直接估计的部分。
两个变量是否存在线性关系,可采用 F检验法进行。
)( xxy
总体回归截踞 总体回归系数 随机误差
若 x 与 y间不存在直线关系,则总体回归系数 β=0; 若 x 与 y间存在直线关系,则总体回归系数 β≠0
假 设 H0:两变量间无线性关系
HA:两变量间有线性关系
在无效假设存在下,回归方差与离回归方差的比值服从 F分布。
)2(2/
1/
n
Q
U
nQ
UF df1= 1
df2= n-2
H0: 黏虫孵化历期平均温度 x与历期天数 y之间
不存在线性关系
HA:两变量间有线性关系变异来源 df SS s2 F F0.05 F0.01
回归 1 353.6628 353.6628 89.89** 5.99 13.74
离回归 6 23.6060 3.9343
总变异 7 377.2688
bb s
b
s
bt
x
xyxyb
SS
s
xx
s
xxn
yys /
2
2/
2
2
)()()2(
)ˆ(
df=n-2
回归系数的标准误
9835.12/
n
Qs xy
1788.55xSS
5317.2b
48.91788.55/9835.1
5317.2
//
xxyb SSs
b
s
bt
48.9t
707.3)6(01.0 t
否定 H0:β=0 ,接受 HA:β≠0 ,认为黏虫孵化历期平均温度与历期天数间有真实直线回归关系。
48.9bs
bt 89.89
2/
1/
nQ
UF
同一概率值
F(一尾)值( df1=1,df2=n-2)
t值(两尾)( df=n-2)2tF
28704.8989.89 tF
2
222 )(
bb s
b
s
bt
2/
2
2/
22
/ xy
x
xxy s
SSb
SSs
bt
FnQ
Ut
)2/(2
x
xyb
SS
ss /
xx
SS
SPbSP SS b U
22
四、直线回归的区间估计
bxay ˆ
ebxay
)( xxy点估计点估计
四、直线回归的区间估计
a 和 b的置信区间(一)
μy/x 的置信区间和单个 y的预测区间(二)
μy/x 和单个 y观测值置信区间图示(三)
( 一) a和 b的置信区间
bxay ˆ
ebxay
)( xxy
( 一) a和 b的置信区间
xbya
)1
(2
2/
2
xxya SS
x
nss
)1
(2
/x
xya SS
x
nss
as
at
df = 2
( 一) a和 b的置信区间
a
a
staL
staL
2
1
总体回归截距 α 的置信区间
)1
(2
/x
xya SS
x
nss
( 一) a和 b的置信区间
总体回归系数 β 的置信区间
b
b
stbL
stbL
2
1
x
xyb
SS
ss /
8375.16 n
xx
9835.12/
n
Qs xy
1788.55)()( 2
22 xx
n
xxSSx
3009.1)1
(2
/ x
xya SS
x
nss 2670.0/
x
xyb
SS
ss
707.3
447.2
)6(01.0
)6(05.0
t
t
2233.60
8567.53
2
1
a
a
staL
staL
8784.1
1850.3
2
1
b
b
stbL
stbL
3009.1as
0400.57a
2670.0bs
5317.2b
xy 5317.20400.57ˆ
95%的样本回归截距落在该区间内
95%的样本回归系数落在该区间内
( 二) μy/x 的置信区间和单个 y的预测区间
xy /
)(ˆ xxbybxay
不包含随机误差
由回归方程预测 x为某一定值时 y的观测值所在区间,则 y观测值不仅受到 y和 b的影响,也受到随机误差的影响。
xy 5317.20400.57ˆ
bxay ˆ
)( xxy
y 总体的平均数 单个 y值所在的区间x
点估计点估计
( 二) μy/x 的置信区间和单个 y的预测区间
xxyy SS
xx
nss
22
/2ˆ
)(1
xxyy SS
xx
nss
2
/ˆ
)(1
y
xy
s
yt
ˆ
/ˆ
df = n-2
y 总体的平均数 单个 y值所在的区间xy 总体的平均数
y
y
styL
styL
ˆ2
ˆ1
ˆ
ˆ
xy /
xxyy SS
xx
nss
2
/ˆ
)(1
黏虫孵化历期平均温度为 15℃时,历期天数为多少天(取 95 %置信概率)?
8559.0)(1 2
/ˆ
x
xyy SS
xx
nss
0645.1915)5317.2(0400.57
ˆ
bxay
1589.21ˆ
9701.16ˆ
ˆ2
ˆ1
y
y
styL
styL
xxyy SS
xx
nss
22
/2 )(1
1
xxyy SS
xx
nss
2
/
)(11
ys
yyt
ˆ
df =n- 2
y 总体的平均数 x 单个 y值所在的区间单个 y值所在的区间
y
y
styL
styL
ˆ
ˆ
2
1
y
xxyy SS
xx
nss
2
/
)(11
某年的历期平均温度为 15℃时,该年的历期天数为多少天(取 95 %置信概率)?
1603.2)(1
12
/
x
xyy SS
xx
nss
0645.1915)5317.2(0400.57
ˆ
bxay
3508.24ˆ
7782.13ˆ
2
1
y
y
styL
styL
( 二) μy/x 的置信区间和单个 y的预测区间
1603.2)(1
12
/
x
xyy SS
xx
nss
3508.24ˆ
7782.13ˆ
2
1
y
y
styL
styL
8559.0)(1 2
/ˆ
x
xyy SS
xx
nss
1589.21ˆ
9701.16ˆ
ˆ2
ˆ1
y
y
styL
styL
( 三) μy/x 和单个 y观测值置信区间图示
0
5
10
15
20
25
30
35
9 12 15 18 21
预测值均值下限均值上限预测值下限预测值上限
xxyy SS
xx
nss
2
/
)(11
xxyy SS
xx
nss
2
/ˆ
)(1
xx
xSS
n
正比反比
愈靠近 x ,对 y总体平均值或单个 y的估计值就愈精确,而增大样本含量,扩大 x的取值范围亦可提高精确度。
作回归分析时要有实际意义。
直线回归注意问题
不能把毫无关联的两种现象勉强作回归分析,即便有回归关系也不一定是因果关系,还必须对两种现象的内在联系有所认识,即能从专业理论上作出合理解释或有所依据。
进行直线回归分析之前,绘制散点图。
直线回归注意问题
当观察点的分布有直线趋势时,才适宜作直线回归分析。
散点图还能提示资料有无异常值,即对应于残差绝对值特别大的观测数据。异常点的存在往往对回归方程中的 a 和 b 的估计产生较大的影响。因此,需要复查此异常点的值。
直线回归的适应范围一般以自变量的取值为限。
直线回归注意问题
在自变量范围内求出的估计值,一般称为内插 (interpolation); 超过自变量取值范围所计算出的估计值,称为外延 (extrapolation) 。
若无充分理由证明超过自变量取值范围还是直线,应该避免外延。
描述两变量间的依存关系。
直线回归的应用
xy 5317.20400.57ˆ
利用回归关系进行预测 (forecast) 。
直线回归的应用
xy 5317.20400.57ˆ
将自变量作为预报回子,代入方程对预报量进行估计,其波动范围可按个体 y值容许区间方法计算。
回归方程进行统计控制 (statistical control).
直线回归的应用
NO2 浓度
Y(NO2 浓度, mg/m3)= -0.064866+0.000133x( 车流量,辆/小时)
^
第三节:直线相关 Linear Correlation
一、相关系数和决定系数
二、相关系数的假设检验
三、相关系数的区间估计
一、相关系数和决定系数
x y
线性关系了解 x和 y相关以及相关的性质
相关系数
相关类型
正相关 负相关 零相关
III
III IV
III
III IV
III
III IV
),( yx
),( yyxx
III
III IV
0,0: yyxxI
0,0: yyxxII
0,0: yyxxIII
0,0: yyxxIV
0))(( yyxx
III
III IV
0))(( yyxx 0))(( yyxx
III
III IV
III
III IV
0))(( yyxx
))(( yyxx
直线相关的两个变量的相关程度和性质
1
))((
n
yyxx
乘积和
互变量
( 1)单位问题
( 2)x 与 y本身的变异不影响 x与 y之间的相关性
?n
1
))((
n
yyxx
1
)(
1
)(
1
))((
22
n
yy
n
xx
n
yyxx
r
22 )()(
))((
yyxx
yyxx
22 )()(
))((
yyxx
yyxxr
两个变量的变异程度
两个变量的度量单位
两个变量的个数
r 可以用来比较不同双变量的相关程度和性质。
22 )()(
))((
yyxx
yyxxr
22 )()(
))((
yx
yx
yx
yx
样本
总体
22 )()(
))((
yyxx
yyxxr
两个变量在相关系数计算中的地位是平等的,没有自变量和依变量之分
相关
回归区别
联系
yyyxyx
xy
SS
U
SS
bSP
SS
SP
SS
SP
SSSS
SPr
yyyxyx
xy
SS
U
SS
bSP
SS
SP
SS
SP
SSSS
SPr
yy
y
y SS
Q
SS
QSS
SS
Ur
12
决定系数coefficient of determination
yy
y
y SS
Q
SS
QSS
SS
Ur
12
变量 x引起 y变异的回归平方和占 y 总变异平方和的比率
当 SSy 固定时,回归平方和 U的大小取决于 r2 。
回归平方和 U是由于引入了相关变量而使总平方和 SSy减少的部分。
12 rSSU y 说明引入相关的效果好
yy
y
y SS
Q
SS
QSS
SS
Ur
12
10 2 r
11 r
1r
1r 1r 0Q
用 y 可以准确预测 y值
x 与 y 完全相关。
完全正相关 完全负相关
散点图上所有点必在一条直线上。
ySS
Qr 12
0rySSQ
回归一点作用也没有,即用 x 的线性函数完全不能预测 y 值的变化。
1rySS
Qr 12
x 与 y 之间不存在直线相关关系,这时散点图分布紊乱,没有直线的趋势,但可能存在非线性关系。
III
III IV
10 r
x 的线性函数对预测 y值的变化有一定作用,但不能准确预测,说明 y还受其他因素(包括随机误差)的影响。
相关系数 (r) 和决定系数 (r2) 的区别(1) 除去 r =1和 0的情况外, r 2 < r ,这样可以防止对相关系数所表示的相关程度作夸张的解释。
( 2) r可正可负, r2 取正, r2 一般只用于表示相关程度而不表示相关性质。
温度 天数
9682.02688.3771788.55
6937.139
yx
xy
SSSS
SPr
9374.02 r
黏虫孵化历期平均温度与历期天数成负相关。
x和 y的变异有 93.74 %可用二者之间的线性关系来解释。
ρ=0x y
(x1,y1)
(x2,y2)
(x3,y3)
(xn,yn)yx
xy
SSSS
SPr
P ?
二、相关系数的假设检验
r 是线性关系强弱的指标
2/)ˆ(
)ˆ(
2/ 2
2
nyy
yy
nQ
UF
2
1
2
1
ndf
df
xSSbU 2
2
2
2)(
)(
))((xx
xx
yyxxU
2
2
2)(
)(
))((xx
xx
yyxxU
2
22
2
)()()(
))((yy
yyxx
yyxxU
22
2
2
22
)(
)()()(
))((
yyr
yyyyxx
yyxxU
H0:β=0
HA:β≠0
检验样本回归系数 b是否来自β=0 的双变量总体,以推断线性回归的显著性。
对于相关系数 r作显著性检验的无效假设为ρ=0 ,即测定 r来自 ρ=0 总体的概率,也就是判断 r所代表的总体是否存在直线相关。
总体相关系数 ρ=0
22 )( yyrU
22222 )()1()()( yyryyryyUSSQ y
2/)1(2/ 2
2
nr
r
nQ
UF
2
1
2
1
ndf
df
2)1( 2
nr
rt 2ndf 2
)1( 2
n
rs r
相关系数 r的标准误
2tF
(1)假设
( 2 )水平
( 3 )检验
( 4 )推断
H0:ρ=0 ; HA:ρ≠0
选取显著水平α
2)1( 2
nr
r
s
rt
r
在α显著水平上,否定 H0 ,接受 HA ;推断 r显著。
)2( ntt 在α显著水平上,接受 H0 ,否定 HA ;推断 r不显著。
)2( ntt
r经显著性检验的结果呈不显著时,便推断两变数间不存在相关关系,这时不能用 r代表其相关密切程度。
(1)假设
( 2 )水平
( 3 )检验
( 4 )推断
H0:ρ=0 ; HA:ρ ≠ 0
选取显著水平α= 0.01
48.91021.0
9682.0
2)1( 2
nr
r
s
rt
r
否定 H0 ,接受 HA ;推断 r极显著,黏虫孵化历期温度与历期天数之间存在着极显著的直线相关关系。
707.3)6(01.0 tt
48.91021.0
9682.0
2)1( 2
nr
r
s
rt
r
48.91788.55/9835.1
5317.2
//
xxyb SSs
b
s
bt
必然结果
bs
bt
x
xyxyb
SS
s
xx
s
xxn
yys /
2
2/
2
2
)()()2(
)ˆ(
22/
n
bSPSS
n
Qs y
xy
)2/()(
nbSPSS
SSb
s
bt
y
x
b
)2/()1(
nSS
SPSSSP
SS
SSSSSP
t
y
xy
xx
)2/()1(
nSSSSSPSP
SSSS
SP
t
yx
yx
rs
r
nr
rt
)2/()1( 2
)2/()1(
nSSSSSPSP
SS
SSSSSP
t
yxy
xx
)2/()(
nbSPSS
SSb
s
bt
y
x
b
2)1( 2
nr
r
s
rt
r
2)1( 2
22
nr
rt
2
22
2 tn
tr
22 tn
tr
r 与 t 符号相同。
)2()2( nn rt
)2(, nrr
相关系数的假设检验可不计算t 值,直接从附表 12查出 df=n-2时 r的临界值。
)2(, nrr
椰子树的产量数X( 个 )
椰子树的高度Y( 尺 )
X( 个 ) 120 121 123 126 128
Y( 尺 ) 21 23 22 25 24
8783.07996.0 )3(05.0 rr
椰子树的产果树与树高之间无直线相关关系。当样本太小时,即使 r 值达到 0.7996,样本也可能来自总体相关系数 ρ=0 的总体。
不能直观地由 r值判断两变数间的相关密切程度。试验或抽样时,所取的样本容量 n大一些,由此计算出来的 r值才能参考价值。
1
2
三、相关系数的区间估计
r 值经假设检验达到显著水平,需要由 r估计总体相关系数 ρ所在的区间。
ρ y(x1,y1)
(x2,y2)
(x3,y3)
(xn,yn)yx
xy
SSSS
SPr
X
ρ = 0
两变量无直线相关关系
Nr
ρ≠ 0
两变量有直线相关关系
tNr ,
)1
1lg(1513.1)
1
1ln(5.0
r
r
r
rz
)3(
1
nz
z
z
uzL
uzL
2
1
)1(
)1(2
2
L
L
e
er
正态分布
0627.2)9682.01
9682.01ln(5.0
)1
1ln(5.0
r
rz
4472.0)38(
1
)3(
1
nz
1862.1
9392.2
2
1
z
z
uzL
uzL
9682.0r
8294.0)1(
)1(
9944.0)1(
)1(
2
2
1
1
2
2'2
2
2'1
L
L
L
L
e
eL
e
eL
黏虫孵化历期温度与历期天数的总体相关系数 ρ的 95 %的置信区间为( -0.9944, -0.8294)。
相关与回归的联系
回归方程的显著性
回归系数的显著性
相关系数的显著性一致
x ybxay ˆ
rbbxay ˆ
三者同时显著或不显著。
r与 b的符号一致,由两变量离均差乘积之和的符号决定。
相关与回归的联系
)2(2/
1/
n
Q
U
nQ
UF
bb s
b
s
bt
rr s
r
s
rt
rbbxay ˆ
r : +, 两变量间的相互关系是同向变化的。
b : +,x 增(减)一个单位, y 平均值增(减) b 个单位。
相关与回归的联系
用回归解释相关。
ySS
Ur 2
相关与回归的联系
y 关于 x 的直线回归系数 x 关于 y 的直线回归系数
2/)(
))((
xx
yyxxb xy
2/)(
))((
yy
yyxxb yx
22
// rSSSS
SPbb
yxxyyx
x y
yx SSSS
yyxxr
))((
回归
相关
x 是可以精确测量和严格控制的变量。
y服从正态分布。
x服从正态分布。 y服从正态分布。
xbay xyxy //ˆ ybax yxyx //ˆ
I 型回归
II 型回归
相关与回归的区别 资料要求
x y
两变量间依存变化的数量关系
两变量间相关关系
回归
相关
相关与回归的区别 应用
x y
单向x y
x y双向
回归系数与相关系数的正负号都由两变量离均差积之和的符号决定,所以同一资料的 b与其 r的符号相同。
回归系数有单位,形式为(应变量单位 /自变量单位),相关系数没有单位。
相关系数的范围在 -1 ~ +1之间,而回归系数没有这种限制。
有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。
有些资料用相关和回归都适宜,此时须视研究需要而定。
就一般计算程序来说,是先求出相关系数r并对其进行假设检验,如果 r显著并有进行回归分析之必要,再建立回归方程。
作相关与回归分析要有实际意义。作相关与回归分析要有实际意义。
不要把毫无关联的两个事物或现象用来作相关或回归分析。
****
如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许算得的 r、 b 是显著的,也是没有意义的。
相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。
对相关分析的作用要正确理解。对相关分析的作用要正确理解。*** *
相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显著性“证明”因果关系之存在。
要证明两事物间的因果关系,必须凭籍专业知识从理论上加以阐明。但是,当事物间的因果关系未被认识前,相关分析可为理论研究提供线索。
适合相关和回归分析的资料通常有两种适合相关和回归分析的资料通常有两种
一个变量 X是选定的,另一个变 Y是从正态分布的总体中随机抽取的。
*** *
11
回归分析
由一个变量推算另一个变量
说明两变量间的相互关系
两变量 X、 Y(或 X1、 X2)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。
22
回归分析
相关分析
在回归分析中,由 X推算 Y与由 Y推算 X的回归方程是不同的,不可混淆。
必须正确选定自变量与应变量。
一般说,事物的原因作自变量 X,当事物的因果关系不很明确时,选误差较小的即个体变异小的变量作自变量 X,以推算应变量 Y。
回归方程的适用范围有其限度,一般仅适用于自变量 X的原数据范围内,而不能任意外推。因为我们并不知道在这些观察值的范围之外,两变量间是否也呈同样的直线关系。