第五章 数据分布特征的描述

29
第第第 第第第第第第第第第 第第第第第第 : 1. 第第第第第第第 2. 第第第第第 3. 第第第第第 4. 第第第第第第第 第第第第第第 : 第第第第 第第第第第第 : 6 第第

Upload: christopher-downs

Post on 03-Jan-2016

93 views

Category:

Documents


0 download

DESCRIPTION

第五章 数据分布特征的描述. 本章主要内容 : 1. 集中趋势的描述 2. 数值平均数 3. 位置平均数 4. 离中趋势的描述 本章讲授方法 : 讲练结合 本章讲授课时 : 6 课时. 一、集中趋势与平均指标 (一)集中趋势的含义:是指某一组数据向某一中心值靠拢的倾向,这种倾向就是集中趋势。 (二)平均指标:是用来反映总体的一般水平和集中趋势的指标,也即集中趋势的中心值。 平均指标的具体表现称为平均数。 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第五章  数据分布特征的描述

第五章 数据分布特征的描述 本章主要内容 : 1. 集中趋势的描述 2. 数值平均数 3. 位置平均数 4. 离中趋势的描述 本章讲授方法 : 讲练结合 本章讲授课时 : 6 课时

Page 2: 第五章  数据分布特征的描述

第一节 集中趋势指标一、集中趋势与平均指标(一)集中趋势的含义:是指某一组数据向某

一中心值靠拢的倾向,这种倾向就是集中趋势。(二)平均指标:是用来反映总体的一般水平

和集中趋势的指标,也即集中趋势的中心值。 平均指标的具体表现称为平均数。 现象分布的集中趋势,主要是由平均指标来反

映的。平均指标主要包括数值平均数和位置平均数。

Page 3: 第五章  数据分布特征的描述

(三)平均指标的作用1. 可以对比不同总体的一般水平,即进行不同空间

的水平比较。2. 可以对不同时间的现象进行比较,即进行不同时

间上的同一现象进行比较。3. 分析现象之间的相互关系,并进行相关推算。(四)平均指标的特点:1. 平均指标是个代表值2. 把被研究总体各单位的标志值的数量差异抽象化

了。

Page 4: 第五章  数据分布特征的描述

二、数值平均数(一)算术平均数: 1. 定义:是变量的所有变量值之和除以变量值的个数。

2. 计算公式:根据掌握的资料的不同,分为简单算术平均

数和加权算术平均数。 ( 1 )简单算术平均数

总体单位总量总体标志总量

算术平均数

n

xx 资料未分组算术平均数

总体单位的个数 变量值

合计

n

xxx n

21

Page 5: 第五章  数据分布特征的描述

例如:

某学习小组的五名学生数学学习成绩分别为:62 、 85 、 73 、 90 、 77 。则其平均成绩为:

五名学生的数学平均成绩为 77.4 分

5

7790738562

n

xx

554321 xxxxx

5

387

(分)4.77

Page 6: 第五章  数据分布特征的描述

( 2 )加权算术平均数

加权算术平均数的计算公式

权数:平均数大小,不仅受变量值的影响,还受各组次数的影响,哪一组次数多,变量值就会趋向于这个值,所以各组次数可以起到一个权衡平均数大小的这样一个作用,所以也称之为权数。

加权算术平均数与简单算术平均数的关系:如果各组次数相等,即权数相当时,加权算术平均数就变成了简单算术平均数了。权数的作用没有了。

f

xfx

f

fx

各组单位数(权数)

根据分组资料计算

Page 7: 第五章  数据分布特征的描述

某生产小组工人生产零件情况

日产零件(件)

x

人(人

)f

15 - 2020 - 2525 - 30

354

合计 12

组中值x

17.522.527.5

_

人数比重( % )f / 1225.00 41.67 33.33

100.00

x f

52.5115110

275

x*f/12

4.38 9.38 9.17

22.92

f

xfx

f

fx

件)(92.2212

275

x 件)(92.22

Page 8: 第五章  数据分布特征的描述

( 3 )算术平均数的数学性质

  各变量值与其算术平均数的离差之和等于零

   各变量值与其算术平均数的离差平方和为最小值.

根据组距数列计算的算术平均数仅是个近似值,是在假定各组数据分布均匀的前提下计算的。

0)( xx 0)( fxx

最小值2)( xx 最小值fxx 2)(

Page 9: 第五章  数据分布特征的描述

(二)调和平均数 1. 定义:调和平均数是各变量值倒数的算术平均数的倒数。 在实际应用中,更多地是做为算术平均数的变形来应用

的 2. 计算公式: ( 1 )简单调和平均数:各组标志总量相等时,可采用

简单。其计算公式:

x

k

xm

xm

xm

kmH

k

1

21

调和平均数 组数 各组标志总量 各组标志值

Page 10: 第五章  数据分布特征的描述

例:

市场上某种蔬菜的价格是早市每公斤 1.25元,午市每公斤 1.20 元,晚市每公斤 1.10 元,若某饭店早、中、晚各买 10 元钱的蔬菜,问所购蔬菜的平均价格是多少?

购买蔬菜的金额是标志总量,且三组均为 10 元

该饭店购买的这种蔬菜价格为 1.18 元

x

kH

1元)(18.1

1.11

2.11

25.11

3

Page 11: 第五章  数据分布特征的描述

权数

( 2 )加权调和平均数

当各组标志总量不相同时。应采用加权调和平均数。其计算公式为:

在这个公式中,各组的标志总量即权数是不相等的,如果相等了,就等于简单调和平均数了。

调和平均数,通常是做为算术平均数的变型来应用的在不同的情况下,有的时候采用算术平均数,有的时候采用调和平均数。

k

k

k

m

m

xm

xm

mmmH

2

2

1

1

21

xm

m

Page 12: 第五章  数据分布特征的描述

( 3 )调和平均数的应用

在 计算绝对数的平均数时,通常采用加权算术平均数就可以了,当计算相对数或平均数的平均数时,就需要进行判断,是采用加权算术平均数还是调和平均数。

相对数或平均数都是由两个数值比对形成的,我们可以称之为比值变量。

当知道比值变量及其分子时,我们应该以分子做为权数,采用加权调和平均数的计算公式,如果知道比值变量及其分母时,我们应该以分母做为权数,采用加权算术平均数的计算公式。

分母分子

比值变量=加权算术

加权调和

Page 13: 第五章  数据分布特征的描述

某公司所属三个部门资金利润率及平均占用资金资料如下:

在这个例子中,利润率是个相对数,是个比值变量。如果我们知道了利润率和利润率的分母平均资金占用时,我们可以采用以平均资金占用为权数的加权算术平均数计算公式

部门

甲乙丙

合计

平均占用资金 f(万元)

5080

150

280

资金利润率x ( % )

121524

f

xfx

利润总(万元) xf

61236

54

%3.19280

54

Page 14: 第五章  数据分布特征的描述

如果将上例条件变换如下:

在这个例子中,我们知道了比例变量利润率和分子利润额,所以应该利用以分子利润额为权数的加权调和平均数计算分式:

部门

甲乙丙

合计

资金利润率x ( % )

121524

平均占用资金(万元)m/x

5080

150

280

利润总(万元)m6

1236

54

k

k

k

m

m

xm

xm

mmmH

2

2

1

1

21

xm

m%3.19

280

54

Page 15: 第五章  数据分布特征的描述

(三)几何平均数

1. 定义:几何平均数是 n个变量值乘积后的开n次方根。通常是计算平均比率或平均速度。

2. 计算公式: ( 1 )简单几何平均数

( 2 )加权几何平均数

n

nxxxxG 321 资料未分组

f fff xxxG 321

321 资料已经分组

Page 16: 第五章  数据分布特征的描述

例:某机械厂五个流水作业车间的合格率分别为 96% 、 94% 、

95% 、 95% 、 96% ,则五个车间的产品平均合格率为?

5

%96%95%95%94%96

n

nxxxxG 321

%20.95

Page 17: 第五章  数据分布特征的描述

三、位置平均数

(一)中位数 1. 中位数的定义:是变量的所有变量值按大小排列后,处

于中间位置上的那个变量值。 2. 计算方法: ( 1 )根据未分组资料计算: 首先将所有的变量值按大小进行排序; 其次确定中位数。 中位数me =

)2

1(

nx

)12()

2(2

1nn xx

n为奇数

n为偶数

n为变量值的个数

Page 18: 第五章  数据分布特征的描述

(2) 根据分组资料确定中位数

①根据单项式数列计算: 步骤:第一,确定中位数位置: 第二,对数列中各组的频数进行向上累计或向下累

计 第三,确定中位数:当某一组的累计频数大于或等

于 时,该组的变量值就是中位数。

中位数为 3.

2

1 f

2

1 f

家庭人口数(人

)家庭数(户)

12345

28

53124

合计 79

402

179

2

1

f累计频数

向上累计 向下累计

210637579

797769164

— —

各组频数

Page 19: 第五章  数据分布特征的描述

② 根据组距数列计算

步骤:第一,确定中位数所在位置; 第二,对数列的各组频数进行向上累计或向下累计; 第三,确定中位数所在组; 第四,根据下面的比例插值法公式确定中位数; 下限公式:

上限公式:

2 f

df

sf

Umm

m

e

12

df

sf

lmm

m

e

12

中位数所在组下限

中位数所以组频数

中位数所在组组距

中位数组以下各组累计次数

中位数组以上各组累计次数

中位数所在组上限

Page 20: 第五章  数据分布特征的描述

例如,某电子元件厂工人日产量资料如下:

中位数所在组为: 1000 - 1100 件这一组。然后根据下限公式计算中位数为:

日产量(件) 工人数(人)累计频数

向下累计 向上累计800 以下 40 40 534

800 - 900 48 88 494

900 - 1000 59 147 446

1000 - 1100 206 353 387

1100 - 1200 82 435 181

1200 - 1300 56 491 99

1300 以上 43 534 43

合 计 534 — —

df

sf

lmm

m

e

12 )件(25.1058100

206

1472534

1000

Page 21: 第五章  数据分布特征的描述

(二)众数 1. 定义:众数是变量数列中出现次数最多,频率最高的变

量值。 2. 计算方法: ( 1 )根据单项式数列计算: 出现次数最多的变量值即为众数。 ( 2 )根据组距数列计算: 先确定众数所以组,然后根据下列公式计算。 下限公式

上限公式dlmo

21

1

dUmo

21

2

△1 为众数组次数与下一组次数之差 △2 为众数组次数与上一组次数之差

Page 22: 第五章  数据分布特征的描述

如上例

在这个例子中,可以看到众数组为 1000 - 1100 这一

组。根据下限公式,我们可计算众数为:

日产量(件) 工人数(人)800 以下

800 - 900900 - 1000

1000 - 11001100 - 12001200 - 1300

1300 以上

404859206825643

合 计 534

dlmo

21

1 件)(24.1054100)82206()59206(

592061000

Page 23: 第五章  数据分布特征的描述

第二节 离中趋势的描述一、离中趋势和离散指标(一)离中趋势:是指一组数据中各数据值以不同程度的距

离偏离中心的趋势。(二)离散指标:就是反映变量值变动范围和差异程度的指

标,即反映分布中各变量值远离中心值或代表值程度的指标。(反映变量值不一样的程度)

(三)作用: 1. 可以用来衡量和比较平均数的代表性;(反比) 2. 可以用来反映各种现象活动过程的均衡性; 3. 可以反映数据分布的离散程度。 离散指标主要介绍:全距、平均差、标准差、标准差系数。

Page 24: 第五章  数据分布特征的描述

二、离散指标的测度(一)全距(极差) 1. 定义:最大变量值与最小变量值之差。 2. 计算方法:

在单项式变量数列中,用变量值中的最大值减去最小值即可。而在组距式变量数列中,应用变量值最大组的上限减去变量值最小组的下限。

3.优缺点: 优点:计算简便,应用比较多,如压差、温差等。 缺点:受极值影响大,计算粗糙,没有考虑到所有变

量值。

minmax xxR

Page 25: 第五章  数据分布特征的描述

(二)平均差

1. 定义:是各变量值与其平均数离差绝对值的算术平均数。 2. 计算公式: ( 1 )简单式:

( 2 )加权式:

平均差在计算上,不利于代数运算,所以通常不用这种

方法计算,而是采用一种更合理的测定方法:标准差。

n

xxDA

.

f

fxxDA.

资料未分组

资料已经分组

Page 26: 第五章  数据分布特征的描述

(三)标准差

1. 定义:是各变量值与其平均数离差平方的算术平均数的平方根。标准差的平方叫方差。

2. 计算公式: ( 1 )简单式:

( 2 )加权式:

总体的标准差通常用 表示,而样本的标准差通常用 S表示。

n

xx

2

f

fxx 2

资料未分组

资料已经分组

Page 27: 第五章  数据分布特征的描述

例如,某电子元件厂工人日产量资料如下:日产量(件) 工人数

(人)800 以下

800 - 900900 - 10001000 - 110

01100 - 120

01200 - 130

01300 以上

404859206825643

合 计 534

组中值(件)

7508509501050115012501350

  ---

x f30000408005605021630

0943007000058050

565500

 

95474.82

43676.82

11878.82

80.82018282.8236484.8

284686.8

2  ---

 

3818993

2096487

700850.4

16648.94

679191.2

2043150

3641533

12996854

2xx fxx2

f

xfx 件)(99.1058

534

565500

f

fxx 2

(件)== 01.156534

12996854

Page 28: 第五章  数据分布特征的描述

(四)标准差系数

1. 定义:是指标准差与其平均数相对比得到的比率。 标准差系数是一个相对指标,当比较的现象水平不相等

或计量单位不同的情况下,可以用这个指标进行对比。 例如: 10 11 12 13 14 101 102 103 104 105 这两组数值的标准差是一致的,但实质上其离散程度是

不一样的。因为其平均水平是不相等的。在这种情况下如果比较其离散程度,应该用相对离散程度来比较。

2. 计算公式: %100

x

Page 29: 第五章  数据分布特征的描述

例如:两个企业工资相关资料如下: 甲企业:平均工资为 1200 元,标准差为 57 元; 乙企业:平均工资为 2000 元,标准差为 60 元。 试比较两个企业的平均工资的代表性。

从上面的计算结果上看,如果从绝对数(即标准差上比较,甲企业的平均工资的代表性好于乙企业,但如果从标准差系数上来看,甲企业的平均工资的代表性就不如乙企业了。

%75.4%1001200

57%100

甲甲 x

%3%1002000

60%100 ===

乙乙

x