概率论与数理统计第 20 讲

1

概率论与数理统计第 20讲

本文件可从网址http://math.shekou.com上下载

2

样本分布

3

总体总体是指的一个随机变量 X.

关于这个随机变量的一些知识 , 我们不知道 , 因此希望通过一系列的试验来获得 . 这就是数理统计的任务 .

4

样本样本是指的与总体 X的分布完全一样的 n个相互独立的一组随机变量 X1,X2,...,Xn, 其中 n称为样本容量而对样本做一次观察得到的具体的试验数据 , 称作样本值 , 用小写字母 x1,x2,...,xn表示 .

5

例如假设总体 X~N(,2),

设有 10 个样本 X1, X2, …, X10 相互独立 ,

Xi~N(,2), i=1,2,...,10.

6

对这 10 个样本 X1, X2, …, X10 进行一次试验 ( 当然是由 10 次试验拼成的一次试验 ), 得到 10 个实数为10.5, 11.23, 8.4, 9.94, 13.22, 5.08, 7.62, 12.33,

10.02, 9.97

这 10 个实数就叫做样本值 .

7

因此样本值是实数 , 而样本则是随机变量 .

样本值是对样本的观察结果 .

8

数理统计的任务

在概率论的各个题目中 , 随机变量的分布往往是知道的 , 是通过某些已知的信息计算另一些信息 .

9

而在实际中 , 经常是有一个我们关心的总体 X, 我们即不知道它的分布 , 也不知道它的数学期望和方差 . 但是 , 我们可以对其进行反复地试验 , 则试验 n次 , 得到 n个样本值 , 这 n个样本值可以看作是对 n个与总体分布相同的样本进行观察而获得的 .

10

例如 , 有一个我们对之一无所知的随机变量 X, 我

们对其进行 100 次试验得到了 100 个观察值如下 :

10.5, 11.23, 8.4, 9.94, 13.22, 5.08, 7.62, 12.33, 10.02, 9.9713.1, 14.02, 11.4, 10.88, 6.2, 11.9, 10.33, 5.01, 12.02, 13.15.5, 7.23, 12.4, 9.23, 10.15, 7.77, 9.34, 10.3, 12.73, 12.0012.6, 11.23, 8.4, 9.94, 13.22, 5.08, 7.62, 12.33, 10.02, 9.9713.1, 14.02, 11.4, 10.88, 6.2, 11.9, 10.33, 5.01, 12.02, 13.110.02, 7.53, 12.4, 9.23, 10.15, 7.77, 9.34, 10.3, 12.73, 12.0010.5, 21.23, 8.4, 9.94, 13.22, 5.08, 7.55, 12.33, 10.02, 9.9713.1, 14.02, 11.4, 10.88, 6.2, 11.9, 10.33, 5.01, 12.02, 13.17.5, 7.43, 12.4, 9.23, 11.45, 7.66, 9.34, 10.3, 12.73, 12.0012.5, 11.2, 10.4, 9.94, 13.22, 5.08, 7.62, 12.33, 10.02, 9.97

11

当然 , 实际得到的数据可能更多 ,

有时候为了获得对总体的较深的认识 , 需要几千个甚至几万个样本值 .

12

数理统计的问题是 , 怎样在获得了这些试验数据之后 , 能够对总体 X的某些信息获得一些估计 ? 获得一些知识 ?

13

这又分为两类 , 一类是对总体的分布进行一些统计 .

而另一类则是对总体的一些特征值 , 经常是数学期望和方差进行一些统计 .

14

对分布进行统计通常就是用的直方图进行统计 , 下面是用 excel 工具进行统计的直方图

直方图

0

5

10

15

20

25

3070 80 90 100

110

120

130

140

150

160

其他

接收

频率频率

15

而本课则更侧重于假设已知总体 X为正态分布的情况下 , 对它的两个参数 , 期望和方差的估计进行讨论 . 这种情况叫做正态总体 .

16

定义样本 (X1,X2,...,Xn) 的函数 f(X1,X2,...,Xn)称为统计量 , 其中 f(X1,X2,...,Xn) 不含参数 .

17

对于正态总体 , 统计量通常是用来估计总体的期望和方差 , 因此有两个用来估计期望和方差的统计量必须记住 .

18

1

1

1

, ,

1, .

n

ii

n

ii

X Xn

x xn

被称作这是随机变量但它的一个具体的观测值写作

称作样本均值的

本均值

样本值

样

19

2 2

1

2

2

1

1( )

1

.

, .

1( )

1

n

ii

n

ii

S X Xn

s

S X Xn

称为

而样本方差也有样

样

本值写作

称

本方差

样作本标准差

20

定理设 X1,X2,...,Xn 相互独立 , Xi~N(i, i), i=1,2,...,n, 则它们的线性函数

1

2 2

1 1

( ), ,

~ ,

n

i i ii

n n

i i i ii i

Y a X a

Y N a a

不全为零也服从正态分布

21

另类证法按中心极限定理 , 大量的任何分布的随机变量之和趋近于正态分布 . 或者说任何正态分布的随机变量可被认为是大量的随机变量的和 , 则任何正态分布的各个随机变量之和相当于更多的随机变量的和 , 当然也只能服从正态分布 .

22

否则的话 , 如果正态分布的随机变量之和不是正态分布 , 必导致中心极限定理不成立 .

23

推论设 (X1,X2,...,Xn) 是取自正态总体 N(,2) 的样本 , 则有

1

2

1,

(1) ~ ,

(2) ~ (0,1)/

n

ii

X Xn

X Nn

XN

n

则

24

2

(1) ~ ,

(2) ~ (0,1)/

X Nn

XN

n

25

,

,

, ,

.

.

,

~ (0,1)/

X

X

X

X

XN

n

因此,当总体服从正态分布时

样本均值也服从正态分布甚至当总体是任意分布时根据中心极限定理

也近似服从正态分布因此可查正态

分布表来确定落在各个区间里的概率

而这需要将转换成标准正态分布

即

26

定理设 X1,X2,...,Xn 相互独立 , Xi~N(0, 1), i=1,2,...,n, 则

2 2 2 2 21 2

1

~ ( )n

n ii

X X X X n

即 n个相互独立的标准正态分布的随机变量的平方和服从 n个自由度的 2(n)分布

27

定理设 X1,X2,...,Xn 相互独立 , Xi~N(0, 1), i=1,2,...,n, 则

1

2

2

1 1 1

2

1

1( )

, ~ ( 1)

n

ii

n n n

i i ii i i

X Xn

Y X X X Xn

Y X Y n

则与相互独立

28

证明这个定理需要较深的线性代数的知识1 2

2 2 21 2

, , ,

,

( ) ( ) ( )

1

.

n

n

X X X X X X

n

X X X X X X

n

一般说来

相互之间并不独立因此个它们的平方的和

可用线性代数理论证明为恰好相当于个相互独立的服从标准正态分布

的随机变量的平方和

29

推论设 (X1,X2,...,Xn) 是取自正态总体 N(,2)的样本 , 则有

2 22

1

22

2

1(1) ( ) ~ ( 1)

( 1)~ ( 1)

n

ii

X X n

n Sn

即

30

2

1

2

(2) ( )n

ii

X X X

X S

与相互独立

即与相互独立

31

证因为 Xi~N(,2)

1 1

( ) / , ~ (0,1)

1 1 1( ) /

i i i

n n

i ii i

Y X Y N

Y Y X Xn n

令则

而

32

2 2 22

1 1

2

1

2

1

1( ) ( ) ~ ( 1)

( )

( )

n n

i ii i

n

ii

n

ii

Y Y X X n

Y Y Y

X X X

由与相互独立可知

与相互独立

33

此定理的用处在于2 2

22

2

2 2

,

( 1)~ ( 1)

.

S

n Sn

S

通常都用来估计总体的方差

而既然知道了

就有可能通过查分布表求落在某些区域的概率

34

定理设两个随机变量 X与 Y相互独立 , 并且 X~N(0,1), Y~2(n), 则

/

~ ( )/

XT n t

Y nX

T t nY n

服从具有个自由度的分布

或记作

35

推论 1 设 (X1,X2,...,Xn) 是取自正态总体 N(,2) 的样本 ,

2

1 1

1 1, ( )

1

~ ( 1)/

n n

i ii i

X X S X Xn n

XT t n

S n

则

36

此推论的意义在于2

2

( , ) ,

~ ( , / ),

/

.

N

X N n

X

n

我们知道当总体为正态总体时

这样我们希望用

的公式将其转换为正态分布后查

正态分布表

37

,

,

~ ( 1),/

.

S

XT t n t

S n

T

但在实际情况中未知因此只好用统计量代替上式中的这时

这时候可以查分布表

来确定落在一些区域内的概率

38

推论 2 设 X1,X2,...,Xn 和 Y1,Y2,...,Ym 分别来自两个相互独立的正态总体 N(1,2) 和 N(2,2), 则

1 2

2 21 2

1 2

2 21 2

( )

( 1) ( 1) 1 1

2

~ ( 2)

, , , ,

.

X YT

n S m S

n m n n

t n m

X Y S S

其中分别是两个样本各自的平均数和方差

39

定理设两个随机变量 X1 和 X2 相互独立 , 且 X1~2(n1),X2~2(n2), 则有

1 11 2

2 2

1 2 1

2

/~ ( , )

/

( , ) ,

.

X nF F n n

X n

F n n n

n F

其中为第一个自由度是第

二个自由度是的分布

40

推论设设 X1,X2,...,Xn 和 Y1,Y2,...,Ym 分别来自两个相互独立的正态总体

2 21 1 2 2

2 21 1

1 22 22 2

2 21 2

( , ) ( , ),

/~ ( 1, 1)

/

, , .

N N

SF F n n

S

S S

和则

其中分别为两个样本各自的方差

41

Excel 软件的几个常用的统计函数everage( 数据 )

计算样本均值 , 字符不计在内everagea( 数据 )

同样是计算样本均值 , 但字符单元算作 0

42

var 和 vara 计算样本方差varp 和 varpa 也是计算样本方差 , 但除以 nstdev 和 stdeva 计算样本标准差stdevp 和 stdevpa 同样计算样本标准差 , 但也是由 varp 开方得来 .

43

关于分布的函数

normsdist(x) 标准正态分布函数 0(x)

normsinv(x) 标准正态分布函数的反函数

44

normdist(x,m,s,c)

返回均值为 m, 标准差为 s 的正态分布函数值或者正态概率密度函数值 ( 如果 c 为true 则返回分布函数 , 否则返回概率密度函数值 )

norminv(x,m,s)

返回均值为 m, 标准差为 s 的正态分布函数的反函数值 .

45

chidist(x,n) 返回自由度为 n 的 2 分布在 x 点处的单尾概率 , 即概率 P(2>x)

chiinv(p,n) 返回自由度为 n 的 2 分布的单尾概率函数的逆函数 .

46

tdist(x,n,tails) 返回自由度为 n 的 t 分布在x 点处的单尾或者双尾概率 , 如果 tails 为1, 返回单尾概率 , 否则返回双尾概率 .

tinv(p,n) 返回自由度为 n 的 t 分布的双尾概率分布函数的反函数 .

47

fdist(x,n1,n2) 返回第一个自由度为 n1, 第二个自由度为 n2 的 F 分布的分布函数finv(p,n1,n2) 返回第一个自由度为 n1, 第二个自由度为 n2 的 F 分布的分布函数的反函数 .

48

作业第 104 页开始 , 习题 5-2第 1,2,3,7 题

学号不小于 2003021561 的学生交作业

概率论与数理统计 第 20 讲

Documents

概率论与数理统计第 20 讲