生物统计学（ biostatistics ）课程编号： 072026

生物统计学（生物统计学（ BiostatisticBiostatisticss ））

课程编号：课程编号： 072026072026

授课教师：孔德信授课教师：孔德信E-mailE-mail ：： [email protected]@163.com

[email protected]@sdut.edu.cn

OfficeOffice ：： 13#-239(2781931-606)13#-239(2781931-606)

第一章概论第一章概论

第一节

生物统计学的概念

概念

生物统计学（ Biostatistics ）是数理统计在生物学研究中的应用，它是应用数理统计的原理，运用统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。

第二节

生物统计学的内容和作用

一、生物统计学的研究内容

生的生的物基物基统本统本计内计内学容学容

生的生的物基物基统本统本计内计内学容学容

试验设计试验设计

统计分析统计分析

基本原则

方案制定

常用试验设计方法

资料的搜集和整理数据特征数的计算统计推断方差分析回归和相关分析协方差分析主成分分析聚类分析

对比设计

随机区组设计

裂区设计

拉丁方设计

正交设计

生物统计学的基本作用：生物统计学的基本作用：

提供整理和描述数据资料的科学方法，确定某些提供整理和描述数据资料的科学方法，确定某些性状和特征的数量特征。性状和特征的数量特征。

运用显著检验，判断试验结果的可靠性或可行性。运用显著检验，判断试验结果的可靠性或可行性。

提供由样本推断总体的方法提供由样本推断总体的方法。。

提供试验设计的的一些重要原则提供试验设计的的一些重要原则。。

第三节

生物统计学的发展概况

生物统计学的发展

古典记录统计学

近代描述统计学

现代推断统计学

？生物学的发展阶段

统计学发展史中的重大事件与重要代表人物

J.Bernoulli （贝努里，瑞士， 1654 ～ 1705 ）

系统论证了“大数定律”，即样本容量越大，样本统计数与总体参数之差越小。

P.S. Laplace （拉普拉斯，法国， 1749 ～ 1827 ）

最早系统的把概率论方法运用到统计学研究中去，建立了严密的概率数学理论，并应用到人口统计、天文学等方面的研究上。

Gauss （高斯，德国， 1777 ～ 1855 ）

正态分布理论最早由 De Moiver 于 1733 年发现，后来 Gauss 在进行天文观察和研究土地测量误差理论时又一次独立发现了正态分布（又称常态分布）的理论方程，提出“误差分布曲线”，后人为了纪念他，将正态分布也称为 Gauss 分布。

F. Galton （高尔登，英国， 1822 ～ 1911 ）

19 世纪末统计学开始用于生物学的研究。 1882 年 Galton 开设“人体测量实验室”，测量 9337 人的资料，探索能把大量数据加以描述与比较的方法和途径，引入了中位数、百分位数、四分位数、四分位差以及分布、相关、回归等重要的统计学概念与方法。 1889 年发表第一篇生物统计论文《自然界的遗传》。 1901 年 Galton 和他的学生 Pearson 创办了“ Biometrika （生物统计学报）”杂志，首次明确“ Biometry （生物统计）”一词。所以后人推崇 Galton 为生物统计学的创始人。

K. Pearson （卡 . 皮尔逊，英国， 1857 ～ 1936 ）

Pearson 的一生是统计研究的一生。他首创频数分布表与频数分布图，如今已成为最基本的统计方法之一；观察到许多生物的度量并不呈现正态分布，利用相对斜率得到矩形分布、 J 型分布、 U 型分布或铃型分布等； 1900年独立发现了 X2 分布，提出了有名的卡方检验法，后经Fisher 补充，成为小样本推断统计的早期方法之一； Pearson 对“回归与相关”进一步作了发展，在 1897 ～ 1905 年， Pearson 还提出复相关、总相关、相关比等概念，不仅发展了 Galton 的相关理论，还为之建立了数学基础。

W.S.Gosset （歌赛特，英国， 1777 ～ 1855 ）

在生产实践中对样本标准差进行了大量研究。于 1908 年以“ Student （学生）”为笔名在该年的 Biometrika 上发表了论文《平均数的概率误差》，创立了小样本检验代替大样本检验的理论，即 t 分布和 t 检验法，也称为学生式分布。 t 检验已成为当代生物统计工作的基本工具之一，为多元分析理论的形成和应用奠定了基础，为此，许多统计学家把 1908 年看作是统计推断理论发展史上的里程碑。

R.A.Fisher （费歇尔，英国， 1890 ～ 1962 ）

Fisher 一生论著颇多，共写了 329 篇。他跨进统计学界是从研究概率分布开始的， 1915 年在 Biometrika 上发表论文《无限总体样本相关系数值的频率分布》，被称为现代推断统计学的第一篇论文。 1923 年发展了显著性检验及估计理论，提出了 F 分布和 F 检验， 1918 年在《孟德尔遗传试验设计间的相对关系》一文中首创“方差”和“方差分析”两个概念， 1925 年提出随机区组和正交拉丁方试验设计，并在卢桑姆斯坦德农业试验站得到检验与应用，他还在试验设计中提出“随机化”原则， 1938 年和 Yates合编了 Fisher Yates随机数字表。

另外，

Neyman （ 1894～ 1981 ）和 S.Pearson 进行了统

计理论研究，分别与 1936和 1938 年提出一种统计假说

检验学说。 P.C.Mabeilinrobis 对作物抽样调查、 A.Wae

cl 对序贯抽样、 Finney 对毒理统计、 K.Mather 对生统

遗传学、 F.Yates 对田间试验设计等都作出了杰出贡献。

四、统计学在中国的传播

我国在解放前，社会经济发展缓慢，统计的应用和发展受到了很大的限制。 1913 年，顾澄教授（ 188

2 ～？）翻译了英国统计学家尤尔的著作《统计学之理论》（ 1911 ），即为英美数理统计学传入中国之始。之后又有一些英美统计著作被翻译成中文， Fisher 的理论和方法也很快传入中国。

在 20 世纪 30 年代，《生物统计与田间试验》就作为农学系的必修课， 1935 年王绶（ 1876 ～ 1972 ）编著出版的《实用生物统计法》是我国出版最早的生物统计专著之一。随后 1942 年范福仁出版了《田间试验技术》等，这些对推动我国农业生物统计和田间试验方法的应用都产生了很大影响。

新中国成立后，许多学者翻译、编著了统计学论著，有力的推动了数理统计方法在中国的普及和应用。 1978 年 12月国家统计局在四川峨眉召开了统计教学、科研规划座谈会，全面引进了前苏联的社会经济统计理论和统计制度，对我国社会经济统计学的发展起到了一定的积极作用。这以后有关统计学的教材与论著如雨后春笋般涌现，统计工作和统计科研迅速发展。1984 年 1月 1日颁布实施《中华人民共和国统计法》， 1987

年 2月国家统计局又发布《中华人民共和国统计法实施细则》，1996 年 5月八届人大十九次会议通过了《关于修改 < 中华人民共和国统计法 > 的决定》。

随着计算机的迅速普及，统计电算程序 SAS(Statistical Anal

ysis System) 、 SPSS(Statistical Package for Social Science) 、 Ex

cel 等的引进，统计学在中国的应用与研究出现了崭新的局面。

第四节常用统计学术语第四节常用统计学术语一、总体与样本一、总体与样本

具有相同性质或属性的个体所组成的集合称为具有相同性质或属性的个体所组成的集合称为总体总体 (population)(population) ，它是指，它是指

研究对象的全体；研究对象的全体；

组成总体的基本单元称为组成总体的基本单元称为个体个体 (individual)(individual) ；；

从总体中抽出若干个体所构成的集合称为从总体中抽出若干个体所构成的集合称为样本样本 (sample)(sample) ；；

总体又分为有限总体和无限总体：总体又分为有限总体和无限总体：

含有有限个个体的总体称为含有有限个个体的总体称为有限总体有限总体（（ finitude popuoationfinitude popuoation ）；）；

包含有极多或无限多个体的总体称为包含有极多或无限多个体的总体称为无限总体无限总体（（ infinitude popuoationinfinitude popuoation ）） ..

构成样本的每个个体称为构成样本的每个个体称为样本单位样本单位；样本中所包含的个体；样本中所包含的个体

数目叫数目叫样本容量样本容量或或样本大小样本大小 (sample size)(sample size) ，样本容量常记为，样本容量常记为 nn 。。

一般在生物学研究中，通常把一般在生物学研究中，通常把 nn≤30≤30 的样本叫的样本叫小样本小样本，， n n >>

3030 的样本叫的样本叫大样本大样本。对于小样本和大样本，在一些统计数的。对于小样本和大样本，在一些统计数的

计算和分析检验上是不一样的。计算和分析检验上是不一样的。

研究的目的是要了解总体，然而能观测到的却是样本，研究的目的是要了解总体，然而能观测到的却是样本，通通

过样本来推断总体是统计分析的基本特点过样本来推断总体是统计分析的基本特点。。

二、变量与常量二、变量与常量

变量，或变数，指相同性质的事物间表现差异性或

差异特征的数据。

常数，表示能代表事物特征和性质的数值，通常由

变量计算而来，在一定过程中是不变的。

变量

定性变量

定量变量

连续变量

非连续变量只有整数出现

可以有任何小数出现

为了表示总体和样本的数量特征，需要计算出几个特征数，包括平均数和变异数（极差、方差、标准差等）。描述总体特征的数量称为参数 (parameter) ，也称参量。常用希腊字母表示参数，例如用 μ 表示总体平均数，用 σ 表示总体标准差；描述样本特征的数量称为统计数 (staistic) ，也称统计量。常用拉丁字母表示统计数，例如用表示样本平均数，用 S 表示样本标准差。

三、参数与统计数三、参数与统计数

x

四、效应与互作四、效应与互作

通过施加试验处理，引起试验差异的作用称为效应。效应是一个相对量，而非绝对量，表现为施加处理前后的差异。效应有正效应与负效应之分。

互作，又叫连应，是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应（协同作用）与负效应（拮抗作用）之分。

五、机误与错误五、机误与错误

变异

效应

误差

随机误差／机误（ Random error ）

系统误差／错误（ Systematic error ）

随机误差，也叫抽样误差 (sampling error) 。这是由于试验中无法控制的内在和外在的偶然因素所造成。如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致，但也不可能达到绝对一致，所以随机误差带有偶然性质，在试验中，即使十分小心也是不可避免的。如果通过良好的试验设计、正确的试验操作，增加抽样或试验次数，随机误差可能减小，但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小，试验精确性越高。

系统误差，也叫片面误差 (lopsided error) 。这是由试验处理以外的其他条件明显作产生的带有倾向性的或者定向性的偏差。如测量仪器不准、试剂配制不当等等。而错误是指试验人员粗心大意使称量、观测、记载、抄录、计算中出现人为因素引起的差错。系统误差影响试验的准确性，它只可以减小不可以避免。而错误，只要以认真负责的态度和细心的工作作风是完全可以避免的。

六、准确性与精确性六、准确性与精确性

准确性 (accuracy) ，也叫准确度，指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为 μ ，观测值为 x ，若 x

与 μ 相差的绝对值 |x－ μ|越小，则观测值 x 的准确性越高；反之则低。

精确性 (precision) ，也叫精确度，指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近，即任意二个观测值 xi 、 xj 相差的绝对值 |xi － xj |越小，则观测值精确性越高；反之则低。

关于如何学习生物统计学关于如何学习生物统计学基础：线代、概率论基础：线代、概率论以本为本；以本为本；两先两后一小结；两先两后一小结；理论加实践；理论加实践；

统计学习要诀统计学习要诀

原理、概念的理解比算题重要得多；原理、概念的理解比算题重要得多；

不断地问自己为什么，梦中也不放过；不断地问自己为什么，梦中也不放过；

统计方法高级不一定好，简单有效最好。统计方法高级不一定好，简单有效最好。

初等统计学习后应该有不解渴的感觉，初等统计学习后应该有不解渴的感觉，而非庞杂无序之感。而非庞杂无序之感。

努力体验提升思维境界和突破思维疆界努力体验提升思维境界和突破思维疆界的兴奋；的兴奋；

笑口常开，乐享风华笑口常开，乐享风华

标志性的学习成功结果就是你对大多数标志性的学习成功结果就是你对大多数公式和运算方式都不能回忆，但是你能公式和运算方式都不能回忆，但是你能够根据实际问题阐述你的解决问题的一够根据实际问题阐述你的解决问题的一个或几个方法或角度，并在统计思想的个或几个方法或角度，并在统计思想的引导下，在其中选择一个最优的，或者引导下，在其中选择一个最优的，或者是发展出新的其它方法或角度。是发展出新的其它方法或角度。

有志者，事竟成，破釜沉舟，百二秦关终属楚。

苦心人，天不负，卧薪尝胆，三千越甲可吞吴。

蒲松龄

有志者事竟成苦心人天不负有志者事竟成苦心人天不负

人才成长阶段论

吾十有五而志于学，三十而立，四十而不惑，五十而知天命，六十而耳顺，七十而随心所欲，不逾距。

孔子

每天

都是向既定目标

迈进的一步

赠言

生物统计学（ biostatistics ） 课程编号： 072026

Documents

生物统计学（ biostatistics ）课程编号： 072026