read.pudn.comread.pudn.com/downloads105/sourcecode/others/431060/book__(p685-745).…read.pudn.com
TRANSCRIPT
第一章 数学模型概论
第一节 数学模型的定义
选煤是一个利用若干种分选与分离设备,将原煤分成不同质量产品的工艺过程。具体
的工艺一般都会在选煤厂调度室用模板或屏幕显示出来。如果说屏幕上显示的设备联系图
是对选煤过程的模型化描述,则设备联系图上的各个设备就是实际设备的模型。模型总是
与它描述的现实对象对应存在的。
原型指客观存在的实体、过程等实际对象、模型则指为了某个特定的目的将原型的某一
部分信息简缩、提炼而构成的原型替代物。模型和原型之间具有一定的相似性,这种相似性
可以是外形相似、内部结构相似,也可以是行为相似。
用模型替代原型的方式来分类,模型可以分成物质模型(形象模型)和理想模型(抽象模
型)。前者包括直观模型、物理模型等,后者包括思维模型、符号模型、数学模型等。
直观模型通常是把原型的尺寸按比例缩小或放大,主要追求外观形象上的逼真。如供
展览的实物模型、玩具等。
物理模型主要指科技工作者根据与原型相似的原理构造的模型,它不仅可以显示原型
的外形或某些特征,而且可以用来进行模型试验,间接地研究原型的某些规律。如风洞试验
中的飞机模型,核爆炸反应模型等。利用物理模型通常可得到很有价值的结果,但也存在成
本高、时间长、不灵活等缺点。
思维模型指人们通过对原型的反复认识,将获取的知识以经验的形式直接储存于大脑
中,并根据思维或直觉作出相应的决策。如汽车司机驾驶汽车,领导凭经验作决策等,就利
用了思维模型。
符号模型是在一些约定或假设条件下借助专门的符号、线条等,按一定形式组合起来描
述原型,如地图、电路图、工艺流程图等。
数学模型则是由数字、字母或其它数学符号组成的,描述过程或运动物体特征的因果关
系的数学表达式、图表或算法。
数学模型融会在人类社会的方方面面。如对未来某个时期人口数变化、能源需求的预
测、具体工业过程的控制等,都离不开数学模型。甚至是日常生活中的旅游和购物,人们自
觉不自觉的也会利用数学模型确定一个优化方案。
一般地,数学模型可以描述为:对于一个现实对象,为了一个特定目的,根据其内在规
!""第一章 数学模型概论
律,作出必要的简化假设,运用适当的数学工具,得到的一个数学结构。
例如:分配曲线是不同成分(密度级或粒度级)在某一产品中的分配率的图示,是表示分
离效果的特性曲线,其中,不同成分在重产物中的分配曲线是一条极小值为 !,极大值为
"!!#的 $ 形增长曲线,类似于概率分布累计曲线。为了简便描述该曲线的特点,人们假设
重介分选的分配曲线服从于正态分布,跳汰分选的分配曲线服从于对数正态分布。根据实
验数据,绘制分配曲线,从曲线上可以查到一些特殊的点。分配曲线上分配率 %!#对应的
密度,在选煤上称为实际分选密度,记为!"。分配曲线上分配率 &%#和 ’%#对应的密度,可
以构成表征实际分选相对于理想分选的偏离程度的指标可能偏差 (,( )(!&% *!’%)+ ’。由分
选密度和可能偏差,就可以构建起重介分配曲线的数学模型
!(!))!!
*,
"’""
" * #’’ - #,# ) !./&0%
(1(! *!1) (" * ")
在上述问题的描述中,研究的对象是分配曲线,目的是为了从中抽象出特征指标,以表
征分选效果和对分选过程进行预测,$ 形增长是分配曲线的基本规律,分配曲线服从于正态
分布是对曲线性质作出的假设,通过图中查找特殊的点可以确定分配曲线的特性参数,最终
得到分配曲线的正态分布数学模型。
建立数学模型的目的是解决生产过程的计算、预测和优化问题,为设计、管理和控制提
供所需的数据。
第二节 数学模型的分类
数学模型可以按照不同的方式分类。下面介绍几种分类方法。
一、根据模型的来源分类
(")理论模型。根据实体内部的物理和化学性质,通过分析推导出来的模型。
适用于作用机理清楚、因果关系明确的生产过程。在选煤中实际应用较少,一般只涉及
化学反应或水力分级作业。
(’)经验模型。经验模型是指不考虑实际内部的变化(或机理不清楚,内部变化暂不清
楚),只着重于外部的关系,把收集到的输入和输出观测值,用数理统计的方法,导出输入、输
出变量之间的关系,建立数学模型。它适用于作用机理不清楚、因果关系不明确的生产过
程。在选矿中的实际应用广泛,如粒度方程、可选性曲线模型等。
(2)综合模型。模型结构来自理论分析,但其中的某些参数未确定,需要收集现场生产
数据或通过试验,用数学方法来确定。如在筛分动力学研究中,根据单位时间内透筛量与筛
上物中可透筛颗粒的量呈正比的假设,可以得到筛分动力学模型
! ) " * 3* $# (" * ’)
式中 !———筛分效率;
#———筛分时间
4// 第七篇 选煤数学模型与数据处理
!———物料可筛性参数。
模型在假设条件下可以用一般数学方法推出,但 ! 与物料性质有关,无法事先确定。
对于特定的物料,可以先进行一定数量的实验,在实验数据的基础上,再用数理统计的方法
或单因素优化方法获得具体的 ! 值。
二、根据模型中变量和时间的关系分类
(!)稳态模型(静态模型)。稳态模型单纯反应生产过程变量之间的因果关系,不考虑时
间的影响。一般用代数方程式来描述,是探求最优化的基础。
在实际生产过程中,当生产的条件波动幅度不大时,可认为是一个稳态过程,所观测的
数据可看作是平均的数据,所建立的模型是稳态模型。目前选煤的一般计算都用稳态模型。
(")动态模型。生产过程中各变量的状态是随时间而变化的,此时各输入输出量之间的
数学关系可以用微分方程或积分方程进行描述。
据分批浮选窄级别物料浮选动力学公式
#! $ # " % !(!& ’!)
积分整理得
! %!&(! ’ # ’ !" ) (! ’ ()
式中 !———精矿产率;
"———浮选时间;
!———浮选速率常数;
!& ———最大回收率。
三、根据模型中变量的性质分类
(!)确定性模型。自变量与因变量自身之间的关系都是确定的。
(")随机模型。全部或部分变量是随机变量,变量之间的关系不是确定性的函数关系,
而是随机变化的相关关系。用数理统计方法建立的模型都是随机模型。随机模型建立后,
往往还要检验它的可靠性和精确性。
根据模型的基本关系,数学模型还可以分成线性模型和非线性模型。根据变量的连续
性,数学模型又可分成离散模型和连续模型。
虽然大多数问题是随机性的、动态的和非线性的,但由于确定性、静态和线性模型容易
处理,并且往往可以初步用来解决问题,所以建模时常先考虑确定性、静态和线性模型。
第三节 建立数学模型的方法和步骤
一、建立数学模型的方法和一般步骤
一般来说,建立数学模型的方法大体上可分成两大类:一类是机理分析方法,一类是测
)**第一章 数学模型概论
试分析方法。机理分析方法是根据对现实对象特性的认识,分析其因果关系,找出反应内部
机理的规律。机理分析方法下建立的模型常有明确的物理或现实意义。该方法主要用于建
立理论模型。测试分析方法将研究对象视为一个“黑箱”系统,其内部机理无法直接寻求,但
可以测量系统的输入输出数据,并且以此为基础运用统计分析方法,按照事先确定的准则在
某一类模型中选出一个与数据拟合得最好的模型,这种方法又称为系统辨识。该方法主要
应用于经验模型。将以上两种方法结合起来也是常用的数学建模方法,用于建立综合模型。
建立数学模型的一般步骤,如图 ! " ! 所示。
图 ! " ! 建立数学模型的基本步骤示意图
(!)模型准备。首先了解问题的实际背景,明确建立模型的目的,搜集建立模型必需的
各种现象和数据等,尽量弄清对象的特征,由此确定用哪类模型。
(#)模型假设。根据对象的特征和建立模型的目的,对问题进行必要的合理的简化。假
设不合理或过于简单,会导致模型全部或部分失败,此时应补充和修改假设;假设过于详细,
试图将所有影响因素都考虑进去,可能使模型的建立变得复杂甚至无法继续下一步的工作。
通常作假设,第一依据的是对问题内在规律的认识,第二依据的是对数据或现象的分析,也
可以是两者的综合。作假设既要运用好相关的物理、化学、生物等方面的理论,又要充分发
挥观察问题和分析问题的能力,要分清主次,抓住主要矛盾,尽量使问题线柱化,均匀化。
($)模型构成。根据所作假设,分析对象的因果关系,利用对象的内在规律和适当的数
学根据,构造各个量之间的等式、不等式关系或其它数学结构。
(%)模型求解。利用解方程、绘图、证明定理、逻辑运算、数值计算等各种数学方法,特别
是计算机技术,得到模型的具体形式。
(&)模型分析。对模型解答进行数学上的分析,有时要根据问题的性质分析变量间的依
赖关系或稳定状况,有时是根据所得结果给出数学上的预报,有时则可能要给出数学上的最
优决策或控制。此外还常需要进行误差分析、模型对数据的稳定性或灵敏性分析等。
(’)模型检验。把数学上分析得到的结果与实际的对象、数据进行比较,检验模型的合
理性。模型检验的结果如果不符合实际情况,则问题通常出在模型的假设或模型构成上,应
当修改、补充假设,重新建立模型。有些模型要经过反复比较,不断完善,才能获得较好的模
型。
(()模型应用。根据问题的性质和建立模型的目的,将模型应用于实际对象。
二、建立经验模型的一般方法
在选煤数学模型中最常用的是经验模型,建立经验模型的具体步骤如下。
)(’ 第七篇 选煤数学模型与数据处理
(!)试验数据的整理。
获得数据是建立经验模型的先决条件。经验模型数据来源有两个途径,一个是生产上
实际测量的数据,这类数据是生产过程的自然反映,获得这种数据的方法称为非可控试验
法。另一个是将试验与建立模型的要求统一进行考虑,事先安排好试验来搜集数据,这种方
法能用少量的试验得到建立模型所需的数据,并能简化建立模型过程中的数学计算,由于该
方法的数据根据专门的试验来获得,所以称为可控试验法,或主动试验法。
因试验存在误差,数据的可靠性直接影响模型的准确性。建立模型时,首先要对数据进
行检查和取舍。取舍标准来自专业知识或数理统计知识。如浮沉试验时如果出现高密度级
灰分比低密度级灰分低时,则应重复试验。如果某一个试验重复多次,就可以利用数理统计
的区间判断将误差较大的可疑数据舍去。本书的第二章将介绍数理统计的基础知识。
(")模型形式的确定。
模型形式可以根据专业知识、实际经验和试验所取得的数据来决定。如果对某个过程
的规律还不清楚,可以通过绘图勾画出数据的变化趋势,然后从熟悉的函数中选配。选煤过
程中有四类曲线最常用:!粒度曲线和可选性曲线,一般从幂函数或指数函数中选配;"分
配曲线,形状近似于 # 形曲线,可以选用 # 形函数;#速率方程,常见的浮选速率和筛分速率
曲线,具有单调上升,逐渐趋于某一数值的特点,主要从指数函数中选配;$效率曲线,如浮
选中精煤产率与药剂用量间经常存在一个极大值,这类曲线可以用抛物线函数表示。
($)模型参数的估计。
模型形式确定后,其中的参数和常数还需确定,这个过程称为参数估计。参数估计可以
采用回归分析或最优化等数学方法借助于计算机完成。本书第三章将介绍回归分析的主要
内容,第五章将介绍最优化的基本方法。
(%)模型的检验。
模型建立起来后,能否真实地反映过程的特性,需要对模型进行检验。检验模型大部分
是以模型的计算值和实测值相差多少为标准。在采用回归分析中还可以通过一些统计量来
检验。模型显著并不意味着模型中所有的变量都显著。对于包含了多个变量的过程,还需
对变量的显著性进行检验。
对实际问题,建立一个准确的数学模型是很不容易的,因而常常需要进行多次尝试,反
复修正,逐步得到比较满意的模型。
!&’第一章 数学模型概论
第二章 数理统计基础
第一节 随机变量与分布
一、随机过程与随机变量
在自然界中,一个常见的现象是在一组相同的条件下,一桩事件有时会发生,有时不会
发生,这类事件就叫随机事件。相应的条件和结果统称为一个随机试验。一般设 ! 为一试
验,以!表示它的一个结果,称!为 ! 的一基本事件,所有基本事件的集合" !{!}称为基
本样本空间或样本空间。
如将硬币连抛 " 次,观察硬币落下后是字面向上还是花面向上,就是一个随机试验。以
!# 代表字面朝上,!" 代表花面朝上,于是有" !{!#,!"}。
设"为某试验产生的样本空间," 为定义在"上的实函数,即对任一样本点,!!","(!)为一实数,则称 " 为一个随机变量。
如将硬币连抛 # 次,记录硬币落下后是字面向上还是花面向上,记 " 为字面向上的次
数,则 " 为随机变量。
对任意随机变量 $,称函数 $( %)! &("" %),( % & ’ % ’ &)为它的分布函数。任一
随机变量的分布函数 $(%),满足 ("$(%)"#,且具有以下基本性质;!单调不减。"右连
续。#$( % &)! (,$(&)! #。
根据取值情况的不同,随机变量可分为离散型随机变量和连续型随机变量。
(#)离散型随机变量。如果随机变量 " 只能取有限个值,并且以各种确定的概率取这
些不同的值,则称 " 为离散型随机变量。
设 " 的取值为 %#,%",%),⋯,相应的概率 ’( ! &(" ! %( ;),( ! #,",)⋯。则{( %( ,’( ),(! #,",)⋯}称为 " 的分布列。分布列决定了离散型随机变量的概率分布。显然有 ’(#(,
$&
) ! #’( ! #。
(")连续型随机变量。如果随机变量 " 在一个或多个非退化的实数区间内可以连续取
值,且存在一个非负的实函数 *( %),使对任一区间( +,,),有 $( %)! &( %!( +,,))!% ,+ *
(%)*%,则称 " 为连续型随机变量,称 *(%)为 " 的概率密度函数。同分布列决定了离散型
"+, 第七篇 选煤数学模型与数据处理
随机变量的概率分布一样,密度函数决定了连续型随机变量的概率分布。
根据分布函数定义,有
!(")! !,""
#"!(")$ %
二、随机变量的数字特征
分布函数惟一地决定了随机变量的全部数字特征。而随机变量的某些特征又可用少量
的数值来描述。这样的数值称为随机变量或分布函数的数字特征。
长期实践和理论研究表明,分布函数的各种矩是相当好的特征数。
利用分布函数的定义,可以将离散型随机变量和连续型随机变量的各种矩按斯蒂尔吉
斯积分形式统一表示。
对于给定的正整数 #,若 $(%#)存在,则 # 阶原点矩为
!# $ $(%#)$""
#""# &&(") (’ # %)
对于大于 % 的正整数 (,若 )(*+*”’)存在,其 ( 阶中心矩为
"’ $ $(% # $(%))’ $""
#"(" # $(%))’&&(") (’ # ’)
在中心矩与原点矩之间,存在一定的数学关系
!# $ $(%#)$ $((% #!% ,!%)#)
$ $[##
( $ %)(#(% #!%)# # (!(
%]$#
( $ %)(#"## (!(
% (’ # -)
由矩的表达式,可以派生出多个有用的数字特征,如常见的数学期望、方差、偏度、峰度
等。
(%)数学期望与位置参数。
设随机变量 % 有分布函数 &(%),定义其数学期望为
$(%)$""
#""&&(") (’ # .)
对于离散型随机变量:$(%)$$( $ %
*("( ,( $ %,’,-⋯
对于连续型随机变量:$(%)$""# " "!(")&"
$(%)反应了 + 的平均性质,故又称 $(%)为 % 的均值。数学期望是一个刻画随机变
量取值中心的量。例如,当一个分布关于!对称时,若 $(%)存在,则 $(%)$"。
除了数学期望外,下面的参数也被用来刻画随机变量分布“中心”的位置。
众数:众数是指使得频率函数或密度函数达到极大值的点。具体来说,当 % 为离散型
随机变量时,若 *( / *( 对一切 (% + 成立,则称 "+ 为 % 的众数。当 % 为连续型随机变量时,
若 !(",)$ ’!"!("),则称 ", 为 % 的众数。
分位数与中位数:给定常数 ! 0 * 0 %,若存在"1,使得
-(% 0!*)& * & -(% &!*) (’ # 2)
-34第二章 数理统计基础
则称!! 为随机变量 " 的 ! 分位点。当 ! ! "#$ 时,相应的!"#$ 叫做随机变量的中位数。
中位数是分布的“中点”,是刻画随机变量“均值”的一种方法,对没有数学期望的随机变量,
中位数常起着数学期望的作用。因!"#%$,!"#$,!"#&$将数据划分成大致相等的四组,故称为
四分位数,一般称!"#%$为下四分位数,!"#&$为上四分位数。
(%)方差与散布特征。
设随机变量 " 有分布函数 #($),且!’( ’ $% )#($)* ’,定义 " 的方差为
%!"(")!!’
(’[$+&(")]% )#($) (% ( ,)
%!"(")开平方叫做 - 的标准差,计作#(")。
对于离散型随机变量,%!"(")!"’!’[$’ ( &(")]%
对于连续型随机变量,%!"(")!!’( ’[$ ( &(")]% (($))$
方差与标准差均是用来刻画随机变量围绕均值的散布程度的量。当方差数值小时,说
明随机变量的取值就集中在均值附近,反之,随机变量的取值向均值左右两边散开。
还可以利用分位数来表示随机变量围绕均值的散布程度。例如称!"#&$ (!"#%$ 为四分位
差;(!"#&$ (!"#%$). % 为四分位偏差。显然,用于评定重选设备分选效果的可能偏差 / 就是四
分位偏差。
(0)偏度系数。
设分布函数 #($)有二阶中心矩"% 和三阶中心矩"0,其偏度系数为
"1 ! $0
$0 . %%
(% ( &)
偏度系数是一个无量纲的量,它刻画分布函数的对称性。当#1 ! " 时,分布函数对称;
当#1 2 " 时,概率分布偏向均值的右边,反之,则偏向左边。
(3)峰度系数。
设分布函数 #($)有二阶中心矩"% 和四阶中心矩"3,其峰度系数为
"% ! $3
$%%( 0 (% ( 4)
峰度系数"% 是一个无量纲的量,它用来刻画不同类型的分布函数的集中和分散程度。
对于单峰分布,"% 越小,说明密度函数形状越“陡峭”;"% 越大,说明密度函数形状越“平
缓”。对于正态分布,峰度系数"% ! "。若一个对称分布,其峰度系数越接近于 ",说明该分
布越接近于正态分布。
三、正态分布与相关分布
(1)正态分布。正态分布是概率论和数理统计中应用最为广泛的。当一个随机变量可
表示为许多个随机变量之和,且其中每个随机变量对总和都不起决定性作用时,总和的分布
可近似看成是正态的。例如成人男(女)的身高、测量的误差、射击目标的水平或垂直偏差等
都服从正态分布。选煤中常将重介分选设备的分配曲线近似看作正态分布。
3&, 第七篇 选煤数学模型与数据处理
设连续型随机变量 ! 有密度函数
!(")" #$!!"
# %( "%#)
$
$"$ ,% & ’ " ’ & ($ % ()
其中#,"为常数,% & ’#’ &,") *,称 $ 服从正态分布,记作 $ + %(#,"$)。
正态分布的分布函数为
&(")"""
%&
#$!!"
,%( ’%#)
$
$"$ - ’ ($ % #*)
正态分布函数曲线如图 $ % #。
图 $ % # 正态分布函数曲线形态 %(.,"$)
正态分布的特征数为
(($)"#,)$%($)""$,%# " *,%$ " *正态分布为对称分布,数学期望、中位数和众数均为!。
一般称 *(*,#)的正态分布为标准正态分布,标准正态分布的密度函数和分布函数分别
记为&(")、’("),且有
&(")" #$!!
,%"$$ ,% & ’ " ’ & ($ % ##)
./0第二章 数理统计基础
!(!)!!!
" # $%""
&""%% ’ " (% " $%)
在标准正态表中,给出了对应于 !## 的!(!),当 ! ( ) 时,利用公式!(!)! $ "!( "!)可以得到!(!)的值。
对于一般的正态分布 $ * %(#,$%),则($ "#)+$* %(,,$)。
在相当多的实际问题中,计算正态随机变量落在某个范围内的概率,即 $ * %(#,$%),
需要求 &(%( $ ( ’)的值,由分布函数的定义可得
&(% ( $ ( ’)!!’
%
$%""$
&"( ""#)
%
%$% ’ " ! !
’ "#( )$ "! % "#( )$(% " $-)
正态分布的密度函数比较容易计算,但它的分布函数!(.)是一个积分函数,需要较多
的计算。虽然已经将分布制成了表格,但在使用计算机计算时仍需由程序完成。利用数值
积分方法可以计算!(!),但计算量很大,也不方便。有一近似公式,计算简单,且有效位数
达小数点后第 / 位,公式为
((!)! ,01($ 2%$ ! 2%% !% 2%- !- 2%3 !3 2%1 !1 2%4 !4)"$4
!(!)!((" !),! $ ,$ " ((!),! 5{ ,
(% " $3)
其中 "$ ! ,0,3674/-3/, "% ! ,0,%$$3$,,4$
"- ! ,0,,-%//4%4- "3 ! ,0,,,,-7,,-4
"1 ! ,0,,,,3776,4 "4 ! ,0,,,,,1-7-(%)对数正态分布。在地质学上,因岩石的某种化学成分(用 $ 表示)的对数服从正态
分布,故得名对数正态分布。英语单词的长度、流行病蔓延时间的长短,某些电器的寿命等,
都服从对数正态分布。选煤过程中,常将跳汰分选的分配曲线,近似看作对数正态分布。
对数正态分布的密度函数为
)(!)! $%"$" !
*"( +,!"#)
%
%$% ,! 5 , (% " $1)
对数正态分布曲线如图 % " %。
由图 % " % 知对数正态分布不再是对称分布。其数学期望和方差分别为
-($)! & #2$%( )% ,.%&($)! &(%#2$
%)(&$% " $)
(-)’% 分布。设 $$,$%,⋯$8 为相互独立,同 %(,,$)分布的随机变量,定义 9 !%
8
: ! $;%
: ,
则 9 的分布称为具自由度 , 的’% 分布,记为 / *’
%(,)
#%(8)的概率密度函数为
)(!,,)! $
%,%(
,( )%
!,% "$ * " !
% ,! # , (% " $4)
其中(,( )% 为伽玛函数,(
,( )% !!#, !
,% " $ &" ! ’!
’%(,)的密度函数曲线如图 % " -。
4/4 第七篇 选煤数学模型与数据处理
!!(!)的特征数为
图 ! " ! 对数正态分布密度函数形态
"(#)# !,$"#(#)# !!,#$ # !! ! % !&’(,#! # $! % !显然,当 ! 趋于无穷大时,偏度系数和峰度系数均趋于 &,!
!(!)趋于正态分布。
定理 ! " $ 设 %$,%!,⋯,%! 为相互独立、同 )($,%!)分布的随机变量、记"* # $+#
+
, # $*,,
-! # $+ " $#
+
, # $(*, ""*)!,则"* 和 -! 相互独立且
$% . & $,%!( )! ,(! " $)
’!
%! .!!(! " $)
(/)( 分布。设 % . &(&,$),# .!!(!),且 % 与 # 相互独立,记 ) # % % # %! !,则 ) 的
分布称为具自由度 + 的 0 分布,记作 ) . ((!)。
( 分布的密度函数为
*(+,!)#&
! 1 $( )!(!’)
$!&
!( )
!
$ 1 +!( )!" !1$
!," 2 3 + 3 2 (! " $4)
445第二章 数理统计基础
图 ! " # !!(!)密度函数形态
图 ! " $ "(!)的密度函数与 %(&,’)的密度函数形态
由图 ! " $ 可以看出,"(!)的密度函数曲线也是一个对称曲线,且 ! 越大,"( !)的曲线
越接近于 #(&,’)。
"(!)的特征数为
$(%)( &,&"#(%)((当 ! ) ! 时),#’ ( &,#! ( *! " $
显然,当 ! 趋于无穷大时,偏度系数和峰度系数均趋于 &,"(!)趋于正态分布。
定理 ! " ! 设 +’,+!,⋯,+, 为相互独立、同 %(!,")分布的随机变量,记!’ ( ’!"
!
( ( ’’( ,)!
( ’! " ’"
!
( ( ’(’( "!’)!,则
% ( #!(!’ "$)) - "(! " ’) (! " ’.)
定理 ! " # 设 ’’,’!,⋯,’! 为相互独立、同 #($’,%!)分布的随机变量,记,!’ ( ’!
"!
( ( ’’( ,)!
’ (’
! " ’"!
( ( ’(’( "!’)!,*’,*!,⋯,*+ 为相互独立、同 #($!,%!)分布的随机变量,记
!* ( ’+"
+
( ( ’*( ,)!
* (’
+ " ’"+
( ( ’(*( "!*)!,则当$’ ($! 时
./* 第七篇 选煤数学模型与数据处理
! !
"#" "! #(
"$ #"%)
(# # $)&%$ "(" # $)&%
%
# " " #! %
& ’(# " " # %) (% # $’)
’ 分布常用于方差未知时正态分布均值的区间估计和检验。
(()( 分布。设 )$ &!%(#$),)% &!
%( #%),且 )$ 与 )% 相互独立记 ( !)$
#$))%
#%,则 (
的分布称为具自由度(#$,#%)的 ( 分布,记作 ( & ((#$,#%)。
((#$,#%)分布的密度函数为
*(+,#$,#%)!
#$
#( )%
#$%
, #$
% ,#%( )%
+#$% #% $ "
#$
#%( )+ #
#$ " #%%
,+ * + (% # %+)
((#$,#%)的密度函数形态如图 % # (。
图 % # ( ,(-$ ,-%)的密度函数形态
((#$,#%)的数学期望和方差分别为
-(()!#%
#% # %(#% . %)
."#(()!%#%
%(#$ " #% # %)
#$(#% # %)%(#% # /)(#% . /)
’01第二章 数理统计基础
设 !"#,!"$ 如定理 " % & 所定义,则
! ’""#
""$
( !(% % ),& % )) (" % "))
! 分布常用来检查两个正态分布间方差的显著性差异以及检验方差分析中某个因素是
否对指标有显著作用。
四、其它连续型分布
上面介绍了应用广泛的正态分布及相关分布。由于其它一些连续分布在描述分配曲
线、粒度分布、浮选速率常数分布方面有大量的应用,所以在此作简单介绍。
())均匀分布。若随机变量 # 取值在区间[!,’]上,并且以相等的概率取[!,’]中任何
一点,则称 # 服从[!,’]上的均匀分布,记作 # ( ((!,’)。
由定义可知 # ( ((!,’)的分布密度函数为
)(*,!,’)’)
’ %!,!! * ! ’{,其它
(" % "")
分布函数为
((*,!,’)’
* ,* +!* %!’ %!
,!! * ! ’
) ,* ,
’
(" % "&)
((!,’)的特征数为
+(#)’ ’ %!" ,,!"(#)’(’ %!)"
)" ,") ’"" ’ % -.
均匀分布 ((*,))在随机模拟中起着特殊的作用。((!,’)也被用来近似描述浮选速率
常数分布函数。
(")威布尔分布。威布尔分布是寿命试验和可靠性理论的基础,是瑞典科学家/!01223/435600于 )7&7 年首先提出的。在矿物加工中,该分布经常用于描述颗粒较细的粒度分布,
即8193: % 8!;;04"方程。该分布也被用来描述旋流器分级曲线以及筛分、破碎、磨矿、跳汰
等动力学过程。
设随机变量 # 有分布密度函数
-(*,!,#,$)’!#
(* %$)!% ) 4%( * %$)!
# ,*"$
* ,* +{
$(" % "<)
称 # 服从威布尔分布,并记成 # ( .(!,#,$)。其中$, * 为位置参数,!, * 为形状参
数,#, * 为尺度参数。特别的,当!’ &=-> 时,威布尔分布与正态分布很相似。
威布尔分布函数为
.(*,!,#,$)’) % 4%( * %$)!
# ,*"$* ,* +{ $
(" % "-)
*?. 第七篇 选煤数学模型与数据处理
威布尔分布的特征数为
!(")!!""! " # "( )" ##,
#$%(")! ! " # $( )" %!$ " # "( )[ ]" !$"
中位数 !(!&’$)"" ##
威布尔分布密度函数曲线如图 $ % (。
当#! ),"! " 时,威布尔分布简化为负指数分布,分布函数为
&(’,!)!" % *
’!,’!)
) ,’( + )特征数为
!(")!!,#$%(")!!$,$" ! $,$$ ! (
负指数分布函数与一级浮选动力学方程一致,常用于描述有用矿物浮选回收率或产率
随时间的变化规律,如图 $ % , 所示。
著者发现当"! -./, 时,利用威布尔分布与正态分布非常接近的特性,可以得到用威布
尔分布近似表示的理论分配曲线数学模型。
图 $ % ( 威布尔分布密度函数形态
"0(第二章 数理统计基础
图 ! " # 威布尔分布函数形态
重介分选:
!(!)$ % " &’( " )*%+!" (!"!,( ))[ ]- )*+)!.
/*0#(! " !1)
水介分选:
!(!)$ % " &’( " )*%+!2 34 !" %
"!,( )( )" %[ ]- )*+)!.
/*0#
(! " !#)
(/)伽玛分布。设随机变量 # 有分布密度函数
$(%,",#)$#"%"" % &"#%
!("),%!),"5 ),#5 )
) ,%{
6 )(! " !7)
则称 # 服从参数为"(位置参数)和#(尺度参数)的伽玛分布,并记成 # 8!(",#)。伽
玛分布的密度函数形态如图 ! " 7。
从曲线形态看,伽玛分布是不对称的,当""% 时,曲线单调下降,当"5 % 时,曲线为单
峰分布,众数为("" %)9#。当#增大时,曲线逐渐集中在原点附近。
伽玛分布特征数为
"(#)$"#
,&’((#)$"#
! ,$% $!")*0 ,$! $
1"
当"$ ) :!,#$ %:! 时,伽玛分布可以转化为%!())分布。
用伽玛分布描述浮选速率常数 * 的分布,并代入宽级别物料的浮选动力学方程中得
+ $ +; % "#;
)#"*"" % &"#*
!(’)&" *, <( )* $
+; % " #"
(#- ,)"#;
)
(#- ,)"*"" % &"(#- ,)*
!(")<( )* $
+; % " #"
(#- ,)( )" $ +; % " % - ,( )#
"( )" (! " !+)
因上式为较简单的代数表达式,所以在浮选动力学研究中被广泛采用。
!(%)函数要通过积分运算才能获得,某些数据虽然可由数学表格查得,但不能满足程
序运算所需的精确的值,在此介绍两种简便算法。
"=>?@3?4A 公式法。当 % 足够大时,!函数可用 =>?@3?4A 公式近似计算,公式为
!71 第七篇 选煤数学模型与数据处理
!(!)! "!! "# !!( ! # $%&)’ ( ) (
("! ) ("**!" #
(+,&(*-$!+ #
&.("-**+"$!- )( )⋯ (" # +$)
"多项式计算法。
当 $ / ! / ( 时,!(!)!"*
# ! $$$ !#
其中 $$ ! $%,,,,,,,"0 $( ! $%-"".*-0$- $" ! $%-((*-,0.( $+ ! $%$*(&0&"+"+ $-
! $%$.-$0-*,*" $& ! # $%$$$("&(+.0 $0 ! $%$("",,&..( $. ! # $%$$+-,0("* $* !$%$$"(+*&..*
当 ! 1 ( 时,!(!)可以通过下式的转换来得到
!(% ) !)!(% ) ! # ()(% ) ! # ")⋯(! ) ()!!(!) (" # +()
图 " # * 伽玛分布的密度函数形态
(-)贝塔分布。设随机变量 & 有分布密度函数
’"(!,",#)!!"# ((( # !)## (
2(",#),$#!#(,"1 $,#1 $
${
,其它
(" # +")
则称 & 服从参数为"和#的贝塔分布,并记成 & 3 ((",#)。贝塔分布函数形态如图 "# ,。
由图 " # , 可知",#取不同的值,贝塔分布密度函数曲线形态不同
"! (,#! (,& 服从[$,(]的平均分布;
"#(,#$(,曲线单调下降;
+*0第二章 数理统计基础
!!!,""!,曲线单调上升;
!" !,"" !,曲线呈“#”形;
!$ !,"$ !,单峰分布,众数为(!% !)&(!’"% ()。
图 ( % ) 贝塔分布密度函数形态
根据!、"取值不同,贝塔函数曲线形态还可表现为:
!*",曲线关于 ! * +,- 对称;
!"!,众数 " +,-,曲线正偏;
!$",众数 $ +,-,曲线负偏。
贝塔分布特征数为
"(#)* !(!’")
,$%&(#)* !"(!’"’ !)(!’")(
#! *(("%!)(!’"’ !)+,-
(!’"’ ()(!")+,-
#( *.(!’")(("%!)(!’"’ !)(!’ !)
!"(!’"’ ()(!’"’ .)’!(!%")
!’"% .
贝塔分布有单调下降、单调上升、“#”形和单峰分布等多种形态,虽然在矿物加工中应
用较少,但用贝塔分布描述不同密度颗粒在跳汰床层中的分布形态,也取得了一定的成效。
(-)柯西分布。
设随机变量 # 有分布密度函数
’(!,$,%)* !
&% ! ’ ! %$( )%[ ](
%$ +,% / "$" /,% / " ! " / (( % ..)
则称 # 服从参数为$(位置参数)和%(尺度参数)的柯西分布,并记成 # 0 (($,%)。柯
西分布函数为
123 第七篇 选煤数学模型与数据处理
!(",!,")! "#$ % &#
’()*+ " ,!( )"(- , ./)
柯西分布虽然是对称分布,但不存在数学期望和方差。
在建立分配曲线数学模型或可选性曲线的密度曲线模型时,柯西分布函数常作为模型
的基础函数来用。
(0)若吉斯蒂克分布。设随机变量 # 有分布函数
$(",$,%)! &
& % 123 , " ,$( )%
%4 ",, 5 6$6 5,, 5 6 " 6 5 (- , .$)
图 - , &" 若吉斯蒂克分布密度函数形态 $(&,%)
则称 # 服从参数为$(位置参数)和%(尺度参数)的若吉斯蒂克(78+9:*9))分布,并记成
# ; $($,%)。
若吉斯蒂克分布密度函数形态如图 - , &"。
由图可以看到,%数值越小,曲线越陡,%数值越大,曲线越平缓。
若吉斯蒂克分布特征数为
%(#)!$,&’((#)!#-%
-
. ,&& ! ",&- ! &#-
若吉斯蒂克分布可以转换成双曲正切分布与双曲正切平方分布形式。在建立分配曲线
数学模型或可选性曲线的密度曲线模型时,若吉斯蒂克分布函数常作为模型的基础函数来
用,并且能获得较好的拟合精度。
(<)极值分布。设随机变量 # 有分布函数
%&(",$,%)! 123 , 123 , " ,$( )[ ]%
%4 ",, 5 6$6 5,, 5 6 " 6 5 (- , .0)
则称 # 服从参数为$(位置参数)和%(尺度参数)的极值分布,并记放 # ; %&($,%)。
极值分布密度函数曲线形态如图 - , &&。
由图可以看到,极值分布呈偏态单峰分布,分布的众数为$,且%数值越小,曲线越陡,%数值越大,曲线越平缓。
极值分布特征数为
$=0第二章 数理统计基础
!(")!!" #$%&&’",#$%(")!#’"
’
( ,$) ! )$’*+%&,$’ ! ’$,
极值分布与若吉斯蒂克分布组合,对各种形态的分配曲线和密度曲线都有良好的适应
性。
第二节 统计分析
统计分析是以试验或调查的数据为基础,对被研究对象的本质进行分析,从有关统计指
标数值及其关系中发现规律,作出决策。
图 ’ - )) 极值分布密度函数曲线形态
一、总体与样本
在统计学上,研究对象的全体叫做总体或母体,其中的每一个分子叫做个体。
总体中的个体有有限的和无限的,前者称为有限总体,后者称为无限总体。当有限总体
中个体数目很大时,可近似看成是无限总体。
若总体的某一个或多个指标变量的取值情况已知,可以计算出它的分布函数,而这分布
函数在总体上确定了一个概率分布,即总体分布。
实际上总体分布总是全部或部分未知,因此数理统计学面临的任务就是依据总体的一
部分个体的指标变量值来推断总体分布的性质。
总体的一部分个体的指标变量值叫做样本。获取样本的过程称为抽样。统计分析中常
用的是随机抽样,即被抽到的可能性完全确定的抽样,亦即样本空间上有完全确定的概率分
布的抽样。样本空间上的概率分布已知的随机抽样,称为“概率抽样”。若样本中每个个体
是独立同分布的随机变量,则该样本为简单样本,本书所讲的样本均为简单样本。
设总体样本数学期望为!,方差为%,"),"’,⋯,"& 为简单样本,记
!" ! )&"
&
’ ! )"’ (’ - .&)
(+( 第七篇 选煤数学模型与数据处理
!! " #" $ #!
"
# " #($# $"$)! (! $ %&)
则"$ 为!的无偏估计,!! 为"! 的无偏估计。
二、区间估计
设#为一维未知参数,%## 和 %#! 为两个统计量,满足 %### %#!,用区间[ %##,%#!]去估计#存
在的范围,称为#的一个区间估计。
设[ %##,%#!]为#的一个区间估计,若对给定的正数 # $$及#的任一可能值#’ 有
&( %####’# %#!)$# $$ (! $ %()
则称[ %##,%#!]为#的一个置信水平为 # $$的置信区间。而$称为置信度或显著性水
平。# $$大小反应了置信区间的可靠程度,在应用时常取 )*(),)*(+,)*(( 等值。
设#为未知参数,# $$为给定的置信水平,若统计量%#和#分别满足
&(###)$# $$&(##%#)$# $$
则称%#和#为 ) 的置信水平 # $$的置信上(下)限。
#)单正态总体参数的区间估计
(#)"! 已知时,!的区间估计。当总体分布为 ’(!,"!),其中!未知,"! 已知,则"$ , ’
!,"!( )" ,构建统计量 (
( "&"("$ $!)
", ’(),#) (! $ -))
)$.!为 ’(),#)上$.! 分位数,则置信区间为
"$ $ )$.!"&"
,"$ / )$.!"&( )"
(! $ -#)
(!)"! 未知时,!的区间估计。根据定理 ! $ !,当分布的"! 未知时,由样本均值和方差
构成统计量
* "&"("$ $!)! , +(" $ #) (! $ -!)
+$.!为 +(" $ #)上$ 0 ! 分位数,则置信区间为
"$ $ +$.!(" $ #)!&"
,"$ / +$.!(" $ #)!&( )"
(! $ -%)
例 ! $ # 某选煤厂通过试验,初步发现在煤油用量 #)))1.2,起泡剂用量 #))1.2 的条件
下分选效果最好。在该条件下共进行了 #3 次工业试验,当保证尾煤灰分为 3+4左右时,各
次精煤灰分见表 ! $ #。试推断这种工艺下,精煤灰分 (+4的置信区间。
解:" " #3,5 , " " $ # " #+’- " #-&*#3,%- " #-&*#3.#3 " (*!3,’-! " #%6&*-63&
! " ’-! $(’-)! .""& $ # " )*3+(
6&3第二章 数理统计基础
表 ! " # 浮选试验结果 $
编号 # ! % & ’ ( ) *
灰分
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!*+*& ,+#( #-+!& ,+!% *+(( *+(- ,+-( #-+!!
编号 , #- ## #! #% #& #’ #(
灰分 *+!* *+’* #-+’* ,+-* ,+(- ,+%& *+,* ,+)!
注:本章 % 个例子的数据均来自张荣曾的《选煤实用数理统计》一书。
查附录 !,当!. -+-’ 时,!-+-!’ . !+#%#精煤灰分 ,’$的置信区间为
"" / !!0!(# " #)$##
. ,+!( 1 !+#%# -+(’,##(
. ,+!( / -+%’# . *+,# 2 ,+(#
(%)"已知时,#! 的区间估计。根据$! 分布的定义,用 %#! . #
#$#
& . #("& "")! 作为#! 的
极大释然估计,$#
& . #
"& ""( )#
!
2$!(#),则置信区间为
#%#!
$!!0!
(#),#%#!
$!# "!0!(#( ))
(! " &&)
(&)"未知时,#! 的区间估计。
根据定理 ! " #,当用 $! . ## " #$
#
& . #("& """)! 作为#! 的无偏估计时
(# " #)$!
#! 2$!(# " #)
则置信区间为
(# " #)$!
$!!0!(# " #)
,(# " #)$!
$!# "!0!(# " #( ))
(! " &’)
!)正态总体均值差与方差比的区间估计
(#)#!#,#!
! 已知时,"# ""! 的区间估计。
记"" . ##$
#
& . #"& ,"’ . #
($(
& . #’& ,则"" ""’ 为"# ""! 的方差最小无偏估计,
且 "" ""’ 2 ) "# ""!,#!#
# 1#!!( )(
* .("" ""’)"("# ""!)
#!#
# 1#!!# (
2 )(-,#) (! " &()
则"# ""! 的置信区间为
("" ""’)" +!0!#!
#
# 1#!!# (,("" ""’)1 ,!0!
#!#
# 1#!!#( )(
(! " &))
(!)#!#,#!
! 未知,但#!# .#!
! 时,"# ""! 的区间估计。
**( 第七篇 选煤数学模型与数据处理
根据定理 ! " #,记 !" $(# " %)!!
$ &(% " %)!!&
# & %! " ! ,则
’ $
%#% &! #(
"$ ""& "(!% "!!))
!"’ ((# & % " !) (! " ())
则!% "!! 的置信区间为
("$ ""&)" ("*!(# & % " !)!"
%#% &! #
,("$ ""&)& ("*!(# & % " !)"!"
%#% &!
#
(! " (+)
(#)!%,!! 已知时,#%! *#!
! 的置信区间。
)#!% $
%##
#
* $ %($* "!%)! 和 )#!
! $%%#
#
* $ %(&* "!!)! 分别作为#!
% 和#!! 的无偏估计,则
+ $ )#!% * )#!
! ’ +(#,%) (! " ,-)
#!% *#!
! 的置信区间为
)#!% * )#!
!
+"*!(#,%),
)#!% * )#!
!
+% ""*!(#,%( ))(! " ,%)
(()!% 和!! 未知时,#!% *#!
! 的置信区间。
!!$ $ %
# " %##
* $ %($* ""$)! 和 !!
& $%
% " %##
* $ %(&* ""&)! 分别作为#!
% 和#!! 的无偏估计,则
+ $!!
$
!!&’ +(# " %,% " %) (! " ,!)
#!% *#!
! 的置信区间为
!!, *!!
&
+"*!(# " %,% " %),
!!$ *!!
&
+% ""*!(# " %,% " %( ))(! " ,#)
三、假设检验
假设检验是关于总体的一项叙述,经常是关于总体的一个或多个参数的数值的指定。
方法是根据试验的数据,利用概率法则来考察假设是否合理。例如,对于钱币字面向上的概
率,假设为 % . !,如果在 %--- 次试验中,每次都出现正面,则可以判定假设 % . ! 是不正确的,
因而拒绝这一假设。如果假设为真,那么出现 %--- 次正面的可能性是(% . !)%---,显然这种可
能性是非常小的。反之,如果在 %--- 次试验中字面出现了 (+) 次,那么可以认为假设 % . ! 是
较为合理的,因而可以接受这一假设。
值得注意的是,这种假设检验,并不能证明假设正确。因为在进行检验时,人们避免不
了两类错误,一个是拒绝一个正确的假设,一个是接受一个错误的假设。前者称为第一类错
误,后者称为第二类错误。但在设计假设检验时,总是要设法将犯这两类错误的概率降到最
低。
检验时,首先要确定原假设,记作 --,相对于原假设,还要确定备择假设,记作 -/。
检验的一般步骤是:
+)0第二章 数理统计基础
(!)根据经验,对研究中的代表试验模型的总体分布作出假设,如正态等。
(")确定原假设和备择假设。
(#)选取统计量 !。
($)确定统计量 ! 的分布。
(%)给定显著性水平!。
(&)确定拒绝域 ’ " ’!"!(",或 """!,"!"!(由给定的显著性水平查统计量 ! 概率分布
表确定)。
())根据试验数据,计算统计量 ! 的值。
(*)作出决策:若统计量落在拒绝域内,则拒绝原假设 #+,反之,接受 #+。
!)单正态总体参数检验
(!)"" 已知,平均值#的检验(#,#+)。见表 " - "。
表 " - " 统计量 $ ,#%($& -#+)
". ’(+,!)
原假设 #+ 备择假设 #/ 拒绝域
#,#+ #%#+ ’ $ ’! (!("
#"#+ #0#+ ’ $ ’ 0 (!
#!#+ #1#+ ’ $ ’ 1 - (!
(")"" 未知,平均值#的检验(#,#+)。见表 " - #。
表 " - # 统计量 ) ,#%($& -#+)
* . +(% - !)
原假设 #+ 备择假设 #/ 拒绝域
#,#+ #%#+ ’ + ’! +!("(% - !)
#"#+ #0#+ + 0 +!(% - !)
#!#+ #1#+ + 1 - +!(% - !)
(#)#已知,方差"" 的检验("" ,""+)。见表 " - $。
表 " - $ 统计量$" , %""
""+.$
"(%)
原假设 #+ 备择假设 #/ 拒绝域
"" ,""+ ""%""
+$
" 1$"! -!("(%)
$" 0$
"!("(%)
+2& 第七篇 选煤数学模型与数据处理
续表
原假设 !! 备择假设 !" 拒绝域
!#!!#! !# $!#
! "# $"
##%#(&)
!#"!#! !# ’!#
! "# ’"
#( )#(&)
(*)$未知,方差!# 的检验(!# +!#!)。见表 # ) ,。
表 # ) , 统计量"# +(& ) ()-# %!#
! ."#(& ) ()
原假设 /! 备择假设 /" 拒绝域
!# +!#! !##!#
!"
# ’"#( )#%#(& ) ()
"# $"
##%#(& ) ()
!#!!#! !# $!#
! "# $"
##%#(& ) ()
!#"!#! !# ’!#
! "# ’"
#( )#(& ) ()
#)双正态总体参数检验
(()!#(,!#
# 已知,平均值$相等的检验($( +$#)。见表 # ) 0。
表 # ) 0 统计量 1+($2 )$3))($( )$#)
!#( %& 4!#
#% %5. 6(!,()
原假设 /! 备择假设 /" 拒绝域
$( )$# + ! $( )$##! 717"8#%#
$( )$#!! $( )$# $ ! 1 $ 8#
$( )$#"! $( )$# ’ ! 1 ’ ) 8#
(#)!#(,!#
# 未知,但!#( +!#
# 时,平均值$相等的检验($( +$#)。见表 # ) 9。
表 # ) 9 统计量 : +
5&%54 &($2 )$3 )($( )$#))
-;. <(& 4 5 ) #)
原假设 /! 备择假设 /" 拒绝域
$( )$# + ! $( )$##! 7 < 7"<#%#(54 & ) #)
$( )$#!! $( )$# $ ! < $ <#(54 & ) #)
$( )$#"! $( )$# ’ ! < ’ ) <#(54 & ) #)
(=0第二章 数理统计基础
(!)!",!# 未知时,方差"# 的检验("#" $"#
#)。见表 # % &。
表 # % & 统计量 ’ $ (#) *(#+ , ’(- % ",.% ")
原假设 /0 备择假设 /! 拒绝域
"#" $"#
# "#"!"#
#
’ 1 ’" %#*#(- % ",.% ")
’ 2 ’#*#(- % ",.% ")
"#"""#
# "#" 2"#
# ’ 2 ’#(- % ",.% ")
"#"#"#
# "#" 1"#
# ’ 1 ’" %#(- % ",.% ")
例 # % # 某矿井选煤厂原煤按矿车计量,矿车的标称容量为 " ",抽查了 "0 个矿车,实
际容量分别为 "304,035&,"30&,0356,03&&,035#,0354,0357,03&5,0358 ",试问实际容量与标
称容量有无差异?
解:假定矿车装煤量的波动服从正态分布。由于母体方差未知,应采用 9 检验法。
经计算得 $: $ 0358#,( $ 0308!8取 !$!0 $ "
9 $%-(&) %!)( $ %"0(035!# % ")
0308!8 $ % "3&&57
按题意要求检验实际容量与标称容量有无差异,假设条件为
原假设 /0:!$!0,备择假设 /!:!!!0
取#$ 0304,# ; $ 5,查表得:9030#4 $ #3#8##< 9 < 1 9#*#,原假设不被否定,但尚不能断定两者之间存在显著性差异。
根据计算得知,装车平均值小于标称值,是否存在装车不足的问题?
原假设 /0:!#!0,备择假设 /!:!1!0
取#$ 0304,# ; $ 5,查表得:90304 $ "3&!!"9 1 % 9#(- % ")
原假设被否定,接受备择假设,即有 54=以上的把握说实际装车量低于标称值。
由本例可以看出,假设的选取与结论之间有密切关系。一般,同一个问题,在给定显著
性水平#下,单侧检验法比双侧检验法更能发现问题,更不容易将本来有差异的事情判断为
无显著性差异的事情,或者说犯第二类错误的概率较小;此外,虽然说单侧检验比双侧检验
犯第一类错误的概率大一倍,但犯这类错误的概率可以由给定的#值控制。因此,在实际工
作中有条件用单侧检验的场合应尽量避免用双侧检验。
例 # % ! 某选煤厂在原煤性质相近的情况下,以近似的处理量在同一台浮选机上进行
了两种起泡剂的对比试验。结果见表 # % 5。从表中可以看出两者的精煤产率接近,但药剂
乙的精煤灰分较低,试检验是否有把握认为药剂乙优于药剂甲?
#58 第七篇 选煤数学模型与数据处理
表 ! " # 浮选药剂对比试验 $
编 号药 剂 甲 药 剂 乙
产率 灰分 产率 灰分
% &&’() %)’%* &(’&) #’*&
! &+’+) #’() &!’,) &’&*
, &,’)) #’*+ &+’*) #’!!
+ &&’)) %%’)+ &(’-, #’&+
平均 &-’#, %)’%,- &-’-* #’+)
解:根据表 ! " # 计算均值和样本方差。
!.% / %)’%,-,0!% / )’+%&!.! / #’+),0!! / )’%##
题中数学期望和方差均未知,首先要判断两者的方差是否相等。
1 /0!%0!!
/ )’+%&)’%## / !’%)%
取!/ )’)-,两者自由度均为 ,,查表得:1)’)-(,,,)/ #’!&1 2 1!,故两方差间无显著性差异,可以认为两方差相等。
03 /(4 " %)0!5 6(7 " %)0!8" 4 6 7 " ! / (+ " %))’+%& 6(+ " %))’%%#" + 6 + " ! / )’---
9 /
74"7 6 4(#5 "#8)
03/
+ : +"+ 6 +(%)’%,- " #’+))
)’--- / %’&(
由于!.% 2!.!,选择
原假设 ;):"% ""!$),备择假设 ;!:"% ""! 2 ) 进行检验
< " / # 6 $ " ! / *,查表得:%)’)- / %’#+,!,%)’%) / %’+,#&%)’%) = % = %)’)-
故有 #)$但无 #-$的把握说药剂乙的效果优于药剂甲。
,#*第二章 数理统计基础
第三章 回归分析
第一节 引言
若变量之间存在关系,这种关系一般有两种。
(!)确定性关系。变量之间存在完全确定的函数关系。一般可表达为 ! " "( #!,##,⋯,
#$),并称 #!,##,⋯,#$ 为自变量,! 为因变量。例如欧姆定律,通过具有一定电阻 % 的电路
中的电流 & 与加在该电路两端的电压 ’ 存在确定的正比关系:& " ’ $ %,三个变量中只要知
道其中的两个,另一个变量就可准确计算出来。
(#)相关关系。在许多过程中,由于关系复杂或受试验误差影响,很难得到准确的数学
表达式,从而使变量之间的关系存在某种不确定性,但又服从某种统计规律,可以用统计方
法进行研究,称之为相关关系。例如随着煤炭密度的增加,其对应的基元灰分也在增加,但
这种增加的规律是不确定的。同一矿区不同煤层的煤炭,相同密度级煤炭的灰分一般不同,
不同矿区同一煤层的煤炭,相同密度级煤炭的灰分一般也不同,但随密度增加灰分增加的规
律相同。
利用统计方法研究这种相关关系称为回归分析,有时也称为相关分析。回归分析主要
处理连续型随机变量之间的相关关系,并利用它来建立经验模型,确定最佳条件,实现预测
和控制。
第二节 一元线性回归模型
( 组数据 #) ,!) ,# 是确定性变量,! 为服从正态分布的随机变量,假定它们之间存在线
性关系,则可以用一个回归方程表示:! " * % +#。
一、回归系数的确定
回归系数的确定采用最小二乘法,即在精确度相等而误差呈正态分布的许多试验数据
中求得最优概值的方法,其判断标准为各数据的偏差平方和为最小。
&’( 第七篇 选煤数学模型与数据处理
二、模型显著性检验
在确定系数时,假设 !," 间呈线性关系,判断这种假设是否正确,就要对回归模型的显
著性进行检验。
三、回归方程的精度
通过计算,可以得到一元线性回归的剩余均方差
# !!$
% ! "("% # ")$
$" # $ (% # ")
从统计学角度可以证明均方差 # 代表变量 " 偏离回归直线的误差,对应任一固定的
!% ,相应观测值 "% 将以 " #!的概率落在区间("&
% # &!’ $ #,"&
% ( &!’ $ #),其中 &!’ $是标准正态
分布上! ’ $ 百分位点。
如图 % # " 所示,在回归直线 "&! ’ ( (! 的上下做两条平行线(虚线),
)": " ! ’ ( (! # &!’ $ #)$: " ! ’ ( (! ( &!’ $ #它表明,在全部可能出现的观察值 "% 中,大约有 "))(" #!)*的点落在 )" 与 )$ 之间的
范围内。
图 % # " 一元线性回归的预测
例 % # " 煤中的无机硫主要是硫铁矿硫。从矿物学的角度来说,总会有一些亲疏元素
如 +,,-.,/0,12 等会以类质同象赋存在于硫铁矿中或呈单独硫化矿与硫铁矿共存于煤中。
试对它们进行线性回归,求模型参数与相关系数。
解:将计算过程列表(表 % # ")。
345第三章 回归分析
表 ! " # 线性回归计算表
编号 !($%,&) "(’() !) ") !" " " " "
# *+,- ) *+)##- , *+.) /+! !+!
) #+! !+! #+-. #*+0. ,+). -+- !+!
! !+10 0+) #,+)00, -1+), !*+..- #*+- )+,
, /+#1 #!+) )-+1)0. #1,+), -0+),, #)+0 " *+,
/ 1+0, )) -#+,-/- ,0, #1)+,0 #1+* " /+*
- 0+-. ),+- 1/+/#-# -*/+#- )#!+11, #0+! " -+!
1 !*+,. /*+) .).+-,*# )/)*+*, #/!*+/.0 /)+. )+1
! /1+1! #)!+/ ##*.+/,*1 !0-/+/1 )*)#+!*)
#$%#!! 2 -!!+,!!# #"" 2 #-0-+-11
#!" 2 #**)+11..& 2 ..+#.’ 2 ,+,/
( 2 ,+/0-. ) 2 #+/0!# * 2 *+.1*#/#
本回归数据总数 + 2 1,自由度 & , 2 /,查相关系数表 **+**# 2 *+./*1,,* 3 **+**#,所以说
煤中 ’( 含量与硫铁矿硫之间存在显著的线性关系。
第三节 可线性化曲线的线性回归
在实际问题中,纯粹的直线关系并不多见。当两个变量之间不是线性关系时,选择具有
曲线形态的函数来表示此关系,将更符合实际情况。有一些非线性函数可先通过代数变换
转换成线性关系,再利用线性回归方法求得函数参数。
曲线的直线化回归分为三步:
(#)用试验数据绘制散点图,结合专业知识和经验选择适宜的函数,再将函数线性化,同
时将原始数据也按同样方式进行转换。
())用线性回归方法对转换后的试验数据进行回归,求得回归系数和线性回归相关系
数。
(!)对线性回归系数进行反变换,得到曲线函数的回归系数,计算曲线的回归精度和相
关系数。
一、可线性化曲线的基本类型与线性转化
下面的初等函数,是构成经验数学模型的基本单元,也是最常用的可线性化模型。
(#)双曲线。
-.- 第七篇 选煤数学模型与数据处理
!! " " # #
$ ($ % &)
令 !’ " !! ,$’ " !
$ ,则有 !’ " " # #$’
(&)幂函数。
! " %$# ($ % $)
令 !’ " ()!,$’ " ()$," " ()%,则有 !’ " " # #$’($)指数函数 !。
! " %&#$ ($ % *)
令 !’ " ()!," " ()%,则有 !’ " " # #$(*)指数函数 &。
! " %&#$ ($ % +)
令 !’ " ()!,$’ " !$ ," " ()%,则有 !’ " " # #$’
(+)对数函数。
! " " # # ()$ ($ % ,)
令 $’ " ()$,则有 ! " " # #$’(,)- 形曲线。
! " !" # #&$
($ % .)
令 !’ " !! ,$’ " !
&$,则有 !’ " " # #$’
二、模型的检验
一元线性回归中,可用相关系数检验回归方程的显著性。对于呈现直线化曲线关系的
变量,也可以借用相关系数的定义进行检验。
’ "!(
) " !(!
/% !
%)&
!(
) " !(!) % !
%)" &
" ! %!(
) " !(!) % !
/)&
!(
) " !(!) % !
%)" &
($ % 0)
但此时必须用未变换的原始数据和呈曲线形态的函数计算值进行计算,且计算出的相
关系数也不同于线性回归的相关系数。其原因在于线性回归依据的是剩余平方和为最小,
若对曲线进行了变换,则要求的是变换后的剩余平方和为最小。例如幂函数就是要使!(
) " !
(()!) % ()!/)& 为最小,两者明显不同,依线性回归求得的结果不一定就是最佳结果,因此,在
求曲线的直线化时,最好多选择几个模型进行比较,可以比较剩余平方和 *,曲线的相关系
数 ’ 和剩余方差 +。’ 大者,*、+ 小者为优。
例 $ % & 描述矿石颗粒粒度分布的数学模型一般称为粒度特性方程。表 $ % & 前 & 列
给出了筛分试验数据,试选择多种模型对其关系进行回归。
.1,第三章 回归分析
解:虽然提出了多种粒度特性方程,但尚无一种方程能适合所有的粒度分布。常用的可
以线性化的粒度特性方程有:
(!)"#$%& ’ "())*+,模型。
!(")- !..+’ #"$ (/ ’ 0)
式中 "———粒度;
!(")———正累积产率。
线性化过程为
*& *& !..!("( ))
- *&(#)1 $ *&(") (/ ’ !.)
(2)3(4%5& ’ 67848)(&&模型。
%(")- #"$ (/ ’ !!)
式中 "———粒度;
%(")———负累积产率。
线性化过程为
*&(%("))- *&(#)1 $ *&(") (/ ’ !2)
(/)别洛格拉佐夫模型。
%(")- #"$
! 1 #"$ 9 !.. (/ ’ !/)
式中 "———粒度;
%(")———负累积产率。
线性化过程为
*& !!..:%(")’ ! - *&(#)1 $ *&(") (/ ’ !;)
根据煤炭筛分试验数据,下面用包括线性方程在内的 !! 种模型来进行回归。将剩余方
差最小的模型 !! 的回归计算全过程列于表 / ’ 2 中,其它结果见表 / ’ /。
表 / ’ 2 粒度曲线直线化回归计算表
&’ (’ *&&’ ’ *&(!.. < (’ ’ !) ’ *&(!.. < (’ ’ !)*&&’ (=
’ (=
’ ’ (’
>. 0.?.0 /?0!2.2/ 2?2.@2A> B?A/;B@! B0?A/ ’ .?;A2> B!?!B /?2!BB@A !?;A!@;0 ;?@.>!BB B!?; .?22!/ A@?AB 2?>A;0;0 .?@/0!.; !?B0>@AA A0?@2> 2?.;>A >2?A2 !?@0!@>0 .?!.;B0A .?!B@0;0 >!?B@B ’ .?@;2/ /A?.B !?.0BA!2 ’ .?>@!B0 ’ .?A2B2B0 />?/!2 ’ .?@AB.?> B?>A ’ .?A0/!;@ ’ 2?/AB>B !?A;!@@@ B?>02 .?./2!(.) !!?B0/.@ !?>@2>; !A?;/@2A
!(.)2 /@?!;!B> !/?>./2>)’* !/?>A@AA !/?.0!!! !/?/2.2!
*&# - ’ !?AB/0,# - .?!B>A,$ - .?0B!B,!线 - .?000;@,
!曲 - .?000/0,+ - >?>B;,, - !?!B2
B0A 第七篇 选煤数学模型与数据处理
表 ! " ! 不同模型对粒度曲线直线化回归结果
编号 方程
线性 曲线
相关系数 剩余方差 相关系数值
# ! $ " % #$ &’(!)** #(’+* &’(!)**
, ! $ #&& " "%#$ " &’*-!+. #!’+* &’*#)!.
! ! $ " % #/0$ &’**),! ,’., &’**),!
+ ! $ "$# &’*.*-* #-’*! &’(--#)
. ! $ #&& 1(# " % " "$# ) &’**&+- +’+# &’**#.#
- ! $ #&& 1( % " "$# ) " &’*()#! +’.* &’**&)*
) ! $ "%# 2 $ " &’*)#., #!’(. &’*#,-,
( ! $ " % # 2 $ " &’(.&,- #)’(! &’(.&,-
* ! $ #" % #3 $ &’***( #’!, &’***,+
#& ! $ #&&" % #%$ " &’(+*&- #-’,& &’()(,!
## ! $ #&& "$#
# % "$# &’***+) #’#( &’***!*
从表 ! " ! 看,线性回归的相关系数与曲线的相关系数或剩余方差不完全一致,例如模
型 * 与 ##,模型 + 与 #&,模型 , 与 )。所以在曲线直线化回归时,一定要计算剩余方差或曲
线相关系数,并对多个模型进行比较。
三、程序
建立窗体:线性回归 ’ 456,在窗体上添加控件75869/,在该控件中添加文本控件中添加文
本控件:9;<#,显示数据总数;添加控件=><?=0@A<<=0组=><模型(?0B9;),以便选择模型形式;添加
C=6680B控件C6B线性回归,在此控件下编写程序。以D;E9/为数据库载体,用F8<8控件和
F@G5?B控件(FHI回归分析)组成了数据输入和输出表格体系,见图 ! " ,。
程序运行后,在试验点文本框中输入试验数据总数,在线性回归统计表中输入 & 和 ’数值,选择所要回归的模型形式,最后单击线性回归命令按钮,进行回归计算,回归结果显示
在线性回归统计表对应的单元格中。
**-第三章 回归分析
第四节 线性方程组的解法
一、高斯消元法解线性方程
(!)基本原理。线性方程组的一般形式为:
!!! "! " !!# "# " ⋯ " !!#"# $ $!
!#! "! " !## "# " ⋯ " !##"# $ $#
⋯
!#! "! " !## "# " ⋯ " !##"# $ $
#
(% & !’)
这里共有 # 个方程,有 # 个未知数 "!,"#,⋯,"# 。
当这 # 个方程相互独立,即其中任何一个方程都不可能由其它 # & ! 个方程变换求得
时,该方程组有惟一解。
方程组可写成矩阵形式
%& $ ’ (% & !()
其中
矩阵 % 为线性方程组的系数矩阵,而把矩阵
(% ) ’)$
!!! !!# ⋯ !!#
!#! !## ⋯ !##
⋯ ⋯ ⋯ ⋯
!#! !## ⋯ !
##
$!
$#
⋯
$
#
(% & !*)
称为线性方程组的扩展矩阵
记 !(,# " ! $ $( ,则(% ) ’)$
!!! !!# ⋯ !!# !!,# " !
!#! !## ⋯ !## !#,# " !
⋯ ⋯ ⋯ ⋯ ⋯
!#! !## ⋯ !## !#,#
" !
(% & !+)
因为解线性方程组时,对调方程组中方程的先后次序、以常数 ) 同乘方程的两边或以
!,*第三章 回归分析
某一方程组两边的 ! 倍分别加到另一方程的两边去,均不影响方程组的解。通过变换,扩展
矩阵为
(" ! #)" #
$ % ⋯ %% $ ⋯ %⋯ ⋯ ⋯ ⋯
% % ⋯
$
$$,% & $
$’,% & $
⋯
$%,%
& $
(( ) $*)
则方程组的解 & #
$"$,% & $
$"’,% & $
⋯
$"%,%
& $
(( ) ’%)
具体变换依次从第一列开始,每一步将该列主对角线上的元素变为 $,该列其它元素变
为 %。
例如式(( ) $+)第一行:先同除以 $$$,将第一行第一列的元素变为 $;为了使其它各行
第一列的元素变为 %,只要将该行减去该行第 $ 列元素同变换后第 $ 行对应列元素的乘积。
第 $ 行为
$"$$ #$$$
$$$# $,$"$’ #
$$’
$$$,⋯,$"$% #
$$%
$$$,$"$,% & $ #
$$,% & $
$$$
其它各行第 $ 列为 $" ’$ # $’$ ) $" ’$·$"$$ # %,’ # ’,(,⋯,%
其它列为 $" ’( # $’( ) $’$·$"$ ( # $’( ) $’$·$$ (
$$$,( # ’,(,⋯,% & $
一般的,在进行第 ! 次变换时,目的是将第 ! 行 ! 列的元素变为 $,而将其它各行第 !列的元素变为 %。
如果记变换前的元素为 $! ) $’( ,变换后的元素为 $!
’( ,则第 ! 行的元素应除以 $! ) $!! ,其它各
行( ’!!),则应减去该行第 ! 列的元素 $! ) $’! 与变换后第 ! 行元素 $!
!( 的乘积,即
$!!( # $! ) $
!( , $! ) $!! ,( # $,’,⋯,% & $
$!’( # $! ) $
’( ) $! ) $’! ·$! ) $
!( -$! ) $!! ,’!{ !
(( ) ’$)
经过上述 % 次变换,就可以将式(( ) $+)变为式(( ) $*)的形式。
上述变换是按主元不为 % 进行计算的。
若某行主元为 %,则可以将该行与下面对应于主元所在列数值不为 % 的某一行进行调
换,然后进行计算。
二、高斯消元法求逆矩阵
($)基本原理。
根据矩阵运算理论
由 "& # #,则 & # " ) $ #只要得到系数矩阵 " 的逆矩阵 " ) $,就可以求得方程组的解。
’%. 第七篇 选煤数学模型与数据处理
下面是用高斯消元法求逆矩阵的基本思路:
在线性方程组式(! " !#)的扩展矩阵后面增加一单位矩阵
(! $ " $ #)%
$&& $&’ ⋯ $&% $&,% ( & & ) ) )$’& $’’ ⋯ $’% $’,% ( & ) & ) )⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
$%& $%’ ⋯ $%% $%,% ( &
) ) ) &
(! " ’’)
当按照高斯消元法求方程组解时,矩阵 ! $ " $ # 最后变化成
(! $ " $ #)%
& ) ) ) $*&,% ( & &&& &&’ ⋯ &&%) & ) ) $*’,% ( & &’& &’’ ⋯ &’%
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
) ) ) & $*%,% ( & &%& &%’ ⋯ &
%%
(! " ’!)
其中,&’( 为系数矩阵 ! 的逆矩阵 ! " &中的诸元素。
(’)基本程序。
第五节 一元多项式回归分析
一、多项式阶数的判断
依据微积分理论,相当广泛的一类曲线可以用分段多项式来表示。当因变量存在极值,
且曲线为抛物线形态时,必须用多项式函数来描述变量间的关系;当初等函数中找不到满意
的可直线化非线性函数,或事先不能确定函数类型时,也可以采用多项式函数。多项式函数
的一般形式为
) % *) ( *& + ( *’ +’ ( ⋯*%+% (!+ ’,)
虽然任意曲线都可以近似地用多项式表示,且增加多项式的阶数在一般情况下可以减小回
归误差,提高精度,但也可能使试验点外的回归曲线振荡,从而导致预测精度下降。所以选
择多项式时,需要对多项式的阶数进行判断。
简单的方法可以根据试验点绘制散点图,通过散点图的形态确定多项式的项次。
例如,当曲线只有一个极大值或极小值时,可以选择二次抛物线,如图 ! " !-;当曲线既
有极大值又有极小值时,可以选择三次或三次以上抛物线,如图 ! " !.。
当自变量 +’ 为等差数列,间隔为常数 , 时,可以用差分判别多项式的最高项次。
一阶差分 !)’ % )’ ( & " )’
二阶差分 !’ )’ %!)’ ( & "!)’
三阶差分 !! )’ %!’ )’ ( & "!’ )’
⋯
将计算结果列成差分表见表 ! " ,。
!)/第三章 回归分析
图 ! " ! 多项式曲线形态图
表 ! " # 差分表
!" #" !#" !$ #" !! #" ⋯⋯
!% #% !#% !$ #% !! #% ⋯⋯
!$ #$ !#$ !$ #$ !! #$ ⋯⋯
!! #! !#! !$ #! !! #! ⋯⋯
!# ## !## !$ ## !! ## ⋯⋯
!& #& !#& !$ #& !! #& ⋯⋯
⋯ ⋯ ⋯ ⋯ ⋯
差分判别的原则是,若 $ 阶差分是常数,$ ’ % 阶差数为 ( 时,则函数应是 $ 阶多项式。
例 ! " ! 已知某选煤厂精煤灰分与吨原煤产值的对应关系,其差分计算表见表 ! " &,
判断多项式的阶数。
表 ! " & 产值 % 与精煤灰分 ) 差分计算表
精煤灰分 ) 产值 % !% !$ % !! %*+& !!+& %+! " (+# " (+%,+( !#+* (+, " (+& (+%,+& !&+- (+# " (+# " (+%%(+( !.+% ( " (+& (+%%(+& !.+% " (+& " (+#%%+( !&+. " (+,%%+& !#+&
从表中看出,二阶差分已接近常数,三阶差分趋近于 (,所以产值 % 与精煤灰分 ) 间的
关系可以用二阶多项式表示。
二、模型参数的估计
当选择多项式时,进而即使是二次抛物线 # / &( ’ &% ! ’ &$ !$ 也不能转换成线性关系,用一
无线性回归的方法求出模型参数。但同样可以用最小二乘法,建立方程组,求出模型参数。
’ / !(
" / %(#" " #
"
")/ !(
" / %(#" " &( " &% !% " &$ !$" " ⋯ " &$!
$" )
$ (! " $&)
#(- 第七篇 选煤数学模型与数据处理
由最小二乘法
!!!"!
" # $"#
$ " %(%$ # "! # "% &$ # "$ &$
$ # ⋯ # "’&’$ )" !
!!!"(
" # $"#
$ " %(%$ # "! # "% &$ # "$ &$
$ # ⋯ # "’&’$ )&( " !
,
( " %,$,⋯,’ (& # $’)
得到 ’ ( % 个方程组
"! # ( "%" &$ ( "$" &$$ ( ⋯ ( "’" &’
$ " " %$
"!" &$ ( "%" &$$ ( "$" &&
$ ( ⋯ ( "’" &’(%$ " " %$&$
"!" &$$ ( "%" &&
$ ( "$" &)$ ( ⋯ ( "’" &’($$ " " %$&$
$
⋯
"!" &’$ ( "%" &’(%$ ( "$" &’($$ ( ⋯ ( "’" &$’
$ " " %$&
’
$
(& # $*)
可以用高斯消元法解线性方程,得到多项式参数。
三、曲线平滑程序
利用多项式适应性较广的特点,可以对曲线进行平滑。计算程序可以分为数据输出与
输入、多项式拟合、绘图等。
建立窗体多项式 + ,-.,添加解方程模块高斯( ),’)。在窗体上添加控件/-0.1%,在该控
件中添加文本控件2134,分别输入和显示数据总数、多项式最高阶、绘图时最大最小坐标选
择、用几阶多项式绘图等,添加561789:3控件56178%,以便进行曲线比较。以;371<为数据库载
体,用=040控件和=9>-?@控件(=AB 多项式)组成数据输入和输出体系。在窗体下添加菜单
“数据表”以控制多项式数据的显示,添加菜单“多项式拟合”求多项式参数和拟合结果,添加
菜单“平滑”进行曲线绘制并进一步对平滑结果进行比较,如图 & # ) 所示。
程序运行后,在试验点文本框中输入试验数据总数,在项次文本框中输入多项式的最高
阶数,在多项式表中输入 * 和 + 数值,再单击“多项式拟合”菜单,进行多项式回归计算,回
归结果便显示在多项式表对应的单元格中。拟合完成后,计算机在横纵坐标栏中显示变量
的最大值和最小值,人工对坐标值进行修正,选择单个或全部多项式,最后单击菜单“平滑”,
即可显示利用多项式回归对输入数据的平滑结果。
图 & # C 是用多项式平滑出的粒度累积产率曲线,从曲线形态来看,尽管随着多项式阶
数的增加,拟合误差减小,甚至到 !,但其形态却越来越不符合粒度分布正累积曲线随粒度
增加由 %!! 到 ! 单调下降的规律。从结果看,在用多项式进行拟合时,除了要关注精度外,
还要关注多项式的形态是否符合实际情况。
图 & # ’ 是用多项式平滑出的表 & # $ 中所列产值 , 与精煤灰分 D 的关系曲线。从 $ 阶
至 C 阶多项式均在灰分变化范围内,且与产值数据变化规律相符,拟合误差从 $ 阶抛物线开
始,就基本与试验点一致,因此选择 $ 阶抛物线即可,与差分计算结果一致。
C!*第三章 回归分析
图 ! " # 多项式拟合粒度累积曲线 图 ! " $ 多项式拟合产值曲线
第六节 多元线性回归分析
一、多元线性回归
当遇到多个自变量,一个因变量,且每个自变量和因变量之间均为线性关系时,可以用
多元线性函数来表示
!" % #& ’ #( $( ’ #) $) ’ ⋯ ’ #%$% (! " )*)
二、回归方程的显著性检验
(()复相关系数。类似于一元线性回归分析,总偏差平方和仍可以分解成剩余平方和和
回归平方和
&"" % !’
( % (("( """)) % !
’
( % ([("( " !"( )’( !"( """)]) % ) ’ * (! " )+)
) % !’
( % (( !"( """)) % !
%
+ % (#+&+" (! " !&)
借鉴相关系数的概念来评价多元线性回归方程的显著性,由于是与多个自变量之间的相关
关系,所以称之为复相关系数。
, % )&#""
%&"" " *
&# ""% ( " *
&# ""(! " !()
当 , , ,接近于 ( 时,说明因变量与诸个自变量组成的线性方程线性关系密切,反之,线性关
系不密切甚至不存在。
由于复相关系数不能明确指出每个变量的作用,而且 ,! 不仅与试验数据数量有关,还
-&-第三章 回归分析
与自变量的数量有关,所以使用时没有一元线性方程的相关系数方便,而理论上又可以证明
复相关系数检验方法实质上与 ! 检验法相同,因此在多元回归分析中一般用 ! 检验法检验
回归方程的显著性。
(!)! 检验。在多元线性回归中,总平方和 "## 的自由度为 $—",回归平方和的自由度
等于自变量个数 %,则剩余平方和的自由度等于 $ # % # "。平方和除以它相应的自由度称
为均方。
可以证明,在满足矩阵 & 满秩与假设 ’$( # 与诸 ( 之间无线性关系)成立的条件下,回
归均方与剩余均方相互独立,构成
! % ) & %* &($ # % # ")
(’ # ’!)
服从第一自由度为 %,第二自由度为 $ # % # " 的 ! 分布。
对于给定的置信度!,相应的自由度 + 和$ # % # ",可查 ! 分布表,得到 !!。如果 ! (
!!,否定原假设,即认为 # 与诸 ( 之间存在线性关系,回归方程具有实际意义;反之,则接受
原假设,# 与诸 ( 之间无线性关系。
将上述分析归纳成方差分析表见表 ’ # )。
表 ’ # ) 方差分析表
方差来源 平方和 自由度 均方差 ! 值 显著性
回归平
方和 )
) %!$
, % "( -#, #"#)!
%!%
. % "/.".#
% )%
)& %*&($ # % # ")
剩余平
方和 ** %!
$
, % "( #, # -#, )
!
% "## # )$ # % # " *
$ # % # "
总平方
和 "##"## %!
$
, % "( #, #"#, )
! $ # "
! ( !#!# 与诸 ( 之间存在
显著的线
性关系
三、回归系数的检验
回归平方和是所有自变量对 # 变差的总贡献。所考虑的自变量越多,回归平方和越
大;因此,若从自变量总数中去掉一个自变量 (.,回归平方和会减小,而回归平方和减小的
程度越大,说明被去掉的自变量在回归模型中起的作用越大。取消一个自变量后回归平方
和的减少值称为 # 对这个变量的偏回归平方和,用 %. 表示
%. % )% # )%#" (’ # ’’)
可以证明 %. %/!
.
0..(’ # ’*)
+$, 第七篇 选煤数学模型与数据处理
式中 !"———#" 对应的偏回归系数;
$""———正规方程组系数矩阵的逆矩阵主对角线上第 " 个元素。
%" 越大,该变量对 & 的影响越大,其定量判断指标可以通过引入 ’ 检验来解决。
’" !%"
( "() # % # $)(% # %&)
’" 为第一自由度为 $,第二自由度为 )—%—$ 的 ’ 分布。因此,对于给定的置信度!和相
应的自由度,查 ’ 分布表,得到 ’!。如果 ’ ’ ’!,则该自变量对 & 有显著影响,应当保留。
反之,该自变量对 & 无显著影响,应当从回归模型中剔除。
第七节 逐步回归分析
一、逐步回归
在实际问题中,可能有多种自变量对因变量 & 有或大或小的影响。在随机误差存在的
情况下,那些对 ( 影响较小的自变量在回归方程中所起的作用是不真实的,只起到了分散注
意力的作用,这就使利用回归方程进行预测和控制的效果变差;因此,在最终选定的回归方
程中应该只包含那些对因变量 ( 有显著影响的自变量。
逐步回归方法是选择变量的诸多方法中效果好且计算量不大的一种方法。逐步回归方
法可以分为逐步增元和逐步降元两大类。
逐步增元回归的基本思想是从众多的自变量中,按显著性大小逐次将自变量选入回归
方程。在这个过程中,以前被选入回归方程的变量,可能会由于新引入的变量而失去显著
性,从而从回归方程中被剔除。也即每次引入一个最显著的变量的同时剔除一个最不显著
的变量。持续上述过程,直到回归方程中再没有可剔除的变量,也没有可再引入的变量时为
止。最后得到的回归方程就是最优回归方程。
逐步降元回归的基本思想是先将所有的自变量全部引入到回归方程中,然后对所有的
自变量都进行显著性检验,再将其中最小且低于某一临界值 )!的自变量从方程中剔除。然
后重新建立回归方程,对余下的自变量重新进行显著性检验,直到所有的自变量均显著为
止。最后得到的回归方程就是最优回归方程。
当生产过程中有较多自变量对因变量影响较小时,逐步增无回归的计算量也较小。但
由于因素之间具有相关性,也容易漏掉一些希望引入的自变量。逐步降元回归从一开始就
计算包括所有自变量的回归方程,计算量虽然较大,但它不易漏掉有显著影响的自变量,比
较稳妥。
二、逐步降元回归
$)计算步骤
*+,第三章 回归分析
(!)建立线性方程组,计算系数矩阵;
(")对系数矩阵求逆;
(#)对回归方程进行 ! 检验;
($)对回归方程中每个变量的显著性进行检验,并按大小排序,如果最小的也显著,则计
算结束,否则,将该变量剔除;
(%)逐步降元剔除一个自变量后,要建立新的多元回归方程,如果每次都要重新计算逆
矩阵和回归系数,计算量很大。利用线性代数可以找到一种简便的变换方法,即在原来计算
的基础上,可直接求得剔除一个自变量后新回归方程中的各项参数。假设被剔除的自变量
为 "# 。,将已计算好的系数矩阵的逆矩阵进行变换,可得到剔除变量 "# 后新的逆矩阵和回
归系数,公式如下
$ %&!
& $##$%& ’ $%#$ #&$ ## & $&% ’
$%#$##
$#& (# ’ #()
’ %!
& "(
% & !$ %&! )&* & ’% ’
$%#$##
’# (# ’ #))
(()返回(#),重新进行计算,直到满足要求为止。
")程序
建立窗体多元线性回归 * +,-,添加解方程和求逆矩阵模块高斯求逆 * ./0,添加逐步降元
回归 * ./0。在窗体上添加控件1,/-23,在该控件中添加文本控件4256,分别输入和显示数据
总数、变量个数和临界 1!。以75823为数据库载体,用 9/6/ 控件和9.:,;<控件(9=> 多元线性
回归)组成数据输入和输出体系。
添加?@--/A<控件 8-< 逐步降元回归和控件 8-< 回归预测,进行逐步降元回归计算和
结果查看,如图 # ’ )。
图 # ’ ) 主要控件
程序运行后,在数据文本框中输入试验数据总数,在参数文本框中输入变量个数,在多
项式表中输入自变量 + 和 , 数值,单击“逐步降元回归”按钮,进行逐步降元回归计算,回归
结果按与变量的对应关系显示在多元线性回归对应的单元格中。
B!) 第七篇 选煤数学模型与数据处理
回归完成后,选定多元线性回归表中某一回归结果,用“回归预测”查看该回归结果的计
算值和误差。
在进行逐步回归时,因为回归方程中所包含的变量在不断变化,因此方差分析中的剩余
自由度也随之变化,导致计算出的 ! 值的自由度也在变化。编写程序使计算机能自动辨识
不同自由度下的临界 ! 值当然好,但整个程序将十分复杂。查 ! 表可知,当自由度大于 "#后,同一显著性水平下的 ! 值变化不大,因此可以在程序中选择一临界值作为判断指标,最
终结果还可以通过输出结果修正。
三、逐步增元回归
")标准回归系数
相对于逐步降元回归,逐步增元回归在引入第一个自变量后每次都要重复引入和剔除
两个环节,头绪较多,所以计算步骤也不同。
$)逐步增元回归分析步骤
(")按对所有变量线性回归的思路,建立系数矩阵。
" %
#"" #"$ ⋯ #"$#"%#$" #$$ ⋯ #$$#$%⋯ ⋯ ⋯ ⋯⋯
#$" #$$ ⋯ #$$#
$%
($)用相关系数对系数矩阵进行转换。
&"" ’& " ’ &"$ ’& $ ’ ⋯ ’ &"$’& $ % &"%&$" ’& " ’ &$$ ’& $ ’ ⋯ ’ &$$’& $ % &$%⋯
&$" ’& " ’ &$$ ’& $ ’ ⋯ ’ &$$’& $ % &
$%
(()变量的取舍。
如果在第 # ’ " 步要从回归方程中剔除变量 () ,可以证明损失值即偏回归平方和 $) 为
$( #)) %
( &( #))% )$
&( #)))
(( ) (*)
如果在第 # ’ " 步要将某个变量 (* 引入回归方程,可以证明其贡献值即偏回归平方和
$* 为
$( # ’ ")* %
( &( #)*% )$
&( #)**
(( ) (+)
对比两式,由相关系数第 $ ’ " 列与相应对角线元素求出的( &( #))% )$ , &( #)
)) 既可看成是已选
变量被剔除后损失的贡献值,也可以看成是新引入变量所增加的贡献值。
相应的 ! 值为
!) %$( #)
)
+( #),(, ) & ) ")(( ) -#)
"".第三章 回归分析
! 是在第 " ! " 步对已引入的 ! 个变量中剔除某个自变量 #$ ,如果 %( ")是第 " 步的剩余
平方和,则 %( ")# !( ")&& 可以利用下述公式逐步算出。
%($)# "%( ")# %( " % ")% ’( ")
$ (& % ’")
如果计算值 ( ( (!,则将自变量 #$ 从回归方程中剔除,然后开始消去运算。
如果计算值 (!(!,则变量 #$ 不能从回归方程中剔除,应该考虑从尚未引入的自变量
中选出贡献最大的自变量
’( " ! ")$ # )*+(’( ")
) ),) 是各未选变量的编号
求相应的 ( 值
( #’( " ! ")
$
(%( ")% ’( " ! ")$ ),(* % ! % -)
(& % ’-)
如果计算值 ( ( (!,则表示自变量 #$ 不能引入回归方程。如果计算值 ( . (!,则把自
变量 #$ 引入回归方程,然后开始消去运算。
消去运算方法为
!( " ! "))+ #
!( ")$+ , !
( ")$$ ,) # $,+"$
!( "))+ % !( ")
)$ !( ")$+ , !
( ")$$ ,)"$,+"$
", !( ")$$ ,) # $,+ # $
% !( ")$+ , !
( ")$$ ,)"$,+"
$
(& % ’&)
重复上述步骤,直至再无变量可以剔除,也无新的变量可以引入为止。
(’)结果转换。
此时,对标准回归系数和相应的平方和进行转换
,( ")$ # !( ")
$&"&&"#$$
,$ # ",-,⋯,! (& % ’’)
,( ")$ # &— %$
!
$ # ",( ")
$ #— $ (& % ’/)
剩余平方和 % # "&&!( ")&& (& % ’0)
回归平方和 -( ")# "&& % % (& % ’1)
复相关系数 . # " % %"# &&
# " % !( ")# && (& % ’2)
&)逐步增元回归程序
添加34))*56控件7)6逐步增元回归,参见图 & % 1。
例 & % ’ 本例为煤炭发热量 % 与煤炭水分 8、灰分 9、硫分 :、碳含量 3 和氢含量 ; 五
因素间的回归分析。自变量依次记为 /" % 8、/- % 9、/& % :、/’ % 3、// % ;,% 记为 0。数
据见表 & % 1。
解:逐步降元回归:
首先被剔除的变量是碳含量 /’ % 3,其次被剔除的变量是硫分 /& % :,再次被剔除的变
-"1 第七篇 选煤数学模型与数据处理
量是氢含量 !! " #。
被保留的变量有煤炭水分 !$ " % 和灰分 !& " ’,它们与发热量均高度相关。虽然氢含
量 !! " # 并不显著。
但将其引入后会降低回归剩余方差,因此在选择最终结果时可以根据需要保留最显著
因素或让回归剩余方差最小。表 ( " ) 中第 *、+ 列是发热量与水分和灰分之间相关关系的
回归结果。
表 ( " ) 煤炭发热量与相关影响因素数据表
编号水分 , - 灰分 , - 硫分 , - 碳 , - 氢 , - 发热量
!$ !& !( !. !! ""回归 "回归 " "
$ $&/) $./0$ $/$! !!/). (/1* !&)+ !&10/$ " $*/+
& $&/$( &./! 0/++ !0/0! (/(( .(+& ..!&/( 10/(
( $0/( $0/!* 0/+1 1&/0+ ./.( !)!* !*$(/( !!/(
. $$/!! $$/$+ 0/)1 10/&! ./$& !*$( !1&&/+ " $+0/$
! $0/)+ $0/)* 0/.+ 10/.( ./$( !)0* !).$/+ ((/+
1 +/.0 &!/&. 0/!& !$/!$ (/1+ .)(( .1+!/+ " ()/$
) */.* &*/!( 0/!+ .+/.! &/1& .!*( .!&!/. " !)/1
* $0/.$ $./0+ 0/). !+/.( (/$. !)11 !!0+/. " &!1/1
+ $$/.& (./*! 0/! .&/0+ &/+1 ()$) (1)$/* " .!/&
$0 $0/1. (./(* 0/+( .&/+) &/1+ (*&0 ()+*/0 " &&/0
$$ $&/0( $+/!( 0/1. !$/0* (/0& .*1! .*)1/. $$/.
$& ./$0 $!/.! 0/** 10/0. (/+& 1$.1 1$0$/1 " ../.
$( $$/10 $0/*$ 0/!1 10/.$ (/)$ !!$! !1.*/+ $((/+
$. $$/!. $)/(& 0/.. !1/!1 (/!1 !0$$ !$$./* $0(/*
$! $$/)( $!/$( 0/.) !1/0* (/*0 !&!1 !&)!/! $+/!
$1 +/(& $!/+. $/$1 !+/0( (/*$ !.&. !.))/! !(/!
$) )/+1 &&/)* 0/)0 !./$1 (/!* .*1$ !01$/( &00/(
依照逐步降元回归程序,回归结果与原始数据在同一表中列出。为了更好的演示回归
过程,在回归结果中增加了第一列,具体见表 ( " *。
($)第三章 回归分析
表 ! " # 逐步降元回归过程数据
过程 结果 常数 !$ !% !! !& !’ 备注
$
"# #!(%)* " $$’)!! " ##)#’ !!)(+ " ,)$( " $$%)%#$复
,)*##
剩余平方和
$($#’$)%’
% %,)#’ $&)%+ ,),+ ,),, $)$(方程 %*()$
剩余方差
$%&)**
%
"# #!+,)& " $$’)%! " ##)(! !!)(# " $$%)!*$复
,)*##*
剩余平方和
$($#’$)(
% +,)&+ %,$)## ,),( $)!!方程 %$!%)&$
剩余方差
$$*)+(
!
"# #!#&)! " $$’)’’ " ##)(( " $$,)*!$复
,)*###
剩余平方和
$(%#+!)%#
% +’)*# %$()(& $)&方程%
$*,)$$
剩余方差
$$’)!$
&
"# (#&!)’ " $$$)(( " #!),#$复
,)*#(+
剩余平方和
$*$’!!)$!
% +!)$# ’$$),#方程 %%(+)&#
剩余方差
$$+)*(
逐步增元回归:
首先被引入的变量是碳含量 !& " -,第 % 个被引入的变量是水分 !$ " .,第 ! 个被引入
的变量是灰分 !% " /,此时碳含量 % 值已经变得很小,所以被剔除。在降低 % 临界值的情
况下,氢含量 !’ " 0 最后被引入。从结果看,单因素时与发热量相关最显著的碳含量,虽然
最先引入,但最终却从回归方程中被剔除。这是因为,在煤炭碳含量、水分、灰分以及没有列
入数据表的挥发分间存在着加合关系,碳含量被相关的水分、灰分所取代。
按照逐步增元回归结果处理方式,逐步增元回归结果见表 ! " *。
表 ! " * 逐步增元回归过程数据
过程 结果 常数 !$ !% !! !& !’ 备注
$
"# " *!()& $$,)$%复
,)*+’+
剩余平方和
’%&!+,),(
% %,+)#*方程 %%,+)#*
剩余方差
$#+)*(
&$( 第七篇 选煤数学模型与数据处理
续表
过程 结果 常数 !! !" !# !$ !% 备注
"
"# & #’#(% & $)(’ !)*(’$复
’*#!
剩余平方和
$!!"*%(""
% #(+% "#)(%#方程 %!"%()"
剩余方差
!*!($
#
"# +#*,(% & !!,(# & ++(# & *()#)!$复
)(’*#!
剩余
平方和
!’)*#!(%
% ""(*" !%()# )()%方程 %!*!(+’
剩余方差
!"!(!#
"# *+$#(% & !!!(** & +#()+$复
)(’+*,
剩余平方和
!’!%##(!#
% ,#(!+ %!!()+方程 %"*,($+
剩余方差
!!,(’*
$"# +#+$(# & !!%(, & ++(+ & !!)(’
$复
)(’+++
剩余平方和
!*"+,#("+
% ,%(’+ "!*(*$ !($方程 %!’)(!!
剩余方差
!!%(#
第八节 非线性回归
在实际问题中,并不是所有的方程都是线性方程或可以转换为线性方程的,多项式对于
单调变化的过程在拟合时存在一定的局限性。对于复杂的非线性方程,无法用线性回归解
决。而选煤过程中又大量存在如产品分配曲线、煤炭可选性曲线等非线性曲线,因此解决此
类问题的有效方法之一就是非线性回归方法。
非线性回归仍然依据最小二乘法。非线性最小二乘法与线性最小二乘法一样,是按原
给定的函数形式来拟合试验数据,求出剩余平方和最小时的模型参数。
当参数估计的判别式—剩余平方和确定后,求参数便转化为求相应的目标函数的最小
值,这就成了一个多元函数求极值的问题。如果函数对模型参数是线性的,对剩余平方和求
导后,便成为一个多元线性方程组,方程有解析解。而当函数为非线性时,对剩余平方和求
导后是一个非线性方程组,通常得不到解析解,只能用最优化方法得到迭代解。最优化方法
的主要内容将在本书相关章节中介绍。在此主要介绍非线性最小二乘法中最基本的高斯—
牛顿法。
%!*第三章 回归分析
一、非线性阻尼最小二乘法
非线性阻尼最小二乘法由!·"#$#%&#’(和)*+*,-’./-’01等发展起来,其主要目的保证每
次选代都能使剩余平方和下降,其形式就是在高斯 2 牛顿法构成的正规方程组主对角线上
增加阻尼因子 !,!!3。
! 越大,!" 越小,并趋向于 3。
! 越大,!" 与 #"$ 间的夹角 % 越小,并趋向于 3,即接近 #"$ 方向,而 #"$ 方向是快速下降的
梯度方向,只要步长不太大,剩余平方和可以逐步减少。所以,只要 ! 充分大总能保证下次
迭代中得到的 & 比上一次小,直到 & 达到最小为止。
阻尼因子选取的原则:在收敛情况下,本次剩余偏差平方和小于上次剩余偏差平方和,
! 选小的值;反之,选大的值。
非线性回归的精度一般用"4 & 5" ’表示。
二、非线性回归程序与示例
程序中函数求导采用差商法,可以增加程序的通用性,避免出现人工求导差错。
差商 4(()* 6!)2 (()* )
!,+ 4! 4 3*3337
给出三种判断指标:897———最小迭代步长,,———最大迭代次数,89:———相邻两次迭
代剩余平方和的最大变化率。897 4 3*3337,, 4 73,89: 4 3*33337。
判断次序如图 ; 2 <。
图 ; 2 < 阻尼最小二乘法非线性回归判断程序框图
=7> 第七篇 选煤数学模型与数据处理
建立窗体非线性回归 ! "#$,添加迭代和优化模块%&’(()、函数模块)*+,)-()和解方程
模块高斯(*,.)。在窗体上添加控件/#*$01,在该控件中添加文本控件2034,分别输入和显示
数据总数、参数个数、参数初值等数据,添加56$$*+7控件5$7非线性回归,在此控件下进行
数据输入,调用模块%&’(()和)*+,)-()进行优化计算,并输出结果到表格89:非线性回归。
计算以;3<01为数据库载体,用8*4*控件和8=>#?7控件(89:非线性回归)组成了数据输入和输
出体系。非线性回归程序窗体界面如图 @ A B。
程序运行后,在试验点文本框中输入试验数据总数,在参数文本框中输入参数个数,在
参数初值的各个文本框中输入对应的参数初值,在非线性回归表中输入 C 和 D 数值,单击
“非线性回归”按钮,进行非线性回归计算,回归结果显示在非线性回归表对应的单元格中。
例 @ A E 选择表 @ A F 中数据和函数 ! G HII "#$
H J "#$,用非线性回归求模型参数和拟合
误差,并与线性回归结果进行比较。
解:给出初始阻尼因子 % G HI,选择初值 &(H)G " G H,&(F)G $ G H输入数据,计算结果经整理后见表 @ A HI。
表 @ A HI 可直线化线性回归与非线性回归结果表
编号 ’ (线性回归 非线性回归
回归值 偏差 回归值 偏差
H EI BI!IB KB!L@ A I!ML KB!HB A I!B
F FE KH!HK KH!M I!FF KI!BF A I!FL
@ H@ LN!LK LB!NF F!IM LB!@N H!LB
M L EF!LF EH!KK A I!NM EH!KB A I!N@
E @ @L!IK @E!@H A I!NN @E!LK A I!M
L I!E K!EL K!EB I!I@ B!IE I!MB
结果
" G I!HKEL $ G I!BKHK " G I!HB@M $ G I!BEBM
) G I!BBBMN * G E!EKMN + G N * G M!LLN
从表 @ A HI 的结果看,虽然目标函数均为剩余平方和为最小,但由于线性回归时对自变
量和因变量都做了对数变换,线性回归是用转换后的剩余平方和作为目标函数,所以其剩余
误差比非线性回归的剩余平方和大,进一步说明用线性回归得到的曲线函数参数并不是真
正的的最优参数。
NHN第三章 回归分析
第四章 插值法
常见的数据是通过实验或者测试得到的一些离散的互不相同的点( !" ,#" )," ! ",#,$,
⋯,$。列成数据表见表 % & #。
表 % & # 实验数据列表
!" !# !$ !’ ⋯ !$
#" ## #$ #’ ⋯ #$
当需要知道给定点 ! 上的函数值 %(!),而 ! 并没在表中出现时,根据回归分析的经验,
此时需要建立数学模型并用回归分析的方法来进行计算。但 !、# 间可能是一个复杂的函
数关系,因此找到一个合适的数学模型非常困难,并且其模型参数的求得需要一系列计算。
其实在数学上有一种简单的方法也能解决此问题,这种方法就是插值法。
插值法的基本思想是构造一个简单函数 # ! &( !)作为 %( !)的近似表达式,利用 # ! &(!)求 %(!)的近似值,通常 &( !)取代数多项式。表 % & # 中 !",!#,!$,⋯,!$ 称为插值结
点,一般将结点按顺序排列成 !" ( !# ( !$ ( ⋯ ( !$ ,在任意一个结点 !" 处,&(!" )! #" 。
利用相邻的几个结点构成插值函数称为分段插值。
插值法一般用在一元函数的数值计算中。在选煤数据处理中,密度累计曲线、粒度累计
曲线、分配曲线以及一些单因素条件实验结果等都是一元函数,可以用插值法求出结点范围
内任意一点处的函数值。这种求结点范围内的差值称为内插,外插则是求结点范围之外的
数值,此时须十分慎重,因为差值函数是在结点范围内构造的,超出此范围结果的准确性无
法保证。
第一节 拉格朗日插值
一、拉格朗日插值多项式通式
拉格朗日插值多项式是这样一个多项式:对于在 $ ) # 个结点 !",!#,!$,⋯,!$ 上,能分
别取给定的值 #",##,#$,⋯,#$ 而次数不高于 $ 次的代数多项式 &( !)。其几何意义为:&(!)为过 $ ) # 个给定结点 ’((!( ,#(),( ! ",#,$,⋯,$ 的 $ 次抛物线。
设 &(!)的形式为:&(!)! )" ) )# ! ) )$ !$ ) ⋯ ) )$!$ 。因为 &( !)过 $ ) # 个给定结点
’((!( ,#(),( ! ",#,$,⋯,$,所以诸系数 )",)#,)$,⋯,)$ 满足线性方程组:
*#+第四章 插值法
!! " !# "! " !$ "$! " ⋯ " !#"#
! % $!
!! " !# "# " !$ "$# " ⋯ " !#"#
# % $#
!! " !# "$ " !$ "$$ " ⋯ " !#"#
$ % $$
⋯
!! " !# "# " !$ "$# " ⋯ " !#"
## % $
#
(& ’ #)
方程组式(& ’ #)有惟一解,解方程组得:
%#(")% &(")
%!#
’ % #(’
(" ’ "!)⋯(" ’ "’ ’ #)(" ’ "’ " #)⋯(" ’ "# )(" ’ "!)⋯("’ ’ "’ ’ #)("’ ’ "’ " #)⋯("’ ’ "# )
(& ’ $)
为了便于表达和理解,令:
)’(")%(" ’ "!)⋯(" ’ "’ ’ #)(" ’ "’ " #)⋯(" ’ "# )
(" ’ "!)⋯("’ ’ "’ ’ #)("’ ’ "’ " #)⋯("’ ’ "# )(& ’ ()
很明显,对于每个 )’(")有如下特性:
)’("*)%!,*" ’!,* %{ ’
(& ’ &)
)’(")称为拉格朗日插值基函数。有了 )’("),则式(& ’ $)可简写成:
&(")%!#
’ % #$’)’(") (& ’ ))
从上面的推导和插值的定义,&( ")在结点上的函数值与实验值没有误差,但在结点之
外误差如何呢?从数学上可以证明拉格朗日插值函数的误差项为
+#(")% ,(")’ &(")% ,(# " #)(!)(# " #)!#
#
’ % !(" ’ "’ ),"!$!$"# (& ’ *)
由于 ,(# " #)(!)在("!,"# )内不能具体给出,进行误差计算仍然困难。如果 ,( ")的 # 阶
导数 ,(# " #)(")在区间("!,"#)的绝对值的最大值或上界为常数 -# " #,则
+ +#(")+$-# " #
(# " #)!##
’ % #(" ’ "’ ) (& ’ ,)
由此可见,误差大小不仅与 ,(")的 # 阶导数有关,而且还和插值点的位置有密切关系。
如果结点 "!,"#,"$,⋯,"# 能使 -./ ##
’ % #(" ’ "’( ))最小,则 -./( + +#(")+)也就最小。
当 # % # 时,函数 $ % ,(")在 "!,"# 处的值分别为 $!,$#,则插值公式为
%#(")% $!(" ’ "#)("! ’ "#)
" $#(" ’ "!)("# ’ "!)
% $! "($# ’ $!)("# ’ "!)
(" ’ "!) (& ’ 0)
上式是过点("!,$!),("#,$#)的一条直线。故 %#(")称为线性插值公式。
当 # % $ 时,函数 ,(")在 "!,"#,"$ 处的值分别为 $!,$#,$$。则插值公式为
%$(")% $!(" ’ "#)(" ’ "$)
("! ’ "#)("! ’ "$)" $#
(" ’ "!)(" ’ "$)("# ’ "!)("# ’ "$)
" $$(" ’ "!)(" ’ "#)
("$ ’ "!)("$ ’ "#)
(& ’ 1)
上式是过点("!,$!),("#,$#),("$,$$)的关于 " 的二次函数,一般称为二次抛物线插值
公式。
!$, 第七篇 选煤数学模型与数据处理
二、拉格朗日插值计算方法
!)线性插值
如果要估计(!",""),(!!,"!)两点之间 # 所对应的函数值,最简单的办法就是将 # 代
入式(# $ %),得到函数 $(!)的近似值。
推而广之,如果已知函数 $( !)在 % & ! 个点 !",!!,!’,⋯,!% 处的值分别为 "","!,"’,
⋯,"% ,并且结点已经按顺序排列成 !" ( !! ( !’ ( ⋯ ( !% 。对任何给定的插值点 #,总是选
择最靠近 # 的两个结点依式(# $ %)作插值。因此在插值前,需判断 # 落在哪个区间。如果
已确定 # 在区间[!& $ !,!& ]内,则式(# $ %)可改写为
"(!)) "& $ ! &("& $ "& $ !)(!& $ !& $ !)
(! $ !& $ !) (# $ !")
若 # ( !" 或 # * !% ,则分别取 !",!! 或 !% $ !,!% 外推求 "( !)。不过此时计算误差就会
更大。
在 % & ! 个结点间进行线性插值,实际上就等于将 % & ! 个点( !","" ),( !!,"! ),⋯,
(!% ,"% )顺序连接成折线近似代替原来的曲线 " ) $(!),这就是线性插值的意义。
’)一元三点抛物线插值
在拉格朗日插值中,应用最多的是一元三点抛物线插值。选择插值点 # 最靠近的三个
结点按式(# $ +)进行计算。当结点依次为 !" ( !! ( !’ ( ⋯ ( !% 时,选取点( !& $ !,"& $ ! ),
(!& ,"& ),(!& & !,"& & !),此时式(# $ +)可改写成
’’(!)) !& & !
( ) & $ !"& & !
) ) & $ !)# (
! $ !)
!( $ !( ))
"( (# $ !!)
对于一元三点抛物线插值,除了与线性插值一样需要判断 # 落在哪个区间外,还需判
断 # 在该区间内偏向哪个结点。当 # 落在[ !* $ !,!* ]内,如果 # $ !* $ ! * !& $ #,则结点应选
择 !* $ !,!* ,!* & !,此时式(# $ !!)中 & ) *;否则结点应选择 !* $ ’,!* $ !,!* ,此时式(# $ !!)中 & )* $ !。若 # ( !" 或 # * !% ,总是取 !",!!,!’ 或 !% $ ’,!% $ !,!% 外推求 "(!)。
例 # $ ! 已知标准正态分布函数!( $ ",!)) ",#-"!.’,!( $ ",’)) ",#’".#",!( $",/)) ",/%’"%%,分别用线性插值及抛物线插值求!( $ ",!.)的近似值。
解:根据线性插值式(# $ %)
’!(!)) "" &("! $ "")(!! $ !")
(! $ !")
) ",#-"!.’ & ",#’".#" $ ",#-"!.’$ ",’ & ",! ($ ",!. & ",!)
) ",#/’0."根据一元三点抛物线插值式(# $ !!)
’’(!)) ""(! $ !!)(! $ !’)
(!" $ !!)(!" $ !’)&
"!(! $ !")(! $ !’)
(!! $ !")(!! $ !’)&
!’.第四章 插值法
!!(" " "#)(" " "$)
("! " "#)("! " "$)% #&’(!’))
而 !( " #&$*)% #&’(!+#+显然,抛物线插值计算误差要小于线性插值计算误差。
在重选产品预测时,从分配率表上可能查不到需要的数据,此时可以用插值法进行计
算。由于分配率表的结点距离都较小,此时用抛物线插值计算值和用线性插值计算值与真
值的误差都不大,为了简化计算,用线性插值即可。
在选煤工艺计算过程中,经常碰见用原煤浮沉资料评定原煤的可选性。首先按给定的
灰分从累计灰分曲线上查得理论产率,再按理论产率从密度累计曲线上得到理论分选密度,
最后按理论分选密度计算 , #&$ 含量,整个计算过程可用插值法完成。
例 ’ " ! 表 ’ " ! 为原煤浮沉试验综合表,在不绘制可选性曲线的情况下,用抛物线插
值法求精煤灰分为 -&+.时精煤的理论产率、理论分选密度和 , #&$ 含量。
表 ’ " ! 原煤浮沉试验综合表
密度级 /(0·12" ()
产率
/ .灰分
/ .
浮物累计 沉物累计 ", #&$ 含量
产率 灰分 产率 灰分 密度 产率
. . . . 0·12" ( .
3 $&( $#&4- (&’4 $#&4- (&’4 $## !#&+ $&( +4&)’
$&(# 5 $&’# ’4&$+ )&!( +4&)’ *&(( )-&($ !!&+’ $&’ 44&!-
$&’# 5 $&+# !#&$’ $+&+ *4&-) -&’* ’(&$4 (*&)’ $&+ !+&($
$&+# 5 $&4# +&$* !+&+ )!&$+ $#&’) !(&#! +*&(- $&4 *&*!
$&4# 5 $&*# !&++ (’&!) )’&* $$&! $*&)+ 44&4! $&* ’&$*
$&*# 5 $&)# $&4! ’!&-’ )4&(! $$&*- $+&( *!&#$ $&) !&4-
$&)# 5 !&## !&$’ +!&)) ))&’4 $!&*) $(&4) *+&’+ $&- !&$’
6 !&## $$&+’ *-&4’ $## !#&+ $$&+’ *-&4’
合计 $## !#&+
解:解此题需要多次运用抛物线插值。
($)以原煤累计灰分为 "# ,累计产率为 !# ,当精煤灰分为 -&+.时,选择(*&((,+4&)’)、
(-&’*,*4&-))、($#&’),)!&$+)三点进行插值计算,得精煤理论产率为 **&$*.。
(!)以原煤累计产率为 "# ,密度为 !# ,当精煤理论产率为 **&$*.时,选择(+4&)’,$&’)、
(*4&-),$&+)、()!&$+,$&4)三点进行插值计算,得理论分选密度"# % $&+#(0 / 12(。
(()以密度为 "# ,原煤累计产率为 !# ,选择($&(,$#&4-)、($&’,+4&)’)、($&+,*4&-))计算
"# , #&$含量,选择($&+,*4&-))、($&4,)!&$+)、($&*,)’&*#)计算"# , #&$ 含量,相减得到 , #&$ 含
量 !’&(-.。
!!* 第七篇 选煤数学模型与数据处理
三、用拉格朗日插值加密浮沉资料
如果在两个结点间加入一些插值点使数据点更密集,则可以根据密集后的数据绘制可
图 ! " # 用抛物线插值加密的可选性曲线
选性曲线。
图 ! " # 是调用根据表 ! " $ 数据加
密结果绘制的可选性曲线。绘图时进行
了相关处理。相对于回归分析得到的结
果不难发现,用抛物线插值得到的曲线
并不平滑。
建立窗体;插值 % &’(,在窗体上添加
控件 )’*(+,,在该控件中添加文 本 控 件
-+./,,显示数据总数;添加01((*23控件
4(3拉格朗日插值加密,在此控件下编写
程序。以5.4+,为数据库载体,用6*/*控件
和678’93控件(6:; 表格)组成了数据输
入体系,计算结果用文本纪录在子目录
已建好的“3:< 选煤数值计算 < 浮沉表
加密 % /./”中,以便绘图时调用,界面如图 ! " $。
图 ! " $ 插值法加密浮沉表程序界面
=$>第四章 插值法
第二节 牛顿插值
一、差商与差分
!)差商
差商又称为均差。设函数 !(")在互异的点 "","!,"#,⋯,"# 处的函数值分别为 !( ""),
!("!),!("#),⋯,!("# )。记
!["","$]$!("$)% !("")
"$ % ""(& % !#)
称 !["","$]为函数 !(")关于点 "","$ 的一阶差商。
同样,称
!["","!,"$]$!("","$)% !("","!)
"$ % "!(& % !’)
为函数 !(")关于点 "","!,"$ 的二阶差商。
一般地,取
!["","!,⋯,"$]$!("","!,⋯,"$ % #,"$ )% !("","!,⋯,"$ % #,"$ % !)
"$ % "$ % !(& % !&)
并称 !["","!,⋯,"$]为函数 !(")关于点 "","!,⋯,"$ 的 $ 阶差商。
特别地,规定零阶差商为 ![""]$ !("")。
差商基本性质:
(!)函数 !( ")关于点 "","!,⋯,"$ 的 $ 阶差商 ![ "","!,⋯,"$ ]可以由函数 !( "" ),!("!),!("#),⋯ !("$)的线性组合表示。
(#)差商具有对称性,在 $ 阶差商 !["","!,⋯,"$ ]中任意调换 "% ,"& 的次序,其值不变。
(’)如果函数的 $ 阶差商 ![ "","!,⋯,"$ ,"]是 " 的 ’ 次多项式,则其 $ ( ! 阶差商 !["","!,⋯,"$ % !,"$ ,"]是 " 的 ’ % ! 次多项式。
根据此项性质,可以推出,当函数是 # 次多项式时,其 $ 阶差商 ![ "","!,⋯,"$ ,"]在 $
!# 时是 # % $ 次多项式,在 $ ) # 时函数值恒等于 "。
#)差分
已知函数 !( ")在等距结点 "$ $ "" ( $(( $ $ ",!,#,⋯,#)处的函数值分别为 !( "$ )$!$ ,常数 ( 称为步长,定义
!!$ $ !("$ ( ()% !("$)$ !$ ( ! % !$ (& % !*)
为函数 !("$)在点 "( 处步长为 ( 的一阶差分。一阶差分的差分
!# !$ $!(!!$)$!!$ ( ! %!!$ $ !$ ( # % # !$ ( ! ( !$ (& % !+)
&#, 第七篇 选煤数学模型与数据处理
称为二阶差分。
一般地,定义 ! 阶差分为
!!"# !!! " # "# $ # "!! " # "#,! ! %,&,⋯ (’ " #()
此外,规定零阶差分!) "# ! "#以上所述的各阶差分,通称为向前差分,符号!叫做向前差分算子。
差分还有向后差分:
!
"# ! "($#)" "($# " %)! "# " "# " # (’ " #*)
! 阶向后差分为
!
! "# !
!
! " #"# "
!
! " #"# " #,! ! %,&,⋯ (’ " #+)
向后差分与向前差分存在以下关系
!
"# !
!
"# " & (’ " %))
在 $# ! $) $ #% 时,差分、差商间存在以下关系
"[$#,$# $ #,⋯,$# $ !]! #!!%!!!"# (’ " %#)
二、牛顿基本插值公式
当结点为不等距时,根据差商的定义
所以
"($)! "($))$($ " $))"[$),$#]$($ " $))($ " $#)"[$),$#,$%]$ ⋯ $
($ " $))($ " $#)⋯($ " $’ " #)"[$),$#,⋯,$’]$($ " $))($ " $#)⋯($ " $’)"[$),$#,⋯,$’ ,$] (’ " %%)
记
(’($)! "($))$($ " $))"[$),$#]$($ " $))($ " $#)·
"[$),$#,$%]$ ⋯ $($ " $))($ " $#)⋯($ " $’ " #)·
"[$),$#,⋯,$’] (’ " %&)
)’($)!($ " $))($ " $#)⋯($ " $’)"[$),$#,⋯$’ ,$] (’ " %’)
"($)! (’($)$ )’($) (’ " %,)
,%(第四章 插值法
显然,!"(#)是 # 的次数不超过 " 的多项式,并且满足
!"(#)! $(#% ),% ! ",#,⋯,"由插值多项式的惟一性,可知 !"(#)恒等于拉格朗日多项式 &"(#),即
!"(#)! &"(#)
同理,!"(#)也就是插值多项式的误差项,故
’"(#)! ("(#)
牛顿基本插值除了恒等于拉格朗日多项式插值外,还有不少方便之处:首先,它非常容
易决定多项式的次数问题,例如当计算得到二阶差商已是常数时,说明插值多项式取二次就
足够了。其次,如果增加 # 个结点并使多项式项次由 " 增加到 " $ # 时,由式(% & #’)知,前
" 项的系数保持不变,从而减少了计算量。值得注意的是,由于 #% 单位和数值可以任意改
变,从而影响各阶插值的数值,因此当 " $ # 阶差商数值很小时,并不意味着其插值多项式
可以取 " 次,只有用平均值和标准差对 #% 标准化后才可以用差商的大小判断插值多项式的
项次。
插值结点 #) 是等距结点,即 #) ! #" $ )*,) ! #,’,⋯," 时,插值公式可进一步简化,具
体步骤从略。
例 % & ( 为了考察仲辛醇用量对浮选精煤产率的影响,在不同仲辛醇用量下进行了浮
选试验,结果见表 % & (。分别用 ’ 阶、( 阶、% 阶牛顿插值求仲辛醇用量为 ##") * + 时的精煤
产率。
表 % & ( 仲辛醇用量对浮选精煤产率的影响
仲辛醇用量,()·+ & #) (" -" .- #"" #("
精煤产率 * / .0120 3(1%. 3-10( 3.1’" 3210(
解:首先构造差商表
4 #% $( #% ) $[ #" ,#% ] $[ #" ,## ,#% ] $[ #" ,## ,#’ ,#% ] $[ #" ,## ,#’ ,#( ,#% ]" (" .0120# -" 3(1%. "1#30’ .- 3-10( "1#(32222 & ’1"#(((( 5 #"& (
( #"" 3.1’ "1#".’3-2 & #12(%’32 5 #"& ( #1-#2#33 5 #"& -
% #(" 3210( "1".’% & #1%-.%00 5 #"& ( #1"#"2"2 5 #"& - & #123-’.# 5 #"& .
用前 ( 个结点,插值多项式最高项 " ! ’!’(##")! $(#")$(##" & #")$[#",##]$(##" & #")(##" & ##)$[#",##,#’]!
.0120 $ 3" 5 "1#30 $ 3" 5 2" 5( & ’1"#((((6 & "()! 3-1#-用前 % 个结点,插值多项式最高项 " ! (
2’. 第七篇 选煤数学模型与数据处理