2016 年“深圳杯”数学建模论文 -...

43
1 2016 年“深圳杯”数学建模论文 基于模糊综合评价和 Logistic 多元回归的 代谢综合征的风险评估 成员:张阳阳 胡智健 李琪 选题:D

Upload: others

Post on 22-Jul-2020

16 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

1

2016年“深圳杯”数学建模论文

基于模糊综合评价和 Logistic 多元回归的

代谢综合征的风险评估

成员:张阳阳 胡智健 李琪

选题:D 题

Page 2: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

2

目录

一、问题重述...........................................................................................................................4二、模型假设...........................................................................................................................4三、符号说明...........................................................................................................................4四、问题分析...........................................................................................................................5五、问题一模型的建立与求解............................................................................................. 6

5.1 数据预处理............................................................................................................... 65.2 基于模糊综合评价的人类健康评估...................................................................... 7

5.2.1 确定评价对象集........................................................................................... 85.2.2 构造评价因子集........................................................................................... 85.2.3 确定评语等级论域....................................................................................... 85.2.4 计算的指标权重向量 A ...............................................................................95.2.5 计算模糊关系矩阵 R ...................................................................................95.2.6 计算模糊综合评价结果向量 B ................................................................105.2.7 对综合评分值进行等级评定.................................................................... 10

六、问题二模型的建立与求解........................................................................................... 116.1 基于基因网络结构挖掘疾病敏感基因................................................................ 11

6.1.1 定义基因网络的统计量.............................................................................116.1.2 构建基因通路网络.....................................................................................12

6.2 筛选关键基因通路.................................................................................................176.2.1 基因筛选......................................................................................................176.2.2 基因通路筛选............................................................................................. 19

七、 问题三模型的建立与求解......................................................................................... 207.1 Logistic 多元回归模型........................................................................................... 20

7.1.1 求解 Logistic 多元回归方程..................................................................... 217.1.2 男性临床检测数据的 Logistic 回归结果................................................237.1.3 女性临床检测数据的 Logistic 回归结果................................................23

7.2 代谢综合征患病的风险评估.................................................................................247.3 计算 10 个样本的患病概率...................................................................................307.4 挖掘患病的主要因素............................................................................................. 31

八、模型的优缺点................................................................................................................ 338.1 模型的优点.............................................................................................................. 338.2 模型的缺点.............................................................................................................. 338.3 模型的推广与应用..................................................................................................33

十、参考文献.........................................................................................................................34十一、附录.............................................................................................................................35

Page 3: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

3

929.7006.0266.15051.100403.31

ln

PCIHCTBGILYIpp

392.5602.20206.241

ln

HCTMOIpp

基于模糊综合评价和 Logistic 多元回归的代谢综合征的风险评估

摘要

针对代谢综合征影响因素复杂多变,基因通路错综复杂的特点,结合人的生命量化

过程,本文建立了一种基于模糊综合评价和Logistic多元回归的代谢综合征的风险评估、

趋势预测和干预模型,挖掘出了影响代谢综合症的主要因素和关键的基因通路。

针对问题一,我们将人的健康程度作为生命量化的指标,选择与年龄显著相关且相

关系数大于等于 0.15 的指标进行冗余分析,排除具有高度共线性的变量,在相关系数大

于 0.65 的变量中,选择与年龄相关性最高的指标。通过建立模糊综合评价模型,计算评

价的权重集,然后对取大取小算法和评价结果的最大隶属度原则进行改进,建立因子集、

评价集、隶属函数和权重集。建立了细胞指数(CI)、计数指数(NI)、平均指数(AI)

三个指标,结果是:人的健康指数为 AINICIHI 2977.04211.02812.0 。

针对问题二,通过使用 SPSS 22 软件,采用反向逐步选择法,先拟合所有变量,然

后以Wald统计量做变量删除的标准,选定临界标准为 0.1,当模型内某一变量的 Wald

统计量对应的 P 值大于 0.1 时,将该变量删除,直到没有变量符合删除标准为止。然后

用这些因素建立 Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

于男性,Logistic 多元回归方程为 ,

淋巴细胞,嗜碱性粒细胞,红细胞比积测定,血小板计数几个临床检测指标是影响其患

代谢综合症的关键指标;对于女性,其回归方程是: ,

单核细胞、红细胞比积测定是关键指标。关键的基因通路可由

针对问题三,使用 10 个个体基因组、转录组数据作为新个体数据,我们把每个个体

数据分别与控制组进行表达差异基因位点筛选,假设检验选超几何分布,此时限制条件

为 p<0.05,10 个个体得到的满足条件的差异基因位点数量。规定差异比率 a为差异基因

位点数量与总基因位点数比值,定当 a >10%时,患病概率为 100%,当 a <1%时,患病

概率为 0%,同时假设 a在[0.01,0.1]满足均匀分布。由此可求得 10 个个体的患病概

率分别为 1.57%、5.77%、100.00%、60.88%、2.23%、0.78%、0.65%、0.21%、7.14%、

28.20%,其主要影响因素可由基因通路筛选求出。

关键词:模糊综合评价、Logistic 多元回归、基因组学、生物信息学、基因网络、数据挖掘

Page 4: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

4

一、问题重述

基因序列影响着每个人患代谢综合征的风险和效果,现今已经有定量测量基因的表

达、各类小分子含量乃至于与人类紧密关联的微生物菌群的变化等,对人体生理运行状

态动态监控,同时也可以通过各类移动医疗和健康设备记录多种收环境影响的外部表型

特征。但我们平时采用的手段一般不能适合于每一个人,需要建立一个早期的趋势预测

模型,明晰这个复杂系统的具体问题所在,完成对每个人的个性化预防干预。

现已知 100 人完整生物医学数据,内容包括:临床检测数据、基因组数据、表观基

因组数据、转录组数据、蛋白质组数据、代谢组数据。

基于以上数据,参考 NCBI, EBI, DDBJ 等公开数据库中的生物分子相互作用

和基因通路信息,构建人类生命量化的动态模型;

结合临床检测数据,给出代谢综合征的关键通路因素;

根据一个新的人类群体数据集(~10 人),内容包括基因组、表观基因组、

转录组、蛋白质组和(或)代谢组的部分测量,计算这些人患代谢综合征的风险,

给出造成代谢综合征风险的主要因素。

相关背景介绍:代谢综合征是由高血压、血脂异常、糖尿病、肥胖以及高尿酸与凝

血因子不正常等危险因子引起的多种代谢成分异常聚集的病理状态,是一组复杂的代谢

紊乱症侯群。近十年来,随着我国物质生活的提高,代谢综合征及后续心血管疾病及糖

尿病的发展迅速蔓延严重威胁人民健康。目前已经发现它和遗传、环境、心理、生活方

式、及年龄有关、长期慢性发展的结果。

二、模型假设

1、假设年龄对代谢通路过程的扰动很小。

2、测定的临床数据等误差很小,可以忽略。

3、假设从 NCBI、EBI、DDBJ、KEEG 数据库搜集到的数据正确,无统计错误。

4、假设人患代谢综合征的风险概率与差异化表达基因位点数成线性关系。

5、给出的基因通路合理,符合绝大部分人的情况。

三、符号说明

符号 含义

Page 5: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

5

CI 细胞指数

NI 计数指数

AI 平均指数

LYI 淋巴细胞

BGI 嗜碱性粒细胞

HCT 红细胞比积测定

PCI 血小板计数

MOI 单核细胞

TOL 容忍度

P 代谢综合征患病概率

Xi 临床检测数据

HI 人体健康指数

四、问题分析

问题一需要我们将人类生命量化,用基因的种类、表达量的多少来衡量一个人的健

康状况。通过对生命的基因通路分析,找出相关的表达蛋白,结合与之对应的临床检测

数据,挖掘与生命长度相关度大的信息作为因变量生命长度的指标,并确定指标相应的

权重,给出生命量化模型。在不同的健康程度或者患病程度下,构建基因调控网络,以

达到动态量化生命的目的。

1. 用 spearson 检验,比较男女基因表达量和基因变异情况有无显著差异,统计 XY

染色体变异基因频率,以判断男女性别对于生命健康是否显著;

2. 用 Var 表与 exp 表关联找出变异基因;

3. 对筛选基因表达量中的缺失值进行处理;

4. 运用改进互信息法进行网络搭建,选择变时间为阶段,变时间时序为阶段时序,

构建网络图完成;

数据搜寻方面,充分利用 NCBI 数据库,在其子数据库 ClinVar、基因型和表型数据

库 dbGaP、生物分子相互作用数据库 BIND、MINT 等中寻找与代谢综合征(Metabolic

Syndrome)相关的基因位置、序列、名称、临床诊断、生物相互作用等数据,并用 KEEG

数据库分类信号通路,进行权重分析并进行信号通路地图链接;在国家临床科学数据中

心、国家人口与健康科学数据共享平台、中国国民体质与健康数据库中找到所需要的体

Page 6: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

6

检指标、肥胖测量指标等临床数据。

问题处理方面,用 spearson 检验或者方差分析比较男女基因表达量和基因变异情况

有无显著差异,观察 XY 染色体变异基因数量多少,如果判断为可以不分男女,对 var

表中变异的基因对应的 exp 表中的基因进行缺失值处理,作为指标,再加上两种变异类

型作为指标构建网络。

五、问题一模型的建立与求解

5.1 数据预处理

根据 NCBI 公开数据库中的生物分子相互作用和基因通路信息,通过多中心大样本

人群横断面研究,在全面检测包括血常规、尿常规、血液生化、心血管超声及炎症和内

分泌因子等指标的基础上,

通过查询 NCBI 数据库,我们查找到调查人群临床检测的数据,共 3469 名被调查

者,其中有 2168 位男性,1301 位女性。但是由于采集数据等原因,导致大量的临床检

测数据缺失,因此将缺失的数据全部剔除,得到预处理后的数据,原始数据见附件。

预处理后,共有 917 名男性完整的临床检测数据,其中患病的男性有 337 位,健康

的男性有 580 位,具体的临床检测数据见下表。

表 1. 917 名男性的临床检测预处理后的数据

性别 年龄

中性粒

细胞

淋巴

细胞

单核

细胞

嗜酸

性粒

细胞

嗜碱

性粒

细胞

白细

胞计

红细

胞计

......

红细胞体

积分布宽

度测定

Male 39 0.782 0.130 0.086 0 0.002 12.18 2.78 ...... 16.0

Male 55 0.505 0.391 0.078 0.023 0.003 5.76 5.42 ...... 14.7

Male 77 0.779 0.164 0.043 0.012 0.002 5.79 4.22 ...... 12.3

Male 77 0.701 0.185 0.093 0.017 0.004 4.75 4.24 ...... 12.5

Male 72 0.690 0.246 0.037 0.023 0.004 7.81 4.41 ...... 14.0

Male 71 0.875 0.046 0.074 0.003 0.002 25.78 4.14 ...... 13.5

Male 71 0.68 0.16 0.11 0.01 0 12.52 3.79 ...... 14.0

Male 54 0.635 0.284 0.074 0.006 0.001 7.25 3.44 ...... 13.3

Male 49 0.768 0.218 0.012 0 0.002 4.87 5.01 ...... 11.9

Male 56 0.471 0.358 0.075 0.087 0.009 4.24 4.84 ...... 11.9

Male 70 0.687 0.172 0.109 0.026 0.006 5.06 3.69 ...... 14.8

...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ......

Page 7: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

7

Male 40 0.582 0.348 0.051 0.013 0.006 1.58 3.61 ...... 19.9

同理,预处理后,共有 573 名女性完整的临床检测数据,其中患病的女性有 127 位,

健康的女性有 446 位,具体的临床检测数据见下表。

表 2. 573 名女性的临床检测预处理后的数据

性别 年龄

中性

粒细

淋巴

细胞

单核

细胞

嗜酸

性粒

细胞

嗜碱

性粒

细胞

白细

胞计

红细

胞计

...... 红细胞体

积分布宽

度测定

Female 57 0.700 0.224 0.063 0.012 0.001 9.10 3.70 ...... 13.2

Female 57 0.76 0.13 0.11 0.00 0.00 10.38 3.87 ...... 13.1

Female 59 0.636 0.198 0.082 0.073 0.011 4.65 3.48 ...... 13.8

Female 59 0.701 0.185 0.068 0.037 0.009 5.61 3.67 ...... 13.9

Female 44 0.516 0.398 0.051 0.026 0.009 5.68 3.73 ...... 14.3

Female 37 0.655 0.298 0.027 0.019 0.001 8.06 4.01 ...... 12.7

Female 75 0.691 0.259 0.032 0.016 0.002 4.33 4.21 ...... 13.4

Female 57 0.673 0.275 0.042 0.008 0.002 4.77 4.18 ...... 13.7

Female 57 0.872 0.107 0.008 0.011 0.002 6.38 3.96 ...... 13.0

Female 31 0.552 0.367 0.057 0.019 0.005 4.22 3.66 ...... 12.3

Female 31 0.384 0.533 0.050 0.028 0.005 4.00 3.87 ...... 12.1

Female 82 0.680 0.191 0.081 0.044 0.004 4.72 3.28 ...... 14.3

Female 57 0.576 0.369 0.031 0.020 0.004 7.00 4.46 ...... 12.1

Female 68 0.565 0.342 0.060 0.027 0.006 6.63 3.67 ...... 13.8

Female 66 0.872 0.098 0.029 0 0.001 7.54 4.28 ...... 12.1

Female 53 0.505 0.416 0.036 0.038 0.005 4.16 4.02 ...... 14.4

...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ......

Female 37 0.930 0.040 0.028 0.001 0.001 7.25 4.27 ...... 13.0

5.2 基于模糊综合评价的人类健康评估

人类生命量化,即考虑时间因素,量化人从出生到不断衰老,最终死亡的一个过程,

以人类生命的健康程度作为生命量化的结果。根据生物分子相互作用和基因通路信息,

可以确定某些重要指标的权重,从而构建人类生命量化的动态模型。

首先我们选择与年龄显著相关且相关系数大于等于 0.15 的指标进入下一步分析,然

后进行冗余分析,排除具有高度共线性的变量,在相关系数大于 0.65 的变量中,选择与

年龄相关性最高的指标进入下一步分析。

由于层次分析法主观性较强,所以本文使用模糊综合评价法。首先,计算评价的权

Page 8: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

8

重集,然后对取大取小算法和评价结果的最大隶属度原则进行改进,建立因子集、评价

集、隶属函数和权重集[9],实现对人类健康的综合评估。具体流程图如下:

5.2.1 确定评价对象集

P =人的健康程度。

5.2.2 构造评价因子集

))、平均指数()、计数指数(细胞指数( AINICI,, 321 uuuu

细胞指数(CI),计数指数(NI)和平均指数(AI)的临床检测指标如下表。

表 3. 评价因子对应的临床检测指标

评价因子 临床检测指标

u

1u细胞指数

中性粒细胞

淋巴细胞

单核细胞

嗜酸性粒细胞

嗜碱性粒细胞

2u计数指数

白细胞计数

红细胞计数

血小板计数

3u平均指数

平均红细胞体积

平均红细胞血红蛋白量

平均红细胞血红蛋白浓度

5.2.3 确定评语等级论域

确定评语等级论域,即建立评价集 v,每一个等级可对应一个模糊子集。

病康,轻微患病,严重患健康,亚健康,中等健 54321 ,,,, vvvvvv

Page 9: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

9

5.2.4 计算的指标权重向量 A

细胞指数(CI)包含指标的权重 1 0.0155,0.0204,0.1367,0.0290,0= .0848

归一化后得权重向量为: 1 0.0541, 0.0712, 0.4773, 0.1013, 0.296 1A

计数指数(NI)包含指标的权重 2 0.0768,0.0708, 8= 0.215

归一化后得权重向量为: 2 0.2113, 0.1948, 0.5938A

平均指数(AI)包含指标的权重 3 0.0183,0.2934, 5= 0.038

归一化后得权重向量为: 3 0.0523, 0.8378, 0.1099A (程序见附录 1)

5.2.5 计算模糊关系矩阵 R

对于不同年龄的人,将临床检测指标的数值与健康标准的水平对比,用“1~5”

五个等级代表临床检测指标远离正常水平的程度。“1”表示临床检测指标在健康水平

的范围内,“2”表示临床检测指标远离健康水平的 5%以内,“3”表示临床检测指标远

离健康水平的 5~10%,“4”表示临床检测指标远离健康水平的 10~15%,“5”表示临床

检测指标远离健康水平的 15%以上。统计如下表。

表 4. 筛选后基因通路表

年龄 A B C D E F G H I J K L M N0~10 1 3 2 5 4 2 3 1 3 2 1 1 1 110~20 1 4 1 3 2 1 3 2 1 2 3 2 3 120~30 3 4 5 3 4 5 4 3 4 4 5 1 2 130~40 5 4 3 4 3 4 3 2 3 4 3 3 1 240~50 1 2 3 2 1 2 1 2 2 3 1 4 3 250~60 1 5 3 4 4 5 3 2 3 4 5 4 2 160~70 2 5 1 2 5 3 1 5 5 4 2 5 3 170~80 4 3 4 5 2 1 5 4 2 3 4 4 2 3

80~90 5 1 2 4 3 2 2 1 1 5 5 4 1 290~100 2 5 4 1 3 4 2 3 1 1 4 5 3 4

其中临床检测指标中性粒细胞、淋巴细胞、单核细胞、嗜酸性粒细胞、嗜碱性粒细

胞、白细胞计数、红细胞计数、血红蛋白测定、红细胞比积测定、平均红细胞体积、血

小板计数、平均红细胞血红蛋白量、平均红细胞血红蛋白浓度、红细胞体积分布宽度测

定,分别用代号“A~N”表示。

将不同评分在每个指标评价中出现的频率作为隶属度,得到模糊关系矩阵 R

Page 10: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

10

1

0.4 0.2 0.1 0.1 0.20.1 0.1 0.2 0.3 0.30.2 0.2 0.3 0.2 0.10.1 0.2 0.2 0.3 0.20.1 0.2 0.3 0.3 0.1

R

2

0.2 0.3 0.1 0.2 0.20.2 0.2 0.4 0.1 0.10.2 0.4 0.2 0.1 0.1

R

3

0.3 0.2 0.3 0.1 0.10.1 0.2 0.2 0.4 0.10.2 0.1 0.2 0.2 0.2

R

5.2.6 计算模糊综合评价结果向量 B

由于其它算子没有充分利用模糊关系矩阵R的信息[8],故利用加权平均

M , 模糊合成算子合成指标权重向量 A和模糊关系矩阵 R,计算公式为:

1 1

min 1, , 1, 2, ,p p

i i ij i iji i

b a r a r j m

(1)

将 A与 R合成得到模糊综合评价结果向量 B,过程如下:

11 12 1

21 22 21 2 1 2

1 2

, , , , , ,

m

mp m

p p pm

r r rr r r

A R a a a b b b B

r r r

(2)

将 1A、 2A 、 3A 分别和 1R 、 2R 、 3R 合成,计算结果如下:(程序见附录 2)

1 1 1 0.1640 0.1929 0.2719 0.2415 0.1298B A R

2 2 2 0.2000 0.3399 0.2178 0.1211 0.1211B A R (3)

3 3 3 0.1215 0.1890 0.2052 0.3623 0.1110B A R

将模糊综合评价结果向量 1B 、 2B 、 3B 分别归一化后,得到最终结果如下:

1 ' 0.1640 0.1929 0.2719 0.2415 0.1298B

2 ' 0.2000 0.3399 0.2178 0.1211 0.1211B (4)

3 ' 0.1229 0.1911 0.2075 0.3663 0.1122B

5.2.7 对综合评分值进行等级评定

综合评分值 ' 1 2 3 4 5i iS B ,结果如下:(程序见附录3)

1 0.1640 1+0.1929 2+0.2719 3+0.2415 4+0.1298 5= 2.9805S

2 0.2000 1+0.3399 2+0.2178 3+0.1211 4+0.1211 5= 2.6231S (5)

3 0.1229 1+0.1911 2+0.2075 3+0.3663 4+0.1122 5= 3.1538S

等级 1 2 3 4, , ,v v v v v 优,良,中,差 ,评价定量分级标准见表 28[10]。

Page 11: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

11

表 5. 人类健康程度评价定量分级标准

评价等级 健康 亚健康 中等健康 轻微患病 严重患病

得分范围 10 S 21 S 32 S 43 S 54 S

由计算结果知,该调查者细胞指数(CI)中等健康,计数指数(NI)中等健康,平

均指数(AI)轻微患病。

AINICIHI 2977.04211.02812.0 (6)

该调查者的健康得分 S为:

1 2 30.2812 0.4211 0.2977 2.8816S SS S

根据人类健康程度评价定量分级标准,该调查者的健康状况为“中等健康”。

六、问题二模型的建立与求解

6.1 基于基因网络结构挖掘疾病敏感基因

为动态表达人体健康状况,首先将个体按五个身体状况阶段分类,对于五类健康状

况不同人群数据分别进行计算,得出五个网络图。将人体数据带入相应身体状况的网络

图,能够得出当前状况下个体的健康状况。

6.1.1 定义基因网络的统计量

假设 EVG , 是一个复杂网络图,点集为 NV ,,2,1 ,边集为 E。我们定义了

如下几个统计量。

平均路径长度

网络中两个节点 i和 j之间的距离定义为连接这两个节点的最短路径上的边数,表

示为 ijd ,那么网络G的平均路径长度定义为任意两个节点之间的距离的平均值,即:

jiijdNN

L1

2

平均聚类系数

假设网络中的节点 i有 ik 条边将它和其他节点相连,这 ik 个点就是节点 i的邻居,那

么这些节点之间实际存在的边数 iE 和总的可能的边数 2/1ii kk 之比就定义为节点 i的

聚类系数,记为 iC ,即:

12

ii

ii kk

EC

Page 12: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

12

平均度

无向网络中节点 i的度定义为与该节点连接的其他节点的数目。那么平均度D就是

指所有节点的度的平均值。

平均核数

一个图的 k核是指反复去掉度小于或等于 k的节点后,所剩下的子图。若一个节点

存在于 k核,而在 1k 核中被移除,那么此节点的核数为 k。所有节点核数的平均值

就是这个图的平均核数。

平均介数

一个节点的介数衡量了通过网络中该节点的最短路径的数目,节点介数定义为网络

中所有最短路径中经过该节点的路径的数目占最短路径总数的比例,平均介数 B即指所

有节点介数的平均值。

模块度

在一个复杂网络中,社团的概念是描述网络结构的很好的工具。假设网络G拥有 k

个社团。我们定义对称矩阵 kkijeE

,其中 ije 是社团之间的边数与网络中总的边数的

比值。模块度Q就可以定义为:

i

iiji

i aeQQ 2

其中 ia 是 E的第 i行所有元素的和,表示与社团相连的边数与网络总边数的比值。

非孤立点所占比例

非孤立点所占比例 R是指所有与其他顶点有边相连的点的个数占总顶点数的比例。

6.1.2 构建基因通路网络

用互信息公式处理离散化后的数据计算出基因间的互信息值,得到了不同患病程度

之间的互信息矩阵C,如下:

ijii

j

j

ccc

ccccc

C

21

221

11211

其中 ijc 表示基因 i和基因 j之间的互信息值,显然这是一个对称矩阵。为了能够比

较两个矩阵中互信息值的差异性,需要将互信息矩阵中的元素进行标准化处理,标准化

的方法为:

ijij

ijijij cc

ccc

minmaxmin

'

Page 13: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

13

其中 ijcmin 和 ijcmax 是互信息值中的最小值和最大值。于是得到了不同基因之间

的加权完全图,每条边的权重是标准化后的互信息值。

为了能够构造基因网络,设定阈值是必要的,即当互信息小于给定的阈值时就说明

两个基因之间没有关系。当大于给定的阈值 0.6 时,说明两个基因间存在着某种调控关

系。因此,给定一个阈值就能得到不同患病程度的基因网络,然后就可以计算网络的七

个统计量,分析不同患病程度网络的拓扑结构特征。

首先,我们在 sample.inf.xlsx 文件中找出所有患代谢综合征的患者,共 146 名确定

患病程度的患者,剩余 83 名为未知是否患病的样本。然后,分别在变异位点文件

sample.var.0.xls 和 sample.var.1.xls 中找出对应患者的数据。

最后按照患病程度的大小分类,即:Stage I、Stage IA、Stage IB、Stage II、Stage IIA、

Stage IIB、Stage III、Stage IIIA、Stage IIIB、Stage IV、Stage IVA(患病程度越来越严重)。

通过设定阈值为 0.6,将关联值大于等于 0.6 的基因进行连线。使用 MATLAB 软件

编程,做出不同患病程度的基因网络如图 1 所示。

(a)患病程度为 Stage I 的基因网络

Page 14: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

14

(b)患病程度为 Stage IA 的基因网络

(c)患病程度为 Stage IB 的基因网络

(d)患病程度为 Stage II 的基因网络

Page 15: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

15

(e)患病程度为 Stage IIA 的基因网络

(f)患病程度为 Stage IIB 的基因网络

(g)患病程度为 Stage III 的基因网络

Page 16: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

16

(h)患病程度为 Stage IIIA 的基因网络

(i)患病程度为 Stage IIIB 的基因网络

(j)患病程度为 Stage IV 的基因网络

Page 17: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

17

(k)患病程度为 Stage IVA 的基因网络

图1. 不同患病程度的基因网络

从图 1 中可以看出,不同患病程度的基因网络图是不同的,很明显的一个特征是有

的网络是稀疏的,而有的网络是相当稠密的。再对比一下这些网络图,可以看到一个网

络图中的的孤立点,在另一个网络图中就变为非孤立的。接下来,我们将这些错综复杂

的基因通路中,筛选出影响代谢综合征的关键基因通路。

6.2 筛选关键基因通路

结合临床检测数据,为了挖掘哪些因素(数据特征或相互作用网络)是代谢综合征

的关键通路,本文建立了基因通路筛选模型。由于基因通路数据维度高,样本量小,难

以直接取用,所以要先进行初步筛选,选择相关的信息,然后通过利用筛选模型,选出

相关度大,影响力大的基因,再通过基因与基因通路的关系分析,筛选出关键通路。

6.2.1 基因筛选

找出初始相关基因通路

首先在 GEO 数据库中搜索代谢综合征(metabolic syndrome)的基因表达实验样

本,找到 110 个体 12628 个基因位点的数据及基因芯片数据,用 GEO 自带分析工具

GEO2R 进行基因上下调分析,结果见附件:差异化基因初始。

对基因进行筛选

经过对比多种筛选方法发现,SAM 和 t 检验法能够更好的筛选出较多差异表达

基因 (陈长生, 2009),因此综合采用两种方法,对基因通路信息进行筛选。t 检验方

法采用单个基因数据估计标准误,可避免个基因组间方差齐性的限制,选取 1 0.05p 。

SAM 方法进行微阵列基因表达谱数据筛选差异表达基因的统计分析,根据拒绝域 q

Page 18: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

18

的值,选取 0.05q 的结果。

借助 Visant 和云生信网络平台,筛选后可在原基因通路中找到相关度较大的基

因,如下图所示,用红星标记的基因为相关度度较大的基因,其他相关基因在附录

中给出。

图 2. 基因通路相关度较大基因标注示例图

与临床数据中主要指标做比较,由临床数据指标知男性患代谢综合征主要受淋巴细

胞、嗜碱性粒细胞、红细胞比积测定、血小板计数 4 个指标影响,女性患代谢综合征主

要受单核细胞、红细胞比积测定 2 个指标。

Page 19: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

19

由筛选后的基因通路及功能表发现,慢性粒细胞白血病通路(Chronic myeloid

leukemia)影响淋巴细胞、嗜碱性粒细胞含量,癌症通路(Pathways in cancer)、直结

肠癌(Colorectal cancer)、前列腺癌通路(prostate cancer)、肾细胞癌(Renal cell carcinoma)

ErbB 信号通路(ErbB signaling pathway)影响淋巴细胞含量、单核细胞含量,前列腺癌

通路(prostate cancer)影响红细胞比积测定、血小板计数。

6.2.2 基因通路筛选

在筛选出主要的基因后,需要进一步分析,以挑选出关键的基因通路。单纯比较相

关基因的数量不能够准确判断出关键基因通路,我们采取富集分析方法,挑选出影响力

最大的基因通路,也就是关键基因通路。

总体样本为 N,需要筛选出的基因类别为 M,取样本 n 个,得到属于需要筛选类别

的有 k 个。此时

2p = phyper(k-1,M, N-M, n, lower.tail=FALSE) (17)

将筛选结果利用 DAVID 数据库中的分析工具 Functional Annotation Tool,将 144 个

基因 ID 进行通路富集分析,找到 KEGG 通路 12 个,分析结果如附录二。

取 2 0.05p ,筛选后的基因通路及功能如下

表 6. 筛选后基因通路表

基因通路 功能 基因通路 功能

标记信号通路(mark signalpathway)

细胞增殖,分化,

凋亡

神经胶质瘤

(Glioma)

胰岛素信号通路(insulinsignaling pathway)

脂肪酸的合成

糖酵解

淀粉和蔗糖代谢

脂平衡

葡萄糖平衡

细胞增殖,分化,

凋亡

肾细胞癌(Renalcell carcinoma)

高血压、血沉快、贫血、

肝功能异常、免疫系统改

变、激素水平改变、尿多

胺升高、血癌胚抗原升高

癌症通路

(Pathways in cancer)

细胞增殖,分化,

凋亡、淋巴细胞异

常、结直肠癌、胰

腺癌、甲状腺癌、

急性髓性白血病、

慢性粒细胞性白

血病、基底细胞

癌、黑色素瘤、肾

癌、膀胱癌、前列

腺癌、子宫内膜

慢性粒细胞白血

病(Chronicmyeloid leukemia)

产生大量不成熟的白细

胞,这些白细胞在骨髓内

聚集,抑制骨髓的正常造

血、出现贫血、容易出血

Page 20: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

20

癌、小细胞肺癌、

非小细胞肺癌

神经营养因子信号转导通

路(Neurotrophin signalingpathway)

细胞增殖,分化,

凋亡

前列腺癌通路

(prostate cancer)血尿、血精、贫血

ErbB 信号通路(ErbBsignaling pathway)

子宫内膜癌、胶质

瘤、非小细胞性肺

癌(NSCLC)

直结肠癌

(Colorectalcancer)

与临床数据中主要指标做比较,发现标记信号通路、胰岛素信号通路、癌症通路、

神经营养因子信号转导通路、ErbB 信号通路主要受这些指标影响,则认定这些通路为

代谢综合征的关键通路。

由于癌症通路是大部分癌症的总通路所以考虑关键通路时可以不予计入,则:

(1)对于男性,代谢综合征的关键通路为慢性粒细胞白血病通路(Chronic myeloid

leukemia)、直结肠癌(Colorectal cancer)、前列腺癌通路(prostate cancer)、肾细胞癌

(Renal cell carcinoma)ErbB 信号通路(ErbB signaling pathway)。

(2)对于女性,代谢综合征的关键通路为直结肠癌(Colorectal cancer)、肾细胞癌

(Renal cell carcinoma)ErbB 信号通路(ErbB signaling pathway)。

七、问题三模型的建立与求解

代谢综合征(metabolic syndrome,MetS)是肥胖、高血糖、高血压及血脂紊乱等多种

代谢异常的集合[1]。而 logistic 回归主要用来预测离散因变量与一组解释变量之间的关系

最常用的是二值型 logistic,即因变量的取值只包含两个类别[2],所以能很好地研究疾病。

7.1 Logistic 多元回归模型

线性回归模型中因变量必须是连续变量[2],而本问题中是否患病是只取两类值的分

类变量,即发生或不发生,因此不能用一般的线性回归拟合模型。设因变量 y表示是否

患代谢综合症,则患病时 1y ,不患病时 0y ,即:

) ( 1)( 0

患病

不患病y (7)

Page 21: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

21

自变量 x既可以是定性变量,也可以是定量变量,假设存在一个值域为 , 的

连续变量 *y ,当 *y 的值大于某临界值 c时将导致患病事件的发生,于是有[2]:

m

kiikki xy

1

* (8)

式中: 为回归方程的常数, k 为回归自变量的系数, ikx 为自变量, i 为误差项。

设患病的概率为 ip ,则满足下列关系[2]:

immii

i xxpp

111

ln (9)

其中,自变量的系数 k 可以反映出临床检测指标 ikx 对代谢综合症的影响程度, 和

k 可以通过下列流程计算。

7.1.1 求解 Logistic 多元回归方程

Logistic 回归模型与线性回归一样,对自变量中存在的多元共线性很敏感。当自变

量的多元共线性不太严重时,系数的估计基本还是无偏且有效的,但当变量间存在较高

的相关程度时,系数估计的标准误会急剧增加。

Step1:判断自变量是否有多元共线性

在多元共线性的条件下,系数估计对样本和模型的设置都非常敏感,模型设置的微

小变化、在样本中删除或加入一个案例,都会导致系数估计的较大变化[2]。在拟合 logistic

模型前要对自变量的多元共线性做判断。

定义容忍度 21 kRTol ,作为一个统计学上的大致标准,容忍度小于 0.2 被认为是

多元共线性存在的标志,容忍度小于 0.1 说明多元共线性很严重,容忍度等于 0 说明该

自变量与其他自变量完全相关,这时模型将不能产生估计。

表 7. 是否患代谢综合征与临床检测数据的相关系数表

临床检测指标 相关系数 临床检测指标 相关系数

中性粒细胞 0.173 血红蛋白测定 -0.420

淋巴细胞 -0.239 红细胞比积测定 -0.426

单核细胞 0.152 平均红细胞体积 -0.073

嗜酸性粒细胞 0.094 血小板计数 -0.183

嗜碱性粒细胞 0.110 平均红细胞血红蛋白量 -0.110

白细胞计数 -0.015 平均红细胞血红蛋白浓度 -0.118

Page 22: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

22

红细胞计数 -0.381 红细胞体积分布宽度测定 0.124

Step2:建立多因素的 logislic回归模型

如果直接对所有自变量做 logistic 回归,可能会包括了若干无意义的变量,这虽然不

会造成估计系数有偏,但会导致系数标准误膨胀,以致降低模型的估计效率。另一方面,

如果应该保留的有意义的自变量被排除出模型,回归系数的估计将是有偏的。

因此可以采用反向逐步选择法,先拟合包括所有候选变量的初始模型,然后以 Wald

统计量做变量删除的标准,选定临界标准为 0.1,当模型内某一变量的 Wald 统计量对应

的 P 值大于 0.1 时,将该变量删除,直到没有变量符合删除标准为止。选出可能的风险

因素之后,用这些因素建立 logistic 模型,用最大似然法估计各因素的系数。

Step3:回归系数的显著性检验与模型评价

对回归系数的显著性检验可以用 Wald 检验:2

kSE

W k

(10)

其中,k

SE 是 k 的标准误差。当自变量都是离散变量时,可以用 Pearson 2 统计

量或偏差 Deviance 来说明模型的拟合优度,而在我们后面的分析中可以看到,自变量包

括了连续变量,这时不适宜用这两种拟合优度检验法,可以采用 Hosmer—hemeshow 拟

合优度指标。根据预测概率值将数据分成大致相同规模的几组,按预测概率升序排列,

第一组包括估计概率最小的那些观测数据,最后一组包括估计概率最大的观测数据。

Step4:回归系数

可以用下面的方法分析各风险因子对患病的影响:

(1)按发生比率解释暴露因素 iX 为二分变量的,定义 iX 暴露下的发生比(odds):

1|0Pr

1|1Pr1

i

ii Xy

XyXOdds (11)

如果 Odds > 1,说明当因素 X 暴露时,个体患病的概率比不患病的概率大。

(2)偏标准化系数

由于连续型自变量以不同尺度测量,两个自变量在 1 个单位上的变化并不等价,

因此,要比较因变量与不同的连续型自变量间关系的强度,可以采用偏标准化系数:

3/*

xii

is

(12)

其中, i 是 logistic 回归中的系数, xis 是 iX 的标准差, 3/ 是标准 logistic 分布

Page 23: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

23

的标准差,对*i 的解释与线性回归时相同,它是 iX 变化一个标准差导致的

yy1

ln 上*i

个标准差的变化,从而可以比较不同度量的自变量对患病发生比的影响强度。

7.1.2 男性临床检测数据的 Logistic 回归结果

通过使用 SPSS 22 软件,采用反向逐步选择法,先拟合包括所有候选变量的初始模

型,然后以 Wald 统计量做变量删除的标准,选定临界标准为 0.1,当模型内某一变量的

Wald 统计量对应的 P 值大于 0.1 时,将该变量删除,直到没有变量符合删除标准为止。

选出可能的风险因素之后,用这些因素建立 logistic 模型,用最大似然法估计各因素的

系数。女性临床检测数据的 Logistic 多元回归结果如下表,SPSS 源文件见附件。

表 8. 男性患代谢综合征的 logislic 多元回归结果

临床检测指标 B S.E. Wald df Sig

淋巴细胞 -3.403 0.854 15.885 1 0.000

嗜碱性粒细胞 100.051 28.573 12.261 1 0.000

红细胞比积测定 -15.266 1.598 91.315 1 0.000

血小板计数 -0.006 0.001 21.118 1 0.000

常数 7.929 0.769 106.419 1 0.000

患病的概率为 ip ,则满足下列关系:

immii

i xxpp

111

ln (13)

其中,自变量的系数 k 可以反映出临床检测指标 ikx 对代谢综合症的影响程度,

因此,男性临床检测数据的 Logistic 回归方程为:

929.7006.0266.15051.100403.31

ln

PCIHCTBGILYIpp

(14)

其中,LYI 表示淋巴细胞( lymphocyte),BGI 表示嗜碱性粒细胞(basophile

granulocyte),HCT 表示红细胞比积测定(HCT),PCI 表示血小板计数(platelet count)。

7.1.3 女性临床检测数据的 Logistic 回归结果

通过使用 SPSS 22 软件,采用反向逐步选择法,先拟合包括所有候选变量的初始模

型,然后以 Wald 统计量做变量删除的标准,选定临界标准为 0.1,当模型内某一变量的

Wald 统计量对应的 P 值大于 0.1 时,将该变量删除,直到没有变量符合删除标准为止。

选出可能的风险因素之后,用这些因素建立 logistic 模型,用最大似然法估计各因素的

Page 24: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

24

系数。女性临床检测数据的 Logistic 多元回归结果如下表,SPSS 源文件见附件。

表 9. 女性患代谢综合征的 logislic 多元回归结果

临床检测指标 B S.E. Wald df Sig

单核细胞 24.206 6.432 14.163 1 0.000

红细胞比积测定 -20.602 2.935 49.262 1 0.000

常数 5.392 1.221 19.501 1 0.000

患病的概率为 ip ,则满足下列关系:

immii

i xxpp

111

ln (15)

其中,自变量的系数 k 可以反映出临床检测指标 ikx 对代谢综合症的影响程度,

因此,女性临床检测数据的 Logistic 回归方程为:

392.5602.20206.241

ln

HCTMOIpp

(16)

其中,MOI 表示单核细胞(Monocyte)、红细胞比积测定(HCT)。

7.2 代谢综合征患病的风险评估

通过问题一求得的网络图能够表示五个患病程度,不同疏密程度能够表征不同的患

病程度,可视为指标。用新个体全部指标(每个基因在某个个体的表达量和每个基因在

某个个体变异类型)画出每个个体独有的网络图,与标准图进行比对,判断严重程度。

首先,我们在 sample.inf.xlsx 文件中找出所有患代谢综合征的患者,共 146 名确定

患病程度的患者,剩余 83 名为未知是否患病的样本。然后,分别在变异位点文件

sample.var.0.xls 和 sample.var.1.xls 中找出对应患者的数据。

最后按照患病程度的大小分类,即:Stage I、Stage IA、Stage IB、Stage II、Stage IIA、

Stage IIB、Stage III、Stage IIIA、Stage IIIB、Stage IV、Stage IVA(患病程度越来越严

重)。分别以每种患病程度中患者的基因变异起始位点 Start_Position 为横坐标,以基因

变异终止位点 End_Position 为纵坐标,以染色体的相对编号 Chromosome 为 Z 坐标,使

用 MATLAB 软件编程画出代谢综合征不同程度的变异位点三维图,如图 3 所示。(程

序见附录)

Page 25: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

25

图 3. 代谢综合征不同程度的变异位点三维图

由于基因变异起始位点 Start_Position 和基因变异终止位点 End_Position 相差不

大,同时为了更好地观察不同患病程度时的变异位点情况,我们变异位点三维图投

影到 xoz平面,得到二维平面图如图 4 所示。(程序见附录)

图 4. 代谢综合征不同程度的变异位点平面图

Page 26: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

26

通过图 2,我们可以得到不同患病程度下基因变异位点 Start_Position 与染色体的相

对编号 Chromosome 之间的关系。从图 2 中可以看出,不同患病程度时,基因变异位点

Start_Position 与染色体的相对编号 Chromosome 之间的变化趋势基本一致,但还是存在

细微的差别。如果我们获得了一个新的人类群体数据集(10 人),包含了每个个体的基

因组、表观基因组、转录组、蛋白质组和(或)代谢组的部分测量数据,可以与患病程

度不同的变异位点图对比。

根据 sample.inf.xlsx 文件,在 83 名未知是否患病的样本中,随机选取 10 名样本,

编号分别是“131”、“123”、“67”、“59”、“46”、“35”、“25”、“12”、

“8”和“3”。以基因变异位点 Start_Position 为横坐标,以染色体的相对编号 Chromosome

为纵坐标,分别做出 10 名样本的变异位点图,如图 5 所示。

图 5. 10名样本的变异位点图

如果 10 名样本的基因变异位点,与某种患病程度的基因变异位点图重复最多,那么

该未知的样本的可能就是这种患病程度。如果与与任何一种患病程度的基因变异位点图

重复都很少,那么该未知的样本可能就不患病。

由于题目中的所提供的数据为离散的数据,如果绘制折线图,那么会损失部分信息。

于是,我们采用了三维曲面插值的方法,分别做出不同患病程度时的变异位点三维曲面

图,如图 6 所示。

Page 27: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

27

(a)Stage I (b)Stage IA

(c)Stage IB (d)Stage II

(e)Stage IIA (f)Stage IIB

Page 28: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

28

(g)Stage III (h)Stage IIIA

(i)Stage IIIB (j)Stage IV

(k)Stage IVA

图 6. 代谢综合征不同患病程度的变异位点三维曲面插值图

Page 29: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

29

同理,对于编号分别为“131”、“123”、“67”、“59”、“46”、“35”、“25”、

“12”、“8”和“3”的 10 名未知是否患病的人群。我们采用了三维曲面插值的方法,

分别做出 10 名样本的变异位点三维曲面图,如图 7 所示。

(a)131 号样本 (b)123 号样本

(c)67 号样本 (d)59 号样本

(e)46 号样本 (f)35 号样本

Page 30: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

30

(g)25 号样本 (h)12 号样本

(i)8 号样本 (j)3 号样本

图 7. 10名未知是否患病的样本的变异位点三维曲面插值图

分别计算编号为“131”、“123”、“67”、“59”、“46”、“35”、“25”、

“12”、“8”和“3”的 10 名未知是否患病的人群与已知患病程度不同的人群的互信

息值,从而分别计算出 10 个样本的患病概率。

7.3 计算 10 个样本的患病概率

通过 10 个个体的基因组、表观基因组、转录组、蛋白质组和(或)代谢组的部分测

量数据,我们把每个个体数据分别与控制组进行表达差异基因位点筛选,假设检验选超

几何分布,此时限制条件为 p<0.05,10 个个体得到的满足条件的差异基因位点数量如

下表。

表 10. 10 个个体满足条件的差异基因位点数量表

个体编号 差异基因位点数量 个体编号 差异基因位点数量

Page 31: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

31

个体编号 差异基因位点数量 个体编号 差异基因位点数量

131 31 35 40

123 167 25 80

67 1645 12 79

59 808 8 183

46 20 3 428

总基因位点数目为 12626 个,规定差异比率 a为差异基因位点数量与总基因位点数

比值,同时规定当 a >10%时,患病概率为 100%,当 a <1%时,患病概率为 0%,同时假

设 a在[0.01,0.1]满足均匀分布。则分布函数如下。

1263,1

1263100,1001263

100100,0

x

xxx

xF (18)

求得 10 个个体的患病概率如下表。

表 11. 10 个个体患代谢综合征的概率

个体编号 患病概率 个体编号 患病概率

131 1.57% 35 0.78%

123 5.77% 25 0.65%

67 100.00% 12 0.21%

59 60.88% 8 7.14%

46 2.23% 3 28.20%

7.4 挖掘患病的主要因素

由于 10 个新个体包含基因组与转录组数据,所以对于我们的样本,主要因素指的是

基因组的基因位点或者转录组的 RNA 序列,由于 RNA 序列为基因位点转录,所以此处

主要因素只考虑基因组基因位点,又由于基因位点筛选可能存在误差,所以此处关键通

路同一基因前后两个基因位点均在考虑范围之内。关键通路与基因位点对应如下表。

表 12. 10 个个体关键通路与基因位点对应表

关键通路 基因位点

Page 32: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

32

hsa04012:ErbB signaling pathway

ErbB 信号通路

1269_AT, 38219_AT, 1973_S_AT, 37724_AT, 38037_AT,

32159_AT

hsa05211:Renal cell carcinoma

肾细胞癌通路

1269_AT, 1953_AT, 38219_AT, 36101_S_AT, 36100_AT,

32159_AT

hsa05220:Chronic myeloid leukemia

慢性粒细胞白血病通路1269_AT, 38219_AT, 1973_S_AT, 37724_AT, 32159_AT

hsa05210:Colorectal cancer

直结肠癌通路

1269_AT, 1915_S_AT, 2094_S_AT, 1973_S_AT, 1916_S_AT,

37724_AT, 32159_AT

hsa05215:Prostate cancer

前列腺癌通路1269_AT, 40570_AT, 35703_AT, 32159_AT

对于每一个患病个体,差异化基因位点是已知的,将这些基因位点通过 DAVID 平

台做通路富集分析,找出这些基因位点所在通路,与关键通路进行匹配,如果有匹配,

则此通路的基因位点为主要影响因素,若无关键通路匹配则无主要因素,有患病风险是

多个基因位点共同作用的结果。

分别对 GSM555283、GSM555299、GSM555303、GSM555344、GSM555346 进行主

要因素分析,结果如下表。

表 13. 患代谢综合征的主要因素分析表

个体编号 主要因素

GSM555283 无

GSM555299 1974_S_AT(Chronic myeloid leukemia)1973_S_AT(ErbB signaling pathway)

无(Prostate cancer)

GSM555303 32159_AT(Chronic myeloid leukemia) 32159_AT(Prostate cancer)

32159_AT(ErbB signaling pathway)

GSM555344 1269_AT(Renal cell carcinoma) 1269_AT(Colorectal cancer)

1269_AT(ErbB signaling pathway)

GSM555346 1269_AT(Chronic myeloid leukemia)

从中可以看出 32159_AT、1269_AT 基因位点出现在多个个体、多条通路中,可能

为代谢综合征的关键基因位点,以后可进一步讨论。

Page 33: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

33

八、模型的优缺点

8.1 模型的优点

本文的创新之处下面三个方面:首先,本文综合考虑各因素的影响,建立了适合数

据情况的衰老模型,并根据 logistics 回归分析男女分组找到了影响男女衰老速度的不同

主要指标;

其次是基因分析手段与临床数据分析手段的有效结合,结合了生物数据库中基因组、

转录组数据分析基因的差异化表达,并运用基因富集分析筛选出跟代谢综合征强相关的

代谢通路,创新性地通过通路产物与临床指标相对应找出关键性通路;

三是巧妙运用基因差异化表达分析工具,把差异化表达基因位点数量作为指标评估

风险,最终的主要基因位点与实际情况符合较好;

最后是做到了个体风险评估与衰老速度评估,可找到主要影响基因位点做到个性化

预防。

8.2 模型的缺点

1, 衰老模型只能定性地反应衰老速度和影响主要指标,在定量方面有待提高;

2,风险评估风险与差异化表达基因位点数量的线性关系可能有些简单;

3,没有找到很完整的数据致使分析结果有可能出现偏差

8.3 模型的推广与应用

1. 可用作医院等场合结合主要临床指标对病人的身体状况方便快捷地进行评估,并

寻找主要影响基因做到个性化预防;

2. 可用于保险公司对投保人患病风险的评估,进行相应投保金额的估算与自身风险

的规避;

3. 可用于科研机构对关键通路的寻找以及基因功能的解释,为确定关键代谢过程、

重大疾病的发生抑制起到一定作用,在新的功能基因的发现方面,此方法简单有效。

Page 34: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

34

十、参考文献

[1] 甘小玲.代谢综合征患者的临床特征及危险因素分析[D].广州:中山大学硕士论文,

2005.

[2] 李敏. 代谢综合征的风险因素分析与应用[D].上海:复旦大学硕士论文,2006.

[3] 阎丹丹,袁姗姗.代谢综合症的患病因素分析与预测[J]. 应用数学与计算数学学报,

2001(6).

[4] 靳雨恩 .代谢综合征评分与 Framingham 风险评分预测心血管疾病的比较 [D].苏州:

苏州大学硕士论文,2011.

[5] 陈潇潇. 代谢综合征描述和风险预测研究[D].山东:山东大学硕士论文,2015.

[6] 李南方,郭艳英,姚晓光,周玲,王红梅,治涛,罗文利,常建航 . 新疆哈萨克族

人神经前体细胞表达发育调控蛋白[J].中华生物医学工程杂志,2011(8).

[7] 张惠敏.代谢综合征发病风险预测指标研究进展[J].中国全科医学,2014(1).

[8] 杨丽兰.代谢综合征的基因多态性研究进展[J].医学研究生学报,2008(5).

[9] 胡永宏,贺恩辉,综合评价方法, 北京:科学出版社,2000:167-188。

[10] Jackson DJ,Evans M D,Gangnon R E,et a1.Evidence for a causal relationship between

allergic sensitization and rhinovirus wheezing in early life[J].Am J Respir Crit Care Med,

2012,185(3):281-285.

[11] 张刚,祝之明等,代谢综合征危险因素的特征[J],高血压杂志,2004,12(1):83—86.

[12] 张国珍,戴江红,曹明芹.新疆代谢综合症预测[J].现代预防医学,2013(7):

1218.1219,1224.

[13] 罗森林,郭伟东,张笈,等.糖尿病预测技术研究[J].北京理工大学学报,201 1,3

1(12):1414.141 8.

[14] Gu DF.Reynolds K.Yang WJ。et a1.The prevalence of metabolic syndrome in the

general adult population aged 35—74 years in China.Chin J Diabetes,2005,13:181—186.

[15] Chen L.Jia WP。Lu JX,et a1.Prevalence of metabolic syndrome among Shanghai adults

in China.Chin J Cardiol,2003,31:909—912.

Page 35: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

35

十一、附录

附录 1:

clc,clear;

x1=[0.0155 0.0204 0.1367 0.0290 0.0848];

y1=x1./sum(x1)

x2=[0.0768 0.0708 0.2158];

y2=x2./sum(x2)

x3=[0.0183 0.2934 0.0385];

y3=x3./sum(x3)

附录2:

clc,clear;

A1=[0.0541 0.0712 0.4773 0.1013 0.2961];

A2=[0.2113 0.1948 0.5938];

A3=[0.0523 0.8378 0.1099];

R1=[0.4 0.2 0.1 0.1 0.2

0.1 0.1 0.2 0.3 0.3

0.2 0.2 0.3 0.2 0.1

0.1 0.2 0.2 0.3 0.2

0.1 0.2 0.3 0.3 0.1];

R2=[0.2 0.3 0.1 0.2 0.2

0.2 0.2 0.4 0.1 0.1

0.2 0.4 0.2 0.1 0.1];

R3=[0.3 0.2 0.3 0.1 0.1

0.1 0.2 0.2 0.4 0.1

0.2 0.1 0.2 0.2 0.2];

C1=synt(A1,R1)

C2=synt(A2,R2)

C3=synt(A3,R3)

function ab=synt(a,b)

Page 36: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

36

m=size(a,1);n=size(b,2);

for i=1:m

for j=1:n

y=a(i,:)*b(:,j);

ab(i,j)=min(1,y);

end

end

附录3:

clc,clear;

y1 =[ 0.1640 0.1929 0.2719 0.2415 0.1298];

y2 =[0.2000 0.3399 0.2178 0.1211 0.1211];

y3 =[0.1229 0.1911 0.2075 0.3663 0.1122];

x=[1 2 3 4 5]';

S1=y1*x

S2=y2*x

S3=y3*x

代谢综合症关键的基因通路(借助于 KEGG 数据库)

1. Chronic myeloid leukemia

Page 37: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

37

2. Colorectal cancer

3. ErbB signaling pathway

4. Glioma

Page 38: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

38

5. insulin signal pathway

6. mark signal pathway

Page 39: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

39

7. Neurotrophin signaling pathway

8. pathways in cancer

Page 40: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

40

9. Prostate cancer

10. Renal cell carcinoma

Page 41: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

41

Page 42: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

42

Visant 平台操作过程界面

平台网址为:http://visant.bu.edu/

Visant 简介:VisANT 是用 Java 开发语言编写的、一个独特的、方便易用的应用程序,

专门用于网络和路径分析。

Page 43: 2016 年“深圳杯”数学建模论文 - upload.univs.cnupload.univs.cn/2016/1018/1476755661209.pdf · 用这些因素建立Logistic多元回归模型,用最大似然法估计各因素的系数。结果是:对

43

SPSS 软件操作过程界面