基于平台的数据挖掘和数据展示

63
基基基基基基基基基基基基基基 基基基 基基基基 基基基基 基基基基基 基基基基基基 基基基基基 、、 [email protected] [email protected] 13311781376

Upload: farrah

Post on 06-Jan-2016

58 views

Category:

Documents


0 download

DESCRIPTION

基于平台的数据挖掘和数据展示. 马维 民 卫宁软件 技术总监 高级程序员、高级工程师、项目管理 师 [email protected] [email protected] 13311781376. 提纲. 1 、平台解析. 基于 平台 的 数据挖掘 和 数据展示. 2 、 BI 展示技术分析. 3 、挖掘技术分析与应用. 基于健康档案的区域信息平台. 基于电子病历的医院信息平台. 平台存在什么问题?. 平台的生命力问题,囧? 加拿大蓝图中,区域平台的潜在应用,感觉语焉不详 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 基于平台的数据挖掘和数据展示

基于平台的数据挖掘和数据展示

马维民卫宁软件 技术总监高级程序员、高级工程师、项目管理师[email protected] [email protected]

13311781376

Page 2: 基于平台的数据挖掘和数据展示

提纲

基于平台的数据挖掘和数据展示

1 、平台解析

2 、 BI 展示技术分析

3 、挖掘技术分析与应用

Page 3: 基于平台的数据挖掘和数据展示

基于健康档案的区域信息平台

Page 4: 基于平台的数据挖掘和数据展示

基于电子病历的医院信息平台

Page 5: 基于平台的数据挖掘和数据展示

平台存在什么问题?

• 平台的生命力问题,囧?• 加拿大蓝图中,区域平台的潜在应用,感觉语焉不详• 医院信息系统已经是核心系统,如果宕机,直接影响患者就诊,会成为

一个社会事件• 区域平台什么时候能有如此待遇?

Page 6: 基于平台的数据挖掘和数据展示

平台的核心功能

• 1 、在一定范围内完成业务流程 --- 互操作性 ( 三个层次 )

• 众多系统有效协同完成一个业务流程• 子系统通过平台获取共享信息,完成业务流程• 基础层、功能层、语义层

----- 业务流程驱动

• 2 、实现数据汇聚、分析、反馈 --- 大数据? 4V ----- 数据决策驱动

Page 7: 基于平台的数据挖掘和数据展示

区域临检中心 -- 跨机构标本流转管理

社区 医院

外送标本核对

标本条码绑定

患者标本采集

外送标本接收

标本上机检测

报告审核发布

生物标本 运送物流

患者标本 患者标本

患者检验报告

中心 医院

社区医院、生物标本物流、中心医院均详细记录标本流转过程信息采用物联网技术,实现样本运输的定位和跟踪参与标本流转的医院的检验标本识别码编码规则需实现统一

规则管理。

Page 8: 基于平台的数据挖掘和数据展示

5193-8 LOINC 代码

Hepatitis B virus surface Ab

ACnc

Pt

Ser

Qn

EIA

成分 Component

受检属性 Property Measured

时间特征 Timing

体系 System

标尺精度 Scale

方法 Method

LOINC 术语

其中,包括六个主要的 LOINC 轴

标准化在满足互操作性的基础上,是实现可比性和数据质量的保证;

经过众多项目的实践和对国内众多项目的观察: 没有标准化,就无法进行对比,进而无法实现数据展现,无法进行数据挖掘。

可见,所谓的检验检查结果互认在本质技术上并未实现

医学科研中的 RCT ( randomized controlled trial )随机对照试验其对照的可比性也是关键

Page 9: 基于平台的数据挖掘和数据展示

接口、数据映射的代价: N*(N-1)/2 vs N

• 节点 映射(无共同标准)• 2 1

• 3 3

• 4 6

• 5 10

• 6 15

• 7 21

• 8 28

• 9 36

• 10 45

• 11 55

• 12 66

• 13 78

• 14 91

• 15 105

• 16 120

• 17 136

• 18 153

• 19 171

• 20 190

A B

A

B C

A

B E

C D

A Σ B

Σ

B C

A

AB E

C D

Σ

缺乏统一标准 采用统一标准

从这个角度讲,平台即标准化

标准化是平台生命力的真正关键所在

在业务流程各个系统中实现标准是标准化真正的贯彻

Page 10: 基于平台的数据挖掘和数据展示

未来信息化发展趋势之我见

• 在业务流程中贯彻标准化,是业务流程真正流转的基础,也是标准落地之根本

• 数据标准后,通过业务流程、数据决策双重驱动,实现使平台焕发生机

• 医疗信息产业的升级发展

Page 11: 基于平台的数据挖掘和数据展示

提纲

基于平台的数据挖掘和数据展示

1 、平台解析

2 、 BI 展示技术分析

3 、挖掘技术分析与应用

Page 12: 基于平台的数据挖掘和数据展示

BI 展示技术分析

• 总体 BI 的思路

• 介绍多维分析

• 展示样例图示

Page 13: 基于平台的数据挖掘和数据展示

数据可视化操作数据 数据 ETL 转换 数据仓库 DW

临床信息系统

HIS 信息系统

HRP 信息系统

数据合并

转换

聚合

汇总

其他数据源 装载

分析和查询

仪表盘和平衡计分卡

数据清洗数据源

OLAPOLAP

报表

指标生成

业务量主题

收入医保主题

医疗质量主题

用药分析主题

数据展示

OLTP

BI HI CI

多维分析

数据挖掘

临床人员

临床科主任

管理人员

BI 总体结构

Page 14: 基于平台的数据挖掘和数据展示

几个概念

• 数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程

• 数据仓库是一切商业智能系统的基础• 数据仓库主要过程数据抽取、存储和管理、数据仓库设计、数据表现等过程

OLTP OLAP

用户 操作人员,低层管理人员 决策人员,高级管理人员功能 日常操作处理 分析决策DB 设计 面向应用 面向主题

数据 当前的, 最新的细节的, 二维的分立的历史的, 聚集的, 多维的集成的, 统一的

存取 读 /写数十条记录 读上百万条记录工作单位 简单的事务 复杂的查询

Page 15: 基于平台的数据挖掘和数据展示

BI 发展趋势

• 全球范围内,医疗机构持续在信息系统投资,旨在改善医疗质量和运营效率。• 投资在持续,借以希望从投资获得价值和智能支持

临床与业务自动化( 交易型 )

临床管理系统

2002 2003 2004 2005 2006 2007 2008 2009 2010

医疗分析

医院信息整综合分析( 集成的基础框架与分析 )

2011 2012

增长市场稳定的市场

Page 16: 基于平台的数据挖掘和数据展示

HIS CIS

BI 的关键:“挑战”各种应用系统的数据需要整合

其他分析

药品分析

医保分析

收入分析

CRM

HIS CIS CRM

数据仓库

运营分析

SOA 数据总线

•数据的数量及其复杂性•整合大量异构的数据•需要成熟完善的分析工具和方法•不同系统的协作

Page 17: 基于平台的数据挖掘和数据展示

“最后一环”院长需要什么 ?

1 2 3 4

1. HIS 系统-建立以患者为中心的医院标

准工作流系统。 -实现医院日常运行,收费

结算一体化的解决方案。

2. 临床信息系统-建立以电子病历为核心的临床信息系统

- j建成功能专业、流程高效、应用简洁、高标准智能化临床信息系统。

3. HRP 资源管理系统-建立以成本核算为中心的医

院资源管理系统-实现人,财,物有机结合的精细化管理。

4. 数据集成智能分析-建立以管理为核心的信

息集成平台。-贯穿医院三大数据流,依据预先定义的管理指标提取数据,归并成多个分析主题。为医院决策分析提供准确,全面的数据分析。

Page 18: 基于平台的数据挖掘和数据展示

“指标”验证信息化建设效果

56

18%

门诊平均就诊时间

2月份上了自助机优化流程后门诊病人就诊时间是否减少?具体减少了多少?各再哪几个环节?

Page 19: 基于平台的数据挖掘和数据展示

区域医保用药控制场景分析

• 严禁超量用药、超限用药、重复用药;• 严禁实施与病情不符的检查、治疗、用药;• 严禁分解处方、分解检查、分解住院。• 门诊医师严格遵循处方管理规定,杜绝不合理的退费、退药。

• 住院医师严格掌握参保人的入院标准、出院标准,严禁将可在门诊、急诊、留观及门诊特定项目实施治疗的病人收入住院。

规则库

监测监控

区域数据库

医生站

CPOEEMRCP

规则

监测

通过医生处方决策工具提供快速、准确、临床实用的治疗方案,协助医生做出最佳选择

Page 20: 基于平台的数据挖掘和数据展示

BI 的多维分析

时间

范围 指标

按自然年按季度按月份按星期24 小时同比,环比

入院人次,手术次数住院均次费药占比,抗生素占比平均住院日病床周转次数入院 3 日确诊率入院与出院诊断符合率抢救次数院内感染率住院病人术前平均住院天数

治疗者 : ( 科室,医生 )患者 : ( 挂号类型,医保类型,预约标志,诊断分类,性别,年龄段,治疗周期 )治疗情况 : ( 自费药品,医保药品,抗生素分类,项目分类)

数据魔方( CUBE )

院长

科主任

在医院运营仪表盘上发现药占比指数异常。继而查看上个月全院各科室药占比

相关科室主任按照科室内医生分类查看药占比发现某医生的患者药占比偏高,继而再对患者进行分类,然后发现医保病人药占比正常,自费病人偏高,再对病人用药进行排序,发现有几种药品用药异常。

OLAP 的核心是多维分析

Page 21: 基于平台的数据挖掘和数据展示

多维魔方

Page 22: 基于平台的数据挖掘和数据展示

多维数据集

• 多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。

• 度量值是决策者所关心的具有实际意义的数值。• 维度是人们观察数据的角度。• 维的级别是维度的不同的细节程度。• 维度成员是维的一个取值。• 数据集合的常用操作有上卷、下钻、切片、切块和转轴。• 维度表和事实表的连接方式主要有星型架构、雪花型架构以及星型雪花架构。• 多维数据的存储模式有 ROLAP 、 MOLAP 和 HOLAP 。

Page 23: 基于平台的数据挖掘和数据展示

上卷( Roll-Up )

• 上卷是在数据立方体中执行聚集操作,通过在维级别中上升或通过消除某个或某些维来观察更概括的数据。

沿着时间维上卷,由“季度”上升到半年

Page 24: 基于平台的数据挖掘和数据展示

上卷( Roll-Up )• 上卷的另外一种情况是通过消除一个或多个维来观察更加概况的数

据。

消除“经济性质”维度

Page 25: 基于平台的数据挖掘和数据展示

下钻( drill-down )•下钻是通过在维级别中下降或通过引入某个或某些维来更细致的观

察数据。

沿时间维下钻

Page 26: 基于平台的数据挖掘和数据展示

切片( slice )• 在给定的数据立方体的一个维上进行的选择操作。切片的结果

是得到了一个二维的平面数据。

“时间=1季度”

Page 27: 基于平台的数据挖掘和数据展示

切块( dice )• 在给定的数据立方体的两个或多个维上进行的选择操作。切块的结

果是得到了一个子立方体。

Page 28: 基于平台的数据挖掘和数据展示

转轴( pivot or rotate )

• 转轴就是改变维的方向。

交换“时间”和“经济性质”轴

Page 29: 基于平台的数据挖掘和数据展示

MDX 多维操作语言 ----- SQL 二维操作语言

• MDX( Multidimensional Expressions ) 是一种语法,支持多维对象与多维数据的定义和操作,专门检索具有几乎任意多个维度的多维数据结构中的数据

• SQL 从表返回二维数据子集,而 MDX 从多维数据集返回多维数据子集• MDX 查询的创建者通常将多维数据集的结构形象化并加以定义,并且编写

对单个多维数据集的查询对该结构进行填充• MDX 结果集的视觉形象不直观。因为多维结果集可以有三个以上的维度,

所以将该结构形象化比较困难

Page 30: 基于平台的数据挖掘和数据展示

SSAS 的多维立方体示例

Page 31: 基于平台的数据挖掘和数据展示

指标集

31

运营分析

收入

门、急诊收入及构成挂号收入住院收入及构成药品收入手术收入检查科室收入检验科室收入体检收入人均业务收入

医疗质量

两周内再次入院率实施临床路径数住院患者死亡率危重患者死亡率急症患者死亡率一般患者死亡率手术患者死亡率关 键 疾 病 死 亡 率( 如冠心 病 患 者死亡率)危重病人抢救成功率治愈好转率院内感染率出入院诊断符合率术后与术前诊断符合率临床与病理诊断符合率药物不良反应病例病历合格率未达标病历分析

工作量

门、急诊量分析初复诊量、初复诊率退号量、退号率发卡工作量医生出诊单元住院人次护理工作量医生主管病人手术例数手术每台日平均例数检查科室工作量检验科室工作量

总体管理及运营

固定资产总值年收入年药品收入年门诊量年出院人数开放床位数手术例数设备总值收入支出比临床指标

床位周转率床位使用率平均住院日三日确诊率七日确诊率预约(等床)病人数预约到入院的周期留观转入院平均等待周期分析超长住院日分析

构成

病人病种构成分析病人身份构成分析病人来源分析病人科室构成分析病人费用区间构成病人年龄构成分析

满意度

病人满意度员工满意度部门之间协同满意度分院之间协同满意度下级、社区医院协同满意度市场占有率

成本

门诊次均就诊费用及构成住院次均费用及构成住院每床日均费用单病种费用分析医保住院费用分析大型医疗设备投入、产出分析医疗收入成本率药品收入成本率卫材收入成本率

收入

成本 效率

质量

总体

构成

满意度

工作量

服务效率

药品请领、采购、入库周期分析物资请领、采购、入库周期分析药品、物资周转率平均术前等候时间手术衔接效率手术室利用率设备使用率、空闲率各检查平均检查时间各检查平均报告时间预约检查与实际执行检查符合率各类检验的平均等待时间

Page 32: 基于平台的数据挖掘和数据展示

医院各层面都需要用到数据分析

管理分析

重点关注:• 运营业务分析• 业务流程分析关键指标:• 固定资产总值• 年收入• 年门诊量• 年出院人数• 开放床位数• 手术例数• 设备总值• 收入支出比

1 临床分析2 科研分析3 KPI指标分析4

重点关注:• 疾病管理分析• 医疗质量以及最佳实

践分析• 医疗安全和监控• 医疗服务差异性分析关键指标:• 治愈好转率• 院内感染率• 手术患者死亡率

重点关注:• 疾病研究分析

• 临床试验研究设计 • 群组识别• 病人遴选

重点关注:• 根据医院特定需要进

行主题分析关键指标:• 关注重点药品• 关注抗生素• 关注满意度

数据分析

Page 33: 基于平台的数据挖掘和数据展示

费用层面

地区分布付款方式民族职业婚姻状况。。。。

专业职能临床属性诊疗手段住院 /门诊级别。。。。

就诊日期出院日期确诊日期入院日期手术日期。。。。。

科室层面 时间层面 费用分类付费方式付费日期。。。。

医院高策决策支持• 发展能力• 经济评价• 质量管理• 管理控制专项管理统计分析• 工作量• 工作效率• 工作质量• 经营分析

业务科室医疗质量管理• 经营指标• 安全性指标• 效率指标• 治疗及时性指

药品层面手术层面物资层面财务层面检验检查层面。。。。。

患者层面其他层面

医保住院门诊病案

。。。

多角度呈现分析数据• 数据内容一致• 公式逻辑一致• 数据权限一致

医疗多维多层面数据模型

Page 34: 基于平台的数据挖掘和数据展示

组件式叠加应用主题

34

一套成熟的 BI 的技术架构对于管理要求是按照循环递进的方式来进行。① 确定指标数据关系,建立指标数据来源矩阵,以此来编写 ETL 程序抽取数据到数据仓库。② 数据仓库汇总应用系统数据产生指标库,根据指标库的分类放入某个主题的多维数据集。③ 按照多维数据集产生主题分析模型,放入医院 BI 分析系统中展示。

主题 A

主题 B主题 C

指标3

指标2

指标1

Page 35: 基于平台的数据挖掘和数据展示

医院 BI 与其他系统的关系图示

35

Page 36: 基于平台的数据挖掘和数据展示

数据仓库,数据即服务 - 院内外数据口径一致

36

哪个正确?哪个正确?

1. 医院内部统计分析 报表 分析,查询 指标, KPI

2. 卫生局,医联要求上报数据 医联工程数据交换接口规范

3.0

病案首页数据上报 医保费用明细

数据仓库 DW

HIS 系统 检查检验系统

医联

卫生局

Page 37: 基于平台的数据挖掘和数据展示

多样化展现形式

37

支持WEB方式展示20 多种图形:条形图,饼图,曲线图,甘特图,雷达图,气泡图,漏斗图等支持多种数据导出模式Word , Excel , HTML , XML , PDF

支持在 EXCEL 中进行数据分析

Excel 2007 , 2010透视表格可以倒入分析主题进行任意数据分析。

支持移动设备展示可在移动设备上迅速访问到所需的信息,具有良好的交互功能,可立即采取行动,部署简便、快捷。

Page 38: 基于平台的数据挖掘和数据展示

总结:成熟医疗 BI 应该提供的核心功能

38

1. 产品由 ETL , DW , CUBE , UI 展示组成。

2. 能根据预先定义的指标库模型直接从 HIS的末端数据集采集数据,保证数据准确,快速,有效。

3. 有 10 大类 500 多个指标,并在不断完善中。指标的来源有权威性 (1000多家医院管理报表 / 临床报表,区域医疗交换接口规范 3.0版,病案首页数据上报接口 )

4. 展示层方案灵活,可根据医院项目级别灵活组合。

Page 39: 基于平台的数据挖掘和数据展示

常见界面展现演示

Page 40: 基于平台的数据挖掘和数据展示

案例演示

Page 41: 基于平台的数据挖掘和数据展示

案例演示

Page 42: 基于平台的数据挖掘和数据展示

案例演示

Page 43: 基于平台的数据挖掘和数据展示

案例演示

Page 44: 基于平台的数据挖掘和数据展示

案例演示

Page 45: 基于平台的数据挖掘和数据展示

案例演示

Page 46: 基于平台的数据挖掘和数据展示

案例演示

Page 47: 基于平台的数据挖掘和数据展示

提纲

基于平台的数据挖掘和数据展示

1 、平台解析

2 、 BI 展示技术分析

3 、挖掘技术分析与应用

Page 48: 基于平台的数据挖掘和数据展示

数据挖掘概念

• 数据挖掘 -- 从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。

• 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;

• 数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。

数据挖掘与 KDD

知识发现( KDD : Knowledge Discovery in Databases )

Page 49: 基于平台的数据挖掘和数据展示

数据挖掘系统的特征

数据的特征知识的特征算法的特征

矿山(数据)

挖掘工具(算法)

金子(知识)

Page 50: 基于平台的数据挖掘和数据展示

数据挖掘技术

技术分类 预言( Predication ):用历史预测未来 描述( Description ):了解数据中潜在的规律

数据挖掘技术 关联分析 序列模式 分类(预言) 聚集 异常检测

Page 51: 基于平台的数据挖掘和数据展示

推荐算法

Page 52: 基于平台的数据挖掘和数据展示

数据挖掘算法库

算法类 算法名 中文名分类算法 Logistic Regression 逻辑回归

Bayesian 贝叶斯SVM 支持向量机Perceptron 感知器算法Neural Network 神经网络Random Forests 随机森林Restricted Boltzmann Machines 有限波尔兹曼机

聚类算法 Canopy Clustering Canopy 聚类K-means Clustering K均值算法Fuzzy K-means 模糊 K均值Expectation Maximization EM 聚类(期望最大化聚类)Mean Shift Clustering 均值漂移聚类Hierarchical Clustering 层次聚类Dirichlet Process Clustering 狄里克雷过程聚类Latent Dirichlet Allocation LDA 聚类Spectral Clustering 谱聚类

关联规则挖掘 Parallel FP Growth Algorithm 并行 FP Growth算法回归 Locally Weighted Linear Regression 局部加权线性回归

降维 / 维约简 Singular Value Decomposition 奇异值分解

Principal Components Analysis

主成分分析

Independent Component Analysis

独立成分分析

Gaussian Discriminative Analysis

高斯判别分析

进化算法 并行化了 Watchmaker框架  

推荐 / 协同过滤 Non-distributed recommenders

Taste(UserCF, ItemCF, SlopeOne )

Distributed Recommenders ItemCF

向量相似度计算 RowSimilarityJob 计算列间相似度VectorDistanceJob 计算向量间距离

非 Map-Reduce算法

Hidden Markov Models 隐马尔科夫模型

集合方法扩展 Collections 扩展了 java 的 Collections类

Mahout最大的优点就是基于 hadoop 实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。

Page 53: 基于平台的数据挖掘和数据展示

数据挖掘算法库

Page 54: 基于平台的数据挖掘和数据展示

SQL 、 MDX 、 NoSQL 、 MoreSQL

• NoSQL 是 not only SQL 的缩写,不是 Not SQL ,它不一定遵循传统的数据库的一些基本要求,如遵循标准的 SQL 、 ACID 、表结构等,相比传统数据库,叫它为分布式数据库管理系统更贴切,数据存储简化为更灵活,重点放在了分布式数据管理上。

• MoreSQL ( NewSQL )旨在将 SQL 和 NoSQL 的优势结合起来。通过技术整合, MoreSQL 完全可以在 SQL ( Structured Query Language )的基础上吸收 NoSQL 的灵活性、可扩展性等优点。

• 分布式关系型数据库

Page 55: 基于平台的数据挖掘和数据展示

NoSQL演化及数据模型

• Key-Value 存储 : Redis• 类 BigTable 存储 : Apache

HBase, Apache Cassandra• 文档数据库 : MongoDB,

CouchDB• 全文索引 : Apache Lucene,

Apache Solr• 图数据库 : neo4j, FlockDB

Page 56: 基于平台的数据挖掘和数据展示

区域健康档案 / 电子病历大数据架构实践

基于循证医学的海量医学数据挖掘分析平台

证据源

Volume, Variety, Velocity, Value ,具有 4V特性的数据称为大数据。

Page 57: 基于平台的数据挖掘和数据展示

决策支持应用:临床决策树

一个临床医生在诊治疾病时,根据病人的病情变化、检验结果和其经验做出判断,开出处方。

前面的判断是后面决策的依据

决策点:依据经验和可能结果选择机遇点:应计算概率来决策

决策概率涉及敏感度、特异度、预测值等数值计算

Page 58: 基于平台的数据挖掘和数据展示

决策支持应用—辅助诊断

规则一 规则二

疼痛性质 压榨性 濒死样

疼痛程度 轻微 剧烈

疼痛持续时间 能缓解 长

硝酸甘油效果 有效 无效

心电图 S-T段 压低 抬高

心电图病理性 Q波 无 有

CPK 、 LDH 、 AST 均正常 任一项增高

结论 心绞痛 急性心悸梗死

Page 59: 基于平台的数据挖掘和数据展示

决策支持应用—鉴别诊断

•总结诊疗经验,防止误诊发生

胆囊炎 心绞痛

症状 右上腹疼痛 心前区疼痛

诱因 饱餐 劳累

放射部位 右肩 不确定

硝酸甘油效果 无效 有效

心电图检查 正常 ST段压低

提示建议做腹部 B超检

Page 60: 基于平台的数据挖掘和数据展示

决策支持应用:心绞痛治疗方案疗效对比

Page 61: 基于平台的数据挖掘和数据展示

决策支持应用:医生站大数据分析智能提醒

Page 62: 基于平台的数据挖掘和数据展示

Do We Need Doctors Or Algorithms?

http://techcrunch.com/2012/01/10/doctors-or-algorithms/

“More than three-quarters of healthcare executives believe their industry's most valuable asset is going to be information contained in electronic medical records” ---- a report issued by PricewaterhouseCoopers.

• Value & Veracity of Healthcare Data

Page 63: 基于平台的数据挖掘和数据展示

谢谢,请批评指正!

63