敏捷大数据技术打造新一代临床数据中心edmcn.net/oracle/20160822_1/oracle-2.pdf ·...

8
敏捷大数据技术打造新一代临床数据中心 作者:侯雪桥,甲骨文(中国)软件系统有限公司 摘要: 本文介绍了引入大数据敏捷分析技术打造新一代临床数据中心的思路、优势和参考架构。 临床数据中心的建设是实现医院各类临床信息的整合与全面二次利用,挖掘医疗大数据价值 的重要途径。敏捷大数据技术脱胎于传统的大数据技术,能够帮助实现医疗领域专家在一定 程度上摆脱专业 IT 语言,自主自由地探索和发掘医疗大数据中的潜在价值,因而在临床数 据中心的建设中具有不可忽视的意义。本文在分析了临床数据中心系统建设中所面临的核心 问题、技术挑战之后,创新的提出一套基于敏捷大数据技术的建设临床数据中心的技术框架 和参考架构。并在介绍了国际上一些著名医疗机构围绕医疗大数据建设的参考实践的基础上, 对敏捷大数据技术与医疗领域的进一步结合进行了的展望。 关键字:医疗信息化、大数据、敏捷 1 引言 2016 6 8 日,李克强总理主持召开国务院常务会议,确定发展和规范健康医疗大 数据应用的多项措施,通过“互联网+医疗”更好满足群众需求,成为将大数据与医疗产业 的结合上升为国家战略层面的重要举措。可以说,无论从国家战略、行业趋势,还是技术发 展和业务创新层面,医疗行业已经进入了大数据时代。一方面,随着国内医疗信息化产业的 发展,各个医疗机构已经积累了海量的电子病历、医学影像、健康体检等患者诊疗数据;另 一方面,随着基因测序、分子诊断等新兴诊断技术的成熟和发展,医疗产业又面临着新型健 康数据的大爆发。 更为引人注目的是这些医疗数据大爆发背后所隐藏的巨大价值。无论是美国的“癌症探 索登月计划”还是中国的“精准医疗”战略,所关注的都是从医疗大数据中寻找新的诊疗规 律和突破性的诊疗技术。因此在医疗大数据时代即将爆发的当下,我们所面临的最大挑战是 如何从如此繁多的各类数据中发掘价值。 与此同时,对于医疗机构而言,信息化建设也从传统的满足医院运行、管理和医保的强 迫性需求,转变为效利用医院的数据资产,提升医疗服务能力和水平,改善医院运营效率, 提高核心竞争力。 在这一背景下,医院临床数据中心的建设成为医院信息化建设的热点和焦点。根据 HIMSS Analytics 的定义,临床数据中心(Clinical Data Repository, 简称 CDR)是是指一种 临床信息整合与分析系统,能够实时的整合不同临床信息的数据源,为单一病人提供完整的 临床信息视图。CDR 的建设和应用被认为是电子病历建设的一个新阶段,是目前我国医院 信息化发展趋势,也为实现各级卫生部门区域信息共享及分级诊疗的互联互通奠定了基础。 然而,我们认为新一代的临床数据中心必须定位于实现临床信息的综合分析与全面的二 次利用,而不仅仅是传统临床数据中心所呈现单一患者的各类信息综合视图。因为,只有实 现一套侧重于医疗数据分析和决策支持体系,才能为临床、管理和科研带来更强的数据利用 能力。传统的单一患者综合视图只能为单一患者的诊疗过程带来综合信息浏览的便捷,并不

Upload: doannguyet

Post on 29-Jul-2018

269 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 敏捷大数据技术打造新一代临床数据中心edmcn.net/Oracle/20160822_1/Oracle-2.pdf · 敏捷大数据技术打造新一代临床数据中心 作者:侯雪桥,甲骨文(中国)软件系统有限公司

敏捷大数据技术打造新一代临床数据中心

作者:侯雪桥,甲骨文(中国)软件系统有限公司

摘要:

本文介绍了引入大数据敏捷分析技术打造新一代临床数据中心的思路、优势和参考架构。

临床数据中心的建设是实现医院各类临床信息的整合与全面二次利用,挖掘医疗大数据价值

的重要途径。敏捷大数据技术脱胎于传统的大数据技术,能够帮助实现医疗领域专家在一定

程度上摆脱专业 IT 语言,自主自由地探索和发掘医疗大数据中的潜在价值,因而在临床数

据中心的建设中具有不可忽视的意义。本文在分析了临床数据中心系统建设中所面临的核心

问题、技术挑战之后,创新的提出一套基于敏捷大数据技术的建设临床数据中心的技术框架

和参考架构。并在介绍了国际上一些著名医疗机构围绕医疗大数据建设的参考实践的基础上,

对敏捷大数据技术与医疗领域的进一步结合进行了的展望。

关键字:医疗信息化、大数据、敏捷

1 引言

2016 年 6 月 8 日,李克强总理主持召开国务院常务会议,确定发展和规范健康医疗大

数据应用的多项措施,通过“互联网+医疗”更好满足群众需求,成为将大数据与医疗产业

的结合上升为国家战略层面的重要举措。可以说,无论从国家战略、行业趋势,还是技术发

展和业务创新层面,医疗行业已经进入了大数据时代。一方面,随着国内医疗信息化产业的

发展,各个医疗机构已经积累了海量的电子病历、医学影像、健康体检等患者诊疗数据;另

一方面,随着基因测序、分子诊断等新兴诊断技术的成熟和发展,医疗产业又面临着新型健

康数据的大爆发。

更为引人注目的是这些医疗数据大爆发背后所隐藏的巨大价值。无论是美国的“癌症探

索登月计划”还是中国的“精准医疗”战略,所关注的都是从医疗大数据中寻找新的诊疗规

律和突破性的诊疗技术。因此在医疗大数据时代即将爆发的当下,我们所面临的最大挑战是

如何从如此繁多的各类数据中发掘价值。

与此同时,对于医疗机构而言,信息化建设也从传统的满足医院运行、管理和医保的强

迫性需求,转变为效利用医院的数据资产,提升医疗服务能力和水平,改善医院运营效率,

提高核心竞争力。

在这一背景下,医院临床数据中心的建设成为医院信息化建设的热点和焦点。根据

HIMSS Analytics 的定义,临床数据中心(Clinical Data Repository, 简称 CDR)是是指一种

临床信息整合与分析系统,能够实时的整合不同临床信息的数据源,为单一病人提供完整的

临床信息视图。CDR 的建设和应用被认为是电子病历建设的一个新阶段,是目前我国医院

信息化发展趋势,也为实现各级卫生部门区域信息共享及分级诊疗的互联互通奠定了基础。

然而,我们认为新一代的临床数据中心必须定位于实现临床信息的综合分析与全面的二

次利用,而不仅仅是传统临床数据中心所呈现单一患者的各类信息综合视图。因为,只有实

现一套侧重于医疗数据分析和决策支持体系,才能为临床、管理和科研带来更强的数据利用

能力。传统的单一患者综合视图只能为单一患者的诊疗过程带来综合信息浏览的便捷,并不

Page 2: 敏捷大数据技术打造新一代临床数据中心edmcn.net/Oracle/20160822_1/Oracle-2.pdf · 敏捷大数据技术打造新一代临床数据中心 作者:侯雪桥,甲骨文(中国)软件系统有限公司

能提供对跨患者或患者群体的数据分析和统计,而这正是循证医学的基础。因此,新一代临

床数据中心的建设必须能够对海量的患者病历数据进行综合统计分析,只有这样,才能最大

化挖掘医疗大数据背后的隐藏价值,这也 CDR 发展的一个必然趋势。

图:临床数据中心

因此,本文将在后面的章节中全面分析CDR系统建设中所面临的核心问题、技术挑战,

并创新的提出一套基于敏捷大数据技术的建设临床数据中心的技术框架和参考架构。

2 问题、挑战与思路

2.1 建设目标:

从目前中国医院信息化建设的实践出发,实现各类临床信息整合与分析,挖掘医疗大数

据的隐藏价值,首先需要正确定位新一代临床数据中心的框架性建设目标,包括:

服务对象:应能同时服务于临床医护人员、医院管理人员、临床科研人员等角色

应用场景:包括临床决策支持、临床科研、质量管理、医院运营优化、患者服务等

功能定位:临床数据中心是典型的数据分析决策支持系统,而非业务流程应用系统

项目组织形式:引入专业 IT 厂商进行平台建设,同时医院自建特定的数据分析团队,

不断拓展临床数据中心的各类应用场景。

2.2 技术挑战

在目前的实践中,对临床数据中心建设能否达到预期也有很多质疑,这些质疑通常会归

结为两个关键性挑战,即应用脱节问题和实用性问题:

应用脱节问题:即医疗领域专业的应用与大数据复杂的技术相脱节。医疗领域的各类决

策分析的专业问题需要较强的医学专业知识,而 IT 人员很多时候无法理解医疗数据和

业务问题;反过来,理解业务问题的临床专业人员又无法用 IT 语言描述数据分析需求,

从而造成医疗专业人员和 IT 人员的“鸡同鸭讲”。因而,很多人质疑存在这样的沟通差

距是否能打造成满足真正业务需求的临床数据中心。所以,只有医疗专业人员能够自主

地对医疗大数据进行自由探索和自助分析,才能真正解放数据的潜在价值。

实用性问题:很多人也在质疑,当医院的数据规模和数据质量仍存在一定限制的时候,

临床数据中心的建设是否能满足各类用户的期望。一方面,CDR 的建设确实对数据质量

Page 3: 敏捷大数据技术打造新一代临床数据中心edmcn.net/Oracle/20160822_1/Oracle-2.pdf · 敏捷大数据技术打造新一代临床数据中心 作者:侯雪桥,甲骨文(中国)软件系统有限公司

和规模有一定的基本要求;但另一方面,大数据技术体系本身也包含了一系列的数据清

洗和治理的技术手段,而数据价值也不完全与数据的规模相依赖,一定量的高价值密度

的数据同样可以支撑很多的分析应用。

图:医疗大数据分析的挑战

除此之外,CDR 建设还面临一系列技术难题,主要包括数据整合、数据质量、核心架构、

计算性能、安全性等问题,这些问题将在后面章节予以论述。

2.3 敏捷大数据技术

面对以上论述的问题和挑战,本文创新性的提出引入敏捷大数据(Agile Big Data)技术来

解决这些挑战和问题。从发展进程角度,敏捷大数据技术并不是大数据这一概念所创生时就

提出的,而是随着大数据在各个行业的深入应用发展,逐步产生并在这一两年逐渐被业界所

认定并成熟化的技术趋势。

大数据的概念最早是 2001 年由著名分析机构 Gartner 的前身 Meta Group 所提出的。其

核心概念包括著名的 3V 理论,即大数据具备数据量、时效性和异构性(Volume, Velocity,

Variety)的 3V 特征。其后,这一概念不断演进。在 2012 年,IBM 公司提出了大数据的第四 V

特征,即可疑性(Veracity)。可以看出,无论是 3V 特征还是 4V 特征,这些特征都是对数据

本身的特征而非应用性特征。有鉴于此,甲骨文公司在 2014 提出了构建大数据应用的 4S

概念,即大数据应用的显著性、标准化、安全和花费这四个概念(Significance (of the data),

Standardization (of process & data),Security (of the system, data & users),Spend (amount of

$$ spent))。

甲骨文公司随后提出了敏捷大数据概念,即通过一系列数据寻找、探索、变换、发现、

分享等技术体系的紧密配合,解决业务人员和 IT 人员脱节的问题,让业务领域专家能够自

主、自由、自助式的分析数据、发掘价值并形成协作体系,具体包括:

寻找:能够使用引导式的迭代搜索,对海量中的数据关键数据进行定位

理解:能够从数以百万计的数据特征中找到关键数据

整理:能够迅速清洗或剔除海量数据中的脏数据

发现:能够洞察数据中的价值

分享:能够发布、分享数据中发现的价值并形成协作体系

敏捷大数据的核心思路就是 IT 人员通过寻找、理解和整理等步骤将原始数据呈现为可

以被业务人员直接理解和操作的可分析数据,然后业务人员通过高度可视化的操作界面发现

Page 4: 敏捷大数据技术打造新一代临床数据中心edmcn.net/Oracle/20160822_1/Oracle-2.pdf · 敏捷大数据技术打造新一代临床数据中心 作者:侯雪桥,甲骨文(中国)软件系统有限公司

数据价值、并分享这些结果最终形成决策和行动,这一过程被甲骨文公司形象的称为大数据

的可视化变脸("Visual Face of Hadoop")。

图:敏捷大数据技术

2.4 敏捷大数据技术应用于临床数据中心建设

由于敏捷大数据技术的一系列特征,将其应用于临床数据中心建设能够解决前文所述的

最重要的两个质疑:

应用脱节问题:敏捷大数据基本目标就是让业务人员能够自由探索大数据和自助式的分

析,这样医学领域专家和 IT 人员就有了一个明确的分工,即 IT 人员负责将临床数据中

心中的医学大数据提炼和变换为医学领域专家可以直接操作的数据;医学领域专家在一

个高度可视化的分析工具中,自由的探索和自定义所需要分析的报表、图形、数据挖掘

过程,并得到相应的分析结果,这样就解决了所谓的“鸡同鸭讲”的问题。

实用性问题:在数据质量和规模存在限制的前提下,敏捷大数据技术能够通过寻找和理

解,找到具备 4S 特征中的显著性特征的数据,其本质就是在解决了应用脱节问题的基

础上,从有限的数据中寻找可能的分析价值,例如,当临床病历积累不够丰富的时候,

敏捷大数据可以让医学领域专家不断缩小研究课题的范畴,在有限的但高质量的数据中

寻找潜在规律,最大化发挥已有数据资产的价值。

3 解决方案

3.1 方案框架

甲骨文公司根据中国医院的实际数据和 IT 建设实践,已经开发出了一套基于敏捷大数

据技术的临床数据中心原型系统,其参考架构如下:

Page 5: 敏捷大数据技术打造新一代临床数据中心edmcn.net/Oracle/20160822_1/Oracle-2.pdf · 敏捷大数据技术打造新一代临床数据中心 作者:侯雪桥,甲骨文(中国)软件系统有限公司

Copyright © 2014, Oracle and/or its affiliates. All rights reserved. |

基于敏捷大数据的临床数据中心方案架构

大数据平台

EMRData Source

Layer HIS LIS PACS …

数据复制抽取清洗转换 (ETL)Data ETL

& Integration Layer

医院数据仓库

IntegratedData Warehouse

数据集市

数据展现多维分析

数据探索自助分析

Data Analytics & Biz Application

Layer

Business Application

临床决策支持

患者服务支持

运营决策优化

质量管理监控

临床科研分析

图:基于敏捷大数据的临床数据中心方案架构

在此架构中,甲骨文创新性的提出了数据仓库+Hadoop的混合型架构及应用了Oracle Big

Data Discovery 及 Oracle Data Visualization 两个创新性产品,以实现敏捷大数据的独特体验:

数据仓库+Hadoop 的混合型架构:由于医疗大数据包含结构化数据、非结构化数据的混

合结构,以及不同分析主题所依赖的分析工具的差异性,该方案采用了数据仓库

+Hadoop 的混合型架构,其中基于关系型数据库的数据仓库和数据集市更适合于分析指

标明确的纯计算性分析,例如 KPIs 型分析或趋势分析;基于 Hadoop 的数据探索和自助

分析更适合于医疗领域专家进行探索式的迭代分析,如诊疗潜在规律的发现或疑难患者

的相似历史病例的检索等。

敏捷大数据分析体验:使医师、科研人员、医院管理者,能够自主检索海量历史病例,

自助式的定义各类分析目标,具体可参见下节内容中的病例探索应用场景描述。

除此之外,针对 CDR 建设中的数据质量问题、数据整合问题、计算性能、数据安全等

问题,甲骨文方案还提供了一系列的产品进行支撑,包括 Oracle Data Integrator, Oracle

Enterprise Management 等工具,并创新性的将这些软件与硬件系统相整合,通过 Exadata 数

据库云一体机和 Big Data Appliance 等硬件设计提供最优化性能支撑。篇幅有限,详细产品

介绍可参考甲骨文公司官网(www.oracle.com)。

3.2 应用场景

这一系统的典型应用场景包括服服务于临床科研和临床决策支持的病例探索、质量监控、

医院运营优化、患者服务等场景,例如:

病例探索:让临床科研人员能够自由的定义其想分析的病例条件,在临床数据中心中进

行实时检索;在寻找到一组特定病人的基础上,自定义所想分析的目标和展现形式。从

而帮助临床科研人员从夜以继日的手工翻阅病案的落后方式中解脱出来,使复杂的海量

历史病例检索也能够瞬间完成,从而大大提升回顾性研究的效率与含金量,使历史病历

的积累转化为可以应用的有价值的数据资产,从而助力与医院临床科研的发展。

临床质量管理:结合 KPIs 指标计算和数据可视化等数据分析手段,能够帮助医院对临

床质量管理提供综合的分析和展现,使医院管理者能够拥有全方位多角度的综合视图,

针对各类终末和环节质控的目标,从病种、科室、病区、医生、患者、医技等多种角度

进行分析比对,并提供时间轴和业务科室的横向纵向比对,从而综合分析和展现临床质

Page 6: 敏捷大数据技术打造新一代临床数据中心edmcn.net/Oracle/20160822_1/Oracle-2.pdf · 敏捷大数据技术打造新一代临床数据中心 作者:侯雪桥,甲骨文(中国)软件系统有限公司

量管理的不足和提升空间,全方面和系统的提升临床质量管理能力。

3.3 参考案例

从世界范围看,虽然敏捷大数据技术才刚刚涌现,但已经被很多著名医疗机构所重视和

采用,并产生出了一些创新的开拓实践,例如:

NHS: 英国国家医疗服务体系(National Health Service, NHS)已经建立了基于甲骨文敏捷

大数据技术的数据分析方案,帮助识别和减少处方药相关的欺诈,以减少数千万英镑的

损失。NHS 使用创新的数据挖掘来发现异常诊疗行为,然后应用病例探索技术来解释异

常的诊疗行为。例如下图中,NHS 数据分析实验室(DALL)发现大量的异常镶牙服务合约

存在着超低的 X 光摄像率,再结合地图、社交媒体和公共健康数据,从而发现大量的公

共医疗服务欺诈行为。

DALL Virtual Team (DALL虚拟团队)

图:NHS 数据分析团队(Data Analytics Learning Lab,DALL)

Dental – Provision of Inlays 2014/15

(牙科 – 2014/15年镶牙服务提供)

Map of the inlay rate across the 351 English local authorities.

• Regional analysis shows that rates can

be reduced even with a lower starting

point: Midlands and East of England

was below the national average in

2009/10 but its rate decreased in step

with the national trend falling some two

percentage points by 2014/15.

• 区域分析显示即使基于较低的起始点,镶牙率仍可降低:2009/10年,中部和东部地区镶牙率低于全国平均值,但随着全国大趋势,到2014/15年仍降低了2

个百分点

Page 7: 敏捷大数据技术打造新一代临床数据中心edmcn.net/Oracle/20160822_1/Oracle-2.pdf · 敏捷大数据技术打造新一代临床数据中心 作者:侯雪桥,甲骨文(中国)软件系统有限公司

Dental – Provision of Inlays (牙科 – 镶牙服务提供)

• In 2014/15, 10 per cent of contracts

provided half of all inlays (2014/15年,10%

的合约提供了一半的镶牙服务)

• Around a third of all contracts (34.4 per

cent) provided 90 per cent of all inlays (约1/3(34.4%)的合约提供了90%的镶牙服务)

• In contrast a similar proportion of contracts

(35.4 per cent) did not provide any inlays. (

作为比较,相似比例(35.4%)的合约没提供任何镶牙服务)

• It was estimated that outlier contracts

provided an excess equivalent to 34,800

courses of Band 3 treatment nominally

equivalent to £10.5 million in 2014/15. 据此推测,在2014/15年期间,存在异常的合约提供了34800例三级治疗,相当于1050万英镑)

• Around 100 contracts were identified with

unusually high volumes of inlay treatments

but where there was an unusually low

radiograph rate. (约100例合约被识别出提供大量的镶牙治疗,同时超低的X光拍摄率)

Outlier Contracts

异常合约

图:异常的镶牙服务

匹兹堡大学医学中心(UPMC):基于甲骨文的大数据技术方案,UPMC 启动了一个 5 年

计划,通过将临床数据、基因数据、管理数据、财务数据统一成一个数据仓库,UPMC

能够将来自 200 多个数据源的海量患者数据进行统一的分析,从而为个性化诊疗提供全

面的数据支撑。

4 展望

本文论证了将敏捷大数据技术引入到新一代临床数据中心建设的价值和可行性。虽然敏

捷大数据技术刚刚出现,仍然存在着很多未成熟的技术框架,并未被各行业广泛接受,但是

相信随着在医疗行业不断探索和实践,我们相信将会涌现更多的应用场景,特别是在精准医

疗、公共卫生、分级诊疗等领域将会发挥其独特的价值;而敏捷大数据技术本身随着在医疗

行业中的深入应用,也会产生新的技术发展方向,例如对基因组学数据的处理、与高性能计

算体系的融合等方面产生新的技术突破。

参考文献

1. HIMSS Analytics. The EMR Adoption Model.[2008/7/16] http://www.himssanalytics.org/docs

/EMRAM_ att_corrected.pdf.

2. Clinical data repository, https://en.wikipedia.org/wiki/Clinical_data_repository

3. 临床数据中心构建方法探讨,安继业、薛万国等,《中国数字医学》, 2008, 3(10):13-16

4. Oracle Big Data Strategy and Roadmap, Paul Sonderegger, Oracle Open World 2015,

https://www.oracle.com/big-data/index.html

5. An Enterprise Architect’s Guide to Big Data, Reference Architecture Overview, Oracle

Whitepaper, 2016, https://www.oracle.com/big-data/index.html

6. NHS Business Services Authority (NHSBSA) Data Analytics Programme Rob Bain, 2015,

Page 8: 敏捷大数据技术打造新一代临床数据中心edmcn.net/Oracle/20160822_1/Oracle-2.pdf · 敏捷大数据技术打造新一代临床数据中心 作者:侯雪桥,甲骨文(中国)软件系统有限公司

http://oracleconnectinghealthcare.com/assets/pdf/NHSBSA%20presentation%20SEPT%2015.pdf

7. UPMC Picks Oracle to 'Unlock Secrets of Human Health', Forbes News, 2012,

http://www.forbes.com/sites/oracle/2012/10/10/upmc-picks-oracle-to-unlock-secrets-of-human

-health/#34a3e1052fed.