深圳大数据技术与产业发展研究报告 2015 -...

84
深圳市 2015 年软科学研究项目 深圳大数据技术与产业发展研究报告 (2015) 深圳先进技术研究院 2016 年 4 月

Upload: others

Post on 24-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015 年软科学研究项目

深圳大数据技术与产业发展研究报告

(2015)

深圳先进技术研究院

2016 年 4 月

Page 2: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

I

序 言

在过去十几年里,伴随着计算机硬件技术的不断进步,人类对海量信息的存储和处理能力

取得了飞跃性的进步。在这种背景下,‚大数据‛在 2011 年由全球最著名的管理咨询公司麦

肯锡首次提出并迅速在全球范围内引起共鸣。短短几年,大数据应用已经在各行各业形成不可

阻挡产业技术革新浪潮。当今社会已经进入了‚大数据‛的时代,‚大数据‛的应用正在逐步

从互联网、金融扩展到教育、政务、交通物流、医疗健康等各大社会和经济领域,其必将深刻

影响中国未来社会和经济的发展进程。

围绕‚大数据‛,正在形成一股强劲的新兴产业发展潮流,由此也必将在未来引发激烈的

产业竞争。在这一新兴产业的竞争大潮中,坚持到最后将获得巨大的利益回报。深圳作为中国

改革开放的先驱,经过三十多年的飞速发展,在国内拥有领先的技术、产业、资本和管理优势,

不能也不应错过这一轮影响深远的产业变革。

本报告正是在这样的背景下完成的,历经了数月严谨踏实的工作。首先,对国内外大数据

发展现状做了大量的调研,总结和归纳了当前大数据技术技能图谱和产业图谱,并整理了国家

与地方政策作为参考;其次,充分调研了世界范围内的大数据最新技术进展,并对深圳市‚大

数据‛相关的众多科研院所、产业技术联盟、高技术公司进行了全面认真的调研,比较客观地

展现了深圳在‚大数据‛领域的科研和技术实力;最后,在互联网、金融、教育、政务、交通

物流、医疗健康等领域进行了深入细致的调研,并基于各个领域的发展现状及问题提出对策建

议,并对大数据产业未来在深圳的发展趋势进行深度剖析。

本报告首次较为完整、全面地总结和描述了深圳大数据技术与产业的发展概况,对深圳市

的大数据决策者、从业者和研究人员而言具有较大的参考价值。本报告不仅详细地描述了大数

据技术与产业的发展动态,并针对深圳市的产业结构特点结合大数据的发展对深圳市发展大数

据产业的未来前景进行分析预测,以期望我们的努力为促进深圳市技术与产业的大发展做出贡

献!

本报告的信息和观点主要来源于 3 个方面:一是公开资料,主要包括政府公开的信息、

企业和机构网站发布的信息、公开发表的论文、新闻报道等;二是访问企业、参加会议整理获

得的资料;三是咨询和请教相关行业专家获得的信息和观点。

由于经验不足、水平有限,报告中难免存在不足、偏颇和遗漏之处,欢迎广大读者予以批

评指正。

Page 3: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

II

目 录

第一章 【综述篇】大数据技术与产业发展概述....................................................................... 1

一、大数据概念与发展历程 .................................................................................................. 1

二、 国内外大数据发展现状 ................................................................................................ 3

(一) 国外大数据发展动态 ......................................................................................... 4

(二) 国内大数据发展动态 ......................................................................................... 4

三、大数据技术技能图谱 ...................................................................................................... 5

四、当前大数据产业图谱 ...................................................................................................... 7

五、国家与地方政策分析 ...................................................................................................... 9

第二章 【技术篇】大数据技术进展 ........................................................................................ 14

一、大数据存储 .................................................................................................................... 14

(一) 基于 MPP 构架的并行数据库 ........................................................................ 15

(二) NOSQL 数据管理系统 .................................................................................... 16

(三) NEWSQL 数据管理系统 ................................................................................. 17

二、大数据计算 .................................................................................................................... 17

(一) 批处理计算模式 ............................................................................................... 18

(二) 流式计算模式 ................................................................................................... 19

(三) 迭代计算模式 ................................................................................................... 19

(四) 图计算模式 ....................................................................................................... 20

(五) 大数据计算模式的发展趋势 ........................................................................... 21

三、大数据分析与挖掘 ........................................................................................................ 24

(一) 深度学习 ........................................................................................................... 24

(二) 知识计算 ........................................................................................................... 25

(三) 社会计算 ........................................................................................................... 26

四、大数据可视化 ................................................................................................................ 27

五、大数据安全 .................................................................................................................... 28

(一) 大数据带来的安全挑战 ................................................................................... 28

(二) 大数据安全架构与关键技术 ........................................................................... 29

第三章 【技术篇】深圳市大数据技术研究进展..................................................................... 31

一、深圳主要科研院所及科研动态 .................................................................................... 31

(一)北京大学深圳研究生院 .................................................................................... 31

(二)清华-伯克利深圳学院 ....................................................................................... 31

(三)哈尔滨工业大学深圳研究生院 ........................................................................ 32

(四)深圳大学计算机与软件学院 ............................................................................ 32

(五)蓬勃发展的大数据研究院所 ............................................................................ 33

(六)科研院所研究进展分析 .................................................................................... 36

二、深圳大数据产业技术联盟 ............................................................................................ 36

(一) 大数据产业技术创新联盟 ............................................................................... 36

(二) 深圳大数据研究与应用协会 ........................................................................... 37

(三) 深圳大数据产学研联盟 ................................................................................... 38

三、深圳高技术公司技术进展 ............................................................................................ 39

(一) 华为大数据技术 ............................................................................................... 39

Page 4: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

III

(二) 腾讯数据平台 ................................................................................................... 41

(三) 中兴大数据 ....................................................................................................... 43

(四) 华傲数据集成管理平台 ................................................................................... 45

(五) 平安集团大数据 ............................................................................................... 46

(六) 宝德大数据一体机 ........................................................................................... 47

(七) 分析与展望 ....................................................................................................... 47

第四章 【产业篇】深圳市大数据产业市场状况..................................................................... 49

一、互联网与大数据 ............................................................................................................ 49

(一) 深圳互联网产业发展概况 ............................................................................... 49

(二) 大数据在深圳互联网领域的应用 ................................................................... 50

(三) 前景与发展趋势 ............................................................................................... 53

二、金融与大数据 ................................................................................................................ 54

(一) 深圳金融产业发展概况 ................................................................................... 54

(二) 大数据在深圳金融领域的应用 ....................................................................... 55

(三) 前景与发展趋势 ............................................................................................... 58

三、教育与大数据 ................................................................................................................ 60

(一) 深圳教育产业发展概况 ................................................................................... 60

(二) 大数据在深圳教育领域的应用 ....................................................................... 61

(三) 前景与发展趋势 ............................................................................................... 64

四、政务与大数据 ................................................................................................................ 65

(一) 深圳政府职能管理发展概况 ........................................................................... 65

(二) 大数据在深圳政府管理领域的应用 ............................................................... 65

(三) 前景与发展趋势 ............................................................................................... 67

五、交通物流与大数据 ........................................................................................................ 68

(一) 深圳交通物流业发展概况 ............................................................................... 68

(二) 大数据在深圳交通物流领域的应用 ............................................................... 69

(三) 前景与发展趋势 ............................................................................................... 71

六、医疗健康与大数据 ........................................................................................................ 71

(一) 深圳医疗健康业的发展概况 ........................................................................... 71

(二) 大数据在深圳医疗健康领域的应用 ............................................................... 72

(三) 前景与发展趋势 ............................................................................................... 73

第五章 【结束篇】大数据产业发展的问题与展望................................................................. 75

一、大数据人才紧缺问题与对策 ........................................................................................ 75

二、数据孤岛问题与解决办法 ............................................................................................ 77

三、深圳大数据产业发展展望 ............................................................................................ 77

参考文献 ........................................................................................................................................ 79

Page 5: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

1

第一章 【综述篇】大数据技术与产业发展概述

一、大数据概念与发展历程

1. 大数据概念的提出

大数据(Big Data)是最近几年兴起的一个技术热点,但从名字看它并不是什么新词,

因为‚大‛只是一个相对的概念。从数据处理技术的发展来看,数据库、数据仓库、数据集市

等信息管理领域的技术,也是在解决数据规模越来越大的问题。被誉为‚数据仓库之父‛的

Bill Inmon 早在 20 世纪 90 年代就开始着手研究与应用大数据。

大数据概念起源于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设

备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生

巨量的交互信息,……,等等。由于数据量非常巨大、增长太快,而业务需求和竞争压力对数

据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。因此,技术

人员纷纷研发和采用了一批新技术,主要包括分布式缓存、基于 MPP 的分布式数据库、分布

式文件系统、各种 NoSQL 分布式存储方案等。

而大数据的概念为人们所熟知是在 2011 年 5 月,麦肯锡(McKinsey&Company)全球研

究院发布的一份报告后,报告名称为《大数据:创新、竞争和生产力的下一个新领域》。

继而于 2012 年 3 月,美国奥巴马政府发布了《大数据研究和发展倡议》,使得‚大数据‛

成为国家级科技战略,并投入了 2 亿美元的研究经费。

2. 大数据的定义

尽管大数据的提法已经被普遍接受,但至今没有完全统一的定义,研究机构从不同角度给

出了不同的定义。比较权威的定义有:

维基百科中只有短短的一句话:‚巨量资料(big data),或称大数据,指的是所涉及的资料

量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮

助企业经营决策更积极目的的资讯‛。

麦肯锡在其报告《大数据:创新、竞争和生产力的下一个新领域》中给出的大数据定义是:

大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强

调,并不是说一定要超过特定 TB 值的数据集才能算是大数据。

国际数据公司(IDC)以大数据的四大显著特征——海量的数据规模(Volume)、快速的

Page 6: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

2

数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)

来解释大数据,。

从以上定义可以再次看出,大数据是一个相对宽泛的概念,见仁见智。上面几个定义,无

一例外地都突出了‚大‛字。‚大‛是大数据的一个重要特征,但远远不是全部。如果要对大

数据有更全面和深入的理解,从大数据具有的特征考察大数据可以有更清晰的认识。

3. 大数据的典型特征

大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

海量的、复杂的数据集合。‛业界通常用 4 个 V(即 Volume、Variety、Value、Velocity)来

概括大数据的特征。

一是数据体量巨大 (Volume)。目前为止,历史上人类的语言数据量总和大约是

5EB(1EB=1024PB,1PB=1024TB),人类生产的印刷材料的数据量总和已经达到 200PB,

当前,典型个人计算机硬盘的容量为 TB 量级,而一些大企业的数据量已经接近 EB 量级。

二是数据类型繁多(Variety)。数据类型的多样性可将数据划分为两种类型,分别是结构化

数据和非结构化数据。结构化数据以文本为主,非结构化数据则类型广泛,包括音频、视频、

图片、网络日志、地理位臵信息等,多类型的数据对数据的处理能力要求更高。

三是价值密度低(Value)。数据总量越大,价值密度越低。以视频为例,视频连续播放 1

小时,有价值的数据可能仅有几秒。如何通过强大的机器算法更高的提升数据的价值是大数据

的众多难题之一。

四是处理速度快(Velocity)。这是大数据不同于传统数据挖掘的最显著特征。IDC 的‚数

字宇宙‛的报告预测,全球数据使用总和在 2020 年将达到 35.2ZB。海量的数据下,提升处

理数据的效率就显得至关重要。

4. 大数据技术与产业的发展历程

上世纪 90 年代至本世纪初,是大数据技术发展的萌芽期,随着数据挖掘理论和数据库技

术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识

管理系统等。

大数据技术的形成期是 2003至 2006年,最重要的标志是搜索引擎公司Google在 2003

年和 2004 年先后发表了 GFS(Google File System)和 MapReduce 两篇论文,向世人揭

示了一种新型的使用成千上万台普通 PC 机器进行海量数据存储和运算的技术。尽管当时还没

有‚大数据‛这一说法,但这一技术,依然可以认为是当今流行的大数据技术的开端和重要基

Page 7: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

3

础。2006 年,Google 又公布了 BigTable 的论文,描述了一种适合大数据存储的分布式数据

库系统,它与前者结合,形成了一套比较完善的大数据存储、计算、服务的技术体系。同期还

有一项重要的技术进步,即列式存储技术的提出,这一技术深刻改变了数据分析的计算模式,

成为大数据技术发展的一个重要推手。

2006 年至 2012 年可以认为是大数据技术的发展成熟期,这一时期的主要推动力来源于

开源社区,以 Hadoop(开始于 2005 年)为代表的开源项目获得了雅虎、FaceBook、亚马

逊、LinkedIn、Cloudera 等互联网巨头和新兴公司的支持,甚至国内的华为、淘宝、百度等

大公司也积极参与。到 2012 年 Hadoop2.0 的推出,可以认为是大数据技术初步成熟的一个

重要标志,Hadoop 社区已经开发出了 Hdfs、MapReduce、Zookeeper、HBase、Flume、

Sqoop、Hive、Pig、Mahout、Storm 等一系列成熟的大数据软件系统,并获得学术界、产

业界的积极响应,形成一个完整的生态系统。

同时这一阶段也是大数据产业发展的初期阶段,在这一时期大数据的概念还没有完全形成

或不为人所熟知。在这一阶段应用大数据分析技术的主要有两种类型的公司:互联网企业和高

端金融机构。互联网企业以 Facebook(成立于 2004 年)和亚马逊为代表,前者使用大数据

技术对社交网络数据进行分析处理,一跃成为全球市值最高的互联网公司之一;后者应用于网

上购物信息的分析挖掘,获得了巨大的利润提升。高端金融机构则将基于列存储的数组分析技

术应用到股市数据的分析,华尔街开始进入‚股市分析员‛的时代。

从 2012 年至今,无论是大数据技术,还是大数据产业,都进入了一个新兴的发展阶段。

一方面,Hadoop社区(从2.0)开始摆脱了Google的MapReduce计算框架的束缚, Mesos、

Docker、Kafka 等新兴软件和技术的引入不断给大数据技术的发展注入了新的活力,而更引

人注目的是 Spark 的兴起,由于取得了大大优于 MapReduce 的性能,大有取代 MapReduce

的趋势。2015 年 Spark 社区发展迅速,已经初步形成了一个类似 Hadoop 的生态系统。另

一方面,大数据的概念已经开始盛行并得到各国政府的重视,大数据计算和处理技术迅速从互

联网和金融行业扩展到教育、政务、交通、物流、医疗健康等其它行业。而大数据分析职业,

也开始从华尔街走出,催生了一种全新的职业‚数据科学家‛,被《哈佛商业评论》称为是‚二

十一世纪最性感的职业‛。

二、 国内外大数据发展现状

Page 8: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

4

(一) 国外大数据发展动态

目前,国际上除在大数据概念上的研究以外,对在大数据处理及应用技术上的研究更为重

视。美国政府六个部门启动的大数据研究计划中,除了国家科学基金会的研究内容提到要‚形

成一个包括数学、统计基础和计算机算法的独特学科‛外,绝大多数研究项目都是应对大数据

带来的技术挑战,主要考虑大数据分析算法和系统的效率,重视的是数据工程而非数据科学。

国际上大数据发展呈现如下特点:

(1)国家级大数据布局相继启动

例如,2012 年 3 月,奥巴马政府投资 2 亿美元启动‚大数据研究和发展计划‛;2012

年 7 月,日本发布‚新 ICT 计划‛,重点关注大数据研究和应用。

(2)各大跨国 IT 企业纷纷进入大数据领域

在第一集团、Google、Facebook 等大数据资源企业优势明显。而甲骨文、IBM、微软、

SYBASE、EMC、Intel 等大企业也陆续推出大数据产品和方案,如甲骨文公司的 Oracle

NoSQL 数据库、IBM 公司的 InfoSphere BigInsights 数据分析平台、微软公司 Windows

Azure 上的 HDInsight 大数据解决方案、EMC 公司的 Greenplum UAP 大数据引擎等。

(3)开源大数据技术发展迅猛

以 HDFS、GFS、MapReduce、Hadoop、Storm、HBase、MongoDB 为代表的一批

大数据通用技术和开源项目迅猛发展。

(4)数据科学研究不断壮大

美国哥伦比亚大学和纽约大学、澳大利亚悉尼科技大学、日本名古屋大学、韩国釜山国立

大学等纷纷成立数据科学研究机构;美国加州大学伯克利分校和伊利诺伊大学香槟分校、英国

邓迪大学、中国香港中文大学等一大批高校开设了数据科学课程。

(二) 国内大数据发展动态

我国大数据行业虽处早期发展阶段,但已呈现春暖花开的可喜态势。大数据市场规模增速

加快,各行业领域应用不断丰富。随着应用效果的逐步显现,一些成功案例将产生示范效应,

预计 2016 至 2018 年中国大数据市场规模还将维持 40%左右的高速增长。

在大数据应用的部署情况方面,随着大数据技术和商业模式的进一步成熟,市场的焦点迅

速从概念炒作向实际应用转移,越来越多的成功案例相继在不同的领域中涌现,大数据应用逐

渐落地生根。

同时,由于多方面因素制约,我国大数据应用仍处在早期发展阶段。

Page 9: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

5

(1)数据挖掘与分析工具有待完善

开发先进的软件平台和算法可降低大数据的成本,而这需要重构整个 IT 架构。这方面,

国外已经超前。特别是近年来的大数据处理软件平台,及其相关产业在美国已初步形成。

而我国数据处理技术基础薄弱,大数据暂时不能在国内大规模应用。我国必须掌握大数据

关键技术,才能将资源转化为价值,而开源技术为我们提供了很好的基础。数据分析工具就如

同在石油开采中勘探、钻井、提炼、加工的技术,重要性不言而喻。

(2)数据的丰富和开放程度不够

大数据产业发展的前提是拥有丰富的数据源。而我国数字化的数据资源总量远远低于美国

和欧洲,数据资源还存在标准化、准确性、完整性低,利用价值不高的情况,政府和制造业的

数据资源积累尤其落后于国外,企业、行业信息化系统建设间缺乏统一的标准,‚信息孤岛现

象‛严重,数据开放率低、共享困难。

(3)业务拓展和模式创新尚显不足

企业应用大数据目的大多为改善现有业务、推销已有产品或控制成本,很少会以业务拓展、

开发新产品和创新增值服务。尽管 2014 年开始部分大数据应用尝试使用非结构化数据,但依

然是将非结构化数据进行结构化转化后,再按照常规方法处理。虽然 2015 年大数据应用已延

伸至各个领域,但应用模式类似,创新性也需要加强。

三、大数据技术技能图谱

迄今为止,大数据的应用在中国,仍然处在初级发展阶段。因此,培养人才、发展核心技

术,依然是当前最重要的任务。那么,大数据到底涉及到哪些技术?需要什么样的人才?回答

这些问题对于规划和指导大数据产业的发展具有重要意义。同时,当前‚大数据‛依然是一个

较为模糊的定义。大数据的技术,也并不完全是从头发展起来的,对于哪些技术是大数据技术,

哪些不是,也需要一个大致的划分。基于这样的目的,本文基于公开资料,整理了一个基于技

术链的大数据技术技能图谱,如图 1-1 所示。

Page 10: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

6

图 1-1 基于技术链的大数据技术技能图谱

大数据从由各种数据源生成数据到经过挖掘分析实现其商业价值需要经过四个主要的技

术阶段:数据生成、数据获取、数据存储和数据分析。由于数据主要产生于日常的商业、生活

或科研等活动,数据生成阶段的技术技能就无需讨论。大数据从业者需要掌握的技术技能集中

在数据获取、数据存储和数据分析三个阶段。

首先,数据获取即获取信息的过程,具体可分为数据采集、数据传输和数据预处理三个阶

段。数据采集是指从特定数据生产环境获得原始数据的专用数据采集技术,常用的采集方法包

括传感器、日志文件和网络爬虫。原始数据采集后必须将其传送到数据存储基础设施如数据中

心等待进一步处理。数据传输过程可以分为两个阶段,IP 骨干网传输和数据中心传输。由于

数据源的多样性,数据集由于干扰、冗余和一致性因素的影响具有不同的质量,因此数据在分

析利用之前必须经过预处理,以提高数据的质量。数据预处理的常用技术有数据集成、数据清

洗和冗余消除等。

第二,数据存储阶段需要解决的是大规模数据的持久存储和管理问题。数据存储系统可以

分为两部分: 硬件基础设施和数据管理框架。硬件基础设施实现信息的物理存储,可以从存储

技术和存储系统的网络架构两个层面进行组织。数据管理框架解决的是如何以适当的方式组织

信息以待有效地处理,按照不同层次,数据管理框架可以细分为文件系统、数据库技术和编程

模型。

第三,数据分析是指利用分析方法或工具对数据进行检查、变换和建模并从中提取价值的

过程。根据数据类型的不同,数据分析可以细分为结构化数据分析、文本数据分析、多媒体数

据分析、web 数据分析、社交网络数据分析和移动数据分析。常用的分析技术有数据可视化、

统计分析和数据挖掘等。由于数据分析最终能够将大数据转化为财富和价值,因此它是大数据

Page 11: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

7

最关键的部分。数据科学家和数据架构师成为当下最紧缺人才。

从人才培养的角度来看,大数据从业人员及数据科学家主要涉及以下四个方面的专业知识

和技能:

第一,计算机科学。一般来说,大多要求具备编程、计算机科学相关的专业背景,具体来

说就是处理大数据所必需的Hadoop、Spark等大规模并行处理技术与机器学习相关的技能,

包括:①高级语言编程,掌握 Python、C/C++、Java、Ruby、Perl、MATLAB、Pig 等编

程语言;②新型数据库,掌握 NoSQL、NewSQL 这类高扩展、高性能数据库,如 HBase、

MongoDB、Cassandra、Clustrix、VoltDB 等;③分布式计算系统,熟悉开源的 Hadoop

系列软件和新型构架,包括 MapReduce、Hive、Storm 以及 Mesos、Spark、Kafka 等不

断出现的新系统和新技术。

第二,数学和统计学。首先需要具备数学、统计学方面的专业知识,还要能够熟练使用一

些统计工具,例如 R、SAS、Matlab、SPSS,或者 Stata 等主流统计分析软件。

第三,数据挖掘。熟悉并掌握数据挖掘工具,例如 RapidMiner、Orange、以及面向统

计分析的开源编程语言及其运行环境 R 等。

第四,数据可视化。真正理解大数据背后的价值与含义还需要利用可视化工具来展现,例

如Flare、HighCharts、AmCharts、D3.js、Processing、Google Visualization API、Tableau

等可视化工具。

四、当前大数据产业图谱

认识大数据产业链的一个有效方法是使用大数据产业图谱。对于创业者而言,这也是了解

市场发展、定位自身角色一个重要的依据。大数据产业图谱在某种意义上也代表着市场话语权。

正因为如此,国际上有不少机构或个人纷纷发布了大数据产业图谱,其中不乏 Bloomberg、

Forbes、Capgemini 等国际咨询大公司背景的。比较权威当属 Matt Turck 发布的‚Big Data

Landscape‛图谱,如图 1-2 所示。

Page 12: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

8

图 1-2 Matt Turck 发布的大数据产业图谱

从图中可以看出,有大量的创业者们纷纷涌入大数据市场,某种程度上导致大数据创业市

场目前已经非常拥挤。但另一方面,大数据创业市场依然有足够的空间给新的创业公司,现阶

段大数据基础设施和分析工具领域的创新吸引了大量的资金。

虽然大数据的概念已经热炒了数年,大数据市场尚处于初期阶段。尽管有不少大数据创业

公司已经形成规模和气候,并且获得了海量融资,例如 MongoDB 已经募集 2.3 亿美元,

Plalantir 9 亿,Cloudera 1 亿。在很多大数据创业领域,创业公司们依然在为市场领袖的地

位展开激烈争夺。

大数据应用的发展进程相对缓慢,但目前阶段大数据确实已经进入了应用层。除了金融和

广告行业这两个起步较早的行业,目前正在逐步扩展到其它行业例如医疗、生物科技、教育等。

在国内,明略数据在 2015 年也发布了‚中国大数据技术精锐企业图谱‛,收录了中国目

前实力较强的 50 家企业,见图 1-3。

Page 13: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

9

图 1-3 中国大数据技术精锐企业图谱(来源:明略数据)

从这个图谱上,可以看出中国大数据企业,不像全球大数据企业那样分工细化。今天中国

的大数据市场,还没有明确的分工,领域还没有细化。另一方面,也可以看出,目前中国有实

力的大数据企业还较少,尤其是技术上有实力,能够在某一项细化技术上国际领先的企业还非

常少见。国内大数据市场属于刚刚起步的阶段,企业细分、定位并不是十分明确,很多公司都

是什么都做。因此,引导国内企业在整个中国大数据市场内找到自己定位,避免恶性竞争,是

非常必要的。

五、国家与地方政策分析

大数据产业的发展,离不开国家和地方政府的政策支持和引导。正是在政府的高度关注和

大力支持下,我国大数据行业取得了快速增长,初步形成产业链和技术体系。

国际上,美英日澳等国家高度重视大数据产业发展,自 2012 年以来密集出台多项政策予

以引导支持。各国政策着力点主要有三个方面:一是开放数据,给予产业界高质量的数据资源。

二是在前沿及共性基础技术上增加研发投入。三是积极推动政府和公用部门应用大数据技术。

在国内,我国大数据产业发展的政策环境正在不断完善,尤其是 2015 年以来,国家层面

密集发布了相关政策文件,而且工信部正在组织编制大数据产业‚十三五‛发展规划(具体内

容详见表 1-1)。

Page 14: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

10

表 1-1 国家层面大数据发展相关政策一览

发布日期 发文机关 政策名称 主要内容

2015 年

1月30日 国务院

《国务院关于促进云计算创新

发展培育信息产业新业态的意

见》

充分发挥云计算对数据资源的集聚作用,实现数

据资源的融合共享,推动大数据挖掘、分析、应

用和服务。

2015 年

7 月 4 日 国务院

《国务院关于积极推进‚互联

网+‛行动的指导意见》

组织实施‚互联网+‛重大工程,重点促进以移动

互联网、云计算、大数据、物联网为代表的新一

代信息技术与制造、能源、服务、农业等领域的

融合创新。

2015 年

7 月 1 日

国务院办

公厅

《国务院办公厅关于运用大数

据加强对市场主体服务和监管

的若干意见》

充分运用大数据、云计算等现代信息技术,提高

政府服务水平,加强事中事后监管,维护市场正

常秩序,促进市场公平竞争,释放市场主体活力,

进一步优化发展环境。

2015 年

9 月 5 日 国务院

《国务院关于印发促进大数据

发展行动纲要的通知》

部署三大任务:一要加快政府数据开放共享,推

动资源整合,提升治理能力。二要推动产业创新

发展,培育新兴业态,助力经济转型。三要强化

安全保障,提高管理水平,促进健康发展。

明确七大政策机制:一是建立国家大数据发展和

应用统筹协调机制。二是加快法规制度建设,积

极研究数据开放、保护等方面制度。三是健全市

场发展机制,鼓励政府与企业、社会机构开展合

作。四是建立标准规范体系,积极参与相关国际

标准制定工作。五是加大财政金融支持,推动建

设一批国际领先的重大示范工程。六是加强专业

人才培养,建立健全多层次、多类型的大数据人

才培养体系。七是促进国际交流合作,建立完善

国际合作机制。

2015 年

7月31日 工信部

《大数据产业‚十三五‛发展

规划》第一次编制会议

大数据产业发展规划要以创新应用为驱动,围绕

大数据产业培育这一核心,抓好大数据产业关键

能力培养、大数据创新应用培育、大数据开放共

享环境建设等方面工作。该规划有望在四季度发

布。

资料来源:根据公开资料整理

同时,各地政府在推动大数据发展上也非常积极,2013 年以来各地陆续出台了各类推进

计划和政策措施。例如,上海市 2013 年中在《推进大数据研究与发展三年行动计划》提出以

技术研发和应用创新为重点,力争三年内突破大数据共性关键技术,研制出若干大数据核心装

备,深入推进大数据公共服务应用和行业应用。2014 年中又启动了‚数据科学和大数据人才

培养计划‛,将在未来 3 年培养和引进千名高端数据人才。

又如,北京市中关村 2014 年初在《关于加快培育大数据产业集群推动产业转型升级的意

Page 15: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

11

见》提出,要在中关村培育形成具有全球影响力的大数据产业集群,培育 500 家大数据企业

和一批领军企业;在该意见的推动下,2015 年中,由北京市政府带领,中关村管委会、海淀

区政府、北京大学、北京工业大学等四方推动下,产业界共同参与,计划用 5 到 10 年时间建

成高水平的‚大数据产业园‛。

广东省则在 2014 年 2 月成立全国第一个大数据管理机构——广东省大数据管理局,专门

负责政府部门的信息采集、整理、共享和应用,年底发布了《广东省大数据发展规划 2015-2020

年》征求意见稿。在 2015 年的政府工作报告上,广东省提出将依托‚天河二号‛超级计算机

建设国家大数据研究中心,研发突破大数据关键核心技术。此外,湖北、陕西、重庆、贵州等

地也都计划建设大数据产业基地,有意将大数据培育成省内的支柱产业。

表 1-2 地方政府推动大数据发展的政策与举措一览

地方政府 政策或举措

广东 1.成立广东省大数据管理局

2.制订《广东省大数据发展规划(2015-2020 年)》

上海

1.出台《上海推进大数据研究与发展三年行动计划》(2013-2015 年)。

2.上线‚上海市政府数据服务网‛,累计开放数据集逾 500 项。

3.开放十大领域、总容量达上千 GB 的交通大数据,举办‚上海开放数据创新应用大赛‛,推动

数据应用创新。

北京

中关村

1.出台《加快培育大数据产业集群推动产业转型升级的意见》

2.成立中关村数海大数据交易平台

3.谋划打造京津冀大数据走廊

重庆 1.出台《重庆大数据行动计划》

2.规划建设重庆仙桃数据谷,打造以云计算、大数据和跨境电商产业为主的高新科技产业园。

贵州

1.出台《贵阳市大数据产业行动计划》、《关于加快大数据产业发展应用若干政策的意见》、《贵

州省大数据产业发展应用规划纲要(2014-2020 年)》和《贵州省信息基础设施条例》等政策

2.成立国内首个大数据战略重点实验室和大数据交易所

3.建设贵阳贵安大数据产业发展集聚区

4.建立中国三大移动运营商(中国移动、中国电信、中国联通)的南方数据中心,是中国首个

全域公共免费 WIFI 城市和首个政府数据开放示范城市。

武汉

1.出台《武汉市大数据产业发展行动计划(2014—2018 年)》

2.成立湖北大数据交易中心交易平台

3.上线‚武汉市政务云数据网站‛

通过对国家和地方大数据发展相关重要政策的梳理和分析,我们可以看出国家和地方对大

数据发展的政策支持,主要呈现出以下特点:

(一)加强顶层设计指导,前瞻性布局

近年来,国务院高度重视大数据技术与产业发展,出台了重要的纲领性文件保障大数据行

业健康快速发展,这些政策法规从宏观的顶层设计视角出发,对我国大数据行业发展做出整体

Page 16: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

12

规划和全面布局,极大地促进了大数据行业发展。从政策发布时间及发布内容来看,国家对大

数据发展规划是阶段递进的,出台的政策都对大数据工作做出重要批示,明确了大数据的战略

地位、时代重任、发展方向以及其重点,提出大数据要服务产业升级,与产业发展深度融合,

推动大数据与产业转型升级衔接配套。

各地方政府则在中央政府的政策指导下,依据各自的优势和特点,做出前瞻性的布局。例

如,上海市立足于自身数据资源丰富、数据产业发达的优势,提出研究大数据基础理论,攻克

关键技术,研制大数据核心装备的思路,将政府工作的重心放在推动企业技术创新、引进培养

人才、建设保障体系上,意图最终形成大数据领域的核心竞争力。

北京市则依托其强大的高校和科研实力,积极推动大数据技术的产业化。中关村地区凝聚

了包括清华大学、北京大学在内的著名高校以及一大批高新技术企业,科研实力在国内独占鳌

头,据此提出了大数据产业集群、大数据产业园的概念,目标是最终培育形成大批具有全球影

响力的大数据企业和领军企业。

广东省的优势则是在于其经济发展水平高,电子产业发达,区域内包含有腾讯、中兴、华

为等一批具有竞争力的大企业。因此广东省的政策导向主要以‚大数据基础设施建设‛和‚大

数据资源开发‛作为突破口,积极推动网络、云计算、数据采集等基础设施建设,致力建设一

批包括全省政务大数据库、经济管理大数据库、社会管理大数据库基本建成,政府数据公开网

站开放数据等一大批政务及领域数据集;同时推动大数据在各个领域的应用,发挥腾讯等公司

的带动作用推动互联网大数据应用;最终目标是促进全省产业转型升级和生产方式转变,提升

全省信息化总体水平。

(二)注重关键技术研发和人才培养

除去北京中关村地区以外,各地在大数据发展上普遍都遇到技术能力不足、人才匮乏的难

题。为了解决这一难题,各地方政府都纷纷把研发大数据关键技术和培养人才放在首要的位臵

上,在政策上予以优先支持。例如上海市面向本地高校群启动‚数据科学和大数据人才培养计

划‛,北京市依托高校创办‚大数据研究院‛,广东省依托‚天河二号‛超级计算机建设国家大

数据研究中心,都力图集中本地区优势科研力量,突破大数据关键技术,培养大数据人才。而

在其他省份、城市,各地高校也纷纷在地方政策的引领下,积极推出大数据学科发展计划。

(三)实施政府数据资源建设和开放共享

大数据产业的前提是数据,而政府本身是数据的拥有者。因此各地政府纷纷将建设政府数

据资源、推动数据开放共享,作为一条重要的重要的政策推出。同时,统筹规划大数据基础设

Page 17: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

13

施建设,支持宏观调控科学化,推动政府治理精准化,推进商事服务便捷化,促进安全保障高

效化,加快民生服务普惠化。这一政策,不仅能够推动社会资源整合,而且提升政府治理能力。

(四)探索培育大数据产业创新发展模式

各地纷纷把培育大数据新兴产业作为核心目标,大力推进产业创新发展,培育相关新兴产

业,助力经济转型。各地因地制宜,提出了大数据产业园、大数据产业基地、大数据产业聚集

区等发展模式,将大数据发展与科研创新有机结合,推动其在新兴产业、工业、农业农村等行

业领域应用,同时,夯实基础研究,加强核心技术攻关,形成大数据产品体系和产业链的完善。

Page 18: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

14

第二章 【技术篇】大数据技术进展

大数据技术通过数据分析技术将海量数据中包含的信息和知识识别出来,可以为人们的经

济和社会活动提供有价值的参考意见,进一步提高国民经济中各个行业的运行效率,进而使全

社会的经济集约化程度得到提高。随着大数据技术日新月异的发展,每年在各个领域都会出现

大量的新技术,丰富了大数据存储、大数据可视化、大数据计算、大数据安全、大数据分析与

挖掘、大数据性能监控的有效手段,不断出现的新平台和新工具在完善大数据处理技术的同时

给各个行业提供了新选择。大数据技术浩繁,难以用一个简单标准来进行分类,图 2-1 择大

数据内容的重点内容组织如下。

数据存储 数据计算 分析与挖掘 安全与监控等

数据采集

并行数据库

NoSQL数据库

NewSQL数据库

批处理计算

流计算

图计算

...

深度学习

知识计算

社会计算

数据安全

性能监控

...

数据可视化

图 2-1 大数据技术体系结构

一、大数据存储

大数据存储面临三个方面的挑战:一是数据存储规模大,往往达到 PB(1000TB),甚至

EB(1000PB)量级。二是在大数据量的条件下,存储管理复杂度增加,同时数据类型包括

结构化、半结构化和非结构化的数据。三是应用要求存储系统的可靠性和性能需要具有更高的

指标,数据的规模庞大和数据本身具有高复杂度增加了技术指标的困难,因此,在大数据背景

下,解决这些问题必然要求存储技术的极大进步。

可以说,在大数据概念和技术流行之前的 30 多年里,关系数据库系统占据着数据存储市

场的绝对统治地位。而如今,在大数据需求的驱动下,出现了新型的数据库,比如 NoSQL、

NewSQL 等,使数据的存储方式出现了‚百家争鸣‛的发展现象,图 2-2 将目前的多种数据

库系统做了分类展示。

可以看出数据库可以分为关系型数据库、非关系型数据库、数据库缓存系统。例如,NoSQL

Page 19: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

15

数据库是非关系型数据库的一种,非关系型数据库又可以分为:列存数据库、键值数据库与图

存数据库、文档数据库等 4 类。

除去 NoSQL、NewSQL 等新兴概念,近年来还有一种新型数据库思想正在引起大数据研

究人员的关注,即基于 MPP 构架的并行数据库。与其它类型的大数据存储系统不同的是,它

关注的是‚并行‛,而不是‚分布式‛。并行的思想使得它能够在很短时间内处理非常大的数据

量,因而适用于特定类型的大数据分析挖掘。

图 2-2 数据库系统的分类

下面就并行数据库、NoSQL 数据库、NewSQL 数据库的技术发展做一些简要的分析。

(一) 基于 MPP 构架的并行数据库

并行数据库系统(Parallel Database System)是在早期的发展基础上,重新引起关注,

采用的关键技术是 MPP 和集群并行计算。

基于 MPP 架构的并行数据库,采用集群的方式,重点是针对行业中的大数据,运用的机

构是 Shared Nothing,涉及到的大数据处理技术有列存储、粗粒度索引等,利用 MPP 架构

的分布式计算模式,集群的运行环境要求只需要低成本 PC Server 就可以胜任,在很多企业

有广泛的应用。

基于 MPP 架构的并行数据库可以有效实现 PB 级别的结构化数据分析,极大的拓展了这

Page 20: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

16

是传统的关系数据库的应用空间。对于拥有大规模数据的企业,是构建数据仓库和结构化数据

分析优先选择。

基于 MPP 架构的并行数据库的目标是高性能和高可用,具体的实现方式是通过多个节点

并行执行数据库任务,使数据库的可用性和性能得到提高和有效利用。 基于 MPP 架构的并

行数据库采用了很多新新技术,如结果缓存、压缩、I/O 共享、索引、实体化视图等。与一些

早期的系统如 Teradata 必须部署在专有硬件上不同,最近开发的系统如 Aster、Vertica 等

可以部署在普通的商业机器上。

在国内,南大通用公司开发的 GBase 8a 数据库,是结构化大数据分析领域的产品,与

国外同类主流产品保持技术同步,市场同级。以大规模并行处理、列存储,高压缩和智能索引

技术为基础,具有满足各个数据密集型行业日益增大的数据分析、数据挖掘、数据备份和即席

查询等需求的能力。

并行数据库系统的特点是它适合一次处理非常大的数据量,通过并行机制能够获得极大的

数据吞吐率。但它并不适合处理很多次的小数据量,这对它的应用范围造成了一定的限制。此

外,并行数据库系统的一个主要缺点就是没有较好的弹性,并行数据库进行设计和优化的时候

认为集群中节点的数量是固定的。并行数据库的另一个问题就是系统的容错性较差,如果节点

的故障发生在查询过程中,必须从头开始重新执行查询。

(二) NoSQL 数据管理系统

NoSQL 是伴随着大数据技术出现发展起来的区别于支持 SQL 的传统关系数据库的新型

数据存储系统。它们首先是一批为了解决大数据存储(传统关系数据库无法有效存储)而产生

的数据库系统,一开始认为 SQL 不适用于大数据的处理,所以称为 NoSQL,后来又对这一

说法进行改进为‚Not Only SQL‛,即对关系型 SQL 数据系统的补充。

这类数据库通常没有固定数据模式并且可以水平扩展,普遍采用了这一些技术:

(1) 简单数据模型。通常系统只需支持单记录级别的原子性,不会产生分布式事务的开

销。

(2) 弱一致性。采用弱一致性模型可以极大的简化系统开发的难度,同时也可以减少同

步开销。

(3) 元数据和应用数据的分离。元数据保持一致且实时,而应用数据的一致性需求则因

Page 21: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

17

应用场合而异。

通过这些技术,NoSQL 数据存储管理系统实现了高吞吐量、高可扩展性、低硬件成本等

等优秀的特性。非常适合于一般性的大量数据存储需求。

当前,NoSQL 数据库已经发展到一个较为成熟的阶段,在开源社区维护的 HBase 和

Cassandra 等优秀系统得到了广泛使用和认可。

尽管被称为‚NoSQL‛,但近年来的一个发展趋势却是在其上增加一个 SQL 访问层,如

Apache Phoenix 和 SparkSQL。从这一点上说,NoSQL 和 NewSQL 有异途同归的趋势。

这必然也会提高 NoSQL 系统的实用性,使这些高性能的大数据技术为更多人所接受。

(三) NewSQL 数据管理系统

传统的关系数据的处理海量数据的性能和扩展性能,曾经被认为是 SQL 和 ACID 造成的

限制,但是这种观念在最近的研究中证明了其存在不准确性,最新的研究成果认为制约系统性

能的更大原因是日志机制、锁的设计、缓冲区控制等外围因素,因此,可以通过改进提高这些

技术,获得性能的提高。

关系型数据库需要优化很多相关的因素包括:锁、通信、日志和缓冲区管理等代价较大的

开销。为了提高整个系统的性能,可以通过采用不同的设计,例如将整个数据库运行在内存中,

又比如取消耗费资源的缓冲池等等改进手段。这种新型的可扩展、高性能的 SQL 数据库被称

为 NewSQL。但是 NewSQL 也是很宽泛的概念,大致可以分为三个类别,第一类比如 Tokutek、

JustOne DB;第二类包括 ScalArc、NimbusDB 、ScaleBase、Clustrix、GenieDB,也

包括带有 NDB 的 MySQL 集群;第三类包括 Microsoft 的 SQL Azure、Amazon 的关系数

据库服务、FathomDB 等。一方面可以兼容关系数据库产品,另一方面可以通过提高性能,

进而克服水平扩展带来的问题,以上三类 NewSQL 数据库都是从不同的角度解决了这些方面

的问题。

NewSQL数据库可以在满足 NoSQL数据库的可扩展性要求的同时提供 SQL数据库的质

量保证,可以说同时兼顾了两者具有的优点。比如 NewSQL 的产品中 VoltDB 通过使用

NewSQL 的方法,最终将处理事务的速度提高到传统数据库系统的 45 倍,同时具有良好的可

扩展性。

二、大数据计算

Page 22: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

18

大数据计算,依据多样性的大数据来源,具体分析数据的不同特征和性质,挖掘并建立数

据中隐含的抽象模型。这与传统的并行计算处理方法不同,传统方法是从编程语言和体系结构

方面定义并抽取模型,但是,处理大数据问题同时具有更高层次的计算和数据特征,需要结合

这些具体的特征,采用不同的分析、挖掘算法、开发更高层次上面的计算模式和有价值信息。

正因为大数据的多样性处理需求,研究者开发出了很多对应的大数据计算模式,也同时开

发了很多大数据计算工具和处理系统,如批处理计算、流式计算、迭代计算、图计算等,最后

本节分析了大数据计算模式的发展趋势。

(一) 批处理计算模式

大数据后第一批处理系统适用于计算的存储,实时的需求不高,同时,更重要的是数据的

准确性和完整性。批量数据处理等典型应用场景的社交网络、Facebook、新浪微博、微信以

人为本,社会网络产生大量不同形式的数据,如文本、图像、音频和视频。批处理这些数据可

以分析社会网络,发现和暗示的人之间存在的关系,或他们的社区,并推荐朋友或相关主题,

改善用户体验。

在过去,最适合于完成大数据批处理的计算模式一般认为是 MapReduce。它是 Google

公司在 2003 年提出来的一种新型分布式计算的编程模型,在学术界和工业界引起了很大反响。

MapReduce 是一个单一的输入,两个阶段(Map 和 Reduce)数据处理。首先, MapReduce

将数据的关系简化,容易使用并行处理大规模数据的‚分而治之‛的思想,然后大量的重复过

程总结的数据记录 Map 和 Reduce 操作两个抽象;最后图提供了一个统一的并行计算框架;

并行计算的系统层细节涉及到计算框架来完成,这极大地简化了程序员并行编程的负担,同时

提高了开发效率。

MapReduce 的简单易用性使其成为大数据处理领域里一种备受推崇的并行计算模式。在

开源社区的帮助下,开源的 Hadoop 系统已成为一个成熟的大型数据处理平台,并已发展成

为一个包括很多数据处理工具完整的生态系统和环境。现在几乎所有的国内外著名 IT 公司在

Hadoop 中使用大数据平台为企业计算。

但在最近几年,MapReduce 一统天下的局面正在发生改变。在开源社区,一种新兴的替

代系统 Spark 发展迅速,因为能够取得大大优于 MapReduce 的性能而大受欢迎。在 2015

年,Spark 发展迅速,逐渐形成了自己的生态系统。

Page 23: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

19

(二) 流式计算模式

流式计算模式是一种保证高实时性计算模型,需要应用系统产生新的数据在一定时间窗口

完成实时计算,避免造成数据积累和丢失。很多行业的大数据应用,如电信、电力、道路、监

控应用程序和网络访问日志处理,同时交通流量大数据和大量历史数据的积累,从而提供批处

理计算模式。同时,系统还需要能具备高实时性的流式计算能力。流式计算的一个特点是数据

运动、运算不动,不同的运算节点常常绑定在不同的服务器上。流式数据处理已经在业界得到

广泛的应用,典型的系统有 Twitter 的 Storm、Linkedin 的 Samza 等。

1. Storm 系统

Twitter 的 Storm 系统是一个分布式、可靠和可用于处理流数据的容错系统。其流处理

工作是分发给不同类型的组件,每个组件负责一个简单、具体的处理任务。Storm 可以用于

实时处理的新数据和更新数据库、实现容错性和可扩展性。Storm 还可用于连续计算,连续

查询数据流,以流动计算的形式将运算结果输出给用户。它还可以用于分布式 RPC,并行运行

复杂的计算方式。

Storm 的主要特点是,(1)编程模型简单,Storm 提供类似于 MapReduce 的操作,使

并行批处理与实时处理的复杂性进一步降低。(2)容错性,个别节点的故障可以正确地恢复。(3)

水平扩展,拥有良好的水平扩展能力。 (4)消息处理快速可靠,采用的消息队列是 ZeroMQ,

使消息传递的速度大大提高。

2. Samza 系统

Samza 系统是 Linkedin 公司早期开发的一款消息队列软件——Kafka,由于其优越的性

能,得到了广泛的好评,并在许多流式大数据处理系统中得到了广泛的应用,作为系统底层的

消息处理单元。Kafka 是一款优秀的消息队列系统,性能十分出色。2013 年,Linkedin 基

于 Kafka 和 YARN 开发了自己的流式处理框架——Samza。

除了上述这两个系统,近年来流计算的一个主要发展趋势是 Spark Streaming,这得益

于 Spark 社区的快速发展。目前 Spark 更加易于开发,而 Storm 在实时性上做得更好。

(三) 迭代计算模式

为了克服 Hadoop MapReduce 难以支持迭代计算的缺陷,工业界和学术界对 Hadoop

MapReduce 进行了不少研究,进行改进。Hadoop 将迭代控制在 MapReduce 的框架内执

Page 24: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

20

行,并采用循环敏感的调度程序,以确保减少迭代之间的数据传输量,迭代映射输出和输入数

据在同一物理机器,为了减少数据传输开销之间的迭代,iMapReduce 保持 Map 和 Reduce

任务的持久性的基础上,避免启动和调度开销;而 Twister 在前两者的基础上进一步引入了可

缓存的 Map 和 Reduce 对象,利用内存计算和 pub/sub 网络进行跨节点数据传输。目前,

一个具有快速和灵活的迭代计算能力的典型系统是 Spark,其采用了基于内存的 RDD 数据集

模型实现快速的迭代计算。在过去几年特别是 2015 年,Spark 发展非常迅速,已经逐渐成

为领域的标准,未来发展不可限量。另一个典型系统是 Google 的 Dremel 系统,它取得了令

人惊叹的性能,但它是 Google 开发的系统,目前只有 Google 自己能用。

1. Spark

Spark 是一个基于可扩展内存计算的开源集群计算系统。针对 MapReduce 的缺陷,磁

盘 I / O 的效率很低,大量的网络传输,Spark 使用内存数据快速查询处理计算,实时返回结

果分析。Spark 是比 Hadoop API 更高级上的 API,Spark 的相同的算法比运行 Hadoop 快

10 倍 100 倍。在技术层面上,Spark 与 Hadoop 兼容存储层 API,可访问 HDFS、HBASE、

SequenceFile 等等。Spark -壳可以打开一个交互式 Spark 命令环境,能够提供一个交互式

查询,这提高了 Spark 使用的便捷性。

2. Dremel

Dremel 是谷歌的交互式数据分析系统的研究与开发成果,专注于只读嵌套的数据分析。

Dremel 可以形成成千上万的服务器集群规模和 PB 级的数据处理。Dremel 可以缩短处理时

间为几秒钟,而传统的 MapReduce 完成加工任务,最短需要几分钟的时间,两者在处理时

间上的比较是数量级的不同。

(四) 图计算模式

Web 链接之间的联系图、社交网络等应用中包含了大量的图数据,这些图数据具有复杂

的关系、规模庞大、图中往往具有数十亿的顶点和上万亿的边数。关系的复杂性和大规模的数

据,给图数据的存储管理和计算分析带来了很大的技术难题。用 MapReduce 计算模式处理

这种具有复杂数据关系的图数据通常不能适应,为此,需要引入图计算模式。

为处理呈现出图模式的数据,已经开发出了很多的图计算系统,其中采用分布式处理技术

中,具有代表性的系统包括,谷歌公司的 Pregel 系统、脸谱公司基于 Pregel 上继续开发的

Page 25: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

21

Giraph、微软公司的 Trinity、Spark 下的 GraphX,以及 CMU 的 GraphLab 以及由其衍

生出来的目前性能最快的图数据处理系统 PowerGraph 等。

1. Pregel 系统

送入 Pregel 的数据是一个有向图(directed graph),每一个顶点(vertex)用一个字符

串标注。可以在每一个顶点和边(edge)上定义一个可修改的数值。每一条边还记录了指向

的顶点字符标注。 数据送入之后,图在系统中建好(initialization),之后各个节点开始运行

算法处理数据。当一个节点结束计算之后,该节点停止运行,如果有新任务分配,则又重新开

始运行,然后再次停止。当所有节点全部停止运行,并且没有新任务分配的时候,整个算法停

止。

Pregel 在 Google 内部取得很大的成功,据称 Google 内部有 20%的计算任务是采用

Pregel 实现的。

2. Neo4j 系统

Neo4j 是一个高性能的,NOSQL 图形数据库,它在图(网络)中而不是表中存储数据。Neo4j

同样提供了大规模可扩展性,可以通过扩展到多台机器在一台机器上达到处理数十亿节点/关

系/属性的图的目标。

3. Trinity 系统

Trinity 系统是由微软开发的一种图数据库系统,采用基于内存的数据计算和存储模式,

目前在微软为 Probase 和 AEther 这两个产品服务。下面是其特性介绍:(1)数据模型:超

图结构(这里说的超图是结点可以与任意多个其它结点相连接)。(2)分布式:可以将 Trinity

部署在一台机器,也可以在数百台机器上。(3)图结构数据库:Trinity 是一个基于内存存储

的图结构存储数据库系统,可以实现实时查询,也可以实现类似于 Map/Reduce 的后台批量

计算任务,提供基于 C#的客户端 API。(4)一个并行计算系统:Trinity 支持大规模的批量

数据运算,并步或异步模式都支持。

(五) 大数据计算模式的发展趋势

近年来,一方面由于大数据处理和应用需求的飙升,也因为大数据处理的多样性和复杂性,

鉴于上述典型的大数据处理和计算方式,学术界和产业界的研究来推出一个个新的或改进的计

算模型和系统工具平台。目前主要有以下四个方面的重要的发展趋势:Hadoop 性能改进和增

Page 26: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

22

强,混合数据计算模型、基于大数据的内存计算模式和技术,以及容器化管理。

1. Hadoop 性能改进和增强

尽管Hadoop也有许多缺点,但不可否认Hadoop已经发展成为最主流的数据处理平台,

并被广泛使用。因此,人们不会放弃 Hadoop 平台,但是会努力改善和发展现有的平台,增

加其适用各大数据处理问题的能力。目前,计算模型的 Hadoop 社区正努力扩展现有的框架

和平台,为了解决现有的版本在系统架构、计算性能、计算模型和处理能力上面的一些缺点,

这就是当前 Hadoop2.0 新版本‚YARN‛的目标。现在不断出现新的计算模型和计算系统,

预计在未来很长一段时间,Hadoop 平台将与各种各样的新计算模型和系统共存,形成新一代

的大型数据处理系统和平台。

2. 混合数据计算模型

现实世界存在复杂的大数据环境,它也可能包含不同的特征数据和计算,在这种情况下,

单一计算模型的难以满足整个应用程序的需求,因此需要考虑混合使用不同计算模型。

混合使用不同计算模型可以考虑两个方面。一个方面是传统的关注并行计算系统的结构和

较低的混合编程语言水平的并行计算模型,例如,在架构层,根据大数据应用程序需要构建系

统架构的混合,如 MapReduce 集群+ GPU - CUDA 的混合,MapReduc 集群+基于 Intel

Xeon Phi 核协议处理系统的混合模型 OpenMP / MPI。

混合使用不同计算模型的另一个层面,是大数据处理的高级计算模式的混合。例如,大数

据的应用程序可能还需要提供流计算模型,以获得每天产生的大量的流数据,这些数据都保存

为历史数据,这个时候需要实现数据查询分析,可以基于 SQL 或 NOSQL 的数据查询分析的

能力。此外,为了商业智能分析,可能还需要基于机器学习、数据挖掘的深度分析,系统需要

能够提供离线批处理计算模型和迭代计算模型复杂的机器学习算法;一些大数据计算任务可能

涉及复杂的图计算、直接或间接计算的问题。因此对于许多大数据处理的问题都需要各种各样

的混合计算模式的支撑。此外,为了提高各种计算模式在处理大型数据实时计算性能,往往各

种计算模式和内存计算模型混合实现高实时数据查询和分析。

混合使用不同计算模型,例如加州大学伯克利分校 AMPLab 研究和开发的 Spark 系统,

现在已经成为 Apache 的开源项目,几乎涵盖了所有的大数据的典型计算模型,包括批处理计

算、流式计算、迭代计算、图计算、数据查询、分析,实现了很好的计算性能,同时兼容 Hadoop

平台。

3. 内存计算

Page 27: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

23

为了将大数据处理的性能进一步提高,目前已经有一个基本共识,伴随不断降低的内存成

本,将最终通过内存计算解决大数据计算高实时响应的性能障碍,这是最有效的技术手段。所

以越来越多的研究人员和开发人员关注大数据计算基于内存处理技术,不断推出各种各样的基

于内存计算的模型和系统。

内存计算是一个架构层面的解决方案,从而可以应用于各种不同的计算模型,从基本数据

查询分析和计算、批处理和流动计算、然后迭代计算和图计算,可以采用基于内存计算的技术

来实现,所以我们可以看到各种各样的大数据计算模式,都采用基于内存计算系统。一个典型

的系统包括 SAP 公司开发的 Hana 内存数据库,开源的内存数据库 Redis,微软的 Trinity

图数据计算系统、Apache Spark 等。

4. 容器化管理

大数据运行规模很大,通常有成千上万的节点计算,需要云计算平台提供采用有力支撑,

采用容器和 Mesos 等技术,实现大规模并行计算,充分利用计算资源,提高效率。

图 2-3 基于 Mesos 的容器架构

一般云计算平台提供虚拟机,但 docker 容器比虚拟机性能更好,功能更强大,更适合大

数据计算。Mesos 能够在同样的集群机器上运行多种分布式系统类型,更加动态有效率低共

享资源。提供失败侦测,任务发布,任务跟踪,任务监控,低层次资源管理和细粒度的资源共

享,可以扩展伸缩到数千个节点。

目前流行的容器构架是基于 Mesos 的,如图 2-3 所示。它采用 Mesos 实现任务管理,

具体运行各个应用任务,完成大数据的处理。Framework 是指外部的计算框架,如 Hadoop,

Spark 等,这些计算框架可通过注册的方式接入 Mesos,以便 Mesos 进行统一管理和资源分

Page 28: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

24

配。实时流计算采用 Storm、大量迭代计算采用 Spark,大规模批处理计算采用 Hadoop,

这些技术都需要 Docker、Mesos 支撑。对于大规模批处理计算采用 Marathon 调度管理,

性能优越。

容器技术提供优质服务,降低成本,高效稳定,提高效率,便于开发和维护。目前谷歌、

阿里的大数据都使用这种技术。显而易见,容器化是未来大数据计算的一个发展潮流。

三、大数据分析与挖掘

大数据中蕴含的宝贵价值成为人们存储和处理大数据的驱动力,同时也提出了更高的要求,

需要在数据处理理念上有三大转变,即要效率不要绝对精确、要全体不要部分抽样、要相关不

要因果。所以处理海量数据对于技术上来说具有重大的难度,前沿的大数据分析和挖掘研究主

要集中在深度学习、知识计算和社会计算三个方面,下面分别予以论述。

(一) 深度学习

2006 年,Hinton 等人提出深度学习的概念,提出了非监督贪心逐层训练算法,基于基

于深信度网(DBN),目的是解决深层结构相关的优化难题,之后又提出了一种深层结构:多层

自动编码器。同时,Lecun 等人提出了卷积神经网络,这个网络利用空间相对关系减少参数

数目,以此来提高训练性能,是第一个真正多层结构学习算法。

如果将学习结构看作一个网络,总结深度学习的核心思想包括:

(1)无监督学习用于每一层网络的预训练;

(2)用无监督学习每一次只训练一层,然后用每次的训练结果作为更高一层的输入;

(3)采用自顶而下的监督算法去调整所有层。

通过与 hintion 合作,微软研究人员首先将 RBM 和 DBN 结合到声学模型的语音识别训

练,这在大词汇量语音识别系统是一个巨大的成功,达到语音识别错误率相对减少 30%的目

标。但 DNN 不是有效的快速并行算法,许多研究机构正在利用大规模语料库的数据结合 GPU

平台,提高声学模型的训练效率。在国际上,谷歌、IBM 和其他公司正在研究 DNN 语音识别;

在国内,科大讯飞、阿里巴巴、中科院自动化所、百度等由公司或研究机构也在深入研究语音

识别的深度学习。科大讯飞于 2011 年首次应用 DNN 技术到语音云平台,并提供开发人员使

用,应用于讯飞口讯、讯飞语音输入法等产品中。百度建立了深度学习研究所(IDL),专门

Page 29: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

25

从事深度学习算法的研究,有很多深度学习技术在百度产品上应用。深度学习在百度上有很大

的影响,在人脸识别、OCR 识别、语音识别、图像搜索应用上都取得了优异的成绩。

自然语言处理等其他领域也有很多机构在开展研究,2013 年 Tomas Mikolov,Kai

Chen,Greg Corrado,Jeffrey Dean 发 表 论 文 Efficient Estimation of Word

Representations in Vector Space 建立 word2vector 模型,与传统的词袋模型(bag of

words)相比,word2vector 能够更好地表达语法信息。深度学习有很多的应用领域,其中

典型的应用包括用于自然语言处理中的机器翻译以及语义挖掘等方面。

(二) 知识计算

大数据分析的基础之一是基于大数据的知识计算,知识的计算作为一个研究热点,引起了

国内外产业发展和学术界的重视。进行高端分析数据,需要从海量数据中提取有价值的知识,

构建成支持查询、分析和计算的知识基础。

构建知识库是为了支持知识计算的基础,主要包含三个部分,多源知识的融合、知识库构

建、知识库更新。知识库构建是建立一些基本元素,包括提取实例、属性、概念和关系。从构

建方式可分为手动构建和自动构建。融合多源知识是将解决问题的知识重用。构建知识库的成

本很大,所以应尽量避免从头开始,需要考虑知识的共享和复用,需要融合多个来源的知识,

需要处理实例、属性、概念和关系冲突、重复冗余和不一致的数据清理,包括映射概念,消除

歧义,合并关系等等。大数据时代不断发展的数据和增长的知识,是知识库构建与更新的一个

巨大挑战。知识库更新分为两个层次:一个是添加新知识;二是已有知识的变化。现在开放的

网络知识更新工作少,许多人从数据库更新的角度增加、删除和修改数据库数据。开放网络更

新知识库和数据库更新有许多相似之处,但本身要求有更高的实时性。

Page 30: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

26

图 2-4 知识库构建

OpenKN 系统主要由知识库构建、知识验证与计算、知识存储、知识服务与应用 4 个模

块组成。这些模块实现了一个全生命周期的知识处理,从知识获取、知识融合、知识验证与计

算、知识存储到知识服务与应用的知识处理工作流程。OpenKN 的自适应性主要体现在自适

应知识演化处理和自适应知识获取策略两个方面。自适应知识演化处理用来描述知识演化的规

律,它分为知识库的自我更新和与其他知识库的句法——语义级融合两个阶段。在自我更新阶

段,知识演化通过作用在知识库上的两个基本运算和一系列的规则完成,即逻辑加⊕和逻辑乘

⊙运算,以及一系列基本的规则。这些规则被用于本源知识库(primitive KB)上的演化。这里

的本源知识库定义为不可以被其他知识库通过逻辑加和逻辑乘来表示的知识库。

(三) 社会计算

在线社交网络和社会媒体的出现,例如 Twitter、微信、新浪微博、Facebook 等深刻改

变了人们生活的方方面面,获取信息的方式,传播信息的方式等等,同时人和人之间的关系网

络承载着网络信息的传播,互联网络成为信息的载体互连和信息传播媒体,社交媒体强大的交

互性和时效性在信息生产、消费和沟通过程中发挥着越来越重要的作用,成为一种重要的信息

载体。社会计算一般而言是指社会行为和计算系统交叉融合而成的一个研究领域,研究的是如

何利用计算系统帮助人们进行沟通与协作,如何利用计算技术研究社会运行的规律与发展趋势。

信息由用户创建往往有很强的时效性,研究人员提出了一种时间序列聚类的方法从

Page 31: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

27

Twitter 数据挖掘法律发展趋势的热门话题。因为用户的地位和评论包括公众的意见和态度,

所以它可以将信息传递给 Twitter 中心进行用户的情感分析,将分析的民众情绪的变化总结为

七种不同情感的时间序列,然后发现这些序列可以预测股市的趋势。

在国内,社会媒体的检索与挖掘研究也受到了越来越多的重视,包括中国科学院、北京大

学、清华大学、哈尔滨工业大学、复旦大学、上海交通大学、浙江大学、微软亚洲研究院等大

学和研究机构也已经进行社会计算的研究,并且已经取得了进展,涉及的研究内容包括社会化

标签系统中的标签学习和排序、信息抽取和分类、社会化多媒体检索、协作搜索和推荐等 2。

社会计算方兴未艾,在提供了许多机会的同时,也面临着很多的挑战:主要包括(1) 个

人数据整合,同一个人在不同终端上、不同场合留下的各种行为记录散落在不同的存储位臵,

需要整合这些信息,涉及技术问题更涉及复杂的管理等问题。(2)巨量的数据存储,全面实

时的记录大规模人类行为需要极大的数据存储和管理能力。(3)隐私保护问题,因为隐私保

护方面的原因,匿名化处理是一种解决方案,但仍然可以从匿名后的数据中发现个人行为的梗

概,需要进一步研究隐私包含技术。(4)研究成果保密,通过研究揭示出某种社会关系或某

个组织的运行规律,是否需要考虑法律的保护,是否会受到个人和组织反对。

四、大数据可视化

大数据尤其是跟信息图表和可视元素用在一起时,能够更快地得到问题的答案。对于大数

据分析结果的使用者,为了方便其理解,希望看到结果以可视化的方式呈现,具体包括交互式

的展示结果,超大图的动态化展示结果是需要重点关注的两个角度。

通过将大数据分析的结果可视化,企业能够发现他们追求的价值。创建更多的信息图表,

使用更多的资源,让他们更快地获得更多的信息。这使他们意识到他们已经知道很多信息,而

这些信息先前就应该是很明显的。这就增加了部门的作用,因为他们能够提出更好的问题。它

创建了似乎没有任何联系的数据点之间的连接。人们能够分辨出有用的和没用的数据,这样,

就能最大限度的提高他们的生产力,让信息的价值最大化,用大数据和数据可视化提高生产力。

当前大数据可视化的实现思路主要通过多尺度、多层次的设计信息在不同的分辨率显示,

用户可以控制显示分辨率。许多现有的多尺度地形渲染算法关注地形数据,例如,解决这个问

题一些使用固定网格法的系统基于层次结构的直角三角形的方法,或者一些不规则三角网并不

是限制在一个固定的三角形网格的方法,这两种方法有其优点和缺点。通过使用四叉树结构水

Page 32: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

28

平和使用根据几何三角二叉树,显示了大型地形数据的实时显示数据几何和纹理的自适应能力。

五、大数据安全

大数据时代已经到来,大数据已经产生出巨大影响力,大数据的价值为大家公认,但是,

当对大数据的各种机会重复利用的同时,大数据还将带来新的安全威胁。存在于‚潘多拉的盒

子‛怪物在大数据时代随时可能出现。面对的各种安全挑战大数据的时代,如果足够的重视,

采取相应措施,将能够保存以备不时之需。

(一) 大数据带来的安全挑战

(1)大数据的巨大体量使得信息安全成本显著增加

大量的数据管理问题是数据各大运营商的最大挑战。一方面,大量的数据集中存储泄漏的

风险增加,黑客一个成功的攻击可以达到比以往更多的数据量,实际上降低了黑客的攻击成本。

另一方面,大量的数据集合意味着包含更复杂、更敏感、价值巨大的数据,这些数据将吸引更

多潜在的攻击者。

(2)大数据的繁多类型使得信息有效性验证工作大大增加

因为大数据时代不再受制于特定模式的数据收集,各种非结构化数据与结构化数据混在一

起。未来将面临的挑战是需要从数据中提取数,许多组织将不得不接受的现实是,太多无用的

信息不足或不匹配。现在非常需要研究相关算法来保证数据源的有效性,特别是更强调数据的

大数据领域的有效性。

(3)大数据的低密度价值分布使得安全防御边界有所扩展

大数据单位低价值衡量使信息效率已经被稀释,大数据安全预防和攻击分析过程更加复杂,

等于安全管理的范围放大。大数据时代的安全与传统信息安全相比已变得更加复杂,体现在三

个方面:一方面,大量的数据收集如个人隐私和各种行为的细节记录,增加数据泄漏的风险;

另一方面,因为一些敏感数据的所有权和使用权尚未明确,许多基于大型数据分析没有考虑涉

及个人隐私问题;另一方面,大数据的数据完整性、可用性为防止数据丢失增加了技术上的困

难,传统的安全工具不再是像以前一样有用。

(4)大数据中的用户隐私保护问题

大数据未被妥善处理会对用户的隐私造成极大的侵害。根据需要保护的内容不同,隐私保

Page 33: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

29

护又可以进一步细分为位臵隐私保护、标识符匿名保护、连接关系匿名保护等。

(5)大数据访问控制困难

访问控制是实现数据管理的有效手段。大数据可能被用于多种不同场景,大数据访问控制

的难点在于:1) 难以通过预设角色,实现角色划分。在大数据的场景下,有大量的用户需要

实施权限管理,且用户具体的权限要求未知,预先设臵角色十分困难。2) 难以预知每个角色

的实际权限,无法准确地为用户指定其所可以访问的数据范围。

(二) 大数据安全架构与关键技术

大数据安全架构主要从六个方面考虑,包括物理安全、系统安全、网络安全、应用安全、

数据安全和管理安全六个维度。

物理安全强调物理硬件国产化,避免类似于美国轰炸伊拉克的悲剧,这是一个国家战略的

产物,而且,虽然不是正式的立法但尽可能屏蔽诸如 IBM 机器。系统安全强调使用开源操作

系统,Windows毕竟也已经不在政府采购名单之中了;网络安全的内容包括两个层面的内容,

设备安全和部署安全,美国政府不使用华为的产品,中国也不会使用思科的产品;应用程序安

全性关键考虑认证和统一的分级授权;数据安全包括三个方面,数据存储、访问和传输安全,

这也是一个关键,安全管理强调规则和规范。

Page 34: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

30

图 2-5 大数据安全架构

当前,大数据在安全保护方面的技术十分欠缺,尤其实际的应用实例。因此亟需针对前述

大数据面临的用户隐私保护等安全挑战,开展大数据安全关键技术研究。

(1)数据发布匿名保护技术

对于大数据中的结构化数据,实现其隐私保护的核心关键技术是数据发布匿名保护,仍在

于不断发展与完善。现有的技术多数针对静态、一次性发布场景。但在实际中数据发布常面临

数据连续和多次发布的场景。攻击者可以对多次发布的数据联合进行分析从而破坏数据原有的

匿名特性,特别需要防止这种情况的出现

(2)社交网络匿名保护技术

社交网络匿名解决方案会存在的一个重要问题是,攻击者可能通过其它公开的信息推测出

匿名用户,特别是用户之间是否存在连接关系。例如,可以基于微博型的复合社交网络进行分

析与关系预测等。

(3)数据水印技术

在数据库中添加水印的方法不同于多媒体载体上添加水印,基本前提是数据中本身存在冗

余信息,或者数据中可以容忍一定精度误差。例如,数值型数据存在误差容忍范围,才能够将

少量水印信息嵌入到数据中最不重要的位臵上。

Page 35: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

31

第三章 【技术篇】深圳市大数据技术研究进展

一、深圳主要科研院所及科研动态

(一)北京大学深圳研究生院

北京大学云计算关键技术与应用重点实验室专注于海量网络信息处理和典型网络应用研

究, 承担了一系列国家 973、核高基、国家自然科学基金,省部产学研和地市级研究项目, 与

百度、中兴通讯、平安银行和深圳阿派斯、欧朴互动等多家企业开展过友好的产学研合作。研

究方向包括:

(1) 云计算和虚拟化技术和应用保持国内领先,加快云计算和虚拟化在互联网高科技企业

中的合作与推广。

(2) 基于海量数据的云存储和互联网信息数据处理,促进与社会科学相结合的交叉学科发

展。

(3) 重点建设基于内容的宽带云媒体分发平台的研究和突破,切实完成一系列面向三网融

合的应用系统研发和产业合作。

(4) 基础理论研究方面,聚焦未来互联网、云计算的网络高速交换技术、网络编码方面的

学术与应用研究。

实验室目前承担了一个国家发改委项目的子课题:2012 年信息安全专项项目(发改办高

技[2013]1309 号),支撑云计算的虚拟化资源动态安全管理平台系统及产业化,2012.6 –

2015.6。

(二)清华-伯克利深圳学院

清华-伯克利深圳学院(简称 TBSI)由深圳市人民政府、清华大学与加州伯克利大学于

2014 年联合成立,致力于培养全球科技领袖和未来企业家。

创立初期,清华-伯克利深圳学院将面向全球经济社会发展,紧密结合深圳发展需要,围

绕环境科学与新能源技术、数据科学与信息技术、精准医学与公共健康等前沿方向建立 3 大

跨学科研究中心、下设 16 个实验室,整合两校优质科研和教育资源,构建国际化、创新型的

人才教育与研究体系,积极应对和解决区域乃至全球面临的重大科技问题和社会发展问题。清

华-伯克利深圳学院主体设在深圳市南山智园和清华大学深圳研究生院,在深圳和加州伯克利

大学两个校区开展研究与教学工作。

Page 36: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

32

清华-伯克利深圳学院旨在培养全球科技领袖和未来企业家,为解决区域和全球性重大工

程技术和科学研究课题输送高素质人才,满足未来区域以及全球重大科技创新和社会发展的需

求。

学院建有大数据实验室,主要面向跨学科的生成、处理大数据的研究,弥补大数据理论和

数据驱动应用和服务之间的差距,提高学术和产业的大数据应用水平,实现大数据的价值。大

数据实验室的主要研究方向为大数据分析、大数据系统和网络、大数据在产业中的服务与应用。

大数据实验室的技术创新主要包括四个方面:大数据的高性能挖掘算法,大规模数据存储和处

理系统,高性能数据中心和云网络、社交大数据服务和应用。

(三)哈尔滨工业大学深圳研究生院

2013 年 4 月,哈尔滨工业大学深圳研究生院与哈尔滨国裕数据技术服务有限公司在大数

据研究方面联合成立大数据商务智能联合实验室。该实验室主要从事大数据前沿技术研究,旨

在为政府、企业及个人、医疗行业、金融行业等提供大数据咨询、收集、存储、分析、挖掘、

建模、展示等核心技术及服务。哈工大前期的沉淀包括互联网搜索技术、自动页面分块与智能

信息抽取技术、基于机器学习的文本分类技术、网络话题自动检测与特征提取技术、文章去重

技术、社交网络挖掘等技术。通过多年数据挖掘技术的沉淀,针对大数据的前沿技术进行攻关

研究,已获得极具核心竞争力的技术。

2015 年 9 月,哈尔滨工业大学深圳研究生院与北京国双科技公司签署战略合作协议,

双方拟联合成立‚哈工大—国双大数据联合研发中心‛,开展技术创新战略合作,共同承报国

家、地方和行业领域的项目与研究课题,建立研究生联合培养机制与实习基地,携手致力于大

数据技术的探索、研究、应用。哈尔滨工业大学在数据挖掘以及自然语言分析方面拥有很强的

实力,在大数据分析、在线业务优化、搜索引擎营销、视频实时监测等诸多技术领域拥有领先

优势,双方携手共同开展战略性、前瞻性研究,整合资源、互补优势,将更好地推动学术成果

转化为生产力。

(四)深圳大学计算机与软件学院

计算机与软件学院拥有广东省普及型高性能计算机重点实验室(省级重点实验室)、广东

省大数据协同创新中心(省级协同创新中心,国家级培育项目)、广东省大数据分析与处理工

程技术研究中心等省市重点实验室。其中,深圳大学大数据技术与应用研究所成立于 2013 年,

是‚粤港现代信息服务协同创新中心‛的核心支撑单元。研究所坚持高起点、高层次的建设理

念,围绕大数据领域学科建设、人才培养、科学研究、产业应用四个核心方向开展创新工作,

Page 37: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

33

致力成为‚粤港地区大数据领域科技创新、人才培养和产业服务的发展高地‛。

研究所现有成员 10 多人,包括广东省领军人才 1 人,IEEE Fellow 1 人,教授和副教授

若干人。研究所成员累计发表有影响的学术论文 300 余篇,论文他引次数超过 6000 次,单

篇论文最高他引超 1000 次。完成和在研的项目包括国家自然科学基金、深圳市重大科技攻关

项目等 20 多项。2014 年获广东省科学技术进步一等奖 1 项、广东省教学成果一等奖 1 项、

2012 年获广东省计算机学会科学技术一等奖 2 项。

研究所强调从重大产业应用需求中提炼大数据科学研究问题。在基础理论方面,重点研究

面向大数据的机器学习、统计学习、复杂性计算、相似性计算、近似计算、计算复杂性约简、

复杂语义及关系表示等方面的相关理论与方法。在核心技术方面,重点研究分布式并行计算环

境下的大数据的建模与融合、高效 ETL 处理、高效索引与查询、新型数据挖掘算法、可视分

析与展现、数据安全与隐私保护等技术。

研究所依托协同创新中心的人才团队与交叉学科优势,加强大数据专业人才培养,通过

创办面向本科、硕士、博士的大数据特色班,加快构建多层次专业人才培养体系。协同创新合

作机构包括香港大学、中山大学、华南理工大学、暨南大学和中国科学院深圳先进技术研究院。

研究所加强与国际著名高校联合培养大数据高层次人才,现已与悉尼科技大学、香港浸会大学

达成合作意向,设立大数据方向的研究生联合培养项目。加大海外留学生的招生力度,吸引海

外人才来 研究所攻读博士学位或进行博士后研究。

表 3-1 主要大数据研究项目

序号 项目名称 项目类别

1 面向大数据的高性能云计算关键技术研究 国家自然科学基金

2 面向 TB 级大数据的分布式属性分层加权子空间聚类集成方法研究 国家自然科学基金

3 基于云计算的 P2P 流媒体传输关键技术研究 省自然基金

(五)蓬勃发展的大数据研究院所

1. 中国科学院深圳先进技术研究院数字所

中国科学院深圳先进技术研究院(以下简称‚数字所‛),是在中国科学院、深圳市政府共

同支持下建立的研究所。数字所面向中国快速城市化和工业信息化的国家战略需求,基于高性

能计算、云计算、高性能地学计算、可视化、普适计算和计算工程与科学,发展智慧城市和数

字工程等方向的应用基础和核心关键技术,服务民生,促进自主创新能力快速提升。依托数字

Page 38: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

34

所,已经建立‚中国科学院深圳分超算中心‛,计算能力达到千万亿次、存储能力达到 10PB

以上。

2014 年 11 月,数字所成立健康大数据中心,该中心致力于以医疗健康,特别是个性化

医疗健康为中心应用,建设健康大数据平台,从医疗健康数据的存储、分析、建模、使用等角

度研究数字化生命的关键技术,包括临床数据与生物研究数据的整合、面向个性化医疗的知识

表达和管理、大规模病人群体生理与生物信息组合分析、为基础医学与药物发现服务的临床数

据自动分析工作流等四大核心技术,提高基于大数据驱动的健康医疗研究能力,满足医疗健康

信息化产业基础和产业技术创新的迫切需求,构建面向个性化医疗的健康大数据研究中心,最

终形成具有国际学术影响的技术研发中心以及对经济社会发展有显著贡献的产业辐射中心。

2. 国家信息中心深圳大数据研究院

国家信息中心深圳大数据研究院是国家信息中心与深圳大学合作于2014年4月在深圳联

合成立的科研机构。研究院重点关注大数据、云计算、物联网和智慧城市等领域的科技创新和

产业化应用,充分利用合作双方各自在数据资源和科技资源优势,借助深圳市高新技术产业优

势和创新环境,建设产、学、研、政、资合作平台,推进大众创业、万众创新,为深圳市以及

华南地区新兴战略性信息产业的技术创新和产业化服务。

3. 深圳市大数据研究院

深圳市大数据研究院揭牌仪式暨深圳第一届大数据科学国际研讨会在位于龙岗区的香港

中文大学(深圳)举行。2015 年底由罗智泉领衔的‚大数据信息处理及应用创新团队‛获深

圳市孔雀计划资助,并依託该团队成立深圳市大数据研究院。该团队已凝聚了一大批全球大数

据领域的顶尖科学家,团队成员包括诺贝尔奖获得者 1 名、加拿大皇家科学院院士 1 名、IEEE

Fellow 3 名,国家千人计划专家 2 名等,这也是港中大(深圳)首个获得孔雀团队支持的研

究团队。该团队目前已经凝聚了一大批全球大数据领域的顶尖科学家,并将通过这个国际化科

研创新平台持续吸引海外优秀人才来深交流、工作。

深圳市大数据研究院院长职务将由香港中文大学(深圳)学术副校长罗智泉教授担任。大

数据研究院主要从事数据的处理及应用,现在主要有三个发展方向:第一个方向是通信领域和

网络资源分配;第二个方向是城市管理,通过挖掘有用的数据信息帮助政府作出科学的决策;

第三个发展方向是智慧医疗,通过对数据的分析作出精准医疗。

4. 国家信息中心深圳大数据研究院

国家信息中心深圳大数据研究院是以国家信息中心为主导,依托深圳大学建立的科研机构,

Page 39: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

35

借力深圳市强大的政策扶植和产业发展环境,于 2014 年 4 月 25 日在深圳揭牌成立。其宗旨

是推动我国大数据技术、人才、产业发展,发展定位为华南地区领先的大数据产业技术与应用

研究院。

研究院主要面向国家大数据应用需求,通过充分融合及发挥国家与地方的产学研优势资源,

开展大数据领域的技术研发、人才培养、项目建设、平台运营、标准制定、公共评测、交流合

作、应用示范、产业化模式创新,促进我国大数据技术、人才与产业的快速发展。科研团队承

接政府部门和企业的技术研发、应用系统研发、技术和应用咨询服务和技术培训等工作。

5. 国泰安金融大数据研究中心

2014 年 10 月 25 日,中科院深圳先进技术研究院-国泰安金融大数据研究中心由先进院

与国泰安联合创办,其为先进院下属创新中心,中心旨在汇集海内外金融界及大数据行业的华

人精英,凝聚发展中国金融大数据事业的共识,探寻金融大数据的发展方向与道路,打造我国

金融大数据事业发展的新天地。它是一个集金融大数据政策与行业研究、学术理论研究、金融

大数据应用研究、金融大数据高端人才培养、出版宣传、论坛会议大赛等服务于一体的综合型

研究构。

该中心将在深圳设立华南金融大数据研究基地,在广州等城市建立金融大数据研究中心。

中心主任由国泰安集团董事长、中国量化投资研究院院长、上海交通大学金融学教授陈工孟担

任。

6. 华傲大数据学院

华傲大数据学院以华傲研究团队为依托,借助华傲团队在国际领先的大数据技术背景,致

力于整合业界学界资源,设立‚数据科学与工程‛人才培养计划,为社会培养行业急需的‚数

据科学家‛人才与大数据 IT 专业技术人才。讲师团队融合了功底扎实的专职教师,具有第一

手经验的大数据研发和运维人员,以及合作大学的专家。具有丰富的大数据讲座与教学经验,

多次为政府、企业、高校等组织进行大数据教学与培训工作。目前,华傲大数据学院与西北工

业大学共同打造的‚大数据技术与实践‛精品课程,将在西北工业大学软件学院与微电子学院

开讲,并计划推广至全国 40 所软件学院;与此同时,华傲大数据学院协同国家软件人才国际

培训(深圳)基地以深圳软件园为载体开设面向社会大众的大数据系列讲座,正如火如荼的进

行中,广受企事业单位好评。

华傲公司正在推进与哈尔滨工业大学、北京航空航天大学和中科院先进技术研究院等单位

的科研与产业化合作,不断为数据产业顶尖人才的培养创造有利条件。华傲数据与哈尔滨工业

Page 40: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

36

大学联合建立"哈工大华傲海量数据计算联合实验室",承担了国家数据库方向的第一个 973

项目。

(六)科研院所研究进展分析

通过对以上深圳市科研院所发展情况分析,能够看出以下几点:

(1)大数据研究蓬勃发展

2014 年以来,深圳市先后成立了清华-伯克利深圳学院、国家信息中心深圳大数据研究

院、深圳市大数据研究院、国家信息中心深圳大数据研究院、国泰安金融大数据研究中心等数

家大数据研究院所,深圳大数据研究的氛围更趋农历,体现出了良好的发展趋势。这一方面是

因为国家和深圳市的政策导向和产业扶持的各项优惠政策,客观上为大数据研究的起到了保驾

护航的作用;另一方面是因为随着大数据在产业中的应用不断的产生更高的处理需求,人们对

于能够从大数据获取更大价值,达成了共识,因此反过来推动了大数据研究的发展。

(2)深圳大数据研究取得积极进展

纵观上述各个科研院所的科研动态,可以看出,深圳大数据研究取得了积极进展,部分技

术取得国内领先地位。例如,清华-伯克利深圳学院-数据科学和信息技术研究中心的大数据的

高性能挖掘算法取得突破;深圳大学计算机与软件学院承担两项国家自然科学基金,《面向大

数据的高性能云计算关键技术研究》与《面向 TB 级大数据的分布式属性分层加权子空间聚类

集成方法研究》等等。

(3)深圳大数据研究还有更大的发展空间

另一方面,通过分析上述科研动态可以看出,深圳大数据研究目前仍然处于起步阶段的初

期,还有更大的发展空间。这一方面是因为上述科研成果仍然只是体现在大数据某个领域或者

研究方向上的突破,缺乏大数据研究全面进展,尚有广阔的科研空间。

另一方面是因为上述一大批的科研院所都是 2014 年以来刚刚成立,还有的成立于 2015

年,尚处于实验环境和技术储备的初级阶段,当硬件与软件资源建设与大数据人才建设完备后,

我们有理由相信,深圳大数据研究必将取得更大发展。

二、深圳大数据产业技术联盟

(一) 大数据产业技术创新联盟

深圳市宝安区大数据产业技术创新联盟于2014年7月3日在宝安区政府正式挂牌成立,

Page 41: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

37

联盟由深圳市宇泰科技有限公司、深圳市高斯宝电器技术有限公司、深圳市高斯伟业科技有限

公司、深圳市广晟德科技发展有限公司、深圳市清华研究院、深圳市国信证券公司宝安分公司、

广东华商律师事务所等十多家知名企事业单位共同发起,目前参与联盟的企业主要集中在深圳

的大数据产业制造业大区宝安。

联盟拥有 120 多家企业,拥有 19 家企业高层管理人员组成的优秀管理团队。拥有以清华

大学研究院为龙头的 12 个高科技研发基地,并拥有 3 个国家级实验室。聚集着 1000 多人的

高科技人才,此中包括优秀的大学生、研究生、硕士、博士、教授,更有超万人的具有现代水

平的中国产业大军。目前产业产值已达 128.5 亿,占宝安科技企业产值的约 12.5%。

深圳市宝安大数据产业技术创新联盟是一个大数据企业自愿合作的以资源整合、技术交流、

信息共享、优势互补的科技大数据为核心的企业集群及产业联盟,是一个成员之间的既紧密协

作、又对外开放发散的技术产业协会,也是一个产学研结合、军民两地技术互相转化的平台,

同时也是一个对接政府、解读政策、行业推广、获取资源的平台。联盟具有多方面优势,拥有

承接国家高新研发项目的能力,形成和规范一批行业技术标准的能力。

大数据联盟的主要任务是加速突破产业瓶颈,突破共性核心技术,联盟合作攻关、夯实信

息基础设施,搭建大数据收集﹑分析及共享的平台。并吸收资本运营管理大数据平台以及提供

关于系统集成、数据安全、信息化建设、云储存等解决方案和服务,提供与大数据应用相关的

数据出售与租赁服务、分析与预测服务、决策支持服务。

目前联盟处于初创阶段,未来的规划重点在于打造产业基地,从而发挥各自优势。计划每

年发展会员 100 家,在 5 年之内发展企业 500 家,产值达到科技产业 70%,占到宝安产业

总产值的 50%。将宝安打造成大数据技术创新之都。

2015 年 12 月 23 日,由深圳市宝安区大数据产业技术促进中心、深圳市宝安区大数据

产业技术创新联盟召开〈大数据 大联合 大发展〉专题交流活动,来自宝安区科技创新局,深

圳宇泰科技、高斯宝电气技术、海云海量信息技术、泰和顺工程有限公司等代表参加了此次活

动。旨在交流如何提供科技服务支持与配套,探讨新形势下科技服务发展的新机遇与创新模式,

提高深圳科宝安整体实力和产业基础水平。

(二) 深圳大数据研究与应用协会

2015 年 1 月 29 日,深圳市大数据研究与应用协会第一次会员大会在深圳顺利召开。深

圳市大数据研究与应用协会由深圳市大数据相关的研发和应用企事业单位,转型做大数据研究

的传统企业以及少部分专家、学者自愿结成地联合性、地方性、非营利性社会组织。2014 年

Page 42: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

38

是大数据元年,协会的成立顺应了大数据产业的发展需要,协会致力于整合深圳市大数据相关

资源,开展大数据研究、大数据商业开发及社会应用,推动我市大数据社会应用的发展,唤醒

数据的价值。协会成立后,将策划和组织不同层面的活动,为大数据相关企事业单位及专家学

者提供一个交流平台。同时,协会将加强与国内外大数据相关组织和公司的联系,积极推动大

数据产业的发展。

5 月,深圳市大数据研究与应用协会在广州华南理工大学举办了 2015 第一届华南 IDC

高峰论坛,会上联通广东省公司云计算总经理讲解了联通网络布局规划。

9 月,深圳市大数据研究与应用协会和中国智慧城市创新产业大会组委会联合在深圳会展

中心举办了‚2015 中国国际大数据云计算应用高峰论坛‛。本次高峰论坛邀请了专注于云计

算和大数据实际应用的各行业大咖,他们分别是:IBM 中国区云计算总经理孙斌、华大基因

总裁助理兼华大互联网信息服务有限公司总经理黎浩、中科院深圳先进院副研究员兼深圳北斗

应用技术研究院院长张帆、博科中国首席技术架构师沈之千、谷姐创始人兼深圳前海汇执行副

总裁王群、深圳木浪科技创始人陈元强、深圳市极限网络科技有限公司副总经理丁登、深圳市

一码通科技有限公司执行董事张旭。

10 月,深圳市大数据研究与应用协会在深圳市南山区,主办了数据大讲堂第一讲——《大

数据概述》。

11 月,深圳市大数据研究与应用协会联合‚世爵国际 CRIC‛共同举办‚深圳大数据总

经理俱乐部‚第一次座谈会议。

(三) 深圳大数据产学研联盟

深圳大数据产学研联盟是在 2013 年 3 月,在深圳市、南山区各级政府的引导下,深圳十

几家重量级 IT 企业和学研机构发起成立的。目前,深圳大数据产学研联盟的发起单位逾三十

家,成员单位包括高校、科研机构、企业以及科技服务机构。其中联盟学研机构包括清华、哈

工大、深大、北航、中科院先进院、超算中心等。联盟专家团队具备雄厚的科研实力,能够为

大数据核心技术的提升以及相关产业的发展提供强有力的技术顾问支持。联盟企业包括华为、

中兴、腾讯、金蝶、华大基因、宇龙、迪菲特、记忆科技、华傲、神盾、嘉润达、永兴元、金

证等。联盟企业各具特色,优势互补,共同为深圳乃至中国的大数据产业发展贡献力量。

2015 年 5 月 29 日,深圳大数据产学研联盟、IEEE 计算机学会 (IEEE Computer

Society)、国际服务学会(Services Society)以及中国计算机学会深圳分部(CCF 深圳)主办,

第三届中国大数据产业峰会暨第四届 IEEE 国际大数据大会深圳分会在深圳市清华大学研究

Page 43: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

39

生院举行,会议现场共吸引近 500 位互联网行业及大数据领域的企业家、学者、投资人、银

行家以及房地产、金融、医疗、教育、服务等多行业的企业家代表出席参会。大会以‚数据创

客邂逅互联网+‛为主题,旨在探讨‚互联网+‛与‚数据创客‛的融合,及在大数据背景下

不同行业的创客与产品创新等诸多热点问题,为创客、企业家和投资者构筑一个思想交流、技

术碰撞、商务对接的平台。

三、深圳高技术公司技术进展

尽管当前国内在对于数据重要性的认识、实践应用、基础研究上,相比欧美发达国家还相

对滞后,但人们对于数据的理解和应用变得越发清晰和深入。深圳作为全国性的金融中心及高

新技术企业较为集中的城市,很多企业对于大数据的应用水平均走在国内的前列,数据成为重

要的资源,在数据采集、清理、存储、分析等各个环节,都蕴藏着大量的机遇。包括华为、腾

讯、中兴、华傲数据、平安集团等知名企业,其大数据的应用实践已经为其企业的业务发展带

来了显著成效。

(一) 华为大数据技术

华为企业云针对广告营销、电商、车联网等大数据应用场景打造了易使用、高可靠、低成

本的大数据方案,帮助企业客户快速构建大数据平台,满足企业的海量数据存储和分析需求。

华为认为现代企业需要从业务理解、数据科学、信息技术三个层面应对大数据面临的挑战。应

对大数据挑战的关键在于:大数据分析应用、分析建模与算法、架构与平台技术。

1. 业务驱动的开放大数据平台 FusionInsight

华为研发的 FusionInsight 是一款基于开源内核打造的统一大数据处理平台,提供混合

负载处理能力,支持从批量、交互式查询、数据挖掘,到实时流计算和查询等各种大数据应用

场景。其中创新的 Carbon 数据存储于分析技术,突破了大数据 OLAP 分析的性能瓶颈,性

能提升 5-30X。所有组件都通过 FusionInsight Manager 提供的插件框架按需安装。

Page 44: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

40

图 3-1 FusionInsight 系统结构图

FusionInsight 的整体结构分为三层:最底层的 DataOS 是基石,可支持主流的开源处

理引擎--MapReduce 批处理、Spark 内存迭代、STORM 流处理,以及华为自研的 MPPDB,

它是业内唯一的全栈企业发行版,可满足不同场景的数据处理需求。同时,自研的 Elk 可支

持企业的 SQL 应用无缝迁移到大数据平台;中层的 DataFarm 是伯乐,是让数据有效流动起

来的关键所在,支持 ISV 利用平台能力进行多源数据的实时集成,支持各类开源的算法库,

使能客户和伙伴的挖掘能力,帮助数据分析师不断地进行试错和模型训练;最上层的行业增强

解决方案是加速器,在 DataOS 和 DataFarm 的基础上,针对行业典型大数据场景(比如金

融业的风控),有针对性地优化并预臵参数、算法、模型和逻辑包,大大缩短了基于大数据的

新业务上线时间,满足了在线应用的高要求,填补了企业高要求与无序开源的空白,最后联合

ISV 开发上层应用,提供关键场景的端到端解决方案。

2. 基于 Spark 的实时分析创新 Carbon、Astro

Carbon: Hadoop Native 的,针对 OLAP 分析优化的存储。很好的解决了大数据 OLAP

分析痛点:(1)ORC/Parquet 做 OLAP 分析存在短板;(2)无法很好对接 BI 工具。作为一

种新的文件格式和 OLAP 查询计算,Carbon 主要特点在于:

根据数据模型提前组织好数据,用预处理时间换取查询时间:列存、分布式多维索引、倒

排索引、智能预汇聚等。配合 Spark SQL 查询优化实现更多计算下压,秒级高性能 ad-hoc

查询,提升查询性能 5~10 倍。方便对接 BI 工具,SparkSQL 根据 SQL 语句条件动态选择

最优查询路径。

Astro:融入 Spark 生态的 SQL on HBase。

支持对 HBase 使用 SQL 进行查询和数据更新删除,与 Spark 生态无缝对接,支持查询

Page 45: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

41

结果用于 DataFrame,ML,Graphx 等库做深度分析。

3. 华为对开源社区的支持

在开源贡献方面,华为积极回馈社区,已进入全球第一阵容。在 10 月 16 日,华为最新

对外开源了 StreamCQL,一款建立在分布式流处理平台上的查询语言,架构支持构建在多种

流处理引擎之上,目前主要适配 Apache Storm,提供数据流的过滤、转换、拆分、合并等

功能,以及基于窗口的统计、关联,用户采用类 SQL 方式开发业务,能够显著降低开发复杂

度。

(二) 腾讯数据平台

腾讯数据平台架构设计思路主要考虑以下三个方面:

(1)数据开放:使得公司数据集中形成数据开放,在保障数据安全性的前提下,提供自

助化服务平台,从人肉服务模式转向平台自动化服务方式,帮助 BG 数据分析人员通过自助服

务的方式,降低人工成本,满足快速增长的需求。

(2)专业化:从提供大量独立的系统/工具转变向提供集成、一体化、自动化数据开发

平台服务。来源各个业务块数据进行整合和深入挖掘产生用户画像,为业务提供有价值的服务,

并且快速孵化更多的数据应用。

(3)成本与性能:优化平台存储和计算方案、优化的数据模型和算法、去除重复计算和

存储;通过建设大规模集群,形成规模效应,提升平台能力并降低成本;随着平台上的数据量、

用户数、任务数不断增长,每个新用户/新任务带来的新增成本不断降低,成本优势可以不断

放大。

从离线和实时两个方向支撑海量数据接入和处理,核心的系统包括分布式数据仓库 TDW、

实时计算 TRC 和实时数据接入平台 TDbank。

Page 46: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

42

图 3-2 腾讯数据平台图

分布式数据仓库基于开源的 hadoop+hive 架构做了大量优化,包括兼容商业数据库语法

和 hadoop 单点消除及可扩展性提升等。从 2011 年正式发布上线到 2013 年初,TDW 完成

了对腾讯公司内部几乎全业务的覆盖,成为腾讯最大的离线处理平台,目前接入的数据量已达

到百 P 级别,并伴随业务的发展和新业务的出现不断快速增长。

基于 storm 研发了腾讯实时计算平台 TRC,将社区的 storm 用 java 重新改写以提升稳

定性和效率,并且使它运行在统一资源管理平台 GAIA 上,进一步提升集群效率和扩展能力;

为了方便用户使用,为 TRC 开发了 SQL 和 Pig 用户接口,并且在此基础之上进一步提供了可

视化拖拽式开发环境,使业务开发实时计算逻辑更加方便;目前 TRC 每天提供几万亿次实时

计算能力,在以效果广告为代表的趋势预测、交叉分析、实时统计等领域的应用上取得了非常

好的效果。

在数据接入方面研发了实时数据接入和分发系统 TDbank,这个系统使业务数据采集延

迟从之前的天级别,缩短到当前的秒级别;主要对 TDbank 做了异构数据源适配,跨城公网

传输,数据高一致性保证,分布式消息队列等;目前 TDBank 每天收集的数据量接近 10000

亿条,这些数据主要输送给 TDW 和 TRC,分别作离线分析和实时计算。

底层的 Gaia 则负责整个集群的资源调度和管理,Gaia 的目标是实现更高效的资源调

度, 基于 Yarn 的通用资源调度平台,提供高并发任务调度和资源管理,实现集群资源共享、

可伸缩性和可靠性,不仅可以为 MR 等离线业务提供服务,还可以支持实时计算,甚至在线

service 业务。

表 3-2 核心技术列表

Java for Storm

纯 java 语言实现,更好的可维护性

功能扩充:解决 nimbus 单点、度量(Metrics)、

安全/权限增加、动态升级

Storm on Gaia

任务间资源隔离

灵活的权限控制策略

更优异的容灾能力

自动扩缩容

PigLatin/SQL on Storm

过程化类 SQL 编程接口

降低实时计算业务技术门槛

提升业务开发效率

上层业务包括 MR 、Hive、PIG、Strom 、Spark

Page 47: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

43

(三) 中兴大数据

中兴通讯是世界 500 强企业,全球顶级的综合通信企业,云计算,大数据技术的领导者,

旗下的中兴智能视觉大数据技术(湖北)有限公司,依托全球最顶尖人工智能技术研发团队的

技术支撑,专注于智能图像分析处理技术、生物识别技术的研究和开发,是从事智能交通、平

安城市、超级计算、大数据分析设备的研发和提供整体解决方案的创新型高科技企业。从 2005

年开始涉足大数据方案研发,经过多年发展,已形成一套成熟完整的大数据解决方案体系,力

助企业挖掘大数据这座金山,兑现大数据价值。

1. 视觉大数据

中兴智能视觉大数据采用首创的黄金骨点五角识别算法,结合年龄算法,性别算法,颜色

算法等能精准定位识别人脸。不受肤色、种族干扰,同时还能很好的克服表情变化、胡须伪装、

角度偏差、发髻改变等环境因素的人脸识别。同时将车牌识别算法、智能视觉分析算法成熟运

用到产品实战中,现研发落地了智能动态人脸识别视觉大数据预警系统、便携式智能动态人脸

识别报警设备、智能动态人脸识别酬勤记录管理系统、智能动态人脸识别人证核实管理系统、

智能动态人脸识别尊享身份管理系统、公交车专用道移动智能电子警察设备、智能动态人脸识

别银行智能服务系统、智能视觉大数据门禁系统等系列产品,将一举成为业界计算机视觉技术

转化应用的领航者。

2. 金融行业的 GoldenData 大数据

中兴通讯基于 Hadoop 以及开源数据库技术,结合在大数据项目中的实践经验,推出面

向金融行业的 GoldenData 大数据解决方案。

图 3-3 中兴通讯金融行业解决方案

Page 48: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

44

中兴通讯 GoldenData 大数据解决方案针对金融行业特点,在安全、开放、调度、部署、

资源隔离、可管理等方面做了开创性工作。

(1)兼顾效率的安全机制。在保证安全防护等级的前提下,为了不影响平台的处理效率,

中兴通讯大数据平台采用管理手段、硬件防护、软件加固三位一体的整体安全解决方案。通过

技术手段解决权限控制、数据加解密、事后审计、误操作恢复的问题,通过硬件防护、管理手

段解决身份认证的问题。

(2)标准的开放接口和开发环境。提供标准的开放接口和开发环境,支持第三方快速完

成应用开发。对上层应用提供兼容 SQL、WebService 等接口,方便与现有 IT 系统的集成;

对下层数据分布式海量数据集采组件,支持多种数据源接口:HDFS、Hbase、Hive、

ZooKeeper、Sqoop、MR 等,屏蔽 Hadoop 底层技术,提供标准 API 接口。

(3)多种调度机制。独立 VIP 调度队列:为了确保特定的任务可以相对独立运行,不受

其他任务干扰,需要单独开设一个 VIP 队列。特色的任务翻牌机制:金融行业每个任务都有

自己固定的运行时间和计划,对于失败的任务或过了时间却不满足运行条件的任务,需要一个

固定的翻牌机制,确保任务在合适的时机得到正确的运行。集群流控:在线集群为了保证客户

请求得到实时响应,在必要的条件下,对新请求直接拒绝从而确保已有请求获得充分的资源,

确保在线集群的及时响应。

中兴通讯 GoldenData 大数据平台产品在金融银行和全球运营商等市场具有多个成熟商

用案例,具备良好的技术积累和丰富的工程现网实施经验。中兴通讯愿在大数据时代下帮助客

户华丽转型,实现数据掘金、价值共享。

3. 基于大数据的用户画像

中兴通讯基于大数据的用户画像解决方案是利用大数据技术,对电信网络中的用户呼叫记

录、信令等数据进行分析,为运营商细分用户群、挖掘新业务提供支撑,主要体现在:(1)

多维度的用户分类:从个人信息、业务使用、活跃时段、生活轨迹方面,对用户进行分析,并

以标签形式对用户分类,帮助运营商深度了解用户群特点。(2)全场景分析用户行为:了解

用户在不同生活场景下的操作行为,帮助运营商挖掘新业务。(3)社交化分析:分析用户社

交圈和社交行为,为运营商业务创新和营销提供新视角。(4)内容和行为分析:分析用户兴

趣爱好,提高业务创新和营销的准确度。

中兴通讯用户画像解决方案功能框架如下:

Page 49: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

45

图 3-4 中兴通讯用户画像解决方案框架

(四) 华傲数据集成管理平台

以苏格兰科学院皇家院士樊文飞教授为带头人的华傲数据管理研究团队是由一支海内外

华人组成的国际一流科研团队,在数据质量管理、XML 和大数据的分布式、增量、压缩处理

等领域从基础理论研究到实际产品应用都作出了重要贡献。华傲公司定位于为互联网、金融、

电信、生物医药、政府等行业提供数据质量、数据集成、大数据分析等方面的基础软件产品和

全面解决方案。截至目前, 国内发明申请 84 项, 实用新型申请 9 项, 并已完成 31 件 PCT

专利申请,已申请成功 11 项软件著作权

华傲数据集成管理平台(Audaque data Automation,简称 ADA 平台)是深圳市华傲

数据技术有限公司(以下简称华傲数据)研发的,用于对企业的各种数据源进行数据集成和管

理的平台产品,面向传统数据及大数据环境,给出真正能够集成数据、处理数据和管理数据的

运行环境。是基于华傲数据科研团队在 XML 数据管理、图数据管理、大数据的分布式、近

似和增量算法方面的最新研究技术成果,结合参考国内外众多著名厂商的数据集成和 ETL 产

品解决方案,研发的新一代数据集成产品。

ADA 平台在充分继承传统数据集成功能基础上,顺应数据领域的发展趋势,将对大数据

的集成作为 ADA 平台的显著特点,包括大数据环境的预装以及大数据的接入同步和转换处理

等多个环节。ADA 目前已经支持预装的大数据环境包括

Hadoop 核心组件 HDFS、Common、MapReduce、YARN

应用环境 Hive、Hbase

Page 50: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

46

辅助工具 Ganglia、Sqoop

图 3-5 华傲数据集成管理平台架构

预装企业大数据集成环境并支持非结构化数据处理 ADA 平台支持预装包括 Hadoop、

Hive、Hbase、Ganglia、Sqoop 等在内的大数据集成环境,从而帮助企业从各种大数据技

术的版本匹配和安装配臵 的繁杂工作中解脱出来,更加专注于自身业务的处理。ADA 同时

支持在 Hadoop 环境中,通过 MapReduce 技术实现对 XML 数据、Log 数据、图数据等

更加高效的处理。

(五) 平安集团大数据

平安集团拥有大量的金融类数据,截至 2015 年,平安保险、银行、投资三大板块积累了

9800 多万实名客户,涉及客户资产信息、汽车信息、健康信息种种,这些数据是其他互联网

公司难以抵达的。平安集团于 2013 年组建大数据团队,率属于平安科技,迄今在金融大数据

应用方面已经有了多年的经验,并且正在扩招人才。

平安科技的大数据团队主要在做两件事情:其一,建设数据平台,整合关联数据,把数据

背后的含义弄清楚;其二,把数据模型应用于在传统核心金融业务中,尝试设计或研究出综合

金融下跨条线的产品或商业策略。比方说,大数据团队可从信用卡记录中监测到,经常晚上外

出到酒吧喝酒的客户,他的车险赔付率是较常人高出 20%到 30%。

平安科技目前与包括新加坡、美国等国 5 家大学建立了合作关系,共同研发大数据项目

并成立研究实验室。与国外数家大学合作研发大数据项目,学习表情信号放大、情感侦测、机

器分布式学习、WI-VI 等前沿分析技术与建模方法。

Page 51: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

47

(六) 宝德大数据一体机

深圳宝德科技集团是以服务器、云计算、大数据等为主营业务的综合性 IT 企业集团,是

中国领先的 IT 解决方案和服务供应商。宝德拥有亚洲最大的服务器产业基地,多年稳居国产

服务器销售前三强、亚太十强,其在中国率先添补高端服务器空白且是全国第一个安腾服务器

技术输出商,自主研发的服务器多次刷新 SPEC WEB 世界记录。宝德亦是中国大数据行业先

行者之一。

为满足当前大数据时代各种业务和应用的需求,面向海量数据处理和存储一体化的大数据

一体机(Big Data Appliance)应运而生,通过整柜的产品形态和标准化的架构集成了服务

器、存储、网络、软件等配臵,减化了数据中心基础设施部署和运维管理的复杂性的一体化设

备,解决了基础设施的持续扩展、数据处理的个性化和一体化需求以及海量数据的存储成本问

题。目前大数据一体机市场已经形成了供应商百花齐放的局面,众多国内外传统的硬件设备厂

商在提供服务器、存储设备的同时,也纷纷推出大数据一体机产品。

作为国内知名的大数据领导厂商,宝德致力于下一代大数据存储、分析、管理的基础数据

平台的构建。2015 年,宝德推出了自主研发的最新产品 BStor2000 大数据一体机。

BStor2000 采用 X86 架构的高性价比服务器组件构建大数据平台,支持 EB 级

(1EB=1000PB)海量数据处理,适用于海量视频、图片和地图数据存储与分析处理,智慧

城市数据共享交换与智能分析以及电子政务数据整合等领域,为用户打造高性能、高可靠、高

扩展和低成本的大数据处理平台。

(七) 分析与展望

通过对以上深圳市高技术公司大数据技术发展情况分析,能够看出以下几点:

(1)基于开源技术的创新

得益于大数据处理领域开源技术的迅猛发展,深圳市涉及到的大数据处理技术的公司多数

利用现有的技术,根据客户或者业务的需要,具体业务技术指标的要求,开发具有针对性的技

术和解决方案。一方面可以大幅度缩短开发的周期;另一方面可以节约研发费用。

深圳市各高技术公司普遍采用的大数据开源技术如下表所示。

表 3-3 采用开源技术列表

公司 大数据开源技术

华为 Hadoop、Spark、Stream、Hbase、Storm

Page 52: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

48

腾讯 Hadoop、Hive、PIG、Spark 、Storm

中兴 Hadoop、Hbase、Hive、Spark、Impala、Sqoop

可以看出,大数据分布式系统 Hadoop、大数据的分布式存储技术 Hbase、Hive、大数

据实时计算 Spark 等技术是各个大公司普遍采用的开源技术。因为这些技术都是被广泛使用

底层大数据处理技术,在此基础上,各个公司根据各自不同的业务重点定制使用不同的开源技

术,如华为和腾讯用到了大数据流式处理技术 Storm,中兴用到了 Impala 提供 SQL 语义并

提高处理速度。

(2)深圳大数据公司的技术发展空间广阔

通过本章前述资料,华为研发了 FusionInsight 打造统一的大数据处理平台,腾讯开发

了数据平台实时计算 TRC 和实时数据接入平台 TDbank,中兴智能视觉大数据、面向金融行

业的 GoldenData 大数据解决方案、基于大数据的用户画像解决方案,华傲数据集成管理平

台 ADA 等等,可见不同的解决方案解决了不同大数据领域的问题。得益于大数据领域广阔的

市场空间,深圳市的大数据公司必将在今后取得更快的发展。

同时,随着深圳市高技术公司大数据处理技术的进步,已经可以为大数据开源社区做出我

们的贡献,例如,2015 年 10 月,华为最新对外开源了 StreamCQL,一款建立在分布式流

处理平台上的查询语言。当前,我们熟悉的各种大数据技术,如 HBase、Hive、Storm、Pig、

Spark、……,几乎无一例外是国外互联网大公司贡献的,中国公司在这方面的贡献微乎其微。

这一事实也反映出,当前中国的大数据技术创新水平,还远远地落后在国际大企业身后。如今,

我们欣喜地看到华为公司等正在改变这一现状。相信,伴随深圳市高技术公司的技术创新不断

进步,必将有更多的公司能够为开源社区贡献更大力量,进而推动我国大数据技术进步,达到

国际领先水平。

Page 53: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

49

第四章 【产业篇】深圳市大数据产业市场状况

一、互联网与大数据

(一) 深圳互联网产业发展概况

根据深圳市网络媒体协会(SAOM)、中国互联网络信息中心(CNNIC)联合发布的《2015

深圳市互联网发展状况研究报告》内容来看,深圳市的互联网普及率达到全国领先水平,2015

年,深圳总体网民规模达到 897 万,高于全国平均水平 30 个百分点以上;手机网民规模达到

了 851 万人,使用手机上网的高达 94.8%。下面摘录其它部分数据列举如下:

1. 规模与总量

2015 年深圳市宽带用户占比为 98.2%,宽带用户规模高达 881 万。

使用网络新闻的网民达 755 万人,使用率高达 84.2%。

使用搜索引擎的网民达 736 万人,使用率为 82%。

网络购物的网民达 690 万人,使用率达 77%,高出全国平均水平 15 个百分点以上。

深圳网络购物有效带动了网上支付和网上银行应用的发展,使用这两种应用的网民分别达

到 633 万和 604 万,使用率分别为 70.5%和 67.4%。

2. 行为与特征

深圳网民对新闻、娱乐、社交的需求强烈,使用资讯门户网站、视频/音乐网站、社交网

站、博客空间等的频率较高。

深圳网民最常使用的门户网站是腾讯,比例达到 42.3%。

手机成为深圳网民第一媒介接触介质,使用该媒介的比例达到 75.5%。

手机互联网同时成为网民最信任的媒体终端,比例达到 29.3%。

在众多广告载体中,深圳网民对手机广告的关注度最高,为 61.6%;其次是地铁通道、

站台、车厢广告、电脑广告等。其他类型广告的关注度均不到 50%。

微信的使用频度很高,手机网民中,有 85.3%的用户每天多次使用微信。

3. 发展状况总结

深圳市经济和社会发展迅速,为互联网产业和应用营造了良好的发展环境。当前深圳互联

网的发展表现为以下四个方面的特点:

(1)网民规模高位继续增长,在深圳市呈普及化发展趋势。

Page 54: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

50

(2)上网时长持续增长,网民互联网使用程度进一步深化,商务类应用增长迅速。

2015 年深圳市各类商务交易类网络应用大幅领先于全国平均水平。深圳网络购物的网民

规模达 690 万人,高出全国平均水平 15 个百分点以上。深圳网络购物接着又带动网上支付、

网上银行应用和互联网金融的高速发展,促使商务类网络应用成为深圳市新的经济增长点。这

使得深圳在互联网领域具备较大的潜在发展空间。

(3)手机已经成为深圳手机网民最主要的媒介终端,人们对手机信息的信任程度超过传

统媒体。

(4)深圳非网民不多,主要是老人小孩或教育水平不足导致。

由此可见,深圳的互联网发展水平明显高于国内平均水平,网民有较强的网络消费意愿和

能力,大数据在互联网的应用环境良好,有助于建立起早期发展优势,再扩展到全国范围。

(二) 大数据在深圳互联网领域的应用

互联网是一个较为宽泛的概念,在当今时代,大部分公司都与互联网产业有或多或少的联

系。为缩小范围,这里我们把互联网公司局限在为大量互联网用户服务的公司,通常表现为巨

大的访问量或大量的注册用户。按照这个设定,深圳主要的互联网企业有:腾讯、迅雷、芒果

网、珍爱网、本地宝、深圳之窗等。此外还有阿里深圳分公司、百度深圳分公司,但它们在深

圳并没有独立的互联网业务,因此不计算在内。

互联网企业的一个重要特点就是本身拥有大数据,应用大数据技术的需求和愿望也比较强

烈。当前,随着互联网普及率的不断提升以及移动互联网的快速发展,互联网应用的发展趋势

也在不断发生转变,互联网发展更加深入渗透到人们生活的每一个角落。互联网应用的深入产

生了海量的应用大数据,大数据是互联网的重要资源,也是互联网商业模式中核心价值点所在,

因此,大数据理论和技术在互联网应用中起到至关重要的作用。

1. 腾讯的大数据资产

数据本身是一种重要的资产,互联网行业在数据的积累上以百度、阿里巴巴和腾讯最为突

出。其中,腾讯数据最为全面,这主要与其互联网业务较为全面有关,腾讯最为核心的数据是

社交数据和游戏数据,社交数据最为核心的是关系链数据、用户间互动产生的文字、图片、视

频等,价值非常大。阿里主要是电商数据,包括用户在淘宝、天猫上的商品浏览、搜索、收藏

和购买等行为记录。百度的数据则主要来源于搜索引擎,包括用户搜索的关键词、点击记录等。

腾讯与百度、阿里的数据资源比较见图 4-1 所示。以上比较不难看出,相比之下,腾讯的数

据更大、更全、更有价值。在大数据时代,数据是一种非常重要的财富。

Page 55: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

51

图 4-1 百度、阿里、腾讯的数据资源比较

2. 腾讯的大数据应用

相对于阿里和百度,腾讯比较封闭,其大数据目前主要为企业内部运营服务,数据开放程

度不高。腾讯的大数据应用的按照不同环节可以分为四个层面,即:数据分析、数据挖掘、数

据管理和数据可视化,如图 4-2 所示。

图 4-2 腾讯大数据应用产品

1)数据分析层包括自助分析、实时多维度分析、用户画像和异动智能定位工具等。

Page 56: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

52

2)数据挖掘层包括精准广告系统、客户生命周期管理和用户个性化推荐引擎。精准广告

系统基于腾讯大社交平台的海量数据,通过智能定向推广实现广告精准投放。

3)数据管理层面包括腾讯数据仓库(TDW)、数据银行(TDBank)、元数据管理、数据

监控和任务调度系统。

4)数据可视化层包括:自助报表工具、腾讯罗盘、腾讯云分析等工具。

由此可见,腾讯的大数据应用已经发展到较高的应用水平,应用分层细化的趋势明显。

3. 迅雷大数据

迅雷大数据的一项主要应用是迅雷云加速。云加速是利用迅雷大数据快速处理能力,通过

挖掘算法智能计算出热点资源库,为用户提供最近、最快、最优的资源,提高用户的使用体验。

目前,云加速技术已经被应用到了迅雷的各条产品线,包括手机迅雷、、迅雷云播、网游加速

器等,成为迅雷的一项核心技术。

迅雷大数据的另一项主要应用是大数据营销。迅雷将全集团 4 亿用户的用户标签化,它

是基于迅雷所记录的用户线上行为习惯,通过大数据的分析提取出人口属性、行为兴趣、产品

意向等几个方面的标签,为用户提供更为人性化和智能化的服务。

此外,迅雷还经常性发布‚迅数榜‛,它基于数亿用户下载行为计算得出,其报告内容包

括年度最热软件、最热视频、下载最快速度、全年下载总量等一系列下载数据指标。

分析可知,迅雷依靠其大数据技术,在自己的应用领域建立了竞争优势,其经验值得深圳

其它企业借鉴。

4. 其他互联网企业大数据应用

珍爱网目前拥有超过 6000 万注册会员,基于这么大的用户量,可以相应的大数据的分析

以提高相亲的匹配准确性。为了这一目的,珍爱网引入了美国最大的交友网站(Match.com)

作为策略股东,借此引进了先进的匹配算法。基于大数据,珍爱网已经创建了珍爱魔方平台,

让珍爱数据运营大大向前推进了一步,还正在构建珍爱的推荐体系、用户画像、用户生命周期

管理体系等。

芒果网和深圳之窗网分别引入了百分点个性化推荐引擎实施个性化推荐类的大数据应用。

在芒果网,百分点个性化推荐引擎通过分析和挖掘用户的兴趣偏好向用户推荐需要的商品,用

户通过芒果网页面上的百分点个性化推荐栏如‚猜您喜欢‛等,即可轻松找到自己需要的旅游

路线。在深圳之窗网,利用百分点个性化推荐引擎分析和挖掘用户的兴趣偏好,以此向用户推

荐感兴趣的文章,用户可以通过深圳之窗页面上的百分点个性化推荐栏如‚浏览过本文章的用

Page 57: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

53

户还浏览过‛、‚精彩推荐‛等推荐栏轻松阅读文章。

综合信息可知,珍爱网、芒果网和深圳之窗网等相对较小的企业,也已经在使用大数据相

关技术,不过缺乏公开报道,其是否取得成功尚不明朗。

(三) 前景与发展趋势

深圳市的互联网产业分布,呈现一个明显的特点:即一个大型公司(腾讯)和若干较小的

公司。腾讯公司由于实力强大,遥遥领先于同行的其它企业,在整个行业中的大数据应用方面

也是独占鳌头,毫无疑问是深圳市大数据产业的领军企业和技术引领者。由此可见,深圳市未

来大数据产业的发展,在很大程度上要依赖腾讯公司的发展。

放大到全国范围,百度、阿里和腾讯无疑是大数据领域的佼佼者。它们争相布局、大笔投

入,可以预见在未来必将有一番激烈的争夺。但我们可以看到,腾讯在这个领域有一个独特的

优势:资源。腾讯拥有最全面、覆盖范围最大的资源,特别是微信和 QQ 特有的用户资源,是

所有其他企业难以获得和比拟的。腾讯的资源,不仅是腾讯的优势,也是深圳市的优势,不难

想像,如果有恰当的政策引导,未来在深圳市,可能会有一大批中小企业诞生,围绕腾讯的大

数据资源开展应用,形成一个规模庞大的产业。建议深圳市采取措施在这方面加以引导,鼓励

腾讯有条件开放数据,鼓励依靠腾讯数据的创新创业。

总的来看,互联网行业大数据应用呈现以下几个发展趋势:

(1) 应用场景体系化

这反映了大数据应用的技术分工合作走到了深入、细致的程度。百度、阿里巴巴和腾讯的

数据应用场景可以归结为如图 4-3 所示的七层体系,这 7 个层次分别代表了不同层面的大数

据应用场景。

(2)个性化

个性化反映在各个方面。例如营销个性化,包括:营销时段的个性化,在用户日常习惯使

用该业务的时段进行推送,用户产生反馈的概率会增加;营销地点个性化,部分与地点有关的

业务,例如商户优惠券,需要和用户所处位臵结合起来,才能引起客户的兴趣;营销方式个性

化,用户对什么样的促销手段会产生反应。

(2)智能化

智能化是未来大数据发展的一个重要趋势,互联网大公司走在大数据技术的前沿,拥有强

大的技术实力,必然在这个领域展开激烈较量。阿里建设量子计算实验室,百度成立深度学习

研究院,都是力图在这一领域有所作为的表现。更不用说国际巨头微软、谷歌等在这一领域的

Page 58: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

54

大手笔。腾讯也在不久前公布了其深度学习平台 Mariana 的最新进展及其成功应用,已经应

用到微信语音识别和微信图像识别。

图 4-3 百度、阿里巴巴、腾讯的大数据应用体系层次

二、金融与大数据

(一) 深圳金融产业发展概况

金融业是深圳市的一项支柱产业,近年来互联网金融又发展迅速。目前,深圳已经发展成

为了国内互联网金融领域最活跃和最发达的城市之一。据不完全统计,2015 年深圳市互联网

第三方交易规模突破了 3 万亿,将近全国总量的一半。此外,深圳市的 P2P 融资平台也发展

迅速,贷款成交金额累计已经达到 300 亿,并且每个月都在以 10%的速度增长。

这一切应当归功于深圳市政府的大力重视推动。深圳市政府一直在努力为互联网金融的发

展创造良好的产业基础和创新环境。早在 2008 年,深圳市就已经把互联网作为全市的战略性

新兴产业。到了 2014 年,深圳市又相继出台了一系列重大金融改革方案。其中,规划建设福

田、罗湖和南山三个互联网金融产业园区,大力推动了互联网金融的创新发展,培养了一批初

Page 59: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

55

具规模的行业标志性企业。

(二) 大数据在深圳金融领域的应用

在大数据的应用上,金融行业一直是一个先驱者,深圳市也不例外。据了解,包括平安集

团在内的深圳各个有实力的金融企业,目前对大数据都十分重视,正在进行各类大数据系统的

研究开发。其中可能有很多短时间内还难以投入实际应用,但已有一些应用开始悄然用上了大

数据时代的最新技术,例如征信和风控。

一个主要例子是:2015 年初,央行发布了《关于做好个人征信业务准备工作的通知》,

首批允许八家金融机构开展个人征信业务的准备工作,标志着中国征信体系建设迈出关键一步。

其中有三家机构来自深圳:腾讯征信有限公司、深圳前海征信中心股份有限公司、鹏元征信有

限公司。这三家机构在征信体系上各有不同,但都积极使用了大数据分析技术。

此外,大数据分析的另一个主要场景是股价分析和预测。例如量化投资机构利用历史信息

和舆情信息建立模型,来指导未来的股票交易策略。在国内,深圳南方基金是在这方面走得比

较前列的,它与深圳证券信息有限公司、北京新浪互联信息服务有限公司等联合发布了大数据

系列指数。

1. 腾讯征信

过去,金融机构主要依赖于央行征信报告来决定是否给个人客户授信。但 13 亿人中有

10 亿人并没有信贷记录,加之个人客户往往是贷款额度小、需求分散、个性化需求多,使得

大多传统银行想做零售贷款而力不从心。因获客、评估、审核和风控都靠人工,传统银行的运

营成本过高,面对广大个人消费者这一潜在客户群,银行只能望洋兴叹。

大数据的分析技术则可以有效解决这一问题。腾讯拥有数量巨大的 Q Q 账户、微信账户、

支付用户,以及 QQ 空间、QQ 邮箱、腾讯微博等获取的庞大用户资料。通过海量数据挖掘、

分析,可以评估其风险表现和信用价值,还可以同时接入外部数据,为用户建立基于大数据的

征信报告。

2015 年初,李克强总理到微众银行考察时,就体验了一次‚刷脸‛认证贷款的试验。‚刷

脸‛认证贷款使得贷款行为变得极大方便。其方法是:通过摄像头拍摄贷款人的脸部,经软件

系统识别,得出贷款人的可靠身份;然后腾讯通过大数据分析,对贷款人的信用进行评定,最

好计算出贷款金额。业内人士指出,微众银行使用的‚刷脸‛认证,背后使用的正是腾讯社交

平台积累的大数据风控模型,这种创新性的应用,如果能够做到可靠,将可以改变人们的消费

行为。

Page 60: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

56

显而易见,腾讯征信主要应用的是基于腾讯所积累的社交大数据的大数据分析。该数据在

目前中国尚没有可作比较的同类数据,因此具有独特的优势。

2. 前海征信

平安集团旗下的前海征信,拥有多年沉淀的个人金融及相关数据。据前海征信介绍,至

2015 年,平安旗下数据覆盖将近 3 亿金融用户,其中,线下有 9800 万户,线上有 1.97 亿。

除了平安系的大量金融数据,前海征信的数据来源还包括与政府部门,如深圳市住建局、交警

局等第三方权威机构的合作取得的数据,以及电信等运营商、银联等几十家外部数据提供机构

合作,互联网和新型数据等。

2015 年 7 月,前海征信正式宣布与银联数据展开全面战略合作。作为国内发卡数据处理

外包行业的领导者,银联数据已向超过 120 家的客户银行提供发卡数据处理外包服务,客户

银行发行的信用卡累计超过六千万张。

基于其丰富的金融场景及强大的征信大数据能力,借助银联数据既有的信用卡核心及外围

系统平台优势,前海征信将向银联数据的金融机构客户提供更全面、更先进、更专业的大数据

征信服务。据悉,前海征信已自主研发并成功推出覆盖贷前、贷中、贷后全流程的 10 大征信

产品,是目前市场上唯一的全流程、端到端、产品+服务的征信产品套装,并自建了拥有 5000

核超强计算能力的国内金融业界的大数据‚最强大脑‛。

不难看出,前海征信主要依靠的是来源于金融系统的大数据分析,平安集团本身数据规模

庞大,应用潜力巨大。

3. 鹏元征信

鹏元征信有限公司是中国最早成立的商业征信机构之一,成立于深圳市,2002 年就为深

圳市建设了‚深圳市个人信用征信系统‛,经过多年发展,目前个人和企业征信服务覆盖全国,

在征信领域具有较强的实力和运营经验。其数据来源主要包括网上公开信息、专业机构提供的

信息、内部存档资料、征信人主动提供的信息、鹏元征信正面或侧面了解到的信息。

纵观国内的多家征信机构,鹏元征信被认为是国内最完善的征信体系机构之一。作为中国

信用服务业的开拓者,自 2002 年推出征信系统以来,经过近 12 年的场景数据积累,鹏元征

信已经成为中国最具影响力和公信力的综合信用服务机构。其整个征信系统数据资源涵盖各大

传统金融、互联网金融、政府、公共机关、电信、社交媒体、电商等各行各业。另外还首创多

项国内完全自主知识产权的核心技术,提供给市场超过 7000 多万份各类信用报告。为防范和

化解社会信用风险、推进诚信社会的建立起到积极作用。

Page 61: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

57

鹏元征信对客户提供‚大数据分析与挖掘‛服务:利用鹏元征信系统多年来积累的丰富数

据资源,通过对数据进行统计分析,提供诸如:个人职业收入、行业平均收入、区域平均收入

等统计类产品或服务。

根据公开资料,有诸多互联网金融公司与鹏元征信合作,使用其提供的大数据征信服务。

包括:

1)有融网:P2P平台有融网在 2014年平台筹备阶段对互联网金融面临的问题进行分析,

认为征信是其中的核心问题,于是选择了专业性强的第三方征信机构即鹏元征信有限公司进行

合作。

2)网投网:2015 年 6 月,网投网与鹏元征信有限公司达成战略合作,引进鹏元征信提

供的个人及企业征信报告查询服务,将信息化、规范化的征信系统纳入到平台风控体系。

3)稳通金融:2015 年 7 月,稳通金融与鹏元征信公司建立合作关系,双方将在身份认

证、个人风险汇总、信贷征信业务方面展开深入合作,把信息化、规范化的征信系统纳入到稳

通金融安全保障系统之中。

4)新联在线:2015 年 10 月,国内首家全球化互联网理财平台——新联在线,携手鹏元

征信签署了合作协议。接入鹏元征信系统后的新联在线,将线下风控与线上征信审核相结合,

不仅降低了平台的业务风险,还提高了投资者的投资安全风险的保障能力。

分析可知,鹏元征信是基于公共大数据的分析技术,数据来源于公司多年的积累,具有较

高的公信力。

4. 南方基金

南方基金管理有限公司与深圳证券、北京新浪等公司合作,于 2014 年 9 月推出了大数据

系列指数,在业界造成了较大的影响。其中包括大数据 100 指数和大数据 300 指数,两只指

数的计算方法是以 2010 年 1 月 29 日为基日,以 1000 点为基点。2015 年 2 月 27 日,南

方新浪大数据 100 指数基金正式获批。大数据指数的主要原理是:通过对新浪财经领域的‚大

数据‛进行定量分析,根据页面点击量、舆情正负面判定等,评估投资者情绪,衡量投资者股

票的评价,同时综合其它因素,计算得到可能具有超额收益预期的股票组成指数样本股。

与传统指数相比,其最大创新点在于它引入了网络舆情信息,利用大数据分析技术对市场

投资人情绪进行量化计算,这一思想,开创了大数据时代的新型投资策略。

5. 互联网金融平台

目前,深圳市比较有名的互联网金融平台有:前海微众银行、稳通金融互联网理财平台、

Page 62: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

58

投哪网等。尽管信息不是非常透明,但从公开的信息了解,各个平台都积极使用了基于大数据

的风控系统。

深圳前海微众银行是国内首家民营银行和互联网银行,自 2015 年 5 月份以来,陆续推出

微粒贷、微众银行 APP、微车贷等产品,以个人贷款和大众理财为主的普惠金融产品服务体

系基本成型。

目前,微粒贷主动授信已经超过 3000 万人,客户超过 600 万,累计发放贷款超过 300

亿元;近 50%的用户为制造业、蓝领服务业等大众客户群体,提款客户覆盖了 31 个省、自

治区、直辖市的 354 座城市。

微众银行依托腾讯在社交数据方面的强大优势,汇集了 40 万亿条数据信息,形成微众银

行的大数据系统,这样微众不需要调查信用、上门担保,实现整个服务完全依托于互联网。根

据报道,微众银行在不良贷款率上,大幅领先竞争对手。

稳通金融是中房联合集团前海基金管理有限公司旗下,深圳市稳通金融服务有限公司运营

的国资背景互联网金融平台,自 2014 年 5 月上线起,就致力于成为中国领先的创新金融服

务提供商。稳通金融推出的零钱罐 APP,就是一种互联网金融+大数据风控的理财产品。产品

一经推出,便成为很多小白的理财首选。

投哪网是一家深圳的 P2P 网络借贷服务公司,提供了包括投资理财服务在内的一系列互

联网服务。投哪网已经开始利用大数据,建立黑名单,包括用搜索引擎去抓取失信名单,另外

还有与一些征信机构合作,比如鹏元征信。

综合上述信息不难看出,深圳各家互联网金融平台从诞生之日开始,就很重视大数据的应

用,大数据分析能力必将成为互联网金融公司的一项核心竞争力。

(三) 前景与发展趋势

从目前来看,大数据在金融领域的应用还只是处在初级状态,但已经有了少量为业界所认

可的成功应用模式,主要集中在‚征信‛和‚风控‛领域。也正因为如此,业界已经充分意识

到了大数据的重要性。多数金融行业的公司,无论规模大小,都在积极探索大数据方向的应用

模式。

大数据对于未来金融产业发展的影响将是极其巨大的。数据的重要性正在为人们所认识,

掌握大数据资源、技术和话语权的企业,很可能将建立起垄断性的竞争优势。而缺失了大数据

的企业,则可能在发展的潮流中,逐渐遭到淘汰。以‚个人征信‛业务为例,尽管深圳市有 3

家企业入选了央行的首批 8 家名单,但业界普遍预测该市场最终只能容纳少数规模较大的企

Page 63: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

59

业,预期未来的竞争将十分激烈,而深圳企业的竞争对手包括阿里旗下实力强劲的‚蚂蚁金服‛。

金融是深圳市的一项支柱产业,深圳市政府应当积极扶持和引导企业研发关键技术,探索

大数据应用创新,及早建立起区域性的竞争优势,以应对未来可能的激烈竞争。腾讯和平安集

团都有望成为大数据金融领域的领军企业,腾讯已经处于较为领先的位臵,而平安也值得期待。

可以预见,未来大数据在金融领域的应用前景将是十分广阔的。其应用范围十分广泛,涉

及社会生活的方方面面,如下所述。

1. 银行大数据应用

银行将越来越多的通过大数据来驱动业务运营,具体包含四大方面,如图 4-4 所示。

1)客户画像:包括个人客户画像和企业客户画像。

2)精准营销:在建立了大规模客户画像的基础上,开展精准营销,包括:实时营销、交

叉营销、客户生命周期管理等。

3)风险管控:包括中小企业贷款风险评估和欺诈交易识别等手段。

4)运营优化:包括市场和渠道分析优化、产品和服务优化、舆情分析 3 个方面。

图 4-4 银行大数据应用

2. 保险行业大数据应用

随着大数据技术的发展,保险行业的大数据应用将会越来越多。越来越多的保险公司已经

注意到了大数据在保险行业中的作用,未来可以从三个方面开展应用:精细化营销、欺诈分析

和精细化运营,如图 4-5 所示。

Page 64: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

60

图 4-5 保险行业大数据应用

1)客户细分和精细化营销:包括客户细分和差异化服务、潜在客户挖掘及流失用户预测、

客户关联销售、客户精准营销等。

2)欺诈行为分析:基于企业内外部和历史交易数据,建立大数据分析模型,达到实时预

测欺诈等非法行为的目的。

3)精细化运营:包括产品优化,保单个性化、运营分析、代理人(保险销售人员)甄选

等。

3. 证券行业大数据应用

目前国内外证券行业的大数据应用大致有以下三个方向:

1)股价预测:目前应用这一领域的主要是各种量化投资基金。

2)客户关系管理:包括客户细分和流失客户预测。

3)投资指数计算:例如对账本投资持仓率、收益率、资金流动情况等指标进行加权汇总

计算得到综合性的投资指数。

三、教育与大数据

(一) 深圳教育产业发展概况

1. 城市教育体系

Page 65: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

61

深圳是一个新生的城市,教育产业也是从零开始,经过三十多年的发展,已经建设成一个

包括了各类中小学和高校的现代化城市教育体系:

根据深圳市教育局公开的信息,2014 年,全市各级各类学校(含幼儿园)2094 所。其中:

公办学校(园)507 所,民办学校(园)1587 所。各级各类在校学生总数 175.33 万人,毕

业生 38.65 万人,招生 52.99 万人,教职工 15.08 万人。

现有高校单位 11 个,在校学生 11.21 万人;普通中小学 656 所,在校学生 117.19 万

人;中等职业学校(含技工学校)23 所,在校生 6.94 万人;幼儿园 1402 所,在园儿童 39.9

万人;特殊教育学校 1 所,在校学生 820 人;工读学校 1 所,在校学生 65 人。

2015 年深圳教育系统加快构建创新型开放式现代城市教育体系,在各个方面不断取得取

得新进展。其中引人注目的是深圳高等教育开放式国际化发展再获重要突破。

一些重要的事件包括:深圳北理莫斯科大学获批筹建,中山大学深圳签约落地,哈工大(深

圳)国际设计学院签署合作办学协议,深圳墨尔本生命健康工程学院签署合作办学协议,华南

理工-罗格斯大学深圳创新学院签署合作办学备忘录,哈尔滨工业大学(深圳)筹建工作加快推进,

专家论证通过《哈工大(深圳)本科生培养方案》。香港中文大学(深圳)新增 5 个本科专业,招生

规模扩大一倍,完成首批研究生招收。清华-伯克利深圳学院完成首批招生。

2. 教育服务产业

经过长期的发展,深圳诞生了一批具有国际竞争力的服务企业,包括科略教育集团、深圳

国泰安教育技术有限公司等。

科略教育集团创建于 2008 年,总部设在中国深圳。是一家专业的培训、咨询为一体的集

团化企业,集团旗下共拥有管理培训与管理咨询两大核心业务,致力于中国发展型企业的专业

化,持续化,国际化。

深圳国泰安教育技术股份有限公司是一家为教育与投资业提供综合解决方案的国家级高

新技术企业。致力于为国内外教育和投资机构提供集‚研究数据、专业实验、云平台建设、软

硬件系统和增值服务‛为一体的综合性解决方案。

(二) 大数据在深圳教育领域的应用

当前,大数据在教育领域的应用,无论是在深圳还是在全国范围内,都还只是处于萌芽状

态。由于教育大数据的缺失等原因,大数据应用在教育领域可能还需要一段时间的培育。下面

所列举的从严格意义上说并不是大数据应用,不过可以看做是大数据应用的基础或组成部分,

因此予以列举。

Page 66: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

62

1. 腾讯智慧校园

腾讯在教育领域的布局由来已久。之前的两年,腾讯体系对教育领域的探索不断,产品包

括腾讯课堂、腾讯精品课等,主打的是在线学习场景。而在 2015 年,腾讯在教育领域有 2

个较大的应用项目推出,一是‚腾讯智慧校园计划‛,二是‚QQ 家校〃师生群‛。

腾讯智慧校园是腾讯在 2015 年 10 月发布的一款以微信为基础,为各类学校提供的一体

化互联网智慧解决方案。而早在‚智慧校园‛项目发布之前,腾讯 QQ 已经推出了‚QQ 家校〃师

生群‛功能。腾讯 QQ 将发布‚QQ 家校〃师生群‛及其所需的‚作业‛功能。腾讯期望降低

家长、学校和教师沟通的成本,并以 QQ 为平台引入易题库、批改网等第三方教育资源。

这两种产品的推出反映了腾讯在‚互联网+教育‛这个领域的决心。与当初腾讯开发微信

时采取‚多个团队并行开发‛的策略相似,腾讯在这里可能采取的是 2 种产品分头赛跑的策

略。不过 2 者也有区别,QQ 家校〃师生群更看中 K12 市场,微信‚智慧校园‛更看中大学

生市场。

2. 深圳教育云

深圳教育云是按照教育部《教育信息化十年发展规划(2011-2020 年)》和《深圳市中

长期教育改革和发展规划纲要(2011-2020 年)》的总体部署,结合深圳市实际,在已有教育

信息化基础上,全面整合多方资源,建设的推送优质教育资源云平台和数字化教育管理云平台。

国家超级计算深圳中心是深圳市科技创新委员会和深圳市教育局指定的‚教育云‛开发和

运行主体。超算中心正在和深圳市教育局及太极集团等多家企业合作建设深圳教育云项目。目

前已有 50 多所中小学学校的 2.5 万名学生和近 3000 名教师参与到教育云的应用试点中。

目前,‚鹏校通‛是国家超级计算深圳中心主推的一款专为中小学生研发的互动学习工具。

鹏校通以班级组织关系为基础,可通过批量信息采集的方式为学校、班级提供实名制注册,给

中小学生提供了一个安全的网络互动学习空间。鹏校通支持语音、图片、视频、信息等多媒体

沟通方式,其中,‚拍拍答疑‛是学生解决学习困难的好帮手。利用移动互联网技术,鹏校通

突破学习的时空局限,向广大师生提供泛在学习,让学生随时随地实现快捷、有效、有趣、互

动的泛在学习。

3. 区域教育云

当前,深圳多个区均建设了区域教育云系统,其中,建设最早、影响较大是宝安教育云平

台。宝安教育云平台早在 2011 年 9 月开通运行,是我国基础教育第一个综合云平台,该平台

打破了孤立数字校园的建设模式,建立了宝安区教育综合云服务中心,统一为教育管理机构、

Page 67: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

63

教育科研机构、各类基础教育学校提供综合性云服务。

该平台推进了‚云服务数据中心‛的建设,将宝安区域教育云中 20 个 IT 系统的应用资

源及数据资源,聚集起来,提供统一数据服务。该云平台共构建几十万条优质教育教学资源,

为宝安区 400 多个办学单位、2 万名教师、30 多万名学生以及广大市民服务。2014 年,该

云平台的移动端上线,用户通过手机就可以获得各种应用资源等。

宝安近期规划编制了《宝安区智慧教育总体规划(2015—2017)》,探索互联网环境下区域

教育的创新和变革。该计划将采取大数据、‚互联网+教育‛等 技术手段提升教育信息化水平,

加速宝安教育现代化发展。将来不久,宝安区试点学校的学生都将累积成长‚大数据‛,为分

析学生学习成长和教学科研提供一个完整的样本。

4. 优课联盟

优课联盟是由深圳大学牵头组建的高校在线课程教育联盟,2014 年 5 月 12 日成立,一

年时间里加盟高校达 76 所,上线课程达 25 门,学生选课人数累计已超过 2.5 万人次;共举

办了四期优课教师培训班,68 所高校的 304 人参加了培训。在稳步推进、快速发展的同时,

优课联盟在全国的影响力也不断提升。

5. 习习网络

深圳习习网络科技有限公司(简称‚习习网络‛)成立于 2008 年 6 月,是专注于中小学

领域的互联网综合服务提供商,是中国最早拓展互联网教育的企业,具有雄厚的研发实力,网

络平台产品丰富,功能强大,行业独特性显著,经营理念在行业中处于领先地位。

习习网络主要服务于全国的中小学生、家长、教师、教育管理者和教辅资源商。习习网络

旗下拥有覆盖数字化教辅资源和移动互动全领域的‚教辅云‛、‚ 课后帮‛和为普及型知识竞

赛活动提供解决方案的‚竞赛测评云平台‛。其中,竞赛测评云平台是为解决区域、学校、社

会机构举办各种公益性网络知识普及竞赛、网络学科竞赛测评、网络招生考试活动,应用 SAAS

技术搭建的开放式竞赛测评平台。2013 年至 2015 年,习习网络连续三年成为教育部‚全国

中小学生安全知识网络竞赛‛独家互联网合作机构,目前覆盖全国 26 个省级单位,累计参赛

人数 1.6 亿人次,用互联网技术助力教育公益事业发展。

截至 2015 年 12 月底,习习网络的‚一站式互动教学云平台‛覆盖全国 7.6 万所学校,

中小学生学习互动工具—习信下载量突破 2700 万,站群日均活跃用户超过 180 万,成为目

前全国最大的互联网教育平台之一。

Page 68: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

64

(三) 前景与发展趋势

尽管,从严格意义上讲,大数据在教育领域的应用还没有真正开始,然而,不可否认,大

数据在教育领域的远期应用前景十分地光明!其中主要原因在于教育产业的规模十分巨大,估

计在万亿规模以上。当前,深圳市政府宜加强在‚互联网+教育‛平台上的政策扶持力度,扶

植建设一批有竞争力的互联网+教育平台,包括在线教育、教辅、作业、云等可能的互联网+

平台。未来可依靠平台优势建立起数据优势,促进教育大数据领域的大发展。

未来大数据在教育领域的应用,可能将集中在以下几个方面:

1. 智慧教育

这代表着人类教育的一次重大变革,即使用大数据的技术手段,帮助学生改善学习方法,

这与传统的依靠对人的观察做出决策完全不同,它是基于客观的数据量化分析,将改变传统的

教学方法,产生新型的学习与生存方式。

智慧教育的实现,将建立在大数据挖掘与分析的技术之上。大数据挖掘与分析的主要作用

是对学生学习过程中产生的大量数据,包括论坛发帖、课外活动、在线社交,以及考试、作业、

课堂等进行分析,准确地评估学生的学习效果,发现潜在问题,进而对学生未来的学习计划进

行修正,以达到最好效果。

使用大数据分析技术,经过构建学习者经验模型、建立学习者行为模型、构建学习者知识

模型、构建领域知识模型、构建学习者档案、教学策略分析等一系列过程,达到优化教学策略、

显著的提高了学习者学习效率的目的。

2. 智慧校园

基于云计算、物联网和海量信息处理等革命性技术进步,构建智慧智慧系统,包括教育信

息系统、教学评估系统、校园生活系统、校园文化系统。使用最新的人工智能技术,基于智慧

校园获取的大数据,实时检测可能的安全问题,保障和谐、安全的校园生活。

3. 教学模式创新

最近几年,世界范围内在教学模式创新上,取得的较多的进展。例如慕课(MOOC),基

于大数据的技术,少量的名牌大学的优秀老师可以同时对全世界数以万计的学生进行授课,这

对于传统教育是一次颠覆性的变革。大批普通的学生不需要考入名牌大学即可以很低的成本读

取最优秀的课程。此外还有翻转课堂逐步为人们所接受和推崇,也是得益于于网络授课技术的

进步。随着大数据技术的进步,有理由相信未来必将还会涌现出一大批创新性的教学模式。

Page 69: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

65

四、政务与大数据

(一) 深圳政府职能管理发展概况

深圳市是一个发展非常迅速的城市,也是中国最年轻的城市之一。经过30多年的工业化、

城市化,城市规模迅速膨胀,给公共服务带来沉重压力。不仅如此,深圳市人口倒挂现象非常

严重,例如在 2013 年,深圳市的户籍人口只有 304.94 万,而常驻人口却有 1633.8 万人,

户籍人口只有常住人口总量的 1/5。因此,如何提高政府管理水平,更好地服务于市民,一直

是深圳市政府面临的难题。

深圳市的人口倒挂问题长期以来给政府制定政策、安排财政造成了困难。因为仅仅以户籍

人口作为测算依据往往是不合理的。对于占常驻人口 4/5 的非户籍人口,一直被拒斥在公共

服务的覆盖范围之外,这对于那些同样为创造深圳奇迹做出了巨大贡献的非户籍人口,是非常

不公平的。如果这些人不能够得到政府的重视,他们以及其子女的教育、就业、社会保障和管

理等问题如果不能得到合理的照顾,长期下去自然难以产生真正的归属感。长远看也必然会影

响到深圳持续的经济发展。

而大数据技术,将是解决这一问题的一把钥匙。数据是解决公平正义的首要基础,‚用数

据说话‛、‚依数据办事‛,才能够使政府的决策最有利于深圳广大市民的最大利益,保障深圳

市持续长久的经济和社会发展。数据,包括人口、法人、房屋、街道等,是实现城市社会管理

的基本要素,只有获得准确的数字,才能实现有效的服务和管理。因此政务大数据系统的建设,

是非常必要,非常有意义的工作。

(二) 大数据在深圳政府管理领域的应用

1. 织网工程

‚织网工程‛是深圳市委市政府利用大数据和云计算等技术手段,结合‚互联网+‛时代

新要求,以数据共享为基础,以业务协同为核心,探索构建的一个以人为本、职责清晰、流程

合理、高效便捷的整体性社会服务和社会治理新体系,将进一步推进政府公共决策循数管理和

主动服务,推动数据开放和信息惠民。

此项工作由深圳市社会工作委员会负责牵头推进,先后在坪山新区、南山招商街道和龙岗

南湾街道进行区、街道两级综合试点,2014 年已在全市十个区全面推广部署,并于今年 1 月

1 日起正式并网运行。‚织网工程‛推进以来,先后赢得国家发改委、中编办、信息产业部、

民政部、网信办等国家部委的高度肯定,深圳也因此被授予全国首个‚政务信息共享国家示范

Page 70: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

66

市‛。

在‚织网工程‛大数据库建设方面,目前已在全国率先建成了集人口、法人、房屋和空间

地理信息于一体并动态准确的城市级公共信息资源库,数据总量达14亿多条,经大数据清洗、

比对、关联形成人口 1000 多万、法人 100 多万、楼栋 77 万栋、房屋 1200 万间(套),并在

电子地图上实现可视化呈现。全市基于同一个大数据库,相关数据直通各区,为各区开展决策

分析、资源规划、便民服务提供了强大的数据支撑,进一步推动信息融合与共享,打破长期以

来存在的‚信息孤岛‛和‚信息壁垒‛。

在推行网格化采集方面,全市十个区已划分 1.6 万多个基础网格,并按照减员增效的原则,

整合了基层原有出租屋、计生、城管等部门从事基础信息的采集人员,组建了全市统一的网格

员信息员队伍,在基层动态采集各类基础信息和事件信息,并为社区居民提供力所能及的便民

服务,避免了原来基础信息多头采集、反复扰民等问题。

在社区家园网建设方面,基于统一的社区家园网管理平台,为全市 642 个社区建设了内

容丰富、贴近居民生活的社区网站。社区居民可以通过社区家园网参与社区事务、办理个人事

项、享受公共服务,获得了实实在在的实惠。

‚织网工程‛的建设,也对培育壮大深圳当地企业做出了贡献。‚织网工程‛的合作伙伴,

如永兴元科技公司,已发展成为国内领先的 SOA 基础软件平台提供商;又如深圳市华傲数据

技术有限公司,已经成为一家在国内知名的大数据技术服务企业。

2. 深圳交警大数据应用

深圳交警已经建成一个智能交通管理服务体系,该体系包含了一个平台,即交通公用信息

平台,以及 6 个系统,即:信息采集、信息控制、诱导发布、勤务管理、智能交通违法管理

和闭路电视。得益于该体系的的建设,深圳交警局在大数据应用方面已经走到了全国同行的前

列。近年来,深圳交警使用大数据的成功案例,屡见媒体报道。例如:

2015 年 5 月 7 日清晨,深圳交警在全国范围内首次使用大数据对此分析,查处因醉驾、

酒驾丧失驾驶资格而依旧行驶在道路上的驾驶人员。

2015 年 9 月 26 日,深圳交警根据网友发布的图片,使用大数据追踪兰博基尼豪车的交

通违规行为。并在微博发表信息,展示了深圳交警‚大数据查违法‛的能力。

2015 年 9 月媒体报道,深圳交警运用大数据天眼系统,扣下 10 台假套牌豪车,其中不

乏宾利、保时捷等豪车。据称,大数据天眼系统可在后台实现对假套牌车辆的自动预警,并将

资料推送给路面辖区大队,进而分析出嫌疑车辆出没的时段、路段,实现最终精准打击。

Page 71: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

67

此外,深圳交警局在 2015 年先后宣布与前海征信和蚂蚁金服合作,将交通违法接入前海

征信和蚂蚁金服的个人征信系统。

3. 大数据反信息诈骗

深圳市在大数据反信息诈骗方面取得了成功的应用。2013 年底,深圳市公安局反信息诈

骗中心与中国互联网协会、银行、电信运营商一道,联合腾讯等互联网企业,成立了‚天下无

贼-反信息诈骗联盟‛。联盟成立近两年以来,得益于大数据技术的应用,利用数据共享,在诈

骗侦破和阻止方面取得非常好的效果。

根据介绍,其背后的原理是大数据技术:通过对企业、电信运营商掌握的大数据进行挖掘

分析,从而发现过去依靠人工或单个机构难以发现的联系。当计算机程序实时发现异常情况时,

便可以立即通知警方和电信运营商,警方可以组织侦查,而电信运营商可以通知和阻止潜在受

害用户转款。跟据深圳市公安局反信息诈骗中心提供的信息,‚天下无贼-反信息诈骗联盟‛已

在深圳地区直接劝阻约 2.08 万人避免被骗汇款,帮助 1.8 万多名事主快速拦截被骗资金,涉

及金额共计 4.55 亿元。在联盟的努力下,‚冒充公检法‛一类案例在深圳呈大幅下降趋势,

信息诈骗大案基本被阻断。

(三) 前景与发展趋势

深圳市政府在政务大数据应用方面取得的成就是有目共睹的:‚织网工程‛的实施,大大

提升了政府管理和服务的水平,市民办事往往可以少跑腿甚至不跑腿,得到了实实在在的便利;

深圳交警利用大数据查违法,更好地维护了市民交通的公平、正义和安全;深圳公安局利用大

数据反诈信息骗,避免和挽回了市民巨额的经济损失。

但另一方面,政务大数据应用目前还只是政府相关部门在主导、参与。深圳市政府还应进

一步推动政府数据的开放共享。政府数据是一笔巨大的财富,也是开启智慧政府的钥匙。虽然

政府拥有这些高价值数据,但是其数据资产的利用和运营仍处于较为原始的阶段。

可以看到,深圳市政府已经在推动政府数据开放共享,鼓励民间参与创业。例如,深圳市

气象局自 2015 年 12 月起,开拓性地推出‚乐享气象‛应用征集系列活动,旨在打造一个面

向全社会的创客气象应用服务展示平台,从而聚集大众智慧,激发‚大众创新、万众创业‛的

热情,创造更符合用户需求的、个性定制化的气象服务产品。

虽然深圳市的政务大数据应用已经取得了较好的成绩,但可以预计的是,政务大数据未来

还有巨大的发展空间。基于大数据的技术,将可以建设新型的智慧政府。智慧政府不仅仅是电

子政务的智能化,还包括智慧服务和开放数据。开放数据能够让政府的以较小的投入,延展便

Page 72: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

68

民服务的深度和广度,从而撬动庞大的大数据产业链条,带动整个产业的兴旺。基于这样的思

想,预测政务大数据发展的可能趋势如下:

(1)政务大数据开放接口标准化

政府数据资源需要制定标准的接入接口,实现形式上的数据资源整合,而数据集的管理和

维护仍旧由现有的部门实施。因为政府数据的多样性、复杂性,实现政府数据的统一管理、维

护,并不一定经济。另外,可以根据接口的调用情况计算绩效,从而促进政府部门之间的数据

交易。同时各个政府部门的接口还应当有选择的面向公众、企业开放。

(2)开放数据第三方门户网站

事实上,政府在积极地开放数据,但是由于这些数据处于零散的、碎片化的一种状态,其

可用性并不令人满意。开放数据第三方门户网站,可能能够较好地解决这一问题。第三方门户

网站能够将分散的政府开放数据加以搜集、精炼并归类,形成可用的数据集,供公众、企业使

用。

五、交通物流与大数据

(一) 深圳交通物流业发展概况

根据深圳交通运输委员会网站公开的信息归纳整理得到:2015 年深圳港年集装箱吞吐量

达 2421 万标准箱,自 2013 年起连续三年位居全球第三。目前,深圳港国际集装箱航线达

254 条,外贸驳船航线 47 条,海铁联运班列 14 条,国际友好港 18 个,全球下水的 5 艘 3E

级最大 1.8 万标准箱货轮全部挂靠深圳港。

2015 年深圳机场年旅客吞吐量达 3972 万人次,货邮吞吐量达 101 万吨。超大型民航客

机 A380 落户深圳,新航站楼顺利投入使用成为城市新地标,深圳迈进‚新航站楼+双跑道‛

的大空港时代。目前,深圳机场共有 32 家航空公司开通客运航线(其中基地航空公司 4 家),

航线 166 条(其中国际航线 16 条),通航国家 12 个,通航城市 123 个。

全市道路设施共 9108 条、总里程 6375 公里、总面积 110 平方公里。深圳地铁5条线

路全面开通,形成了 178 公里、118 个站点的轨道网,我市进入轨道交通时代。目前,全市

共有公交线路 915 条,公交车辆 15074 辆,出租车 16720 辆,公交专用道 957 车道公里,

公交停靠站 9497 座,公交站点 500 米覆盖率达 94.96%,公交分担率达 56.1%,公交日均

客运量达 981 万人次(其中常规公交 567 万人次、轨道交通 307 万人次、出租车 107 万人

Page 73: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

69

次)。

2015 年物流业增加值达 1783 亿元,占全市 GDP 的 10.2%。重点物流企业 85 家,涌

现出怡亚通、腾邦国际、顺丰速运等一批知名物流企业。连续五年成功举办深圳国际物流与交

通运输博览会,展会规模位居同类展会‚亚洲第一、世界第二‛。

经过多年建设,智能交通体系日趋完善:以 35 个信息化系统为支撑,汇聚 GPS、视频、

‚深圳通‛刷卡、车流车速检测和交运通 5 大类数据,形成综合交通大数据中心。依托道路

交通运行指数,实时监测全市 9500 多条道路、108 个交通小区、13 条高速公路运行状态。

(二) 大数据在深圳交通物流领域的应用

1. 菜鸟网络快递大数据

菜鸟科技网络有限公司于 2013 年 5 月在前海注册成立。该公司隶属于阿里巴巴集团,阿

里巴巴联合中国银泰、复星集团、富春集团、顺丰速运等多家企业,共同组建‚菜鸟网络科技

有限公司‛。通过组建‚中国智能骨干网‛,主要从事投资及投资管理,物联网整体技术研发,

智能物流网搭建等,在全国范围内可以支撑日均 300 亿交易额,24 小时送货必达的网络。

菜鸟网络持续专注于帮助快递行业数据化。2014 年起,菜鸟网络与三通一达等 14 家快

递公司合作,联合推出了标准化的公共电子面单平台服务,向商家和所有快递企业开放免费接

入服务。2015 年 8 月 20 日,德邦快递成功完成接入菜鸟网络电子面单平台。

快递行业数据化具有重要意义,菜鸟网络通过电子面单平台,接入 15 家主流快递公司,

形成了快递行业的大数据,未来可在这一领域进行大数据分析,通过合理的物流协调、资源调

配,实现迅捷到达的快递业务,并降低快递运输的成本。

2. 交通大数据交易平台

2015 年 11 月,中科院深圳先进技术研究院北斗应用技术研究院与华视互联联合成立的

全国首个‚交通大数据交易平台‛落户深圳,旨在利用大数据解决交通痛点,推动智慧城市的

建设。

华视互联在全国拥有 30 余个城市约 30000 辆公交车 930 万注册用户,每天超过 16 个

小时覆盖 7.3 亿人群的海量数据。这些数据存在巨大的潜力与价值,亟待处理与挖掘,并合理

应用。‚通过平台数据的管理分析,以及对人群、车辆交通行为的有效分析,对交通态势进行

研判与预测,从而提供交通信息服务,这样将对‘道路拥堵’与‘停车困难’等城市最需要解

决的交通问题提供帮助。‛此次华视与中科院联合推出交易平台,拥有严格的数据质量和价值

评估体系标准,将对交易数据统一采集、统一评估、统一管理、统一交易,结合前者庞大的数

Page 74: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

70

据资源,加上后者在大数据领域多年积累的数据清洗、分析、挖掘等处理能力,将助力破解交

通服务等难题,未来,将逐步组建交通大数据供应商联盟,构建良性的大数据生态系统。

3. 北斗应用技术研究院智能交通应用

深圳北斗应用技术研究院成立于 2014 年 9 月 19 日,由中国科学院深圳先进技术研究院

与深圳市南山区政府共同筹建,是我国首个北斗卫星应用技术领域的研究院,北斗院充分发挥

产学研优势,以市场需求为导向,旨在成为国内交通大数据服务领域的先行者。公司面向企业

应用和商务智能,提供从云平台搭建到大数据分析的全套解决方案。

北斗应用技术研究院是深圳市交通大数据应用研究的主要参与者,研发有‚大数据分析平

台‛、‚北大时空服务平台‛、‚一体化数据管理平台‛,面向深圳市提供多种交通大数据服务和

产品,包括:

1)面向政府监管应用,如:物流车辆的高速实时分析、报表统计分析、出租车实时分布、

交通小区社区发现、地铁/出租车客流分析等。

2)公交电子站票系统、出租车运营管理系统、公交运营管理系统等综合解决方案。

3)数说交通节目:是由北斗应用技术研究院院推出的一档基于大数据分析的生活服务类

原创节目,提供更多的交通知识与建议,让观众能轻松出行。

4)交通在手 APP:是深圳市交通运输委员会和深圳北斗应用技术研究院共同打造的出行

服务类 APP,交通在手涵盖了公交、地铁、自驾、火车信息,为深圳市民提供实时多样的交

通服务。

4. 未来交通实验室

未来交通实验室是由深圳市城市交通规划设计研究中心于2015年1月发起的非盈利性在

线交通创新平台,以‚挖掘数据价值、践行开放理念、共建创新平台‛为理念,致力于城市大

数据模型、数据开放和创新产品等技术交流。在未来交通实验室的章程下,邀请国内外交通研

究机构加入,共建各个城市的站点,统一数据开放与发布规范,以展示最新技术成果,达到‚万

众创新、技术众包‛的目的,共同营造未来交通生态圈的创新性和可持续性。

未来交通实验室(深圳站)由深圳市城市交通规划设计研究中心等成员于 2015 年 5 月创

立。开设有城市模拟、数据开放、科研探索、产品孵化等四大模块,以深圳市近 10 年来的交

通信息化工作经验为依托,提供数据挖掘分析案例、数据开放平台、研究方向介绍和产品体验。

目前未来交通实验室目前孵化有‚交通指数云平台‛、‚伴我行‛APP、‚居民出行调查系

统‛、‚碳足迹‛APP、‚交通指标查询系统‛、‚无人机:新型调查技术‛、‚历年交通调查数据

Page 75: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

71

共享平台‛、‚交通调查视频管理系统‛、‚现状与历史交通状况定制化发布系统‛等大数据相关

产品。

(三) 前景与发展趋势

综合分析可以看出,在交通大数据领域,深圳市政府在国内处于较为领先的地位。深圳市

早在 2011 年就成立了交通数据中心,如今已经建成了较为完善的智能交通管理体系。并且建

立了一系列的研究中心、规划设计中心等,未来基于大数据的创新能力值得期待。但另一方面,

在非政府主导的层面,大规模的产业化产品还没有出现,尽管已经有了不少创新性的产品和研

究成果,但距离成功的产业化还有一段距离。未来宜大力加强对该领域成果产业化的支持。

而在物流大数据领域,除去菜鸟网络(率属于浙江阿里巴巴集团),深圳市的亮点并不多。

考虑到物流已经成为深圳市的一项支柱产业,占到了 GDP 的 10%,未来应当大力扶持这个

领域的技术和产业开发。

大数据技术在物流运输业的前景是十分广阔的。一般,物流运输企业的运力通过三个方式

获得:自购车辆、签约承运商、临时租车。在不同城市、不同区域、不同地段,这三种方式的

成本是不一样的,如何降低成本,就迫切需要大数据的分析技术。如果有成熟的大数据平台,

就可以基于数据分析得出最科学的解决方案,面向社会整合运力,实现最低成本的物流运输。

一些专家认为,当前的物流运输业有两个发展方向:一个是物流仓储平台建设,建设合理

规模化的物流仓储平台,将可以显著降低物流成本,而如何科学地决策建设物流仓储平台,也

需要大数据分析技术的支持。另一个是物流信息平台建设,它是物流大数据的核心组成部分。

物流信息平台可以成为基于大数据分析技术的物流调度中心,根据以往的快递记录、报价、运

力资源等情况,即时计算优化物流线路,达到降低成本的目的。

六、医疗健康与大数据

(一) 深圳医疗健康业的发展概况

1. 医疗卫生事业

根据深圳市卫计委的数据,深圳的卫生计生事业全方位达到了较高的水平:

1)医疗卫生资源结构全面优化。‚十二五‛期间,政府卫生总投入 585.46 亿元,年均增

长 19.1%。2015 年,全市医疗卫生机构 2985 家;常住人口千人病床数 3.4 张、千人医生数

2.6 名。社会力量办医疗机构总数达到 2869 家,占全市医疗机构总数的 96.1%;专科医院

Page 76: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

72

达到 39 家,占全市医院总数的 28.3%。

2)医疗服务体系能级稳步提升。全市三级医院由 9 家增加至 25 家,其中三甲医院由 3

家增加至 10 家。国家级重点学科 12 个、省级重点学科 68 个,分别增加 8 个、45 个。建成

院士工作站(室)5 个、医学创新平台 66 个。引进了北京大学、中山大学、香港大学、南方

医科大学等知名高等院校来深办医办学。

3)市民健康素养水平进一步提高。基本公共卫生服务补助标准提高至 70 元。市民人均

期望寿命 79.7 岁;孕产妇死亡率 6.18/10 万,婴儿死亡率 2.02‰, 5 岁以下儿童死亡率

2.87‰,继续保持国内领先水平。市民健康素养水平 10.5%,高于全国平均水平。

4)人口长期均衡发展势头良好。生育水平保持适度稳定,出生人口素质持续提升。

2. 医疗健康产业

深圳市医疗健康产业也十分发达,并具备了较高的科研能力。目前深圳已经诞生了一批在

国内外具有竞争力医疗设备生产企业,其中包含迈瑞这样的国际级企业。深圳迈瑞生物医疗电

子股份有限公司成立于 1991 年,是全球领先的医疗设备与解决方案供应商,在全球拥有庞大

的全球研发、营销和服务网络。此外,深圳华大基因(研究院和科技公司)致力于通过科学、

技术及产业的相互推动开展人类健康、农业、环境和相关领域的研究与应用,在世界上享有较

高的知名度。

(二) 大数据在深圳医疗健康领域的应用

1. 腾讯医疗

最近 2 年,腾讯开始进军医疗健康领域。2014 腾讯战略投资丁香园,投资规模为 7000

万美元。丁香园是一家医疗健康互联网公司,目前拥有超过 400 万专业会员,是中国最大的

面向医疗健康领域的专业性社交网站。

2015 年 5 月 27 日,腾讯与贵州省卫计委、苗药上市公司贵州百灵,达成了‚贵州慢性

病防控计划‛战略合作,开启‚互联网+医疗‛的尝试。相比其他企业探索的互联网医疗形式,

由贵州省政府牵头监督、由地方医疗资源开展诊疗服务,由腾讯公司提供产品和技术支持的联

动模式,被业界称为‚贵州模式‛。目前,贵州省已有 6 个市、县引入试点,覆盖贵州近万糖

尿病患者。

2. 就医 160

就医 160 最早是深圳预约挂号统一平台的建设单位平台,2014 年便实现了深圳全市公立

医院预约挂号的全覆盖。之后,就医 160 平台从深圳、东莞、广州、长沙等城市逐步发展到

Page 77: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

73

北京、上海、郑州、成都、合肥、武汉、香港、南京等全国范围 200 多个城市。目前可服务

医生数 47 多万;注册用户数 8200 多万。就医 160 平台已经成为全国最大的互联网医疗服务

平台。2015 年 5 月获得 1.3 亿元 B 轮融资,2015 年 12 月 15 日,登陆全国中小企业股份

转让系统,逐渐发展成为国内最大的互联网医疗平台。

2015 年 3 月,——就医 160 与百度达成战略合作,双方将利用各自的资源优势,在互

惠互利的基础上共同探索医疗领域 O2O 的服务模式及创新运营模式,共同推动互联网和医疗

行业的融合与变革。就医 160 将利用自己的预约挂号平台优势,为百度医生 APP 引入丰富的

医院、医生信息、挂号和其他门诊资源。而百度也将为就医 160 提供流量、技术交互、大数

据等技术支持。

5 月 5 日,阿里健康与就医 160 签署战略合作协议。双方将利用各自资源优势,在互联

网医疗挂号、加号、咨询等服务项目上展开合作。同时,阿里健康还将全面接入其相关医疗资

源。就医 160 根据阿里健康向用户提供的医疗服务分类提供全线资源服务,主要集中在挂号、

加号、咨询服务等,双方平台还将利用各自资源共同进行推广。此外,腾讯微信‚城市服务‛

下的‚医院挂号‛也接入了就医 160。

基于上述情况分析,由于已经拥有了大量注册用户,并先后与百度、阿里、腾讯建立了合

作关系。就医 160 具备了开展大数据应用的数据基础,也有望从百度获得大数据技术支持。

3. 华大基因

华大基因是全球领先的基因组研究中心,而基因组数据毫无疑问是一种大数据,而且它与

人类的医疗健康息息相关。如今,华大基因也进入医疗健康大数据市场。

2015 年 10 月,华大基因与英特尔公司、阿里云计算有限公司在深圳签署战略合作备忘

录,将联手启动精准医疗开放云平台的共建工作。该平台将有望成为中国乃至整个亚太地区首

个定位于精准医疗应用的云平台,也将是一个凝聚基因科技及生命科学研究机构、IT 企业,

以及云服务提供商三方力量的跨界产物,其未来值得期待。根据计划,华大基因将以其基因组

数据分析云计算平台 BGI Online 为合作基础,部署到英特尔高性能的计算平台和阿里云计算

平台,为用户提供私有和公有环境下的基因测序和数据分析服务。

(三) 前景与发展趋势

2014 年被称为中国健康大数据元年,业界对健康大数据的未来十分看好。据艾瑞咨询预

测,2017 年中国健康数据市场规模将超过 100 亿元。在这种情况下,国内三大互联网巨头百

度、阿里巴巴、腾讯先后进入了‚互联网+‛医疗健康领域。

Page 78: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

74

然而,不难看出,总的来说医疗卫生大数据应用目前主要还是处在摸索、探索的阶段,成

功的应用模式还不明朗。考虑到医疗健康是一个特殊的行业,预计它将需要经过一个较为漫长

的时间,才能为社会大众所接受。就医 160 也作出预测,至少需要再等 3 年才能达到盈利状

态。建议深圳市谨慎渐进地推动医疗健康领域大数据产业的发展。

预计大数据在医疗健康领域将有以下发展趋势:

1) 医疗卫生机构将依托大数据架构和技术,提升现有的医疗信息化水平,实现异构医疗

健康大数据的高效处理和服务,医疗健康数据具有种类多、规模大的特点,大数据技术可以为

此提供支持,提高医疗信息化的性价比和可靠性。

2) 随着社会经济的发展,高质量的个人医疗健康服务需求迫切。应用大数据技术可更好

地实现个性化健康服务、个性化诊疗服务。

3) 医疗管理机构,包括区域性医疗卫生管理机构乃至全国卫生管理机构,将可以利用大

数据技术,实现更加合理、科学的流行性疫病防控与应急处臵。

4) 由于医疗健康大数据和个人密切相关,其安全和隐私保护问题可能会在未来成为突出

的问题。

Page 79: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

75

第五章 【结束篇】大数据产业发展的问题与展望

一、大数据人才紧缺问题与对策

1. 大数据人才紧缺问题的现状

据调查数据显示,全球 90%以上的数据是近两年内产生出来的。仅 2015 年,全球产生

约 8.6ZB 数据,且数据量正以每年约 50%的速度增长,未来 5-10 年内将持续高速增长。怎

样在大量的数据中找到有效且具有商业价值的信息,这将直接影响到企业业绩。因此,数据处

理的需求将会越来越大,和大数据相关的人才缺口因此极大。由于大数据热潮的出现,全球大

约会新增 440 万个 IT 职位,这个数字十分惊人。

目前国内大数据相关岗位需求占比虽然较低,这主要是因为大数据行业尚处于起步阶段,

但是市场上大数据人才非常紧俏,前程无忧招聘网站搜索结果表明,近两月内大数据相关职位

有 2473 个岗位需求,月薪范围主要集中在 10000-29999 元之间。市场对大数据人才需求的

特点是:需求量大、薪资水平高,并且呈上升趋势。

以大数据人才需求中数据分析师人才需求为例,2015 年深圳市数据分析师岗位的需求人

数呈持续增加,12 月份需求量已超过 397 个(图中全国需求人数为 4511 人,其中深圳市占

8.8%),可见‚数据驱动决策‛的趋势在当下变得尤为重要。(资料来源:《埃摩森研究院 2015

年数据分析人才调查报告》)

图 5-1 大数据人才需求的快速增长

数据显示,分析师职位主要集中在互联网、金融、房地产、消费品、制药/医疗等行业,其

中互联网与金融行业的分析师职位数占比近八成,这源于该几类行业已在短期内无论是产品端、

Page 80: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

76

用户端、运营端等都实现了大数据的原始积累,且数据增长速度依然可观。

图 5-2 大数据人才需求的行业分布

2. 解决大数据人才短缺的对策

大数据时代已扑面而来,大数据相关的人才需求持续增加,但是由于大数据行业是新兴行

业,技术应用尚处于探索发展阶段,而且相对滞后的人才教育和培训体系还不能及时培养输出

大批产业发展所需的人才,造成市场上大数据人才严重短缺的现象。

要解决这个问题,我们认为一方面深圳市需要采用积极的政策和办法引进国内外大数据技

术人才,另一方面深圳市内部的人才培养是关键,需要政府与企业共同携手完成。

关于人才引进,2015 年深圳市相继出台了《2015 年度深圳市人才引进政策及业务指南

汇编 》、《2015 年深圳市人才引进实施办法全文》、《深圳市新引进人才租房补贴工作实施办法》、

《深圳市人民政府办公厅关于印发深圳市人才引进实施办法的通知》等一系列政策法规,为引

进大数据人才打下了良好的基础。

应坚持以更积极、更开放、更有效的政策集聚海内外人才。推进人才对外开放,畅通海外

人才集聚通道,构建具有国际竞争比较优势、来去自由、符合国际惯例的海外人才集聚政策。

进一步强化市场发现、市场认可、市场评价的国内人才引进机制,大力引进以战略科学家、能

驾驭市场的企业家、科技顶尖人才、创业投资家等为代表的高层次领军人才。

同时,应鼓励深圳市高等院校、科研院所、重点企业研究院联合创建大数据领域国家重点

实验室、工程实验室、企业技术中心等,构建大数据科研重大基础设施,重点突破云计算与处

理的技术‚瓶颈‛等。

社会需要大数据思维的人才,不仅要具备数据库和软件等计算机专业学科背景,还要有数

Page 81: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

77

学和统计学相关学科知识储备,确切地讲即属于多学科交叉型人才。新型人才需求对国内高校

人才培养也提出了新的要求,然而,院企结合成为一种有效的趋势与途径。比如,中科院与深

圳市国泰安信息技术有限公司合作成立了金融大数据研究中心,通过调研美国顶尖大学大数据

人才培养的方案和课程,提出大数据人才培养和培训计划,开展大数据人才培养,此外,更多

协同创新平台则需要高校参与,大数据公司、用人单位等多方共同参与。

国内大数据计算商目前主要集中在 BAT,这些企业也已开始在大数据人才培养上着力。

以阿里云为例,阿里云正在采取多种措施积极营造大数据生态圈,其中很重要的一方面就是为

市场培养出新一代的数据科学家。

2015 年 9 月华为公司赞助举办‚华为杯‛大数据知识竞赛,举办大赛,就是为广大学生

和大数据爱好者提供创新创业的平台,为业界培养和挖掘优秀的技术人才,为企业寻求好的技

术创新方案,为投资人寻觅好的大数据创业项目,最终建成良性发展的大数据生态系统,促进

整个大数据产业健康发展。

二、数据孤岛问题与解决办法

丰富的数据源是大数据的前提条件,但当前大多数企业面临着‚孤岛问题‛,只能获得公

司自身的数据而无法获取外部数据。即便是对坐拥大量高价值数据的腾讯而言,如何在大数据

中找到更大的商业价值,则仍在探路当中。

处在信息的孤岛上,每一家公司可能都有自己的云,而要把这些处在不同孤岛上的数据进

行整合,去创建一个更加综合的情景来从中受益,这里还有很多的挑战。是否应当建立一个数

据交换的平台,在保护用户隐私的前提下,使得数据实现正常化,从而创造经济上的价值,但

目前建立这样的信息交流体系,对商业实体来说仍然存在很大挑战,大数据现在已经成为其资

产的一部分,分享数据可能意味着会丧失其竞争优势。

对此,深圳市应大力推进数据标准的制定,促进企业数据互联互通,同时,加大政府数据

开放力度。中国工程院院士、中国互联网协会理事长邬贺铨曾在深圳表示,大数据既为政府决

策提供了更多有价值的参考,也需要政府对公共数据进行整合和开放。大数据的价值是用于预

测而不是总结,信息孤岛的事情还没解决,可能还谈不上用一些很酷的分析能力得到未来的价

值,但是这天一定会到来,人们需要大数据的这种感知能力。

三、深圳大数据产业发展展望

Page 82: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

78

大数据技术起源于互联网行业,目前最成功的应用也在互联网行业,在其他行业的应用还

处于初级阶段。在一些行业,比如教育和医疗健康,大数据应用甚至还依然处在黑暗中摸索的

阶段。由此可见,促进深圳大数据产业大发展的愿景,依然任重而道远。

但当我们回过头去总结深圳市大数据发展概况的时候,我们可以发现,深圳市政府其实是

大数据应用的先行者和实践者,不仅已经在政府大数据、交通大数据、公安大数据等领域上做

出了国内领先的成绩,并且正在大数据的实际应用中积累着宝贵的经验。这一方面是因为深圳

市政府拥有数据、资源和资金等大数据发展的必需要素,另一方面也得益于深圳创新进取的特

区精神。

面向未来,我们相信深圳市的大数据产业必将会在不久的将来取得突破性的大发展。对于

达成这一目标,我们认为市政府的带动和作为将是起关键作用的,因此,我们建议,市政府在

以下几个方面加强努力:

(1)加强政府与第三方机构协作,进一步推动数据资源的开发和共享。积极发挥市场的

主导作用,通过数据资源的开放利用,促进大数据技术和产业创新发展。

(2)提升大数据管理水平,健全数据管理体制,设立专门管理机构。设立专门的决策、

实施和协调机构,负责数据开放、使用和保护工作的推进、监督、问责和协调,以及研究制定

数据开放及保护与政绩考核等措施。

(3)在现有的相关机构内,分别设立数据的管理和保护部门,主管某一类型的数据开放、

使用和保护工作,比如在卫生行政部门、信息管理部门、银行业监督管理部门等内部设立相关

机构专门用来解决医疗服务行业、通信服务行业以及银行业等相关行业中的数据管理问题。

(4)妥善处理好发展创新和安全规范的关系,审慎监管、保护创新探索和完善安全管理

规范措施,切实保障数据安全。推动建立相关数据开放共享标准和规范,以法规、标准等方式

对重要数据的保存、备份、迁移等进行规范管理,对相关数据去除企业或个人敏感信息后实现

开放和共享。

(5)大数据提升政府治理能力,各级政府机关在日常管理中积累了大量的数据,但尚未

挖掘这些数据的价值。随着信息技术的迅猛发展,数据的价值从量变到上升到质变,能够直观

地呈现经济社会运行的规律特点,提高政府决策的科学性、准确性,能够显著提高政府科学决

策、监管市场、公共服务、社会管理和生态文明建设等能力。

Page 83: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

79

参考文献

[1] 维克托〃迈尔-舍恩伯格,肯尼思〃库克耶.《大数据时代:生活、工作与思维的大变

革》[M],浙江人民出版社,2013:1-127.

[2] 维克托〃迈尔-舍恩伯格,《删除》[M],浙江人民出版社,2013::1-85.

[3] 涂新莉,刘波,林伟伟.大数据研究综述[J].计算机应用研究,2014,31(6):1612-1616.

[4] 任桂禾,王晶.浅谈大数据处理技术架构的演进[J].研究与开发,2014,12(1):47-51.

[5] 李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学, 2015(1):1-44.

[6] 陆亦恺. 海工装备的‚隐形‛主力军——水下生产系统[J].海运纵览,2012(10):31-33.

[7] 何海地.美国大数据专业硕士研究生教育的背景、现状、特色和启示——全美 23 所知

名大学数据分析硕士课程网站及相关信息分析研究[J].《图书与情报》,2014(2):48-56.

[8] 吴杨, 王颖, 步俊文. 基于大数据的国产金仓数据库的实现[J]. 信息化研究. 2015(5).

[9] 方巍, 郑玉, 徐江. 大数据:概念、技术及应用研究综述[J]. 南京信息工程大学学报(自

然科学版). 2014(5).

[10] 刘智慧,张泉灵 . 大数据技术研究综述 [J].浙江大学学报(工学版),2014,

48(6):957-970.

[11] 李晓飞. 基于云计算技术的大数据处理系统的研究[J].长春工程学院学报(工学版),

2014,15(1):116-118.

[12] 李成华,张新访,金海,等.MapReduce:新型的分布式并行计算编程模型

[J].计算机工程与科学,2011,33(3):129-135.

[13] DEAN J,GHEMAWAT S.MapReduce: simplified data processing on large

clusters[J].Communications of the ACM,2008,51( 1) : 107-113.

[14] SHUTE J,OANCEA M,ELLNER S. F1: the fault-tolerant distributed R

DBMS supporting Google's Ad business[C].//Proc of ACM SIGMOD.2012.

[15] CHAIKEN R,JENKINS B,LARSON P,et al. SCOPE: easy and efficient

parallel processing of massive data sets[J]. Proceedings of theVLDB Endowment,

2008,1( 2) : 1265-1276.

[16] BORTHAKUR D,SARMA J S,GRAY J,et al. Apache Hadoop goes realtime

at Facebook [C].//Proc of ACM SIGMOD Conference on Management of Data. New

York: ACM Press,2011: 1071-1080.

[17] 王珊,王会举,覃雄派,等.架构大数据: 挑战、现状与展望[J]. 计算机学报,2011,

34( 10) : 1741-1752.

[18] 郑世明,苗壮,宋自林,等.WEKA 环境下基于模糊理论的聚类算法[J].解放军理

工大学学报: 自然科学版,2012,13( 1) : 22-26.

[19] 焦雷.基于 PMML 数据挖掘应用研究[J]. 电子设计工程,2012,20( 8) : 20-23.

[20] PMML: accelerating the time to value for predictive analytics in the big data

era[R]. [S.l.]: Sybase,2012.

[21] OWEN S,ANIL R,DUNNING T,et al. Mahout in action[M].[S.l.]: Manning

Publications,2011: 3-10.

Page 84: 深圳大数据技术与产业发展研究报告 2015 - szstic.sz.gov.cn/kjfw/rkx/rkxcgsjk/201711/P020171103342691198467.… · 大数据(Big Data)是指‚无法用现有的软件工具提取、存储、搜索、共享、分析和处理的

深圳市 2015年软科学研究项目

80

[22] 朱倩,钱立. 基于 Mahout 的推荐系统的分析与设计[J]. 科技通报,2013,29( 6) :

35-36.

[23] SUNDERAM VS.PVM: a framework for parallel distributed computing

concurrency [J].Concurrency,1990,2( 4) : 315-339.

[24] MELNIK S,GUBAREV A,LONG Jing-jing,et al.Dremel: interactive analysis

of Web-scale datasets [J].Proceedings of the VLDB Endowment,2010,3( 1-2) :

330-339.

[25] HALL A,BACHMANN O,BUSSOW R,et al. Processing a trillion cells per

mouse click [J]. Proceedings of the VLDB Endowment,2012,5( 11) : 1436-1446.

[26] 耿益锋,陈冠诚. Impala: 新一代开源大数据分析引擎[J]. 程序员,2013( 8) : 95-97.

[27] 孟小峰,慈祥. 大数据管理: 概念、技术与挑战[J]. 计算机研究与发展,2013,

50( 1) : 146-169.

[28] 闫建,高华丽. 发达国家大数据发展战略的启示[J]. 理论探索. 2015(1).

[29] 刘兰,闫永君. 澳大利亚公共服务大数据战略研究[J]. 图书馆学研究. 2014(5).

[30] 许锐. 从政府到企业的美国大数据战略[J]. 信息化建设. 2014(3).

[31] 周涛. 大数据 1.0版本,2.0版本和 3.0版本 颠覆性变化下的商业革命[J]. 人民论坛.

2013(15).

[32] 曹凌. 大数据创新:欧盟开放数据战略研究[J]. 情报理论与实践. 2013(4) .

[33] 郑金月. 数据价值:大数据时代档案价值的新发现[J]. 《浙江档案》, 2015(12):11-14.

[34] 傅志华. 互联网企业大数据应用——BAT 互联网大数据应用. 网络新媒体技术,

Journal of Network New Media, 2015(3).

[35] 冯登国,张敏,李昊 . 大数据安全与隐私保护 [J]. 《计算机学报》 , 2014,

37(1):246-258.

[36] 张雅婷. 大数据征信时代来临[J].金融博览(财富) 2015(3).

[37] 程学旗, 靳小龙, 王元卓, 郭嘉丰, 张铁赢, 李国杰. 大数据系统和分析技术综述[J].

软件学报. 2014(9).

[38] 周大铭. 我国政府数据开放现状和保障机制[J]. 大数据 , 2015(2).