3、trs水晶球分析师平台概述 · pdf...

16

Upload: ngonguyet

Post on 03-Feb-2018

304 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham
Page 2: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

1、大数据分析师的困境

2、国内外分析师工具情况

3、TRS水晶球分析师平台概述

1、应用功能概述

2、数据整合

3、检索发现

4、知识管理

5、协同工作

1、技术特点和要点

2、系统架构

3、大数据基础支撑

1、专业情报机构——情报收集和分析研判

2、公安部门——案件调查和情报研判

3、政府部门——专题分析和决策研究

4、政府部门——各类执法调查工作

5、研究调查类机构——信息收集和分析研究

6、各类企业——客户分析和竞争情报

7、媒体——新闻专题研究和跟踪

一、时代呼唤大数据分析师工具

二、TRS水晶球分析师的应用功能

五、常见问题解答

目 录

01

03

06

09

12

四、TRS水晶球分析师适合的行业场景

三、TRS水晶球分析师平台技术架构说明

CONTENTS

1、水晶球分析师运行环境复杂吗?

2、水晶球分析师能适应多大规模的数据?

3、如果需要定制功能,系统该怎么支持?

4、水晶球分析师如何对接现有的大数据资源库?

Page 3: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

时代进入了信息爆炸的大数据时代,信息来源五花八门,特别是互联网更是信息资源的大海,各行业领域都需要

专业的分析师通过数据分析来解决问题和揭示数据背后的秘密,这就是大数据分析师的工作。大数据分析师在日常工

作中实际上面临很多实际困难和问题,如下图所示。

国内面向分析师的工具,还处于起步阶段,目前还没有成熟的产品,很多人推荐类似BI的工具,实际上面向IT人

士,需要很专业的数据、配置、编程等服务才能使用。

国外主要是两个产品,属于业内的最高水平,IBM的i2和Palantir的Gotham,这两个产品直接面向最终的大数据

分析师。相对来讲i2的使用门槛更高,属于少数专业人士和发烧友的高端工具,而Palantir Gotham属于后起之秀,在美

国安全、金融、政府等领域,已成为主流的大数据分析师产品。

TRS水晶球分析师平台 01

实际上在各个单位和部门有很多类似的专业人士,需要在各自领域内通过数据分析获得工作成果,也同样面临这

些问题,数据庞杂而且缺少好用的工具,所以我们说:时代呼唤好用的大数据分析工具!

数据种类

运行速度

好用工具

程序Bug

协同作战无

大数据分析师的现状︖

时代呼唤大数据分析师工具

1 大数据分析师的困境

2 国内外分析师工具情况

Page 4: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

IBM i2 产品简介

IBM i2 产品由英国剑桥的 i2 公司(2011年被IBM收购)面向英国的警察部门研发,于 1990 年上市,并迅速推

广到英国所有的警察部门。随着 IBM i2 产品在实际案件调查中展现出无与伦比的情报调查能力,国际刑警组织也采用

了 IBM i2 产品,并向全世界的警察组织推荐。

IBM®i2®系列产品是一款专门为调查、分析、办案人员设计的可视化数据分析软件,可以将结构化、半结构化和

非结构化数据转化为图形,为分析员提供一个直观的实体关系图,并提供了丰富的可视化分析算法和分析工具,帮助

分析人员快速找到破案线索和有价值的情报,提高工作效率并帮助识别、预测和阻止犯罪、恐怖主义、洗钱和欺诈等

活动。

Palantir Gotham产品简介

美国的Palantir公司收集大量数据,帮助非科技用户发现关键联系,并最终找到复杂问题的答案。公司主要产品

之一是Gotham大数据分析师工具,主要的客户包括华尔街、NSA(美国国家安全局)、FBI(联邦调查局)及CIA

(中央情报局)等。Palantir曾经帮助美军捕杀本·拉登,正式确立公司在国防安全领域的行业地位。

每个单位都有很多的数据:结构化数据,如日志、文件、电子表格等;非结构化数据,如电子邮件、文档、图片

和视频等。数据通常存储在非常多样化类型的系统中,数据量也在成倍的增加,变得越来越难以良好的使用。面对如

此巨大的数据量,企业面临着巨大挑战,他们需要有一种方法来分析查询他们的数据,并且能得到直观的分析结果。

这些数据通常情况下存储在分离系统中。每一天它们的类型都在迅速变化,体量都在呈指数级增长,并且变得越来越

难以被利用。通过Palantir Gotham平台,离散的数据被转换为人物、地点、事物、时间以及他们相互之间的联系,

这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham平台。这些数据的任

何更新都会同步到平台,并且用户进行分析时,他们所有的行为都会被自动记录、归因分析和储存。用户可以通过建

立在此平台上的各种综合性应用与数据进行互动。他们可以即刻搜索所有数据源,将数据关系可视化,探索不同的假

设,发现未知的关系,揭示隐藏的模式,与同事分享自己的见解。

TRS水晶球分析师平台,是面向各业务领域的专业分析师工作平台,用于专项调查或研究工作。在一项调查中,

分析师可以釆集互联网页面,可以将掌握的各种资料导入平台管理起来,文本资料可以结构化为业务领域对象和关

系,并提供知识的浏览和编辑。在知识管理的基础上,平台提供对象检索、关系图分析、地图分析、对象统计分析等

功能,关系图和地图分析中,可以结合时间轴、对象浏览、直方图、数据流等方式多角度观察数据。分析过程可以随

时保存为快照,汇集形成调查报告。

030302

3 TRS水晶球分析师平台概述

Page 5: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

TRS水晶球中,用户将使用多种应用和数据交互。他们可以一次性的搜索全部数据,可视化关系分析,探索知

识,发现未知关系,挖掘隐藏的数据,同事间分享成果。TRS水晶球将减少用户和数据间的障碍,最大限度发挥整个

资源库的智慧。

TRS水晶球分析师平台 03

任何机构都会有大量的数据:结构化的文件诸如日志、电子表格、报表。也有类似邮件、文档、图像和视频等非

结构化的数据。这些数据往往存在离线存储设备中,种类繁杂,数据量成指数级快速增长,使得数据的使用越来越

难。

使用这些数据的分析师并不关心每一行、每一列的相关内容,他们往往更在乎的是专题任务所面临的挑战,他们

需要一种方式来和他们的数据交互,并获得一种他们可以理解的效果。

互联网数据整合

互联网数据整合功能,是通过检索,把互联网信息导入到

水晶球平台中,并进行对象数据标注等,使系统具备通过人工

交互的方式采集互联网的信息,并进行结构化工作。

1

2 数据整合

TRS水晶球分析师的应用功能

用户

应用功能概述

Page 6: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

03

全文检索

全文检索是水晶球分析师平台的重要功能,采用云计算技

术,对大数据进行高性能处理,可实现毫秒级检索。与传统搜

索引擎相比,该搜索引擎并不是对关键词信息的简单罗列,而

是通过云计算技术,内置大数据深度挖掘、统计分析工具,实

现对海量信息服务资源的横向关联、毫秒查询、批量比对,满

足各行业的应用。水晶球分析师平台对平台各资源要素进行归

类,如公安的五要素分类,并且结合应用资源专题库,实现

人、案、物、信息的无缝对接和立体展现,为资源库提供了全

方位、多层次、广覆盖的应用检索工具。

关系图扩展和发现

分析师平台基于图形化的“实体一关联”模型对数据进行

建模,并采用优化的可视化数据关联技术,从海量缺少关联的

信息中发现关联性的证据链、线索和情报。对数据的深度线索

挖掘功能、各种数据之间的相关逻辑关系以及关系索引实现线

索的追踪展现,实现从专题到人、从人到专题、从物到人的各

种数据线索的网状或树状的展现过程,为分析人员提供各种数

据的自动展现和线索关联。平台提供关联分析、网络分析、路

径分析、群集分析等多种可视化分析功能。

数据流和时间轴分析

水晶球分析师平台提供数据流和时间轴的助手,可以直观

显示数据流和其在时间段的分析展示。数据流展示可以选择展

示的维度,可以选择全部或者选中对象进行展示,并提供速度

和颜色的功能。时间轴展示,可以选择某一个时间点,或者时

间段,关系图上会高亮显示,也会显示选中的数据流。

地理信息检索

系统提供开放地图,可以将对象拖到地图上,显示地理位

置信息,地图支持全球范围,可以显示各个国家的地图。在地

图上,支持热力图等地图分析。同时,在地图上点击对象,也

可查看对象的信息。

04

3 检索发现

Page 7: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

所有的数据将被存储在水晶球分析师平台的版本数据库中。无论数据的改变来自数据源还是来自用户,版本数据

库记录着每一个数据的改变。通俗来说,跟SVN等开源版本管理平台类似,水晶球分析师平台允许用户在个人的工作

空间内进行数据分析,这些操作记录也会被记录到数据库中,直至发布后工作空间的数据才同步到资源库。

用户可以在系统中根据自己的经验进行探索和发现,系统记录所有的步骤,系统可以支持恢复到每一步骤。分析

师可以很方便的分享成果,工作成果是一个版本控制的知识库,代表着分析师的智慧,可以应用在未来的分析工

作中。

TRS水晶球分析师平台 05

4 知识管理

TRS水晶球分析师平台上,公司内部以及公司外部多用户可以对同一数据源进行无缝、安全、协同分析相同数

据。水晶球分析师跨越了不同机构、不同职能、不同地区的障碍,实现了安全模型和数据模型,低带宽、高负载来支

持数据的整体性与安全性。

水晶球分析师平台,支持订阅功能,可以订阅系统消息和各类对象,如果对象有任何变化,就会触发订阅功能,

推送到用户面前。

5 协同工作

Page 8: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

基于动态本体的数据模型

TRS水晶球数据模型,是一种“动态本体”的基础模型,它将从多数据源集成统一起来,发掘数据背后的知识。

水晶球分析师平台动态本体定义, 基于对象的数据模型, 支持动态的本体定义。数据从多源的数据格式,被转换映

射为统一的数据对象,关联现实世界中的人、地点、事物、时间以及之间的关系。由于不同的组织机构眼中的世界是

不同的,所以本体模型也在随着时间的变化而变化,随着数据源的添加、删除、和重新构造而更新。统一的数据模

型,极大的简化了数据集成的流程,很短时间之内可以完成数据整合导入和转换。

围绕用户的需求,数据工程师集成映射了所有相关数据源,无论种类与容量大小,将导入到统一的数据模型。随

着数据一点一滴流入到TRS水晶球平台,他们将被定义为一种更有意义的对象和关系:人、地点、事物、时间和他们

之间的关系。

数据版本可以追溯

所有的数据将被存储在水晶球分析师平台的版本数据库中。无论数据的改变来自数据源还是来自用户,版本数据

库记录着每一个数据的改变。通俗来说,跟SVN等开源版本管理平台类似,水晶球分析师平台允许用户在个人的工作

空间内进行数据分析,这些操作记录也会被记录到数据库中,直至发布后工作空间的数据才同步到资源库。

用户可以在系统中根据自己的经验进行探索和发现,系统记录所有的步骤,系统可以支持恢复到每一步骤。分析

师可以很方便的分享成果,工作成果是一个版本控制的知识库,代表着分析师的智慧,可以应用在未来的分析工

作中。

TRS水晶球分析师平台技术架构说明

1 技术特点和要点

06

Page 9: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

开放可扩展性平台

水晶球分析师平台是一个层级可扩展平台,从初级的数据集成,持续客户化来构建用户定制接口,已基本实现了

平台开放。数据可以通过我们的平台或者是JAVA API 接口导入,同时,数据也会通过平台提供的工具和方法进行全

部导出。

TRS水晶球分析师平台的总体架构上,分为四个层次,大数据资源库、应用技术、应用功能和应用领域,如

下图:

情报

机构

执法

调查

政府

专题

媒体

专题

企业

专题

调查

机构

应用

技术

TRS水晶 分布式数据库

TRS数据整合 TRS文本挖掘 TRS互联网采集

大数据

资源库

应用

功能

检索技术 动态本体 关系图 地图 协同技术 分布事务

统一安全体系

统一管理平台

开源ETL

多媒体 批量导入

互联网 Excel 调查管理

版本数据

文档 自助导入 对象编辑

数据库 导入API 知识汇集

联邦检索 时间分析

全文检索 地图检索

快速检索 流动分析

关系图 插件扩展

消息发送

分组管理

内容浏览

工作组协同

数据整合 检索发现 工作协同知识管理

Hbase数据存储

HDFS文件系统

TRS海贝分布式检索引擎

应用

领域

2 系统架构

TRS水晶球分析师平台

TRS水晶球分析师平台 07

Page 10: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

全文检索技术

水晶球分析师平台采用TRS Hybase作为全文检索引擎,全文检索引擎的功能和性能决定了大数据系统

的响应能力和可用性,同时很多大数据分析和交互挖掘操作也依赖于底层的实时查询技术,因此在PB级数

据规模、多源异构数据(结构化、半结构化、非结构化数据)的场景下,能够获得秒级甚至亚秒级响应成为

一个大数据应用系统的关键指标, 只有这样,才能保障复杂大数据的及时有效处理(规模大、变化快、种类

杂、价值密度低)。

联邦检索和查询技术

联邦查询技术,基于MPP分布式结构的数据存储、传输,通过本体数据映射定义,用来支持10亿级

别、PB级的数据查询,支持海量结构化数据的对象访问。联邦检索技术,通过构建外部非结构化数据的索

引和映射,使用统一的快速检索方式快速进行文档等检索,检索到的结果,将被快速集成到资源库中。

内存数据库技术

水晶球分析师平台基于内存的数据库,以驱动基于大数据交互的工作流程,允许分析师从10亿级数据

中搜索,10秒内收到反馈结果。整体架构与Apache Spark类似。内存数据库使分析师更方便筛选感兴趣

的数据集,在更进一步的分析中使用。

分布式事务技术

水晶球分析师支持分布式事务,通过这个技术在分布式环境中,支持数据存储的一致性。在分布式

Nosql数据库上,改进事务的简化和扩展,并具有事务安全和一致性的传统数据库的特点,高伸缩性,可根

据客户数据情况,完成从数据中心级到普通PC级的部署或扩展。

平台通过扩展框架和分布存储能够处理PB级数据,包含海量日志和流量信息、交易数据等结构化数据和邮件、

报表、电子表格等非结构化数据。通过联邦检索技术,支持海量外部非结构化数据的检索,如文档、Email等。通

过联邦查询技术,查询外部的结构化数据。

系统提供检索和查询助手,帮助用户快速获得数据,强大的数据接入和导出能力,为上层的分析提供了保障。

用户通过联邦检索和联邦查询技术,可以导入外部数据到本地的版本数据库中。

3 大数据基础支撑

08

Page 11: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

2 公安部门——案件调查和情报研判

TRS水晶球分析师适合的行业场景

用于情报专题,如2016年台湾大选,香港占中事件回顾等。可以通过公开渠道收集各类事件相关的人物、组

织、新闻报道、事件、视频、图片等,通过事件把相关内容串起来,通过时间、地图、关系图、对象浏览等方式进行

分析,比如可以查看香港大学相关人员在事件中的情况等。

用于重点案件的调查和情报研判。围绕案件和嫌疑人,通过资源库导入相关的轨迹、档案等基础数据,也可以导

入外部收集的数据,如单位信息、银行记录、话单等,在数据的基础上,对相关的人员、事件、组织等维度进行分

析,从而全方位还原案件的信息,可以从多个侧面进行分析和对比。

1 专业情报机构——情报收集和分析研判

TRS水晶球分析师平台 09

Page 12: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

3 政府部门——专题分析和决策研究

4 政府部门——各类执法调查工作

如全市物流行业企业分析,历年财政项目分析,人大提案研究等。政府信息化发展很快,积累了很多数据,比如

物流行业的数据,如果需要对全市物流企业进行分析,就可以建立专题,然后将相关物流企业的基本法人信息、股东

信息、财务报告、税收情况、统计指标等数据,导入到该专题中,可以从地理上、时间上、法人关系、财务指标等方

面进行分析和统计,形成专题分析报告。

包括税务稽查、工商、质监、食品药品监督、环保监管等业务案件调查。对于各类行政执法单位,可以按照案件

建立专题,围绕案件从多个渠道收集相关数据,可以是银行信息、法人信息、股东情况、税务报告等,通过数据集成

功能,导入到专题中,随着调查的进展,可能发现更多的线索和证据,可以直接在专题中增加,专题中可以将所有的

信息汇总,从各个侧面来分析案件,从而把控案件的办理工程,提高办案水平。

5 研究调查类机构——信息收集和分析研究

如律师事务所、社会科学研究、中药方剂实例研究等。各类调查机构,围绕各自领域的问题形成各自的专题,系

统提供各个行业本体的编辑功能,可以管理各自行业的实体、事件、关系的基础类型,比如中药方剂实例研究,包括

中草药、中成药、方剂、处方、原料、医生、患者等,研究这些对象之间的地理、事件、关联关系等,在此基础上,

可以通过增强插件开发的方法进行扩展,比如可以扩展进行大数据分析和预测。

10

Page 13: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

用于市场研究、客户和产品分析、竞争对手分析等方面。企业的市场分析人员,从ERP系统、电商平台、互联

网、媒体等渠道获得大量相关的数据,通过梳理后导入平台中,包括:客户、供应商、竞争对手、竞争产品、销量数

据、新闻媒体等,可以通过该平台,获得客户、竞争对手、竞争产品等在时间、地理、统计上的分析,可以进行关系

分析等,从而对相关内容深入的研究形成研究报告。同时,按照年、季度、月份等周期,不断收集相关数据并导入系

统中,形成持续的研究成果,供管理层决策使用。

用于深度的新闻报道和挖掘,特别是连续研究、跟踪和报道。传统媒体正在加速衰退,断崖式下滑已经成为现

实,其衰落的速度比人们预计的还要快很多。但传统的媒体先天性的公信力优势和专业的新闻采集优势还是很多新媒

体所不具备的,所以专业媒体更需要的是深度行业的研究和跟踪,利用水晶球分析师平台,可以促进媒体深入研究和

报道,尤其是重大专题新闻和系列报道,可以将关注的人、组织机构、股东关系、关联方、事件的历史等整理清晰,

然后结合数据分析,加上媒体观点,形成深度的专题新闻。

6 各类企业——客户分析和竞争情报

7 媒体——新闻专题研究和跟踪

TRS水晶球分析师平台 11

Page 14: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

水晶球分析师可以根据实际情况,运行在单机或者多服务器集群,主要和数据量和使用人员数量有关,最简单的

方式是单机,可以通过互联网和文件导入等方式导入数据,进行分析。

1 水晶球分析师运行环境复杂吗?

水晶球分析师平台从设计开始,非常关注系统性能,通过分布式存储、分布式检索、内存数据库等技术来解决性

能问题,使用户在大数据的场景,获得非常好的性能体验,另外通过联邦检索和查询技术,对接外部的大数据资源

库,从而扩大自己的大数据适应能力。同时由于分布式存储、分布式检索和内存数据库都采用分布式技术,可以通过

扩展服务器的方式,获得更好的性能和体验。所以内部资源库关系数据可以支持数百亿级,外部资源库资源数量

不限。

2 水晶球分析师能适应多大规模的数据?

常见问题解答

12

Page 15: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham

3 如果需要定制功能,系统该怎么支持?

4 水晶球分析师如何对接现有的大数据资源库?

TRS水晶球分析师平台 13

水晶球分析师有自己一套基于本体的数据模型,可以表达各个业务领域,如果已经建立大数据资源库,水晶球分

析师可以应用现有的大数据资源库,一种方式是通过数据整合工具,将现有资源库全部转换到分析师平台中,后面有

变化再同步,这样就是内部资源库的方式;另外一种方式是,建立联邦检索查询机制,通过联邦检索查询机制,在分

析师中可以检索大数据资源库中的对象。

水晶球分析师组件化的设计,具备完备的接口API,同时支持插件的开发,开发后的插件,和原始功能集成使

用,从系统界面上完全融为一体,而且插件可以访问内部的数据模型和数据资源。

Page 16: 3、TRS水晶球分析师平台概述 · PDF file这些有意义的实体和关系。这个模型一经建立后,数据流就会持续不断的流入Palantir Gotham