中国科学院高能物理研究所 -...

35
单击此处编辑母版标题样式 中国科学院高能物理研究所 高能所云计算与大数据工作 程耀东 高能所计算中心 13-3-19

Upload: others

Post on 10-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

中国科学院高能物理研究所

高能所云计算与大数据工作

程耀东 高能所计算中心

13-3-19

Page 2: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

2/35

目录

n  高能物理领域的云计算需求

n  虚拟化技术

n  云存储技术

n  桌面网格

n  数据中心管理技术

n  云计算及大数据应用

Page 3: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

3/35

目录

n  高能物理领域的云计算需求

n  虚拟化技术

n  云存储技术

n  桌面网格

n  数据中心管理技术

n  云计算及大数据应用

Page 4: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

4/35

高能物理是否需要云计算?

n  什么是云计算?

Ø 大规模、弹性伸缩、提高资源利用率、灵活管理的IT技术 

n  为什么使用云计算?

Ø 集群、网格不行么

n  回顾计算技术发展历史

Ø 大型机、PC集群、网格、云计算、…

n  实验规模越来越大,数据量越来越多,计算需求越来越大,

原有的计算技术还能满足吗?

Page 5: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

5/35

原有计算环境的挑战

n  计算系统以超级计算机、集群或者网格为主 n  多核计算迅速发展,物理机能力越来越强,原有的资源管理与调度器基

于物理机,对于调度准确度要求更高 Ø  静态调度:基于系统负载状态和作业信息将调度作业到物理机器上 Ø  难以满足突发、批处理、CPU密集型、数据密集型等不同类型的作业对于不

同的物理资源的需求 Ø  如果作业类型与机器资源不匹配,会导致作业运行效率低。如果采用多队列

调度,又会导致队列之间的共享问题 n  计算应用越来越多样化,但是传统调度系统的接口单一、不易扩展,严

重限制了应用推广 Ø  基于集群或者网格构建分布式“私有云”,以按需定制的模式提供服务,可

满足应用日益增长的多样性和广泛性的需求 n  遗留程序越来越多,老操作系统和软件与新硬件无法配合,全部移植几

乎不可能 Ø  如不能兼容,原有宝贵的数据无法读取和分析

引入虚拟化技术!

Page 6: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

6/35

原有计算环境的挑战(2) n  存储以Lustre等高性能并行文件系统为主 n  容量管理

Ø  PB成为基本配置,10PB-20PB已经非常常见 n  文件管理

Ø 文件数量越来越多,数千万至10亿级别 n  设备老化

Ø 硬盘、电源等部件频繁出错,导致服务中断 n  元数据问题

Ø 可靠性 Ø 性能瓶颈

n  扩容问题 Ø 大规模数据迁移

引入云存储技术,针对性开发!

Page 7: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

7/35

目录

n  高能物理领域的云计算需求

n  虚拟化技术

n  云存储技术

n  桌面网格

n  数据中心管理技术

n  云计算及大数据应用

Page 8: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

8/35

虚拟化技术

n  SDN虚拟网络

n  Openstack虚拟计算

Page 9: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

9/35

Openstack n  高能物理领域现状

Ø CERN: lxcloud, Agile Infrastructure Project Ø  FermiCloud

n  高能所应用 Ø  IaaS Ø 虚拟集群 Ø 远程运行

Page 10: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

10/35

IHEP Openstack

……

YBJ BES

node1

node2

node3

node4 ……

Openstack

ganga

DIRAC

HKU U of M SDU

Openstack

Page 11: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

11/35

目录

n  高能物理领域的云计算需求

n  虚拟化技术

n  云存储技术

n  桌面网格

n  数据中心管理技术

n  云计算及大数据应用

Page 12: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

12/35

云存储技术

n  非结构化、半结构化、结构化以及图数据库等 n  关注非结构化数据存储

Ø 分布式文件系统: lustre, gluster等 Ø Hadoop:文件系统与调度的协同

Page 13: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

13/35

云存储系统

n  目前生产系统以Lustre为主,但是扩展性、可靠性等需要提高

n  基于实际需求设计与部署大规模云存储系统

ü  海量数据存储,轻松管理PB级乃至数十PB的存储空间

ü  全局命名空间,所有应用看到统一的文件系统视图

ü  支持标准接口,应用无需修改直接运行

ü  读写性能优异,聚合带宽高达数GB乃至数十GB

ü  易于管理维护,无需中断业务即可轻松实现动态扩展

ü  基于开放架构,可以运行于任何开放架构的硬件之上

ü  多级数据冗余,支持硬件与软件冗余保护,数据高可靠

ü  多级存储备份,灵活支持SSD、SAS、SATA、磁带库统一管理

Page 14: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

14/35

体系结构

多种协议接口 POSIX\NFS\CIFS\FTP

\HTTP

应用服务器 Windows Linux MAC

基于开放架构的存储节点

文件系统 负载均衡

数据冗余 错误恢复

存储服务器集群 (异构存储设备、PB级别虚拟化)

分层管理 索引管理

异构网络支持

Infiniband网络 Gb/10Gb 以太网

统一命名空间

Page 15: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

15/35

性能测试

0

200

400

600

800

1000

1200

1400

12 24 36 48 60 72 84 96 108 120

访问性

能(MBytes/sec)

顺序写 顺序读 随机写 随机读 混合读写

并发线程数

单服务器多客户端测试

测试环境,服务器:12块2TB 硬盘;12台客户端;万兆网络互连; 每个文件400MB

结论:读写性能跑满了整个万兆网络,与同类系统相比,性能优势明显

Page 16: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

16/35

性能测试 多服务器多客户端可扩展性测试

测试环境,服务器:12块2TB 硬盘;12台客户端;万兆网络互连; 每个文件400MB

结论:读写性能跑满了整个万兆网络,增加服务器数目,聚合带宽层呈线性增长

0 500

1000 1500 2000 2500 3000 3500 4000 4500 5000

1 2 3 4 5

聚合带宽

(MBytes/sec)

顺序写 顺序读 随机读 随机写 混合读写

服务器数目

Page 17: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

17/35

未来规划

n  满足大规模高可扩展EB级存储

n  元数据管理

Ø  采用专门的数据索引与定位服务器,快速查询文件系统信息 n  异构设备兼容

Ø  不同性能、容量、品牌的存储设备兼容

Ø  性能与容量平衡

n  冷热数据均衡

Ø  冷热数据分布与节能

n  多数据中心管理

Ø  数据同步、分发、备份、统一视图

n  应用级IO访问模式研究与优化

n  磁盘故障预警

Ø  SMART等手段采集信息,基于M-R分布式分析预警

Page 18: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

18/35

目录

n  高能物理领域的云计算需求

n  虚拟化技术

n  云存储技术

n  桌面网格

n  数据中心管理技术

n  云计算及大数据应用

Page 19: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

19/35

桌面网格

n  什么是桌面网格 Ø  利用志愿计算、虚拟化、高速网络等技术将研

究机构内部分散的、闲置的桌面计算资源整合起来,构建一个高吞吐、绿色环保的云计算平台

Ø  为多个领域的科学计算提供大规模的、免费的长期或者临时的计算资源

Ø  “桌面网格云”? n  CAS@HOME

Ø  由高能物理所计算中心发起和组织

Ø  中国第一个志愿计算项目,聚合资源免费提供给科学家使用

Ø  注册人数超过16,344,主机数超过21,783台,提供了70,754多个CPU核

Ø  实时提供173 TFLOPS,提供CPU总时间超过1360万小时,相当于创造超过1585万美元的价值 (EC2云计算价格)

Page 20: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

20/35

目录

n  高能物理领域的云计算需求

n  虚拟化技术

n  云存储技术

n  桌面网格

n  数据中心管理技术

n  云计算及大数据应用

Page 21: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

21/35

云计算数据中心

n  在云计算快速发展的背景下, 数据中心扮演极其重要的角色

n  云计算要求弹性、灵活快速扩展、 降低运维成本、自动化资源监控、 多租户环境等特性

n  管理对象 Ø 机房基础设施 Ø  IT设备 Ø 系统与数据 Ø 管理工具 Ø 人员

Page 22: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

22/35

机房基础设施

n  制冷 Ø 空调制冷+机柜间水冷 Ø 需要搭建机柜隔离

n  电力 Ø 总功率: 800kw -> 1800kw Ø 单个机柜:10kw ->28kw

n  消防 Ø 联动气体灭火器 Ø 机房值班室->所保卫处->消防队

n  UPS n  监视

Ø 温湿度传感器 Ø  24小时机房值班

Page 23: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

23/35

数据中心设备可视化管理

n  实现数据中心设备与管理信息的联动 n  设备管理信息化

Ø 设备的型号、外观、配置和保修等信息的录入、查询和汇总

Ø 设备归属和使用人信息管理

n  设备定位

Ø 设备在机房中安置的管理(包括上下架、迁移)及展示

n  设备故障状态警示 n  基于HTML5的数据中心可视化

Page 24: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

24/35

网络管理与监控系统:IHEP-NMS n  可用性监视和可靠性保证

n  可靠性是保证其资源按照规定的可靠性级别提供服务 n  在网络和应用系统中,对设备和服务的监视是必须的,例

如:

ü 网络设备状态

ü 设备的资源/环境状态(CPU/内存/温度等)

ü 链路/连接状态

ü 连接健康性(流量/错误数据包比例/稳定性)

ü 服务器服务状态(HTTP/FTP/SMTP/POP/IMAP)

ü 数据库状态(SQL Server/ORACL)……

n  已经在多家单位推广使用

Page 25: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

25/35

基于ITIL的综合运维管理支撑平台

n  目标

Ø 基于流程、采用技术、规范制度、保证服务质量

n  任务 n  CMDB作为基础

n  实现IT资产管理与可视化

n  实现物理资源、虚拟资源、服务等监控与检测

n  建立Ticket自助服务平台(面向技术人员和用户)

Page 26: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

26 中国科学院高能物理研究所计算中心

•  通过资产之间的关联关系对资产进行管理

… …

¢  资产可视化管理系统设计

资产管理与可视化

Page 27: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

27/35

流量分析可视化

n  目标 Ø 解答网络中Who?What?How?的问题

n  任务 Ø 结合hadoop分布式框架中的Map/Reduce编程思想 Ø  Netflow数据采集 Ø HDFS数据存储 Ø 实现实时和历史数据分析

Page 28: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

28/35

大规模系统安装与配置

n  系统的安装

n  软件的升级 n  系统的配置 n  模板生成

软件包

nfs http

ftp

软件库

软件包 软件库

软件

配置文件库

节点安装

安装服务器

操作系统 dhcp pxe

nfs/http

系统安装 配置服务

安装软件

配置缓存 结点配置管理

节点

缓存 软件包管理

Page 29: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

29/35

目录

n  高能物理领域的云计算需求

n  虚拟化技术

n  云存储技术

n  桌面网格

n  数据中心管理技术

n  云计算及大数据应用

Page 30: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

30/35

云存储产业合作

n  国家发改委2011云计算专项

n  电子产业发展基金云存储服务 Ø  金融领域 Ø  使用云存储技术存储海量的

CallCenter语音数据 Ø  利用智能语音识别技术,

采用MapReduce分布式 进行计算,提取关键信息, 进行图形化展示

包括云宽带与互动流媒体两个部分,一期400台存储服务器,共8PB已经上线

云存储系统 分布式数据挖掘 数据采集

数据存储

数据展现

Page 31: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

31/35

媒体行业微博分析

n  每周自动采集互联网电视节目单及节目简介信息,并可以7×24小时自动跟踪采集新浪微博中电视媒体官方微博的粉丝、消息、评论、转发等实时数据,目前已积累数亿条真实数据

n  发布媒体网络影响力排行榜,首批电视台达到180个 http://mediadata.ihep.ac.cn

n  深度数据挖掘,拟实现如下功能 Ø  基于节目内容与用户兴趣匹配的节目推荐 Ø  基于用户收视历史行为挖掘的节目推荐 Ø  基于用户传播特性的节目营销 Ø  以电视节目的为核心的用户关系社交图谱挖掘 Ø  电视节目热度趋势统计及预测分析

Page 32: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

基于社交网络的媒体影响力分析系统

Page 33: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

33 中国科学院高能物理研究所计算中心

口碑量和覆盖度变化趋势及覆盖度变化 � 

梦想合唱团网络口碑分析 �  � 

梦想合唱团第二季尚未开始,对其话题讨论量较少

随后引起用户对歌手和该栏目的大量评论

评论渐缓,期待12月1号栏目开播时引发大评论

22 57 74

26 36 46 81 76

38 36 12 31 31 35 28 56 42

99

306

953

1292

591 526

275

123 129 61 72

0

5000000

10000000

15000000

20000000

25000000

30000000

0

200

400

600

800

1000

1200

1400

11-1

11-2

11-3

11-4

11-5

11-6

11-7

11-8

11-9

11-10

11-11

11-12

11-13

11-14

11-15

11-16

11-17

11-18

11-19

11-20

11-21

11-22

11-23

11-24

11-25

11-26

11-27

11-28

口碑量 覆盖度

梦想合唱团第二季开播盛典在京举行

Page 34: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

34/35

HTML5的研究与应用

n  研究内容 Ø 动态柱形图、折线图、趋势图、气泡图、动态地图、网络图、热力

图等基本组件的展现与可视化交互

Ø 服务器、交换机、机柜等设备的可视化与交互

Ø 复杂的组件的自动组合技术

Ø 数据中心可视化

Ø 多种数据源导入与统一格式化

Ø 浏览器兼容 n  目前HTML5在计算中心的应用

Ø 集群系统监控系统 Ø 网络监控系统、机房温度监控等 Ø  http://cuc.ihep.ac.cn/pbsMonitoring/

n  下一步计划 Ø 机房可视化系统、网络流量监视系统、…

Page 35: 中国科学院高能物理研究所 - IHEPindico.ihep.ac.cn/event/3040/contribution/8/material/slides/0.pdf · 回顾计算技术发展历史 ... 未来规划 ! 满足大规模高可扩展eb级存储

单击此处编辑母版标题样式

敬请批评指正 � 

程耀东 博士

[email protected]

18910760822