第九章 网格系统管理

61
第第第 第第第 第第 第第第第第第第第第第第第第第 第第第第第第第第第第

Upload: analu

Post on 26-Jan-2016

84 views

Category:

Documents


1 download

DESCRIPTION

第九章 网格系统管理. 龚 斌 山东大学计算机科学与技术学院 山东省高性能计算中心. 用户管理 系统监控 系统记帐. 用户管理. 用户命名 用户创建 用户登录 用户授权 用户变更. 网格监控系统的特点. 数据生命周期短,更新频繁; 性能信息是动态的,随机的; 数据的集成和传递要求系统具有高性能; 性能度量的影响必须最小化;. 要求. 低延迟; 低性能影响 可扩展性 安全性 可管理性. 功能. 故障处理和错误检测 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第九章  网格系统管理

第九章 网格系统管理

龚 斌山东大学计算机科学与技术学院

山东省高性能计算中心

Page 2: 第九章  网格系统管理

• 用户管理• 系统监控• 系统记帐

Page 3: 第九章  网格系统管理

用户管理• 用户命名• 用户创建• 用户登录• 用户授权• 用户变更

Page 4: 第九章  网格系统管理

网格监控系统的特点• 数据生命周期短,更新频繁;• 性能信息是动态的,随机的;• 数据的集成和传递要求系统具有高性能;• 性能度量的影响必须最小化;

Page 5: 第九章  网格系统管理

要求• 低延迟;• 低性能影响• 可扩展性• 安全性• 可管理性

Page 6: 第九章  网格系统管理

功能• 故障处理和错误检测

– 如果网格中的某个节点出了故障,在网格这么一个高度复杂的环境中是很难发现和定位的。通过监控可以发现出现故障的节点,帮助用户在最短的时间内恢复和调整系统;

• 性能分析和系统调优– 一个网格应用如果效率不高,那么问题可能出在各个环节。

通过监控可以迅速定位系统瓶颈,帮助用户分析以便于对系统进行调试和优化。

• 记账– 通过监控可以了解用户对计算资源以及存储资源等使用情况,

这些信息可以用来记账。

Page 7: 第九章  网格系统管理

功能(续)• 指导调度

– 通过监控可以了解计算资源的系统状态以及负载分布情况,指导调度程序进行资源分配和作业调度。

• 历史分析– 通过监控可以将系统监控信息进行长期储存以进行历史分析。

• 入侵检测– 通过监控可以进行入侵检测等安全方面的监控。

Page 8: 第九章  网格系统管理

网格资源监控要求• 可扩展

– 在监控方面没有集中的瓶颈– 监控数据发送接受数据方面没有集中的瓶颈

• 有效– 能够处理许多高容量的信息流

• 灵活– 可以和各种已经存在的监控工具共同工作

Page 9: 第九章  网格系统管理

网格资源监控任务• 获取各个资源的状态

– 分布式计算环境中各个层面资源• 资源状态的信息收集• 统一集中监控每个资源的运行状态

– 及时识别和诊断发生故障的主机和网络– 最小化主机和网络失败的影响– 为系统资源管理和网格应用提供支持

• 分析系统性能瓶颈• 预测系统运行的轨迹

– 对网格动态的应用和资源调度提供依据• 事件机制

Page 10: 第九章  网格系统管理

网格监控与传统监控系统差别• Windows NT/2K 和 Unix 系统中,提供完备的单机状态和性能监控,不支持远程访问。

• SNMP 能够提供远程访问的功能,但只提供了点对点的访问机制。

• 机群系统中,监控对象的地理位置相对集中决定了其简单的软件及监控对象结构不能为网格监控所用。

Page 11: 第九章  网格系统管理

网格监控与传统监控系统差别• 网格监控在广域范围内是可扩展的,能包容异构资源

• 兼容已经存在的监控工具• 在命名和安全方面能和其他的网格中间件集成

• 适应多个管理域

Page 12: 第九章  网格系统管理

网格监控信息特性• 更新频繁• 性能信息是随机的• 数据的集成和传递必须高性能• 性能度量的影响必须最小化

Page 13: 第九章  网格系统管理

网格监控对象和事件表示• 监控对象:需要掌握运行状态的计算资源。以主机为中心,由上而下分为 3类:– 系统类( CPU Usuage , Memory Usuage et

c.)– 网络类(主机间通信延迟,数据传输的带宽,路由情况等)

– 应用类(Web服务器, DB服务器或其他事务服务器的运行状态)

Page 14: 第九章  网格系统管理

网格监控对象和事件表示• 监控事件:与监控对象紧密联系,是在特定时间由特定输入触发的输出结果,每个监控对象对应 3 种监控事件– 警告– 故障– 数据过期(时效性)

Page 15: 第九章  网格系统管理

GMA (Grid Monitor Architecture)

• GMA基本介绍• GMA体系结构和术语• GMA组件和接口• GMA 的应用例子

Page 16: 第九章  网格系统管理

GMA 基本介绍• GGF Performance Working Group 提出草稿–规范网格监控术语的定义与描述– 解决网格监控工具开发的互操作性。

• 主要贡献是提出 Producer/Comsumer模型和 Event Subscribe 的数据传送方式

Page 17: 第九章  网格系统管理

GMA 体系结构和术语• GMA体系结构:由三种类型的组件组成

– Consumer– Producers– Directory Service

Page 18: 第九章  网格系统管理

GMA 体系结构

Page 19: 第九章  网格系统管理

GMA 体系结构

Producer

DirectoryService(LDAP?)

Consumer

1) Event publicationinformation

2) Lookup

3) Event producer & Event schema information

5) Event data

4) Query or

Subscribe

= API & wire protocol & data format

Plus security!

Page 20: 第九章  网格系统管理

GMA 术语• Events :命名的数据集合,可以与任何事物相关,但是一般指 Memory Usage, CPU Usage, Network Usage ,或者错误条件(如服务进程崩溃等);

• Producer(生产者):使 Event Data 可用的组件;

• Consumer :请求或者接受 Event Data 的任何进程;

• Directory Service :发布哪些 Event Data 是可用的,和哪个 producer 联系以得到这些数据;

Page 21: 第九章  网格系统管理

生产者 / 消费者间的互操作• GMA体系结构支持 3 种在生产者 /消费者之间传输数据的互操作:

• publish/subscribe :互操作的发起者可以是生产者,也可以是消费者

• query/response :发起者必须是消费者,类似 HTTP 的 request/reply

• notification(通知):发起者必须是生产者,所有互操作由生产者一步完成。

Page 22: 第九章  网格系统管理

GMA 生产者和消费者协议 (1)

• Publish/Subscribe model– Consumer can subscribe to Producer to receive

a stream of events– Producer can subscribe to Consumer to push a s

tream of events– Either side can unsubscribe

• Query model– Consumer can get a single event

Page 23: 第九章  网格系统管理

GMA 生产者和消费者协议 (2)

consumer

producer

directoryservice

4: events

1: registerlatencybetween

foo and bar

2: lookupproducer for

latency betweenfoo and bar

3: subscribefor latencybetween

foo and bar

• Example of Consumer subscribing to latency information between two hosts.

Page 24: 第九章  网格系统管理

GMA 组件和接口• Directory Service

• producer

• consumer

• compound components

Page 25: 第九章  网格系统管理

Directory Service

• 目录服务的作用是定位、命名和描述网格中具有结构化特征的数据,让信息消费者( users, visualization tools, programs and resource schedulers)发现信息、理解可用信息的特性。信息生产者必须能够更新信息以反映系统状态。

• Directory Service 包含所有可用事件数据的列表,使 Consumer 可以发现当前可用的事件数据,数据的特性,以及应该和哪个 Producer联系以获取指定类别的数据。

Page 26: 第九章  网格系统管理

Directory Service ( Cont. )• 简单来说,目录服务并不储存事件的附加数据 ,它只提供数据的名称、特性和位置信息。这样一来 ,若想获得事件的数据 ,首先要通过目录服务找到该事件生产者的静态信息,比如事件类型、主机地址等,然后再向该生产者发出请求获得相应数据。

Page 27: 第九章  网格系统管理

Directory Service 支持的功能• Add : 向目录加入记录( entry)。• Update :改变记录在目录中的状态。• Remove :从目录中删除一个记录• Search :查找事件数据, Client 可以指定是仅仅返回一个结果、还是多个结果。

Page 28: 第九章  网格系统管理

Producer

• 负责通过接口为 Consumer 提供事件数据的组件。Producers 将在目录服务中发布事件可用信息。

• A given component may have multiple producer interfaces, each acting independently and sending events. – The term producer is used interchangeably,

and inexactly, to refer both to a single producer interface and to a component that contains at least one producer interface.

Page 29: 第九章  网格系统管理

Producer 支持的功能• Maintain Registration :

– add/update/remove directory service entry or entries describing events that the producer will send to a consumer.

• Corresponds to Directory Service Add,Update, and Remove.

• Accept Query: 接受 Consumer 的查询,返回一组事件。

Page 30: 第九章  网格系统管理

Producer 支持的功能• Accept Subscribe: 接受 Consumer 的请求订阅。 如果订阅成功,生产者发送事件数据给消费者直到订阅被终止。

• Accept Unsubscribe: 接受 Consumer 的取消订阅。如果 Consumer 取消订阅, Producer 应该自动取消其在任何地方的订阅。

• Locate Consumer: 在 directory service 中查找一个消费者

Page 31: 第九章  网格系统管理

Producer 支持的功能• Notify(通报):发送一个单一的事件数据给消费者

• Initiate Subscribe: Producer 异步开始与Consumer之间的订阅。被授权可以给 Consumer 传送数据。

• Initiate Unsubscribe: Producer 通知 Consumer订阅将结束。

Page 32: 第九章  网格系统管理

Producer

• Producer也可以用于访问控制,容许不同等级的用户进行不同的访问。由于网格一般有多个组织来控制被监控的资源,因而会有不同的访问策略,支持不同的访问频率,对组织内外的 Consumer 将提供不同的性能细节。

Page 33: 第九章  网格系统管理

Consumer

• Consumer 是通过接口从 Producer 接受事件数据的任意组件。接收来自 Producer的异步请求的 Consumer 将在目录服务中发布这一信息。

• 一个 Consumer组件可能包含一个或多个接口,每个接口可单独从 Producer 接受事件数据

Page 34: 第九章  网格系统管理

Consumer 支持的功能• Locate Producer: Consumer向目录服务查询生产者

• Initiate Query:请求从 producer 接收一个或者一组事件。可以设置 filter表明感兴趣的部分。

• Initiate Subscribe:Consumer 请求建立到 producer 的连接以连续接收数据。

• Initiate Unsubscribe:Consumer告诉 Producer关闭 Subscribe 。 Subscription 被删除, producer确认之后不再在这个 Subscription上传送数据。

Page 35: 第九章  网格系统管理

Consumer 支持的功能

• Maintain Registration: 增加 / 更新 /删除目录服务中有关从 producer 接收的事件的记录。

• Accept Notification: Consumer 接受来自 Producer通知。

• Accept Subscribe: Consumer 接受来自希望传送数据的 Producer 的 subscription 。

• Accept Unsubscribe: Consumer 接受来自 Producer 的取消订阅请求。

• 定位消息模式 : 在给定的事件类型中在模式库中搜索请求

Page 36: 第九章  网格系统管理

Consumer 的类型具有以下类型的 Consumer:1、 Real- time monitor : 实时收集监控数据供实时分析工具使用。

2、 Archiver :为存档服务收集信息。收集的信息可以供历史分析。

3、 Overview monitor :从多个信息源收集事件,使用组合信息做出无法基于单个主机的数据做出的决定。

Page 37: 第九章  网格系统管理

Consumer & Producer• 有的组件同时既是 Consumer也是 Produ

cer

Page 38: 第九章  网格系统管理

事件数据源• 用于构建事件的数据能从许多资源上进行收集。比如硬件 / 软件传感器能够收集实时的性能数据;另外,通过数据库的查询接口可以得到历史数据。如图 3

完整的监控系统,比如说 NWS ,可以看作一个事件数据源。

Page 39: 第九章  网格系统管理

事件数据源

Figure 3: Sources of Event Data

Page 40: 第九章  网格系统管理

Produce and Sensor

• 一个 Producer 可以关联一个传感器、一个指定主机上的所有传感器、一个给定子网的所有传感器、或者任意一组传感器。这些在 GMA 中没有定义,可以实现时确定。

• 一个 Producer 和 Sensor 的关系如下图:

Page 41: 第九章  网格系统管理

Producer 和 Sensor 的关系

Page 42: 第九章  网格系统管理

GMA 的应用例子

Page 43: 第九章  网格系统管理

Architecture

Ruth Aydt – GGF1 Performance Working Group

Producer

DirectoryService(LDAP?)

Consumer

1) Event publicationinformation

2) Lookup

3) Event producer & Event schema information

5) Event data

4) Query or

Subscribe

= API & wire protocol & data format Plus security!

Page 44: 第九章  网格系统管理

Simple Case Study

Ruth Aydt – GGF1 Performance Working Group

archivsys

WS1

WS2

WS10

. . .

srvr

adminsys Directory

Service

Event Type Directory:

CPU_LOAD schema

Event Producer Directory:

srvr / CPU_LOAD

Event Consumer Directory:

archivsys /*(event) / archive

1) Register producer of ws* CPU_LOAD events

archivsys2) Register archive service for any event type

Page 45: 第九章  网格系统管理

Simple Case Study

Ruth Aydt – GGF1 Performance Working Group

archivsys

WS1

WS2

WS10

. . .

srvr

adminsys Directory

Service

Event Type Directory:

CPU_LOAD schema

Event Producer Directory:

srvr / CPU_LOAD

Event Consumer Directory:

archivsys /*(event) / archive

4) Request archiveservice subscriptionfor ws* CPU_LOADevents

5) Subscribe to ws* CPU_LOADevents

Events

archivsys

3) Locate archive service

Page 46: 第九章  网格系统管理

Simple Case Study

Ruth Aydt – GGF1 Performance Working Group

archivsys

WS1

WS2

WS10

. . .

srvr

adminsys Directory

Service

Event Type Directory:

CPU_LOAD schema

Event Producer Directory:

srvr / CPU_LOAD

Event Consumer Directory:

archivsys /*(event) / archive

6) Locate ws* CPU_LOAD events

7) Subscribe tows* CPU_LOAD events

Events

Events

archivsys

Page 47: 第九章  网格系统管理

Simple Case Study

Ruth Aydt – GGF1 Performance Working Group

archivsys

WS1

WS2

WS10

. . .

srvr

adminsys Directory

Service

Event Type Directory:

CPU_LOAD schema

Event Producer Directory:

srvr / CPU_LOAD

Event Consumer Directory:

archivsys /*(event) / archive

Events

Events

archivsys

Page 48: 第九章  网格系统管理

Network Weather Service

• NWS 是美国加州大学圣迭戈分校和田纳西州大学开发的网络天气服务系统。

• NWS 是一个通用的分布式预测系统,它基于以往的性能检测,提供短期的性能预测,它的目的是为元计算应用程序提供动态的精确的及时的性能预测服务。

Page 49: 第九章  网格系统管理

Autopilot

• Autopilot 是由 University of Illinois at Urbana Champaign, Pablo研究组开发的 ,并且已经在很多项目中进行应用 , 包括网格应用程序开发软件项目 (GrADS) 。

• Autopilot 是用于并行或者分布式计算资源的一种实时自适应控制系统。它的目标是建立一个可以提供分布式应用程序自适应控制的环境,这样它们可以根据请求模式以及测量到的资源性能自动选择并且配置资源管理特性。

Page 50: 第九章  网格系统管理

欧洲 DataGrid 网格系统 R-GMA网格监控架构

• DataGrid 是由整个欧盟发起的一个大型网格项目。 DataGrid项目旨在为广泛分布的科学机构建立一个具有超级计算能力、大存储容量、数据广泛共享的下一代计算网格基础设施。

• R-GMA(Relational Grid Monitoring Architecture)[10,11] 是全球网格论坛定义的网格监测结构 GMA 的一个实现,基于关系数据模型,其主要用途是订阅事件,即用户可以直接从数据源预定具有某具体特性的数据流,从而产生了一对新的生产者 /消费者关系,允许在特性满足条件时,消费者从生产者获得订阅的数据。

Page 51: 第九章  网格系统管理

Ganglia

• Ganglia 是加州大学 Berkeley 分校的 Millennium Workgroup开发的一个开源项目。

• 它最初致力于集群系统的性能监控,目前该开发组正在努力使其在网格环境下运行。 Ganglia是一个非常成熟的集群以及分布式系统监控程序,目前世界上很多的集群都采用了 ganglia作为监控系统。

• Ganglia采用了组播协议来解决各个监控节点之间的通讯。

Page 52: 第九章  网格系统管理

Globus 的 MDS

• MDS 是基于 LDAP 的网格资源信息收集服务,主要目标是解决资源选择问题,也就是用户如何确定在哪些节点上运行应用。

• 作为 GMA 的一个实现,它以层次结构组织静态和动态的数据,主要包含了三个组件: GRIS( Grid Information Service), GIIS( Grid Information Index Service)和 IP( Information Provider)。

Page 53: 第九章  网格系统管理

网格系统记帐• 记帐是网上用户活动和资源使用情况的记录

• 历史记录,• 预测未来

Page 54: 第九章  网格系统管理

IBM 的深蓝网格记账项目 GSAX

• GSAX( Grid Service Accounting Extensions)记账系统是一个独立于经济模型的网格记账系统,采用独立于经济模型的动态定价策略,由许多模块构成,这些模块可以通过不同的组合提供不同的架构以适应不同的需求。

Page 55: 第九章  网格系统管理

MonitoringCollection of raw data

MeteringValues service

Request charges

Grid ServicesExposes services

Grid ServicesExposes services

AccountingMaintains business

relationship

Page 56: 第九章  网格系统管理

网格经济服务体系结构 GESA

• GGF 结合经济机制提出了网格经济服务体系结构 (Grid Economic Services Architecture GESA)

• 在 GESA 中通过将底层的网格服务扩展为可计费网格服务 (Chargeable Grid Service CGS)从而实现客户无缝地对可计费网格服务的访问,可计费网格服务基于底层的网格服务,通过访问 OGSA Resource Usage Service 获取资源使用情况并加以记录,通过访问 OGSA Payment Service实现与客户端的交易。这个体系结构基于网格服务的瞬时性特征,将服务开销封装在服务数据元素中,所有网格服务状态的改变是通过创建新的网格服务加以实现。

Page 57: 第九章  网格系统管理
Page 58: 第九章  网格系统管理

GRACE 网格经济架构 • 澳大利亚Monash 大学的 Buyya基于早期对市场机制在分布式系统中的应用研究成果深入探讨了网格环境中的基于经济学的分布式资源管理和调度问题,并设计了一系列应用组件构架的一个网格经济学框架 GRACE 。

Page 59: 第九章  网格系统管理
Page 60: 第九章  网格系统管理

GOLD 记账管理系统 • GOLD 记账管理系统由西北太平洋实验室开发( PNNL)开发,其前身是 QBank 系统,具有资源分配管理等功能。

• GOLD 在 QBank 的基础上又增加了许多记账功能,支持存储、撤消,转账、透支和退款等功能,并为用户、管理员提供资源余额、资源使用反馈和资源使用信息查询等服务。该系统采用基于角色的授权管理方式进行事物处理,能实现记账系统的大部分核心功能,但是该系统没有采用开放的网格或 web服务协议开发,因而它的互操作性和跨平台支持受到一定限制。

Page 61: 第九章  网格系统管理

Accounting Manager (Gold)

00

22

11

44

33

55

66

Scheduler(Maui)

Resource Manager(PBS, LL,

LSF)