第5章 基于网格计算的数字图书馆联盟 协同服务架构 ·...
TRANSCRIPT
第 5 章 基于网格计算的数字图书馆联盟 协同服务架构
5.1 引言
数字图书馆服务链主要是由数字图书馆联盟和内容服务提供商构成的分布式
内容服务提供平台,数字图书馆联盟和内容服务提供商一起为用户提供综合性“一
站式”服务。而由各个专业图书馆或跨域图书馆组成的数字图书馆联盟是用户可
获得“综合性”内容或知识服务的基础,其可为用户提供跨专业或跨域的集成内
容服务。但是,数字图书馆联盟是由独立主体的、跨域的数字图书馆构成,要能
够为用户提供高效“无缝”的内容服务,它们必须要协同工作和共享内容资源,
需要构建一个资源可动态配置的协同工作平台。
网格计算(Grid Computing)主要研究在分布、异构、自治的网络资源环境上
动态建构虚拟组织并实现跨域资源共享与协同工作。网格计算目的是将分散的网络
资源进行整合,并解决异构环境下的资源共享及资源的统一管理等方面的问题。本
章应用网格计算技术构建数字图书馆联盟的协同服务架构和内容资源共享平台。
5.2 网格计算及其应用
(1)网格和网格计算的基本概念
网格(Grid)是在20世纪90年代中期为构建先进科学和工程分布式计算设施
而引入的概念[112],是继Internet和Web之后的第三次技术浪潮。网格就是一个集成
的计算与资源环境,或者说是一个计算资源池。网格的主要特征有三个:第一,
资源共享,动态配置,协同工作,不存在任何集中控制;第二,使用标准、通用、
开放的协议和接口;第三,高服务质量,包括响应时间、流量、可用性和安全性。
55
第 5 章 基于网格计算的数字图书馆联盟协同服务架构
一般来说,网格具有分布共享性、自相似性、动态多样性以及管理的多重性等多
个方面的特点。
网格应用通常是在虚拟组织中以网格服务(Grid Service)方式实现动态资源
的协调共享,它支持跨组织的协同工作,共享资源包括计算资源、数据资源、硬
件资源、软件组件以及应用程序等。按照网格的不同应用,可将其分为计算网格、
数据网格、服务网格、知识网格等。
网格计算就是通过将地理上分布、异构的各种高性能计算机、数据服务器、
大型检索存储系统和可视化、虚拟现实系统等,通过高速互联网络连接并集成起
来,形成对用户相对透明的虚拟的高性能计算环境。利用网格计算技术,用户能
将分散的功能整合起来,将各种应用系统加以集成,创建一个单一的系统。最终
实现跨域的虚拟共享、管理和设备访问,动态地管理网络上的资源、服务和应用,
在不同的组织中集成应用和交换数据。
(2)网格体系结构
准确定义网格的体系结构是构造网格的一个基础工作。到目前为止,比较重
要的网格体系结构主要有两个:五层沙漏模型和开放网格服务结构(OGSA)。
五层沙漏模型是Ian Foster等在早些时候提出的体系结构。它的基本思想和构
架类似于计算机网络中的TCP/IP协议的构架。图5.1所示即为五层沙漏模型[112]。
图 5.1 五层沙漏模型
• 构造层(Fabric)。定义本地(共享)资源接口,包括计算资源、数据存储
资源、网络资源、软件模块或其他系统资源等。
• 连接层(Connectivity)。定义基本的通信和认证协议,这些协议是针对专
门的网格服务定义的,如单一登录(SSO)等。
• 资源层(Resource)。在连接层的通信和安全协议之上,该层定义了单个资
56
数字图书馆服务链——服务模式·体系架构·关键技术
源的共享操作协议,包括安全协商、初始化、监测、控制、记账、付费等。
资源层还调用构造层的功能实现对本地资源的访问和控制,该层只处理单
个资源,不关心资源集合池中的全局状态和原子操作问题,这些问题由汇
聚层解决。
• 汇聚层(Collective)。负责全局资源的管理和资源集之间的交互。该层使
用部分资源层协议和连接层协议实现多种不同的资源共享行为。
• 应用层(Application)。通过不同的协作和资源访问协议使用网格资源。
开放网格服务结构(OGSA)模型如图5.2所示[113]。该模型的每一层都清楚地
定义了相应的功能,其核心层是开放网格服务基础设施(OGSI)和OGSA服务层,
OGSI后来发展成为Web服务资源框架(WSRF),这些都标志着侧重科学活动的网
格计算开始转向面向服务的信息网格(Information Grid)。OGSI/WSRF为网格系
统提供包括描述和发现服务属性、创建服务实例、管理服务生命周期、管理服务
组以及发布和订阅服务通知等标准接口及其相关行为,支持创建、管理网格服务
以及网格服务的信息交换。OGSA服务层基于OGSI/WSRF创建了一套标准服务,
包括策略服务、注册服务、服务级别管理以及其他网格服务,从而在构造网格系
统是可以实现代码重用和组件互操作。高层应用与服务使用这些底层的平台核心
组件可以构建用于共享资源和协同工作的网格应用。
图 5.2 OGSA 网格体系结构模型
(3)网格计算的应用
伴随着网格技术的发展,一些大型网格计算技术研究项目已经在物理、地球
科学、气象科学和生物科学等科学研究领域得到应用,如美国NSF的GriPhyN、
TeraGrid等,美国能源部(DOE)的PPDG、FusionGrid等,美国国防部(DOD)
的全球信息网格(GIG),欧洲的European Data Grid、DataTAG等。我国也启动了
一系列网格研究项目,其中一些比较有代表性,如科技部实施的国家网格
57
第 5 章 基于网格计算的数字图书馆联盟协同服务架构
(CNGrid)、教育部组织实施的中国教育科研网格(ChinaGrid)、国家自然科学基
金资助的e-science网格研究计划等。全球各IT厂商如HP、IBM、微软、Oracle、SUN
等也陆续推出了基于网格的系统和应用软件,如HP的行星计算、IBM的按需计算、
Oracle的企业网格计算、SUN的网格引擎等。
5.3 数字图书馆联盟的内容服务网格体系结构
5.3.1 数字图书馆联盟内容服务网格体系结构模型
数字图书馆服务链给用户提供查询、检索、个性化服务、专业服务等“综合
性”内容服务,这就要求数字图书馆联盟(DLAs)提供协同工作、资源共享等支
撑服务功能。综合当前网格计算技术的发展基础,我们提出DLAs内容服务网格体
系结构模型,如图5.3所示。
图 5.3 DLAs 内容服务网格体系结构模型
该体系结构模型自底向上分为5层,最底层是基础设施层,提供基本的网络支
撑环境和各种需要被共享的逻辑资源和物理资源。
连接层定义基本的通信、接口和授权协议,提供SOA的基本实现环境。
网格中间件层是网格体系结构的核心层,是网格基础设施的关键部分[114],它
屏蔽网络计算资源的异构性,支持网络计算资源的统一管理、分布调度和安全控
制。DLAs内容服务网格中间件层包括一组基于SOA的中间件,它为内容资源共享
及协同工作等网格特性提供支持。消息中间件(MOM)、服务聚合(Service
Aggregation)、数据中介服务(Data Mediation Service)、网格信息服务(Grid
58
数字图书馆服务链——服务模式·体系架构·关键技术
Information Service)和可靠数据传输(Reliability Bulk File Transfer,RBFT)等是
内容服务网格的核心中间件,其中:消息中间件对上层提供稳定可靠的传输保证
以及异步通信机制,在此基础上可构建松散耦合、可靠的分布式应用系统;服务
聚合将一组相关的服务映射为一个单独的逻辑服务,它屏蔽了服务发现、选择、
异常处理等的复杂性;网格信息服务管理网格系统各种资源实体的元数据,包括
网格节点、组织、区域以及服务元数据等,支持网格环境中数据、资源以及服务
的发现与发布,提供网格资源实体元数据的静态统一视图和动态管理界面;可靠
数据传输服务保证广域范围跨域(组织)数据的可靠传输。网格监控(Grid
Monitoring)和服务管理(Service Management)等中间件保证网格运行的可靠性、
稳定性和可维护性,其中,网格监控负责监控网格运行状态,包括网格中间件工
作状态、Web服务及其实例的调用状态,以及网格节点的运行状态等;服务管理
提供服务注册、注销和地址绑定变更等功能。数字图书馆服务链需要支持语义和
知识网格等高级应用,因此该层提供本体服务(Ontology Service)和服务匹配引
擎(Service Match Engine)等,其中,本体服务支持内容资源本体、服务本体和
协作上下文本体的查询与使用;服务匹配引擎提供基于语义的服务查询和协作上
下文查询等。另外,服务组合(Service Composition)中间件提供Web服务的动态
组合功能。复制管理支持网格的透明数据迁移与复制,以及数据副本的透明选择。
服务层位于网格中间件层的上方,主要提供网格环境下的协作支持服务和资
源共享服务。针对数字图书馆联盟中内容资源的分布性、存取的普适性以及完成
“综合性”协同内容服务的多资源动态分配问题,需要在统一的调度框架下协调
资源的使用以优化服务的整体性能。协作群组可以通过虚拟群组协作空间(Virtual
Teamspace)绑定的协作工具完成不同的协作任务。在资源共享环境中,通过语义
标注(Semantic Annotation)和语义查询(Semantic Query)服务,借助消息中间
件和服务聚合等中间件的支持,基于发布/订阅通知(Publish/Subscribe Notification)
机制以及概念检索模型实现内容资源的推拉服务。
最上层是应用层,在数字图书馆服务链中,内容服务提供商可以看做是总用
户的服务代理(Service Agent),因此,应用层提供的应用服务主要包括大众化信
息服务、专业化信息服务和个性化信息服务,主要是提供专业化信息服务和个性
化信息服务。
59
第 5 章 基于网格计算的数字图书馆联盟协同服务架构
5.3.2 数字图书馆联盟内容服务网格体系结构
图5.4所示是数字图书馆联盟内容服务网格体系结构。
图 5.4 数字图书馆联盟内容服务网格体系结构
5.4 网格环境下数字图书馆联盟协同服务框架及其应用
5.4.1 基于资源共享的数字图书馆联盟网格的协同服务框架
在数字图书馆联盟网格中,各数字图书馆将其自治域的资源映射到其对应的
网格节点上,通过网格节点间的资源共享来实现协同服务。元数据是实现资源共
60
数字图书馆服务链——服务模式·体系架构·关键技术
享的重要基础,它既用来描述资源特征,也用于描述用户需求,用户需求和资源
描述之间的匹配也可在元数据、本体和语义等不同层面上实现。
提出一种基于发布/订阅通知机制和概念检索模型的资源共享方法,实现资源
的推拉服务,如图5.5所示。在数字图书馆联盟网格中,各数字图书馆只需向网格
节点提交关于资源描述的元数据信息,资源本身可存放在各数字图书馆的内容服
务器上。数字图书馆联盟网格中的共享资源一般基于Dublin Core元数据规范进行
描述,或者基于中文图书元数据标准规范进行描述,资源描述元数据发布或映射
到网格节点上,并利用Web服务对元数据库进行封装以统一对资源的共享等操作。
数字图书馆联盟各图书馆发布资源时,网格节点自动产生关于该资源元数据的消
息,并通过网格信息中间件MOM向整个系统广播,一方面根据用户订阅信息或用
户特征信息向用户推送内容资源;另一方面根据用户的检索向用户提供检索内容,
从而实现内容的推拉服务。
图5.5 数字图书馆联盟网格的协同服务框架
61
第 5 章 基于网格计算的数字图书馆联盟协同服务架构
5.4.2 内容检索服务过程示例
内容检索服务是数字图书馆向用户提供的主要服务之一。在网格环境下,信
息检索机制是基于内容检索代理和服务聚合中间件来实现的,如图5.6所示。在内
容检索过程中,用户向系统提交基于元数据的检索请求,检索操作通过统一的组
织视图实现,即系统根据组织视图将检索任务自动分解到一组相关的网格节点去
执行,这一过程是由内容检索代理和网格中间层的服务聚合中间件来实现的。执
行检索任务的网格节点将启动一个匹配过程,这些网格节点上的检索结果由服务
聚合中间件进行汇聚,然后返回给提出检索请求的用户。
图5.6 内容检索过程实例
在上述过程中,用户向内容检索代理发布一条检索指令,它包括检索范围和
内容属性元数据信息。系统返回与用户检索请求相匹配的内容属性以及内容链接
62
数字图书馆服务链——服务模式·体系架构·关键技术
地址。匹配过程中用户并没有访问内容服务器(各数字图书馆自治域的内容服务
器,包括WWW服务器、FTP服务器、流媒体服务器等),只有对返回的内容信息
感兴趣或感到满意时,才通过内容链接地址获取所需的资源。
5.5 本章小结
异构环境下的资源共享及资源的统一管理等方面的问题是由自治主体构成的
数字图书馆联盟进行资源共享和协同运作所面临的主要问题。本章首先介绍了网
格计算的相关理论及其应用,在此基础上,构建了数字图书馆联盟的内容服务网
格体系结构模型及其体系结构,详细阐述了该体系结构5个层次的主要内容;然后
提出一种基于发布/订阅通知机制和概念检索模型的资源共享方法,构建了网格环
境下基于资源共享的数字图书馆联盟协同服务框架,并在此框架下阐述了内容检
索过程应用。