核心系統服務不中斷汰換- 以大型主機平行連線系統為例 ·...

7
32 財金資訊季刊 / No.89 / 2017.06 資訊分享〡核心系統服務不中斷汰換-以大型主機平行連線系統為例 核心系統服務不中斷汰換- 以大型主機平行連線系統為例 張淑珍 / 財金資訊公司系統部系統組代理組長 一、 前言 財金資訊公司 ( 以下稱本公司 ) 作為我國 金融跨行資訊服務之樞紐,為提供全國「24 小時全年無休」之金流服務,本公司核心系統 自民國 98 年起,即採「雙主機平行連線系統 (Parallel Sysplex)」架構,使用三台主機串連 互為同地備援,其中兩台作為交易處理主機, 另一台供作串連設備 (Coupling Facility),交 易系統以平行運算之協同運作方式,連線交易 可由負載平衡分派到不同主機執行,大量處 理來自全國金融機構之金流交易;主機架構 及硬體元件皆採雙元件方式建置,以保持高 可用度運作,即使單點故障 (Single Points of Failures , SPOF) 發生,仍可持續提供正常服 務,可解決單系統故障無備援問題,減少服務 中斷風險。歷年來,本公司核心系統皆維持 100% 之可使用率,且計畫性系統異動變更, 皆採行不停機維護 (Rolling upgrade) 方式進 行,變更期間仍能持續提供跨行交易處理,提 供國內金融機構穩定優質的系統平台服務。 核心系統穩定運作,首重在日常維運管 理,除平時依年度計畫落實軟硬體維護工作, 檢測與觀察軟硬體的運作效能與狀態,定期執 行硬體韌體與軟體修補程式檢視,並適時辦理 升級計畫。任一系統升級作業,皆從測試作業 環境開始建立,事先擬訂變更執行暨檢核程 序,以及異常時之復原程序;再辦理測試變更 作業,同時,研擬多項測試個案以實際測試、 驗證方法,確認當軟硬體系統參數異動後,線 上交易處理系統的運作,仍能夠呈穩定狀態。 綜上,本公司對於核心系統的異動變更,先以 事先規劃細部程序方式辦理,並落實作業的事 中管理,經反覆測試、記錄、調整,最終達成 變更順利上線,以及維持主機系統高可用度之 目標。 本公司金融資訊系統 System z 系列主 機- z9 系統係自 98 用,系統軟硬體運 作皆呈穩定狀態。日常系統維護人員依事先擬 訂之主機軟硬體系統年度維護計劃,執行軟硬 體版本檢視;如有升級必要時,須先於測試系 統建立測試個案作業環境,以事先觀測與檢驗 營運系統上線運作狀態、主機交易運作的穩定 度,經測試驗證合格後,再行辦理營運上線作 業。除此之外,系統之管理,平時即建立主機 系統運作之效能分析及維運監控程序,以維持 高效能之交易環境。當監控到硬體異常訊息 時,即主動記錄並追蹤,提早針對異常之硬體 元件,進行預防性更新作業,隨時保持硬體系 統運作之順暢。

Upload: others

Post on 21-Oct-2019

13 views

Category:

Documents


0 download

TRANSCRIPT

32 ■ 財金資訊季刊 / No.89 / 2017.06

資訊分享〡核心系統服務不中斷汰換-以大型主機平行連線系統為例

核心系統服務不中斷汰換-以大型主機平行連線系統為例

張淑珍 / 財金資訊公司系統部系統組代理組長

一、 前言

財金資訊公司 (以下稱本公司 )作為我國

金融跨行資訊服務之樞紐,為提供全國「24

小時全年無休」之金流服務,本公司核心系統

自民國 98年起,即採「雙主機平行連線系統

(Parallel Sysplex)」架構,使用三台主機串連

互為同地備援,其中兩台作為交易處理主機,

另一台供作串連設備 (Coupling Facility),交

易系統以平行運算之協同運作方式,連線交易

可由負載平衡分派到不同主機執行,大量處

理來自全國金融機構之金流交易;主機架構

及硬體元件皆採雙元件方式建置,以保持高

可用度運作,即使單點故障 (Single Points of

Failures , SPOF)發生,仍可持續提供正常服

務,可解決單系統故障無備援問題,減少服務

中斷風險。歷年來,本公司核心系統皆維持

100%之可使用率,且計畫性系統異動變更,

皆採行不停機維護 (Rolling upgrade)方式進

行,變更期間仍能持續提供跨行交易處理,提

供國內金融機構穩定優質的系統平台服務。

核心系統穩定運作,首重在日常維運管

理,除平時依年度計畫落實軟硬體維護工作,

檢測與觀察軟硬體的運作效能與狀態,定期執

行硬體韌體與軟體修補程式檢視,並適時辦理

升級計畫。任一系統升級作業,皆從測試作業

環境開始建立,事先擬訂變更執行暨檢核程

序,以及異常時之復原程序;再辦理測試變更

作業,同時,研擬多項測試個案以實際測試、

驗證方法,確認當軟硬體系統參數異動後,線

上交易處理系統的運作,仍能夠呈穩定狀態。

綜上,本公司對於核心系統的異動變更,先以

事先規劃細部程序方式辦理,並落實作業的事

中管理,經反覆測試、記錄、調整,最終達成

變更順利上線,以及維持主機系統高可用度之

目標。

本公司金融資訊系統 System z系列主

機- z9系統係自 98年啟用,系統軟硬體運

作皆呈穩定狀態。日常系統維護人員依事先擬

訂之主機軟硬體系統年度維護計劃,執行軟硬

體版本檢視;如有升級必要時,須先於測試系

統建立測試個案作業環境,以事先觀測與檢驗

營運系統上線運作狀態、主機交易運作的穩定

度,經測試驗證合格後,再行辦理營運上線作

業。除此之外,系統之管理,平時即建立主機

系統運作之效能分析及維運監控程序,以維持

高效能之交易環境。當監控到硬體異常訊息

時,即主動記錄並追蹤,提早針對異常之硬體

元件,進行預防性更新作業,隨時保持硬體系

統運作之順暢。

www.fisc.com.tw ■ 33

核心系統服務不中斷汰換-以大型主機平行連線系統為例〡資訊分享

為符合業務成長需求,並持續提供穩定的

金流服務,以及降低因主機硬體環境老舊而導

致之風險,自 104年起,本公司即開始籌劃

汰換核心業務主機硬體設備作業;以下,謹就

核心系統汰換作業過程簡要說明,期與金融同

業交流分享。

二、 作業規劃

核心關鍵系統汰換,務求各作業環節,皆

能在精密規劃後執行。主機汰換執行方式,考

量作業複雜度、程序可驗證性、風險切轉分

析、整體運作效能、異常復原方式與影響程

度,以及整體作業時間等,經綜合分析與評估

後,最終再決定最佳汰換方式。為戮力達成

「24小時全年服務不中斷」之自我期許目標,

本公司須完成一組三台 z9主機硬體汰換,且

汰換過程須克服 z9與 z13主機無法直接串連

之艱難任務 (z13串接架構如圖 1)。

因 z9與 z13主機連線介面無法直接串

接,為達成服務不中斷,乃規劃以 z114主

機作為橋接設備,使其納入 Parallel Sysplex

Clustering運作,且需提供即時交易服務,

以主機硬體、軟體 Sysplex、IMSplex交互輪

替 (Rolling)方式,經歷 z9、z114、z13三世

代主機的運作轉移;主機汰換作業擇定在 105

年 9月中秋連續假期的兩天凌晨業務離峰時段

執行,計畫原訂須歷時 11小時方可完成,最

終提前以 7小時的作業時間,達成本公司核心

主機跨世代汰換,以 System z系列全球最新

的 z13主機,持續提供高效能穩定的平台服

務;汰換全程中,跨行服務之提款、轉帳、繳

費 (稅 )及消費購物等交易皆未受影響,創國

內金融機構汰換營運大型主機,「系統全程服

務不中斷」之首例,在國際上亦屬罕見。

以本次主機汰換規劃,在汰換計畫擬訂階

段,即產出汰換計畫細部作業流程 (如表 1),

列出變更各階段主要工作項目、作業時間、檢

核點、復原時點與方式、可能性風險事項與因

應、以及驗證方法等,並且對各工作項目確立

其風險點,列入專案關鍵任務。例如 :如何觀

察提供線上交易服務的 z9主機,當與 z114主

機平行運作時,是否能確實如計畫正常運作?

為達成事前掌握運作狀態,決定以實機驗證方

圖 1 z13 Parallel Sysplex coupling connectivity

34 ■ 財金資訊季刊 / No.89 / 2017.06

資訊分享〡核心系統服務不中斷汰換-以大型主機平行連線系統為例

法,藉由先卸載營運主機群中的一台主機,由

另外兩台持續提供跨行交易服務;在確認卸載

主機和營運維運作業環境完全隔離後,開始辦

理 z9與 z114主機串連程序驗證。以上作業過

程,雖僅為汰換細部作業流程中的單一步驟,

亦須經過反覆演練驗證,以達到降低整體作業

風險之目標。

對不同型號主機串連介面的連通性及傳輸

能力,是否會影響線上每筆交易處理的效能,

同樣列為專案關鍵任務。因此,關於主機串連

運作效能,我們以兩個面向建立效能觀測指

標,第一、對於需要以實際營運交易運作,或

實機作為驗證方法者,因考量可能對營運的日

常維運造成影響,經與原廠討論以數據資料模

擬推論方式進行,在蒐集營運交易峰量期之系

統相關資訊後,商請 IBM實驗室提供分析數

據,以判別影響程度;第二、採行建立實證環

境,於測試系統建立所有汰換程序,經反覆測

試與驗證,以確認測試結果均符合預期目標。

表 1 汰換計畫細部作業流程表

註: 代碼 ABC表示營運三台 z9主機,A主機具 GP(General Processor)與 ICF(Internal Coupling Facility),B具 GP,C則為 ECF(External Coupling Facility)。代碼 D表示 z114主機,D主機具 GP與 ICF。代碼 IJK則為三台 z13主機與 z9具對應 Processor。

作業時間

(mins)累計

(mins) 風險 風險因應方式營運

主機

汰換

主機

橋接

設備

熱備援

(復原)

0 0 無A、B主機互為備援並由C主機串連成平行運作架構,持續提供服務

A B C

40 40 低,依據開關機程序執行依既有之開關機程序重新開啟關閉之主機

(B、C),並Join SYSplex運作A B C B C

60 100 低,A主機持續運作 建立退回程序,解除D主機連線,並重新開啟關閉之主機(B、C),恢復SYSplex運作

A D B C

70 170 z9 + z114 在測試系統無法並行測試

建立退回程序,SYSplex join階段,若join不成功,則立即將D主機退出SYSplex

A D D B C

CKP1.1 若A、D主機運作正常,續行步驟四 170

CKP1.2 若D主機加入運作失敗,則啟動退回A、B、C主機運作程序,約90分鐘 90 260 (註: 恢復A、B、C主機運作)

50 220 單一主機(D主機)運作

(1)前一步驟已確認D主機交易承接能力後,才開始進行本步驟

(2)將系統觀察與驗證時間拉長,A主機保持熱備援,當D主機異常,則立即退回A主機

D A D A

60 280 單一主機(D主機)運作 建立退回程序,解除I主機連線,並重新開啟關閉之A主機,恢復SYSplex運作

D D A

70 350 低,可在測試系統建立程序

(1)建立退回程序,SYSplex join階段,若join不成功,則立即將I主機退出SYSplex(2)將系統觀察與驗證時間拉長,A主機保持熱備援,當I主機異常,則立即退回A主機

I D D A

CKP2.1 若D、I主機運作正常,則續行步驟七 350

CKP2.2(1)

若I主機加入運作失敗,則啟動退回A、D主機運作程序,約130分鐘 130 480 低,恢復A、D主機運作,變

更總時程超出目前規定6小時

復原為二座主機共同運作架構: 不停機變更,備妥復原程序因應,總時程約為8小時,建議00:00~08:00執行

CKP2.2(2)

若I主機加入運作失敗,則啟動退回D主機運作程序,約50分鐘 50 400 單一主機(D主機)運作,變更總

時程超出目前規定6小時

復原為單一主機運作架構:不停機變更,

備妥復原程序因應,總時程約為6小時40分鐘

60 410

低,可在測試系統建立程序,

且此串連架構具高可用度;惟

,變更總時程超出目前規定6小時

(1)建立退回程序,SYSplex join階段,若join不成功,則立即將K主機退出SYSplex(2)建立CF退回程序,當切換異常,則將CFStructure回復至I主機

I D K D A

0 0 低,I、D、K主機持續運作 I、D主機互為備援並由K主機串連成平行運作架構,持續提供服務

I D K D A

60 60 低,I、K主機持續運作建立退回程序,SYSplex join階段,若join不成功,則立即將J主機退出SYSplex

I K D

70 130 低,可在測試系統建立程序

(1)建立退回程序,SYSplex join階段,若join不成功,則立即將J主機退出SYSplex(2)將系統觀察與驗證時間拉長,D 主機保持熱備援,當J主機異常,則立即退回D主機

I J K D

八、第一天變更作業結束,由D、 I主機同時提供服務。

十、串接並啟動J主機,由K主機串連 I、J主機平行運作。 1.J主機join SYSplex 2.J主機交易驗證

九、關閉D主機,由 I主機持續提供服務。 1.確認J主機接線 2.確認I、D、K主機運作正常 3.D主機關機

四、關閉A主機,由D主機持續提供服務。 1.A主機關機 2.確認D主機交易運作狀態

工作項目

五、串接新主機 I,由D主機持續提供服務。 1.I主機接線

六、啟動新主機 I,由D、 I主機共同提供服務。 1.I主機Join SYSplex 2.切轉交易至I主機 3.I主機交易驗證 4.將CF Structure 切至I主機

七、串接並啟動新主機K,由D、 I主機同時提供服務。 1.K主機Join SYSplex 2.將CF Structure 切至K主機 3.K主機交易驗證

DAY2

DAY1

一、關閉B、C主機,由A主機持續提供服務。

二、串接D主機,由A主機持續提供服務。 1.D主機接線

三、啟動D主機後,由A、D主機同時提供服務。 1.D主機Join SYSplex 2.切轉交易至D主機 3.D主機交易驗證 4.將CF Structure 切至D主機

啟動:變更前由C主機串連A、B主機平行運作

www.fisc.com.tw ■ 35

核心系統服務不中斷汰換-以大型主機平行連線系統為例〡資訊分享

三、 轉換測試作業

主機汰換步驟繁複,各步驟間環環相扣,

必須專注每個作業細節。硬體汰換細部執行程

序一經擬訂後,如何確認程序的正確性?如何

觀察交易系統在新主機上的運作情形?以及

如何驗證日常作業皆能在新主機符合預期地運

作?都將作為上線之重要參考指標,並考驗專

案人員的執行力。

本案在測試階段已事先撰寫各項細部程

序,擬訂 37組測試個案,並編訂紀錄表以審

查及追蹤測試結果。其中,汰換作業程序 (含

異常復原 )經反覆演練共達 4次,全數測試作

業密集於三個月完成。測試個案共分為三大

類:變更作業程序、主機高可用度、及主機運

作;各項驗證方式皆以實機模擬,並搭配測試

工具,輔以系統紀錄報表分析,以精準確認變

更執行檢核與復原程序之正確性、系統高可用

度狀態、系統峰量處理情形等。以下謹摘要分

享本案重要驗證結果:

(一 ) 新舊主機在相同交易率下之運作效能

為掌握在相同交易量下,新、舊主機的交

易處理所需時間、以及確認 z13新主機 data

sharing運作與其 Locking情形,特在新主機

系統建立與營運相同之交易處理環境,如相同

的資料庫、應用程式模組、系統紀錄檔等,

再依實際從營運系統觀察而得的交易型態組合

與比例,利用交易模擬工具,在新主機系統

上進行交易模擬,以利觀察新主機之 Parallel

Sysplex運作。於 105年 6月間,由本公司專

案團隊與 IBM台灣團隊,還有 IBM日本專家,

共同執行環境模擬,分析並產製相關系統資訊

圖表,以深入解析系統運作情形,分析項目包

含 Channel I/O、CPU Activity、Transaction

Response Time、Virtual Storage、SVSO

Activity、Logging Performance等,摘要說明

如后:

1. 由圖 2可知,z9與 z13主機在相同交易率下

之處理,系統CPU資源使用降低約 30%。

圖 2 新、舊主機系統之 CPU資源使用比較

36 ■ 財金資訊季刊 / No.89 / 2017.06

資訊分享〡核心系統服務不中斷汰換-以大型主機平行連線系統為例

2. 由表 2可知,主機工作負載 (Workload

Activity) PI 值 (Performance Index) 情

形,在新主機上亦同樣有較佳的表現。

BATHI代表主機 IMS Region在 z13 PI

值 0.4,較 z9的 0.7為佳。

3. 由圖 3可知,交易量相當時,新主機的

處理時間較原主機系統約快 50%,ATM

交易處理時間在 z9主機約為 12ms(毫

秒 ),z13主機約為 5ms。

表 2 新、舊主機系統之工作負載 PI值比較

圖 3 新、舊主機系統之處理時間比較

(二 ) 新主機交易峰時之運作表現

系統通常在一般交易量下,都能維持正常

運作,惟一旦面臨瞬間大量交易,則系統運作

的穩定性,將受到重大考驗。為觀察新主機在

面臨交易峰時的運作情況,我們仍使用與營運

相仿的交易處理環境,以模擬交易進行實機觀

察,團隊並以數據資料提出佐證;在新主機系

統容量下,新主機最大交易處理量能約可達歷

史峰量之 2.4倍,且交易無逾時 (timeout)狀

況發生。

四、 營運主機轉換上線

在上線前,團隊除須確認各項測試作業皆

符合預期外,尚須持續進行充分準備,尤其須

考量當任一作業異常時,如何在第一時間掌握

情況,並迅速決策與採取行動,俾使衝擊與影

響降至最低。因此,我們就汰換作業過程中的

「異常情境模擬」,研擬了八種可能情境,每

一種情境均包含狀況說明、業務影響範圍與時

間、以及相對應之應變措施等;由技術單位執

行系統緊急復原,行政單位執行緊急通報與處

理、媒體應對等,各項程序均完整規劃,各應

www.fisc.com.tw ■ 37

核心系統服務不中斷汰換-以大型主機平行連線系統為例〡資訊分享

變成員亦事先完成沙盤推演、各司所職,務期

於發生非預期狀況時,仍可井然有序地依事先

訂定之程序及措施進行因應。

在變更作業執行過程中,我們建立了全

程監控系統之運作機制,以確保跨行業務各

項交易服務之持續運作。監控作業分為三組,

第一、由系統部操作人員定時啟動線上交易,

以確認變更過程之交易運作;第二、由系統部

系統人員於變更過程中,適時檢視系統紀錄

(SYSTEM LOG),以確保系統運作狀態正常;

第三、由研發部應用系統人員 /資料庫管理人

員、及業務部連管人員適時檢視線上交易資

料,並由連管人員實際執行跨行提款、轉帳及

繳費等交易,以確認業務營運之持續運作,確

保民眾可順暢使用各項跨行服務。

其次,為確保主機上線後,所有的跨行交

易皆能正常運作,除前揭驗證即時交易之有效

性外,並於營業日提前辦理通匯業務之驗證作

業;同時,在新主機上線後的二週關鍵運作期,

藉由安排系統、網路、應用程式、資料庫、資

安、以及 IBM等技術人員,就系統運作全面

進行嚴密地觀察及監控,輔以第一線操作人員

全時監控日常系統維運指標,俾能即時掌控新

主機之各項維運指標、系統運作狀態、交易處

理效能、參加單位網路連線及批次作業等。

總之,在 105年 9月 16及 17日兩天執

行營運系統轉換上線,其作業程序可歸納為十

大項規劃、以及 205項細部作業執行步驟。第

一天 (9月 16日 )變更作業執行上線作業計 8

項,原預估需 6小時 50分鐘,實際作業僅耗

時 5小時 10分鐘,節省 1小時 40分鐘提前完

成;嗣於第二天 (9月 17日 )變更作業執行上

線作業計 2項,作業時間原預估需 2小時 10

分鐘,實際作業計 2小時 8分鐘。綜上可見兩

天的汰換作業,均在規劃時程內提前完成。

五、 成功關鍵因素

本案能在規劃時程內,順利提前完成如此

艱鉅任務,除事前充分的規劃準備、事中嚴謹

的執行程序,以及事後的嚴密觀察監控外,成

功關鍵要素歸納如后:

(一 ) 堅實的專案團隊:本專案獲高階管理者充分授權,透過跨部門的全員合作、充

分溝通、以及明確目標,終能達成專案

各項交付任務。

(二 ) 完整的測試驗證:在專案需求及目標確定後,透過各項預先擬訂之測試個案及

程序,進行充分的測試;同時,驗證各

項作業及復原程序的可用性與正確性,

以確保新主機上線過程,無論遭遇何種

情境,均可依事先制定之程序,據以辦

理,達成整體上線作業之妥善與完整。

(三 ) 縝密的作業程序:藉由「縝密規劃、充分準備」之事前因應,完成主機汰換計

畫程序,有效提供新主機上線前、上線

轉換過程中,及汰換作業完成後之各項

作業,皆能有所依循,順利完成各階段

設定之工作任務。

(四 ) 嚴密的進度管控:各級管理階層充分瞭解本案的重要性,對於專案的進度管控,

秉持最高標準辦理,以有效掌握專案整

體執行狀況。系統部協理及組長每週參

與專案週會,實地掌握相關技術細節,

並適時提供建議及解決對策;每月則由

專案計畫主持人 (系統部督導副總 )主

持專案月會,不定期向首長陳報專案執

行情形,嚴密追蹤專案工作進度及各項

重要控制點,隨時掌控及管理專案之有

效執行。

本專案能如期、如質之順利完成系統上

38 ■ 財金資訊季刊 / No.89 / 2017.06

資訊分享〡核心系統服務不中斷汰換-以大型主機平行連線系統為例

線,除前述關鍵要素外,嚴格落實專案管理工

作、專案團隊一致的目標與信念,亦為這次核

心系統順利汰換作業,不可或缺的重要因素。

六、 結語

本公司肩負提供金融機構及社會大眾便捷

的金流服務,一向秉持「金融交易安全不鬆

懈、系統運作穩定不中斷」之經營理念,自當

戮力達成「24小時全年服務不中斷」之自我

期許目標。本次核心系統大型主機汰換作業的

順利完成,除有賴高階管理階層的全力支持

外,專案需求目標明確、細部作業規劃與評估

完整、跨部門的充分合作與溝通、以及訓練有

素的團隊成員等因素,成功地將投入資源作最

完善的整合,有效地達成核心系統新主機之汰

換作業;更難得的是,作業過程中,同時兼顧

各項跨行業務之服務品質,以不影響本公司會

員銀行之業務運作為最高準則,力求資訊作業

與業務營運的雙贏,展現服務全民化、效益最

大化的成果。

※參考文獻 /資料來源:IBM Redbooks: IBM z13 Technical Guide, 2016 May, IBM。

繳稅單,真簡單

網路繳稅服務網路繳稅服務paytax.nat.gov.twpaytax.nat.gov.tw ebi l l .ba.org. tw

繳帳單,沒負擔

ios Android

嗶!