· web view客家委員會 「 建置臺灣. 客語語料庫 」勞務採購案....

Click here to load reader

Upload: others

Post on 04-Feb-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

行政院原住民族委員會委託辦理「原住民族語言教材編輯計畫─第二期實施計畫」勞務採購案服務企劃書徵求說明(草案)

客家委員會

「建置臺灣客語語料庫」勞務採購案

需求規範說明書

1、 專案緣起及目標:

客家委員會(以下簡稱本會)為使臺灣客家語料蒐整更臻完善,永續保存客家文化資產,並提供客語教學推廣加值應用及研究發展,爰規劃辦理本採購案。語料庫的系統性及便利化,不僅能強化研究,也能提供語言學習者自我學習。語言測驗評量、教材的研發也常會需要語料庫提供語言實際使用的範例,以及難易度參考,最重要的是語料庫將語言典藏、保存和紀錄之重要性及價值,對面臨流失情形嚴重之臺灣客語而言,建置臺灣客語語料庫這項工作更是刻不容緩。

本採購案目標建置臺灣客語四縣(含南四縣)、海陸、大埔、饒平、詔安等腔調,且至少蒐集1,800萬字書面語料及30萬字口語語料。此採購案以5年為期程,分3期程,逐步完成臺灣客語語料庫之產出規格。

2、 執行期程:自簽約日起至111年10月31日止,分成3期程,共計5年期。

第1期程為自簽約日起至108年10月31日止;第2期程自完成第1次後續擴充起至110年10月31日止;第3期程自完成第2次後續擴充起至111年10月31日止。

3、 預算金額:本案總採購金額共計為新臺幣6,000萬元整(含稅,並包含2次後續擴充金額)。

1、 本次預算金額新臺幣2,700萬元整(為跨年度預算:106年度預算為新臺幣540萬元整,107年度及108年度預算分別各為新臺幣1,080萬元整)。

2、 本案另包含2次後續擴充:第1次後續擴充預算金額新臺幣2,200萬元整(為跨年度預算:109及110年度預算各為新臺幣1,100萬元整)。第2次後續擴充預算金額新臺幣1,100萬元整(111年度預算)。

本案107年度至111年度預算如未獲立法院審議通過或經部分刪減,雙方得另行協商契約內容;如本會無法依本契約金額履約或無法達成契約目的時,得依政府採購法第64條規定辦理。另廠商所投計畫書報價超過預算者為不合格標,不予減價機會。

4、 委辦需求事項:

1、 成立顧問諮詢委員會

(一)為利資料庫建置,須聘請熟稔客語語言學、語料庫語言學、自然語言處理、客語專家學者(含客語文化專家)組成本案推動委員會成員,每類專家學者至少2人;而「客語專家學者」依客語腔調(至少四縣(含南四縣)、海陸、大埔、饒平、詔安等腔調)5腔6組人員,每組至少1人,協助建置資料庫等相關事宜,顧問諮詢委員會名單須經本會同意,始得邀請。

(二)顧問諮詢委員會至少召開6次座談會,協助建置資料庫等相關事宜,相關出席費及交通費等費用,由本案支付。

(三)本案語料庫對於語料內容規範、語料蒐集及處理規範、用字規範,及斷詞、詞性標記及言談標記規範初步構想,廠商須於服務建議書提出相關規劃,並於107年2月28日前取得顧問諮詢委員會共識,經本會同意後實施。

2、 蒐整及制定臺灣客語語料庫(須含現代標準詞彙)

(1) 語料內容規範

語料分類屬性須包含以下內容,並應兼顧平衡性之考量:

1、 文類:至少包含書面語及口語2個部分。

2、 文體:記敘、描寫、論說、說明等分類。

3、 語式:廠商須規劃語料庫應具備相關語式分類。

4、 主題:廠商須規劃語料庫應具備分類項目,例如社會、生活、文學、科學、哲學宗教、教育、影視娛樂、體育、藝文創作、國際…等。

(2) 語料輸出與儲存格式

廠商須依據本案目標用途及未來語料庫應用模式,蒐集下列語料庫輸出與儲存格式:

1、 書面語:文字檔。

2、 口語:文字檔、影音檔、聲音檔。

(3) 建立後設資料(Metadata)

3、 語料蒐集及處理規範

(1) 書面語

1、 蒐集使用客語漢字書寫的圖書、雜誌、報紙、教材、文學作品、劇本、歌本、教科書…等平面媒體資料。

2、 廠商須取得上述蒐集資料之授權文件。

3、 遵照用字規範將文本數位化及完成建檔作業。

4、 數位化文本斷詞及詞性標記。

5、 廠商須至少完成兩次以上之交叉校訂用字及格式。

(2) 口語

1、 語料來源:

(1) 取得電視新聞、節目、廣播等現有的影音檔案。

(2) 採錄自然口語日常對話(50~60分鐘)、獨白(10~15分鐘)、口述歷史(20~30分鐘)等之影像與聲音。

2、 廠商須取得上述語料來源之授權文件。

3、 語料收錄品質須清晰可聽辨(包含聲音、畫面)。

4、 語料發音人男女生人數比例須均衡,並且需涵蓋不同年齡層。

5、 語料至少需包含5種腔調(四縣(含南四縣)、海陸、大埔、饒平、詔安)。

6、 語料轉寫成文字、數位化及建檔,並且提供以語句為單位之文字與口語參照時間點標記。

7、 語料須遵照用字規範及言談標記。

8、 數位化文本斷詞及詞性標記。

9、 錄音檔案須規劃編號(檔案命名)處理原則,做成光碟母片(至少包含原始檔WAV、WMA檔及MP3檔等3種聲音檔格式);且影音檔需經加工,含隱私處理、音檔切割、其他後製(字幕或浮水印)等作業。

10、 另外廠商應規劃考量上線後使用媒介之需求(例如網站、APP軟體等媒介)擴增聲音檔格式,如RA、RM系列專屬格式等聲音檔格式。

11、 廠商須至少完成2次以上之交叉校訂用字及格式。

4、 用字規範

(1) 採用客語漢字書寫。

(2) 本案語料庫以本會客語認證詞彙資料庫(http://wiki.hakka. gov.tw/)、教育部臺灣客家語常用詞辭典(http://hakka.dict. edu.tw/)為參考。

(3) 現行輸入法無法產生的客語用字,應由「Unicode擴展漢字」擴充。

(4) 標音及拼音,以客語拼音方案呈現,經本會同意後實施。

5、 斷詞、詞性標記及言談標記規範

(1) 斷詞須符合客語語言語法特徵。

(2) 詞性標記須符合客語語言語法特徵,並能區別不同語法行為。

(3) 口語之言談標記須忠實反映自然語言的口語特性,如停頓(pause)、語碼轉換(code switching)、話語重疊(overlap)及其他口語語流中出現的標記。

6、 系統功能規劃

(1) 語料庫系統(第1期程)

1、 廠商應依本會需求,規劃、設計與開發本案資料庫內容系統,於取得本案顧問諮詢委員會共識且經本會同意後,方得據以執行。須規劃語料庫資訊系統、資料庫內容系統架構規劃,包括結構標記、詞類標記、語意標記或語法樹等之規劃方案,以及後臺管理系統等相關需求功能設計與開發。

2、 為讓本會便於了解語料庫系統整體功能架構,廠商須規劃語料庫需求分析資料,並提供系統架構圖,有助於理解系統運作流程。

3、 廠商設計資料庫時應建立資料字典,對資料欄項(Field)作欄項名稱、欄項定義、屬性及資料值域之登載,應用系統內新增之資料定名(Table, Column, Program, Report)需遵循一定之定名原則。

4、 廠商應於服務建議書詳細說明所使用的語料庫語言學工具,包括具有何種功能、特色,及其運用方式。例如,輸入關鍵詞或字串後,系統即自動於語料庫搜尋並顯示前、後語境,或可計算某特定字串於語料庫中出現的頻率等等(本處所列示系統功能僅為舉例說明,廠商得就本會需求提出規劃)。廠商並應就本案期程,說明各期規劃之工作項目及內容。

5、 語料庫系統應包含下列功能,並且分詞原則、詞類標註系統須達一定可信度:

(1)斷詞功能(第1期程)

A、「斷詞」指運用電腦將詞彙以「意義」為單位切割出來,理想的斷詞系統應具有自動分詞的功能,包括利用詞典中收錄的詞和文本做比對,找出可能包含的詞,並能解決分詞歧義可能的問題。

B、廠商須以本會提供之詞語為基礎,盡可能擴充詞典之規模,以利斷詞系統使用及日後提供客語工作者參照。各詞條之欄位內容正確性,需達一定可信度。

C、廠商應依本會需求,規劃、設計與開發本案斷詞系統功能。廠商應於服務建議書詳細說明擬規劃之系統功能,同時應針對臺灣客語於斷詞上可能面臨的挑戰及解決方案。廠商並應就本案期程,說明各期規劃之工作項目及內容。同時針對臺灣客語斷詞功能提出正確性報告資料。

(2)權威詞控管功能(第1期程)

A、為使本案語料庫檢索之正確性與可靠性,同時提升索引效率,發揮索引或參照說明的效能,以及避免建立重複的紀錄,本案應建立權威詞控管系統。

B、廠商應依本會需求,規劃、設計與開發本案權威詞控管系統。廠商應於服務建議書詳細說明擬規劃之系統架構及系統功能。廠商並應就本案期程,說明各期規劃之工作項目及內容。

(3)介面工程(第2、3期程)

A、廠商依本會需求,規劃、設計與開發本案使用者介面,至少包括語料庫使用檢索介面建置、語料庫後端上傳介面建置、書面及口語語料入庫系統建置。

B、廠商應於服務建議書說明系統功能,並規劃對於使用者管理存取機制控管之建議。廠商並應就本案期程,說明各期規劃之工作項目及內容。

C、廠商除了規劃開發建置檔案外,須設計線上登入或整批資料檔匯入功能;即開發單筆線上建檔外,亦須配合既有資料基礎,開發整批上傳批次匯入的功能。

D、批次上傳(下載)作業:開發提供整批建檔資料或審查資料,提交「客語專家學者」審查。並提供智慧判斷,將重複性資料一併標示及呈現,俾利本會及「客語專家學者」逐一檢視與審查流程。

(2) 資訊網站

1、 會員管理功能(第2、3期程)

(1)提供大眾申請為會員,並提供會員分類管理及會員資料統計功能,包含匯出自網站流量與註冊會員人數,及各類型語料庫之點閱率等資料,並與本會全球資訊網會員功能整合。

(2)將管理權限依據需求做不同的授權。

(3)個人收藏功能:規劃會員詞彙收藏與下載之使用。

(4)每日有專責人員負責回應及處理各類型會員留言與建議事項。

2、 搜尋功能(第2、3期程)

(1)提供網站導覽地圖功能。

(2)依據語料庫屬性、關鍵字等常用搜尋模式,提供多條件的設定方式。

(3)提供腔調設定與特定欄位資訊以及關鍵字搜尋法。

(4)依搜尋條件出現結果,且可依指定方式排序。

(5)畫面上之輸入欄位應依資料特性進行嚴謹之檢核,當輸入內容不符檢核條件時,應提示錯誤訊息。有錯誤時應給予錯誤之訊息並告知原因。

3、 後臺管理功能(第3期程)

廠商應依本會需求,規劃、設計與開發本案後臺管理系統,包括各項權限控管、參數設定等,對於本案各項系統,包括使用者介面重要之操作,應保存紀錄備查。廠商規劃之後臺管理系統至少須包含下列功能:

(1)系統日誌:登入(出)紀錄、查詢紀錄、下載與輸出操作等紀錄,以確保系統能被正確、合法使用。

(2)Banner管理:

A、增設播放時間設定,控制前臺輪播時間。

B、開放本會全球資訊網承辦單位有增、修及刪之權限。

(3)最新消息分類

A、消息區分為一般消息或客語能力認證等數種分類資料,並以動態方式增設,保留擴充彈性。

B、開放本會客語能力認證承辦單位有增、修及刪除之權限。

4、 系統效能與上線測試(第3期程)

(1)廠商應於上線至少14個日曆天前,提出網頁應用程式之弱點掃描、滲透測試、及程式原始碼安全檢測報告、壓力測試報告,以及提交「資訊安全管理計畫」,另需配合機關資安檢測作業修正相關弱點。網頁需符合IPv6規範(支援IPv6協定)及提供IPv6服務。並提供至少3組測試帳號、密碼供機關進行線上試營運。

(2)廠商應提出具體檢查方式或工具,確保於相關開發及維護之軟體系統中,無植入木馬程式、後門程式或任何有違害機關資訊安全之程式碼,並應經原始碼檢測工具進行檢測有無最新OWASP TOP 10大漏洞及其他缺失,經審核無重大缺失後,再行上線,廠商應預留本項工作檢測及修正期間,另檢測報告並納入結案驗收項目。

(3)廠商完成本案語料庫累計至少書面語語料數位化達1,800萬字、口語語料轉寫及數位化達30萬字時,應模擬1,000人同時上線作業為驗證基準,在1分鐘內從機關內部網站,瀏覽本案開發之網站,在未引發任何例外狀況下,須滿足每項作業仍可持續提供服務,且語料庫使用檢索查詢平均反應時間不超過5秒,最長反應時間不超過10秒,並作為驗收檢測條件之一。

(3) 本案語料庫需保留後續擴充性,未來需能夠與本會建置之資料庫進行資料交換與介接作業。

(4) 其他需求

1、 前述需求之細部需求規格,仍應以需求訪談正式確認之結果為準。

2、 廠商於設計本案各項資訊系統權限控管方式時,應依本會實際需求賦予不同的操作範圍或查詢範圍。

7、 系統平臺設備需求、網路環境及資訊安全規劃

(1) 廠商需提出下列相關系統平臺、施測設備、網路環境及資訊安全等之軟硬體環境、相關軟體程式版本訊息等整體開發規劃,於取得本案顧問諮詢委員會共識且經本會同意後,方得據以執行。

主機伺服器軟硬體及網路頻寬:

1、 主機伺服器中央處理器之等級及伺服器數量。

2、 主機伺服器主記憶體容量及擴充性。

3、 主機伺服器網路卡性能等級。

4、 主機伺服器資料庫RAID性能及支援。

5、 主機伺服器硬碟容量及數量。

6、 主機伺服器作業系統。

7、 主機伺服器資料庫軟體。

8、 主機伺服器防毒軟體。

9、 網路承載、頻寬及不斷電系統之評估與規劃。

10、 資訊安全、個人資料防護措施及規劃。

11、 網路設備規劃。

12、 異地備援設備規劃。

(2) 系統平臺營運,系統架構所建置之各項伺服器或運作環境,必須具備下列功能或條件:

1、 標準性:

中文化操作介面,不論是前端使用者或後臺管理者,且本案網站環境需具備高度相容性,能於各種瀏覽器正常顯示【例如IE10(含)以上、Edge、Firefox、Google Chrome、Safari等】且功能操作正常,並符合W3C規格。另外,亦須考慮網路傳輸因素,整體製作以瀏覽平順為原則;若需使用外掛軟體,需取得授權,以供使用者免費安裝使用。

2、 擴展性:

系統架構規劃時,需考量未來需求及應用增加時,系統擴充及整合之彈性與延續性,當新的功能需求出現時,只需在現有機制上增加新的應用與服務模組,而不需更換整體系統;如因應新技術開發,必須調整整體系統時,原有資料庫資訊必須完整移轉至新系統,並維持正常營運,且須經本會同意後方能執行,本會無須負擔額外費用。

3、 先進性:

應採用市場領先且成熟之技術【如Web2.0(含)以上、HTML5、CSS3、AJAX等】,使本計畫不僅滿足目前需求,而且能夠符合數年內資訊科技主流趨勢,例如配合國家發展委員會規劃之雲端發展趨勢。

4、 安全性:

確保客語語料庫內容與資料不被第三者竊取利用,主機存取安全,資料庫資料可定期備份。

(3) 若廠商使用之作業系統及資料庫,需自行提供及安裝有版權之軟體,安裝之軟體需為最新版本,並需定期更新維護。

(4) 建置完成之網站需可使用Android、iOS各類行動裝置,及電腦系統閱讀,並符合響應式網頁(RWD)設計規範,當使用不同載具時,系統必須自動調整畫面大小與解析度,且不得有照片變形情形出現。

(5) 廠商架設網站應依國家發展委員會訂頒之無障礙網頁開發規範辦理。並依據行政院106年8月29日院授發資字第1061502362號函訂定之「政府資料開放優質標章暨深化應用獎勵措施」中資料開放可取得性、易於被處理、易於理解等原則進行規劃(如附件一)。

(6) 依本會要求維護、新增、修改、更新本案語料庫網站版面、功能及相關資料內容,並定期檢視及更新各語言版本內容,及維護系統及功能正常運作。

(7) 相關語料庫及網站素材需於本案結束後交付本會,廠商需確保素材之著作權無侵權行為,若有侵權之情事,概由廠商負責。

(8) 資訊安全管理需求

1、 一般資通安全規範:

(1) 密碼規則之定義及參數設定(密碼之長度、內容、重複次數、錯誤次數、有效期限、鎖定及解除機制)。

(2) 登入後在一定時間內若未執行任何動作,系統需強制登出。強制登出的時間長短,可由系統管理員統一設定。

(3) 所開發之應用系統需與作業系統及資料庫等最高權限使用者及群組區隔。

(4) 密碼長度應至少為6個字元(含)以上(內容至少包含大小寫英文字及數字)。

(5) 設定密碼輸入錯誤三次即須鎖住,帳號或密碼錯誤不直接明示,只顯示「帳號或密碼錯誤」。

(6) 系統要能夠記錄使用者登入登出的時間,存取、查詢及列印的資料表及資料欄位,系統操作行為,包括編輯、儲存、刪除、查詢及列印活動等紀錄。

(7) 密碼輸入時皆以暗碼顯示。

2、 網站安全監控與維護:

(1) 須使用檢查程式全面檢查應用程式,未含病毒、後門及間諜程式。

(2) 須使用弱點掃描工具,檢測本案開發之網站系統,至少能檢測:

A、 跨網站指令碼攻擊 (Cross site scripting)。

B、 SQL程式碼注入攻擊(SQL injection)。

C、 程式碼執行攻擊(Code execution)。

D、 目錄遊走(Directory traversal)。

E、 檔案引入攻擊弱點(File inclusion)。

F、 網站程式原始碼暴露(Script source code disclosure)

G、 偵測CRLF 注入攻擊。

H、 偵測OWASP Top 10弱點。

I、 跨頁框指令碼攻擊(Cross frame scripting)。

(3) 須檢查網頁程式已設有防URL攻擊功能。

(4) 檢查程式應由委外廠商自備,並提供檢測報告。

(5) 隨時監控網站,當偵測到任何未經授權的網頁檔案內容變更或異常流量時,立即通知本會。

(6) 網站更新查核機制功能。

(7) 廠商應提供檔案上傳檢核機制,檢查是否含有病毒或木馬等惡意程式,以確保網站資訊安全。

(8) 提供維護者維護紀錄列管追蹤,包含維護紀錄及網頁內容更新查核機制並製作統計表。

(9) 廠商應定期進行資安演練(每年至少一次),並配合本會資安演練相關作業。

3、 本案作業系統、資料庫及應用程式層級,除系統作業架構特殊需求外,所有密碼資料皆不得以明文型態存放。

4、 廠商於執行本案相關工作時,需確實遵守本會資訊安全相關規定。並於在辦理此案需相關技術時,廠商必須提供與協助本會處理。

5、 保密條款要求:

(1) 廠商與其工作人員應遵守「個人資料保護法」及「國家機密保護法」等相關法律規定。

(2) 廠商對於本會所提供相關業務內容及規劃工作資料,負有保密責任,如有洩密情形發生導致損害時,應負完全賠償及法律責任。

(3) 廠商應簽具「資訊委外廠商安全同意書」(附件二)。

(4) 工作小組人員應簽具保密切結書(附件三)。

(9) 配合本會資訊內部稽核檢查(附件四)。

8、 語料庫建置完成上線後,本案廠商須配合本會執行成果發表會之廠商辦理行銷宣傳作業,免費提供臺灣客語語料庫成果紀錄、照片等相關資料。

9、 人力組合

(1) 廠商應成立工作小組,成員名單、經歷及分工須列入本案服務企劃書及工作計畫書項目內。

(2) 本案計畫主持人與共同主持人至少分別需具備語言學、資訊技術2類跨領域之專業能力,工作小組至少包括:

1、 專案主持人:至少1人。專案主持人須全程參與本案,並擬訂計畫方針及綜理計畫相關事宜。

2、 共同主持人:至少1人。

(1) 須共同參與本案,負責控管、規劃、分析及設計等統合本案全面之事宜,參與本案協調會議。

(2) 資歷:須具相關之專案工作經驗不得少於3年,協助本案客家電視臺語音、文字及影像語料內容、客家電子報及其他書面文本、口語語料內容等作業。

3、 客語專任助理:人數至少3人,須為熟悉客語之專業人才,負責田野調查、語料管理、用字檢視校正、斷詞校訂、詞性標記及言談標記等相關工作事項。

4、 專任資訊人員:人數至少1人,須具3年以上之資訊系統管理或開發相關工作經驗,並且應優先考量熟悉客語之專業人才。

5、 其他專任助理:人數至少1人,負責書面數位化管理、影片剪輯、美術編輯等相關工作事項,並且應優先考量熟悉客語之專業人才。

(3) 本案自107年1月1日起至108年10月31日止,須另外派駐2位專案助理駐點本會,協助本會處理本案相關事宜。僱用條件、工作規範等詳細內容請參閱本案契約書。

(4) 得標廠商需提供每位駐點人員工作使用之電腦相關設備,派駐人員電腦軟硬體規格如附件五。

(5) 廠商工作小組成員依廠商「工作計畫書」所載為準,如有變動,應以書面說明原因及替換人員學經歷條件,經本會同意後方可變更。

10、 專案工作及查核時程

(1) 本案期程自決標日翌日起依下表所定進度執行,工作期程以「日曆天」計,星期例假日、國定假日或其他休息日一併計入。廠商應依規定之工作時程及期限,完成各期工作項目,各期進度規劃如下表,如必要時,本會得視實際情形調整時限及共作項目:

第1期程:語料庫內容

年度

內容

工作項目

106年

提送工作計畫書

決標日翌日起20日曆天內,提送工作計畫書(含工作進度)及電子檔各5份。

(備註:完成後可依據契約書第5條規定請領第1期款項)

106~107年

語料庫內容相關規範初步構想共識

廠商應於107年2月28日前,取得本案成立之顧問諮詢委員會針對語料庫內容相關規範初步構想共識。

(備註:完成後可依據契約書第5條規定請領第2期款項)

106~107年

1.系統工程

工作項目至少包含:語料庫資訊系統、資料庫內容系統架構、斷詞系統、權威詞控管系統,以及後臺管理系統等相關需求功能設計與開發。

2.語料內容規範研發

工作項目至少包含:客語語料庫多重分類原則分類:屬性特徵及階層訂定(文類、文體、語式、主題)、客語斷詞原則訂定、符合客語語言語法之特徵訂定、用字、詞性標記、言談標記訂定、後設資料格式訂定等相關項目。

3.語料作業

1. 工作項目至少包含:語料採集、授權取得、語料儲存(文字檔、影音檔)、後設資料格式確立及後設資料建立、語料斷詞人工檢視、語料詞性標記標註、言談標記標註等相關項目。

2. 語料庫收集數量:書面語語料數位化(200萬字以上),其中大埔腔、饒平腔及詔安腔等少數腔調詞彙至少占3%;現代客語詞彙(新創詞)至少占1%。

3. 口語語料轉寫及數位化(5萬字以上),其中大埔腔、饒平腔及詔安腔等少數腔調詞彙至少占3%;現代客語詞彙(新創詞)至少占1%。

(備註:廠商應於107年10月31日前,完成書面語語料累積200萬字以上及口語語料累積5萬字以上、提出臺灣客語斷詞功能正確性報告,及第3期成果報告(含系統工程、語料內容規範與語料作業)後,可依據契約書第5條規定請領第3期款項)

107~108年

1.系統工程

工作項目至少包含:語料庫資訊系統、資料庫內容系統功能擴充與維護、斷詞系統擴充與維護、權威詞控管系統擴充與維護,以及後臺管理系統擴充與維護等相關需求功能設計與開發。

2.語料內容規範研發

工作項目至少包含:客語語料庫多重分類原則分類:屬性特徵及階層校正(文類、文體、語式、主題)、客語斷詞原則校正、符合客語語言語法之特徵分析、用字、詞性標記、言談標記校正、後設資料格式校正等相關項目。

3.語料作業

1. 工作項目至少包含:符合客語語言語法之特徵校正、用字、詞性標記、言談標記校正、語料採集、授權取得、語料儲存(文字檔及影音檔)、後設資料校正、語料斷詞人工校正等相關項目。

2. 語料庫收集數量:書面語語料數位化(累積500萬字以上),其中大埔腔、饒平腔及詔安腔等少數腔調詞彙累計至少占10%;現代客語詞彙(新創詞)累計至少占3%。

3. 口語語料轉寫及數位化(累積10萬字以上),其中大埔腔、饒平腔及詔安腔等少數腔調詞彙累計至少占10%;現代客語詞彙(新創詞)累計至少占3%。

(備註:廠商應於108年4月31日前,完成書面語語料累積300萬字以上及口語語料累積7萬字以上,及第4期成果報告(含系統工程、語料內容規範與語料作業)後,可依據契約書第5條規定請領第4期款項)

4.前期介面工程

1. 工作項目至少包含:語料庫使用檢索介面建置、語料庫後端上傳介面建置、書面及口語語料入庫系統建置等項目。

2. 本案廠商須配合本會執行第一期程成果展示之廠商辦理行銷宣傳作業,免費提供臺灣客語語料庫成果紀錄、照片等相關資料。

(備註:廠商應於108年10月31日前,完成書面語語料累積500萬字以上及口語語料累積10萬字以上,及期末成果報告(含系統工程、語料內容規範與語料作業)後,可依據契約書第5條規定請領第5期款項)

※本案每年分項期程及契約價金給付條件依契約書第五條規定。

(2) 本案執行期間,廠商本案主持人或各工作團隊負責人須不定期至本會就工作方式、工作進度、網站架構、作業流程、程式設計、界面設計及資料結構等項目進行報告與溝通。

(3) 進度管理:

1、 廠商須規劃設計工作進度報告表單,每月提出執行進度、成果內容與相關績效數據等資料,並依提送本會備查之進度辦理。另外,亦須負責辦理本會之各項臨時交辦事項。

2、 工作進行中如發生可能影響工作進度之事故時,廠商應主動回報本會。

3、 任一工作項目如發生落後預計進度之情事,廠商應主動向本會報告,並提出因應對策。

(4) 其他注意事項

1、 本會得不定期召開工作會議,以了解工作進度及處理相關需協調事宜。若因本案整體性規劃業務調整之需,廠商需配合本會修正工作之需求,並於約定時間內提出修正方案。

2、 廠商設計應符合本會網路資訊系統之規劃。

第2期程:語料庫搭配之資訊系統,以及第3期程:語料庫整體評估修正的執行工作項目將於第1、2次後續擴充時進行。

11、 系統保固與維護

(1) 保固期:本案自全部完成履約且經驗收合格日翌日起,由廠商提供一年免費保固服務、維護及技術諮詢,且提供保固維護計畫書。

(2) 保固期內發現瑕疵者,由本會通知廠商改正。所稱瑕疵,包括損壞、功能或效益不符合契約規定等。

(3) 凡在保固期內發現瑕疵,廠商至少應於每日(含星期例假日)8時至18時接受本會維修通知(書面或電子郵件方式)後,應由廠商於本會指定之期限內負責免費無條件改正。屆期不為改正者,本會得逕為處理,所需費用由廠商負擔,或動用保固保證金逕為處理,不足時向廠商追償。

(4) 保固期內,採購標的因瑕疵致無法使用時,該無法使用之期間得不計入保固期。

(5) 保固期滿,廠商得出具保固完成確認單通知本會已完成保固工作。

(6) 保固維護期間內,得標廠商需提供下列服務:

1、 維持系統正常操作之必要維護、正常操作中所發生缺點事項作必要之改善,進行維護須以不妨礙正常作業為原則。

2、 當系統不能正常運作時,得標廠商於接獲通知後,須於4小時內進提出處理方案,並於本會同意之時程內完成修正。

3、 保固期間若發現數化瑕疵、影像掃瞄及資料登錄錯誤情形,得標廠商應於本會指定之期限內負責免費更正,逾期不為更正者,本會得逕為處理,所需費用由廠商負擔。

4、 保固期間廠商須指派專責技術工程人員負責維護諮詢之工作,提供必要之系統技術擴充諮詢支援。

5、 廠商應依保固維護計畫書進行本案例行性維護作業(如資料庫維護或系統修補程式安裝)或其他異常處理時,應就該次維護之範圍及維護方式提供完整書面文件或電子紀錄,並由本會指定人員簽收確認。

(7) 於本案執行及保固期間,如與其他廠商負責之部份相關,得標廠商應明確提供其他廠商或本會應配合之作業項目。如有爭議,本會有責任確認之解釋權。

(8) 得標廠商於本案執行及保固期間內應注意系統之網路資訊安全,若因廠商疏失而導致發生影響本會資安之事件,本會得要求廠商賠償相關損失,得標廠商並應負相關之法律責任。

(9) 經本會驗收合格後,廠商可將履約保證金之一部分計新臺幣50萬元整,轉為保固保證金,其餘履約保證金新臺幣150萬元整,於履約驗收合格且無待解決事項後30日內發還;至保固保證金,於保固期滿且無待解決事項後30日內發還。

12、 智慧財產權相關規定

(1) 廠商同意本案之成果著作財產權,及依本採購標的計畫完成之一切著作財產權,於著作完成時,無償讓與本會。廠商應保證對於其職員、受僱人及受聘人職務上完成之著作,應依著作權法第11條第1項但書及第12條第1項但書規定,與其職員、受僱人及受聘人約定以廠商為著作人,享有著作人格權及著作財產權(如附件6)。

(2) 簽約廠商交付之本案相關文件、圖文影像與電子媒體等,其著作與智慧財產權均歸屬本會所有,如含有第三者開發之產品(或無法判斷是否為第三者之產品時),應保證(或提供授權證明文件)其內容(文字、圖、表、照片等)確屬可供合法使用之,無違背現行法規(包含符合中華民國著作權法規範)或侵害他人著作權及出版權等情事,若有侵害他人智慧財產權及第三人合法權益,致使本會遭致任何損失,或涉入其他權利爭議糾紛時,概由廠商負責處理,並承擔一切法律責任(含訴訟、律師費用及一切損害賠償)。

(3) 本案設計相關之平面造型、立體造型、相關圖面、著作、資訊、成果、專門技術及營業秘密(以下統稱為「相關資料」)之智慧財產權均歸本會所有。廠商不得將該設計向任何有關本會申請專利權或其他智慧財產權之註冊登記。本會要求為註冊登記時,廠商承諾提供一切必要之協助,但註冊登記費用及因此產生之費用均由本會自行負擔。

(4) 本案之新聞發布權歸屬本會,非經本會同意,得標廠商不得對外發布,否則本會得終止契約關係,得標廠商應賠償本會得標價款總金額10%。

5、 服務建議書撰寫規定

1、 本會自101年1月1日起已改制為「客家委員會」,有關投標之服務建議書內(含封面)所述及本會名稱部分,請一律使用「客家委員會」。

2、 廠商應提送服務建議書一式12份,以A4規格紙張直式橫書雙面印製,。第2頁為目次及頁碼索引,其次為本文,請依序編頁碼排列整齊,雙面印刷左側裝訂;製作服務建議書及契約簽訂前所需之成本均由廠商自行負擔。

3、 服務建議書封面請書明採購名稱、投標廠商名稱及負責人,並應註明聯絡人、電話號碼、傳真號碼、通信地址(含郵遞區號)、電子郵件信箱等資訊。

4、 服務建議書內容至少應包括下列各項:

(1) 專案需求之規劃、執行與建議(依本需求說明書之各項需求,逐項敘明規劃、執行):

1、 摘要(就廠商對本案之整體瞭解之摘要說明)。

2、 臺灣客語語料庫蒐集方式與流程,及制定內容。

3、 工作時程、完成期限、交付項目、績效管制說明等(請以甘特圖表示,詳細說明各項工作預定時程之規劃)。

4、 整體方案可行性評估及預期效果(說明廠商辦理本案預期達成之效果)。

(2) 語料庫系統功能的規劃及後續經營管理計畫

1、 臺灣客語語料庫內容與處理規範,包含下列預計採行之方法與內容:

(1) 客語語料庫多重分類原則分類:屬性特徵及階層訂定(文類、文體、語式、主題等)。

(2) 客語斷詞原則訂定。

(3) 符合客語語言語法之特徵訂定。

(4) 用字、詞性標記、言談標記訂定。

(5) 後設資料格式訂定。

2、 系統開發與建置、工具、方法。

3、 作業需求。

4、 資訊安全。

5、 系統維護。

6、 保固與後續經營管理計畫。

(3) 經費分析表:詳列執行本案所需各項費用、成本等,分項詳細列表估算,且所有價格均應含稅。(參照經費明細表如附件七)

(4) 專案管理與廠商經驗與能力

1、 廠商簡介。

2、 人力配置與工作職掌。

3、 工作小組人員專長及學經歷。

4、 詳述廠商之營運現況(需包含105-107年承辦公私部門案件數與簡介)。

5、 承接類似專案經驗(詳述與本案類似之經驗,包括建置語料庫、系統軟硬體、應用系統、網際網路、網站建置及經營等之經驗及工作成果說明)及相關本會經驗(須於附錄檢附證明文件)等。

(5) 其他建議

廠商得就有助於提升本案效益之作為,但未列為本案需求者,可在服務建議書內主動提出建議,惟不得在評審會議內提供其他文件。

(6) 附錄。

1、 預定採購之軟、硬體設備清單。

2、 工作小組人員履歷,及相關專業證照。

3、 技術支援廠商承諾書(無者免附)。

4、 廠商服務建議書與評分項目對照表(詳見附件八)。

5、 其他證明文件。

6、 驗收

1、 廠商應依系統規格展示平臺功能,並提供系統測試(包含效能與壓力測試等)及與語料標記之正確性結果文件。

(1) 測試環境需要在本會現有測試環境執行測試,廠商不得要求本會提供額外之軟硬體設備,以滿足本案效能測試或網站運行之需要,如有額外軟硬體設備之需要,廠商應自行採購,並納入本計畫預算內。

(2) 廠商應自備效能及壓力測試工具,並事前提請本會審查同意後,以該工具執行效能測試。

(3) 效能及壓力能測試結果,應能呈現本案開發之網站的系統處理能力,包括每分鐘最大可承受之使用者數、系統同時可處理資料筆數或交易數,系統使用者數、處理數或交易數超過系統處理能力時,將產生資料錯誤、處理異常或資訊安全漏洞。廠商應提供本會效能及壓力測試腳本(Test Scenario或Test Script)、測試個案、測試資料、測試紀錄與測試報告等。

7、 結案報告

本計畫期程結束日之前提交完整的執行報告、報告項目、內容,及格式須經本會同意後撰寫。

8、 其他

1、 參考資料「臺灣客語語料庫」建置規劃(附件九)、客家文化重點發展區鄉(鎮、市、區)一覽表(附件十)。

2、 本案規定如有未盡事宜,悉依「政府採購法」暨其相關子法,及本案契約書規定辦理。

政府資料開放優質標章暨深化應用獎勵措施

附件一

中華民國106年8月29日 院授發資字第1061502362號函

1、 前言有鑒於各機關對推動資料開放觀念逐步成熟,為強化與永續發展政府資料開放,並提升政府資料品質及其加值應用效益,爰規劃藉由標章認證及民眾參與機制,鼓勵各機關優化資料開放作業,期能促使各機關提供高品質、便於民眾利用之資料集,並善用資料輔助施政,以促進整體正向激勵作用,強化公共事務推動成效。

2、 獎勵措施說明

1、 參獎對象  為鼓勵機關將資料集中列示於政府資料開放平臺,參獎對象為於政府資料開放平臺上架資料集之中央二級機關及地方政府。

2、 評獎類別及評獎標準

(1) 建立政府開放資料集品質標章機制  為鼓勵各機關提升資料品質,提供正確、易用、結構化之資料,針對政府資料開放平臺所有資料集進行機器檢測,依據各資料集完整性,分別授予金標章、銀標章或銅標章。

(2) 辦理資料開放金質獎評獎作業  中央二級機關與地方政府分別依據資料量體分組評獎;另為鼓勵機關逐步提升其資料品質,本評獎另設「品質進步獎」,評核方式如下表:

評核構面

評核指標

評核重點

銅標章

(0.3分)

銀標章

(0.6分)

金標章

(1分)

可取得性

資料資源連結有效性

資料資源連結可回傳連結成功狀態。

V

V

V

資料資源可直接下載

使用者能透過連結直接獲取資料,無需透過登入或任何額外的操作形式。

V

V

V

易於被處理

屬結構化資料

· 固定欄位結構化資料:單一列標題的表格式資料,每筆資料的欄位數均相同,且無合併儲存格、無公式、無空行、無小計等。

· 非固定欄位結構化資料:符合W3C之XML、JSON等結構化資料。

· 其餘均為非結構化資料。

V

V

易於理解

須依「資料集詮釋資料標準規範」提供詮釋資料

資料集詮釋資料之「編碼格式」、「主要欄位說明」與所提供之資料資源欄位相符。

V

資料即時性*

資料集須依所填之「更新頻率」即時更新。

V

金質獎總分

[(銅標章資料集個數*0.3+銀標章資料集個數*0.6+金標章資料集個數*1)/該部會機關所屬之資料集總數*100]+加分項目

加分項目*

資料集API若符合Open API Specification(OAS)之驗證,則於總分加0.1分,加分項目至多5分。

加分項目由機關主動提報,並由國家發展委員會確認後,始得加分。

分組方式

中央二級機關及地方政府分別依據資料集量體採分組評獎:

· 第一組:資料集數量為一定數量以上。

· 第二組:資料集數量一定數量以下。

· 前開一定數量,由國家發展委員會依據每年政府資料開放推動情形定之。

品質進步獎

金質獎總分比前次進步5分者,可獲品質進步獎,惟排除金質獎各分組得獎之機關。

(3) 辦理資料開放應用獎評獎作業  鼓勵各機關提升資料應用及分析之能力,進而善用資料強化政府決策品質,並型塑公私協力應用示範案例。  由機關自主推薦優質活化應用案例,需說明該項應用案例可解決的問題、使用的資料集名稱、推薦原因、質化或量化之效益等,並開放民眾網路票選最佳之活化應用,以激勵各機關發想運用資料輔助施政之可能性,評核方式如下表:

民眾票選

評核指標

計算方式

配分

民眾網路票選最佳

之活化應用(20分)

1.分數=(報名數量-名次+1) * 級距

2.級距=20/報名數量

舉例:

報名數量5組,每組分數級距4分,各名得分如下

第1名得分(5-1+1)*4=20

第2名得分(5-2+1)*4=16

第3名得分(5-3+1)*4=12

第4名得分(5-4+1)*4=8

第5名得分(5-5+1)*4=4

20

委員評獎

評核構面

評核指標

評核重點

配分

服務整合

(30分)

資料之應用深度

說明資料分析及應用情形,並說明開放資料、內部或外部資料混搭情形。

10

公私協力程度

說明與民間合作情形,並說明公私協力的合作模式。

10

民間回饋

民間採用平臺上之原始資料集進行重整後回饋至平臺之民間資料集。

10

應用效益

(30分)

創新程度

說明資料應用創新內容、步驟及方法。

15

預期效益達成度

說明應用資料所解決之機關或民眾問題、或改善機關內部流程、提升機關服務品質等。

15

未來潛力

(20分)

服務延續性

說明將資料應用納為機關常態運作的機制規劃。

10

擴充應用之潛力

說明未來可再混搭其他資料的可能性與應用情境,及擴充應用服務之規劃。

10

總分

100

(4) 辦理資料開放人氣獎評獎作業  鼓勵各機關踴躍開放高價值、符合民間所需之資料,以提升政府透明治理,並驅動資料經濟發展。  凡開放達1年且經品質檢測取得金標章之資料集,始能參與此評獎,以鼓勵機關開放及維持提供高品質、高應用價值之資料。

評核指標

配分

計算方式

資料集年度瀏覽量

30

30*(該資料集瀏覽量/同期間於本平臺瀏覽次數最多之資料集瀏覽量)

資料集年度下載量

40

40*(該資料集下載量/同期間於本平臺下載次數最多之資料集下載量)

資料集評分

30

30*(該資料集平均得分/5)

總分

100

3、 獎勵額度及基準

資料開放金質獎

資料開放應用獎

資料開放人氣獎

額度

· 第一組:中央二級機關、地方政府各取前3名

· 第二組:中央二級機關、地方政府各取前2名

前3名

前10名

獎勵方式

· 第一組

· 第1名:主要專責人員及其主管各記小功2次

· 第2名:主要專責人員及其主管各記小功1次

· 第3名:主要專責人員及其主管各記嘉獎2次

· 第二組

· 第1名:主要專責人員及其主管各記小功1次

· 第2名:主要專責人員及其主管各記嘉獎2次

· 進步獎主要專責人員及其主管各記嘉獎2次

· 第1名:主要資料應用人員及其主管各記小功2次

· 第2名:主要資料應用人員及其主管各記小功1次

· 第3名:主要資料應用人員及其主管各記嘉獎2次

· 資料集之業務單位專責人員及其主管各記小功1次

· 重複獲獎者,最高以小功2次為限

4、 作業時程

作業項目

時程

函請各機關提報參獎申請書

每年4~5月

機關提報優質資料應用案例

每年6~7月

民眾票選

每年8~9月

資料品質機器檢測

每年8~9月

評審委員評獎

每年9月

評審結果報院核定

每年10月

函請各機關依評獎結果辦理敘獎

每年11月

備註:以上作業時程得視實際狀況予以調整

5、 評獎方式

(1) 資料開放金質獎  於政府資料開放平臺上架之中央二級機關及地方政府,由國家發展委員會逕予進行品質檢核作業,並公開公布各資料集取得之標章。

(2) 資料開放應用獎  由機關填寫「參獎申請書」,於指定時間內函送國家發展委員會,逾期不受理。  本獎項民眾票選分數占20%,將於政府資料開放平臺提供民眾票選。委員評獎分數占80%,由「資料開放應用獎評審小組」負責本項評審工作,並由參獎機關透過簡報、示範展示等方式,展現資料應用成果及效益。  「資料開放應用獎評審小組」由國家發展委員會遴聘學者專家、資料社群、民間企業等代表組成。

(3) 資料開放人氣獎  於政府資料開放平臺上架之資料集,開放達1年且經品質檢測取得金標章之資料集,始能參與評獎,並排除前三屆曾獲獎之資料集。

保密切結書(廠商)

附件二

公司(以下簡稱廠商)受客家委員會(以下簡稱本會)委託辦理「建置臺灣客語語料庫」勞務採購案(以下簡稱本案),於本案執行期間有知悉或可得知悉或持有政府公務秘密及業務秘密(包含個人資料),為保持其秘密性,同意恪遵本同意書下列各項規定:

第一條 廠商承諾於本契約有效期間內及本契約期滿或終止後,對於所得知或持有一切本會未標示得對外公開之公務秘密,以及本會依契約或法令對第三人負有保密義務之業務秘密,均應以善良管理人之注意妥為保管及確保其秘密性,並限於本契約目的範圍內,於本會指定之處所內使用之。非經本會事前書面同意,不得為本人或任何第三人之需要而複製、保有、利用該等秘密或將之洩漏、告知、交付第三人或以其他任何方式使第三人知悉或利用該等秘密,或對外發表或出版,亦不得攜至本會或本會所指定處所以外之處所。

第二條 廠商知悉或取得本會公務秘密、業務秘密及任何個人資料,應限於其執行本契約所必需且僅限於本契約有效期間內,提供、告知有需要知悉該秘密之履約廠商團隊成員人員。

第三條 廠商在下述情況下解除其所應負之保密義務:

原負保密義務之資訊,由本會提供以前,已合法持有或已知且無保密必要者。

原負保密義務之資訊,依法令業已解密、依契約本會業已不負保密責任、或已為公眾所知之資訊。

原負保密義務之資訊,係自第三人處得知或取得,該第三人就該等資訊並無保密義務。

第四條 廠商違反本保密切結書之規定,致造成本會或第三者之損害或賠償,廠商同意無條件負擔全部責任,包括因此所致本會或第三人涉訟,所須支付之一切費用及賠償。於第三人對本會提出請求、訴訟,經本會以書面通知廠商提供相關資料,廠商應合作提供,絕無異議。

第五條 廠商對工作中所持有、知悉之資訊系統作業機密或敏感性業務檔案資料、個人資料等,均保證善盡保密義務與責任,並遵循「營業秘密法」、「著作權法」、「商標法」、「專利法」、「個人資料保護法」及「個人資料保護法施行細則」等相關規定,非經本會權責人員之書面核准,不得擷取、持有、傳遞或以任何方式提供給無業務關係之第三人,如有違反願賠償一切因此所生之損害,並擔負相關民、刑事責任,絶無異議,此外,廠商處理個人資料檔案部分應於委託關係解除或終止時刪除或銷燬履行契約而持有之個人資料,及返還個人資料之載體;並提供刪除、銷燬或返還個人資料之時間、方式、地點等紀錄,本會保有查核之權利。

第六條 廠商若違反本保密切結書之規定,本會得請求廠商賠償本會因此所受之損害及追究廠商洩密之刑責,如因而致第三人受有損害者,廠商亦應負賠償責任。

   

 此致

客家委員會

 立切結書人

廠商名稱及蓋章:

廠商負責人姓名及簽章:

廠商地址:

廠商聯絡電話:

統一編號:

機關蒐集本表單上所列之個人資料,作為辨識您為簽署本保密切結書之本人,並為追溯違反本保密切結相關規定用途,不做其他目的範圍外之利用,並遵循個人資料保護法與機關個資保護之要求辦理。

中    華    民    國 年     月    日

保密切結書(人員)

附件三

公司(以下簡稱廠商) (公司人員,以下簡稱甲方)受客家委員會(以下簡稱本會)委託辦「建置臺灣客語語料庫」勞務採購案(以下簡稱本案),於本案執行期間有知悉或可得知悉或持有政府公務秘密及業務秘密(包含個人資料),為保持其秘密性,同意恪遵本同意書下列各項規定:

第一條 甲方承諾於本契約有效期間內及本契約期滿或終止後,對於所得知或持有一切本會未標示得對外公開之公務秘密,以及本會依契約或法令對第三人負有保密義務之業務秘密,均應以善良管理人之注意妥為保管及確保其秘密性,並限於本契約目的範圍內,於本會指定之處所內使用之。非經本會事前書面同意,不得為本人或任何第三人之需要而複製、保有、利用該等秘密或將之洩漏、告知、交付第三人或以其他任何方式使第三人知悉或利用該等秘密,或對外發表或出版,亦不得攜至本會或本會所指定處所以外之處所。

第二條 甲方知悉或取得本會公務秘密、業務秘密及任何個人資料,應限於其執行本契約所必需且僅限於本契約有效期間內,提供、告知有需要知悉該秘密之履約廠商團隊成員人員。

第三條 甲方在下述情況下解除其所應負之保密義務:

原負保密義務之資訊,由本會提供以前,已合法持有或已知且無保密必要者。

原負保密義務之資訊,依法令業已解密、依契約本會業已不負保密責任、或已為公眾所知之資訊。

原負保密義務之資訊,係自第三人處得知或取得,該第三人就該等資訊並無保密義務。

第四條 甲方違反本保密切結書之規定,致造成本會或第三者之損害或賠償,甲方同意無條件負擔全部責任,包括因此所致本會或第三人涉訟,所須支付之一切費用及賠償。於第三人對本會提出請求、訴訟,經本會以書面通知甲方提供相關資料,甲方應合作提供,絕無異議。

第五條 甲方對工作中所持有、知悉之資訊系統作業機密或敏感性業務檔案資料、個人資料等,均保證善盡保密義務與責任,並遵循「營業秘密法」、「著作權法」、「商標法」、「專利法」、「個人資料保護法」及「個人資料保護法施行細則」等相關規定,非經本會權責人員之書面核准,不得擷取、持有、傳遞或以任何方式提供給無業務關係之第三人,如有違反願賠償一切因此所生之損害,並擔負相關民、刑事責任,絶無異議,此外,甲方處理個人資料檔案部分應於委託關係解除或終止時刪除或銷燬履行契約而持有之個人資料,及返還個人資料之載體;並提供刪除、銷燬或返還個人資料之時間、方式、地點等紀錄,本會保有查核之權利。

第六條 甲方若違反本保密切結書之規定,本會得請求甲方及其任職之廠商賠償本會因此所受之損害及追究廠商洩密之刑責,如因而致第三人受有損害者,甲方及其任職之廠商亦應負賠償責任。

此致

客家委員會

 立切結書人

姓   名:            身分證字號:       

電 話:            

地 址:             

(機關蒐集本表單上所列之個人資料,作為辨識您為簽署本保密切結書之本人,並為追溯違反本保密切結相關規定用途,不做其他目的範圍外之利用,並遵循個人資料保護法與機關個資保護之要求辦理。)

( 機關蒐集本表單上所列之個人資料,作為辨識您為簽署本保密切結書之本人,並為追溯違反本保密切結相關規定用途,不做其他目的範圍外之利用,並遵循個人資料保護法與機關個資保護之要求辦理。 )

中    華    民    國 年     月    日

保密切結書(駐點人員)

立切結書人 (公司人員姓名)等,受 (廠商名稱)委派至客家委員會(以下稱本會)處理業務,謹聲明恪遵本會下列工作規定,對工作中所持有、知悉之資訊系統作業機密或敏感性業務檔案資料,均保證善盡保密義務與責任,非經本會權責人員之書面核准,不得擷取、持有、傳遞或以任何方式提供給無業務關係之第三人,如有違反願賠償一切因此所生之損害,並擔負相關民、刑事責任,絶無異議。

第一條未經申請核准,不得私自將本會之資訊設備、媒體檔案及公務文書攜出。

第二條未經本會業務相關人員之確認並代為申請核准,不得任意將攜入之資訊設備連接本會網路。若經申請獲准連接本會網路,嚴禁使用數據機或無線傳輸等網路設備連接外部網路。

第三條經核准攜入之資訊設備欲連接本會網路或其他資訊設備時,須經電腦主機房掃毒專責人員進行病毒、漏洞或後門程式檢測,通過後發給合格標籤,並將其粘貼在設備外觀醒目處以備稽查。

第四條廠商駐點服務及專責維護人員原則應使用本會配發之個人電腦與週邊設備,並僅開放使用本會內部網路。若因業務需要使用本會電子郵件、目錄服務,應經本會業務相關人員之確認並代為申請核准,另欲連接網際網路亦應經本會業務相關人員之確認並代為申請核准。

第五條本會得定期或不定期派員檢查或稽核立切結書人是否符合上列工作規定。

第六條本保密切結書不因立切結書人離職而失效。

第七條立切結書人因違反本保密切結書應盡之保密義務與責任致生之一切損害,立切結書人所屬公司或廠商應負連帶賠償責任。

此致

客家委員會

 立切結書人

姓   名:            身分證字號:       

電 話:            

地 址:             

立切結書人所屬廠商:

廠商名稱及蓋章:

廠商負責人姓名及簽章:

廠商地址:

廠商聯絡電話:

統一編號:

填表說明:

一、廠商駐點服務人員、專責維護人員,或逗留時間超過三天以上之突發性維護增援、臨時性系統測試或教育訓練人員(以授課時需連結本會網路者為限)及經常到本會洽公之業務人員皆須簽署本切結書。

二、廠商駐點服務人員、專責維護人員及經常到本會洽公之業務人員每年簽署本切結書一次。

機關蒐集本表單上所列之個人資料,作為辨識您為簽署本保密切結書之本人,並為追溯違反本保密切結相關規定用途,不做其他目的範圍外之利用,並遵循個人資料保護法與機關個資保護之要求辦理。

機關蒐集本表單上所列之個人資料,作為辨識您為簽署本保密切結書之本人,並為追溯違反本保密切結相關規定用途,不做其他目的範圍外之利用,並遵循個人資料保護法與機關個資保護之要求辦理。

機關蒐集本表單上所列之個人資料,作為辨識您為簽署本保密切結書之本人,並為追溯違反本保密切結相關規定用途,不做其他目的範圍外之利用,並遵循個人資料保護法與機關個資保護之要求辦理。

中    華    民    國 年     月    日

客家委員會○○○年度資訊內部稽核(系統端)檢查表

附件四

受稽核單位名稱:             

系統主機IP/名稱:         

受稽核人員姓名:             

檢查日期:   年  月  日

受稽核單位名稱:

檢查日期: 年 月 日

項次

檢查重點

檢查情形

檢查說明

合格

不合格

1

系統存取政策及授權規定辦理情形

1-1資訊單位有無訂定系統存取政策及使用管理規定。

 

 

 

1-2系統存取政策及使用管理規定,有無以書面、電子或其他方式告知員工及使用者相關權限及責任。

 

 

 

2

系統存取權限(帳號)管理情形

2-1各機關有無建立系統使用者註冊管理制度,加強使用者通行密碼管理,並要求使用者定期更新。

 

 

 

2-2機關員工離(休)職時,資訊單位有無即時取消各項資訊資源及使用權限。

 

 

 

2-3機關員工職務異動時,資訊單位有無依系統存取授權規定,調整其權限。

 

 

 

2-4帳號刪除日期與員工離職日期有無不一致者。

 

 

 

2-5各機關開放外界連線作業,有無事前簽訂契約或協定,明定其應遵守之資訊安全規定、標準、程序及應負之責任。

 

 

 

2-6各機關對系統服務廠商以遠端登入方式進行系統維修者,有無建立人員名冊及相關安全保密責任。

 

 

 

2-7重要資料委外建檔者,不論在機關內外執行,有無採取適當及足夠之安全管制措施,防止資料被竊取、竄改、販售、洩漏及不當備份等情形發生。

 

 

 

3

電腦資料庫查詢軌跡紀錄檔(Log)

3-1資訊單位有無建立及啟動電腦資料庫查詢軌跡紀錄檔(Log),並保存一段時間(至少1年),以作為日後調查及監督之用。

 

 

 

3-2資訊單位系統紀錄檔有無定期備份轉出檔案後保存。

 

 

 

3-3資訊單位有無專人隨時(經常)檢視。

 

 

 

4

系統存取異常狀況情形

4-1登入「系統使用」紀錄之「登入次數」有無異常頻繁者。

 

 

 

4-2登入「系統使用」紀錄之「使用時間」有無異常頻繁者。

 

 

 

4-3登入「系統使用」紀錄之「登入失敗次數」有無異常頻繁者。

 

 

 

4-4使用者「查詢內容」紀錄之「查詢成功次數(筆數)」有無異常頻繁者。

4-5登入系統查詢時段有無異常者。

4-6 使用者「查詢內容」紀錄所登載之「案件編號」(如收文號)有無異常者。

4-7查詢之資料與承辦案件(業務)有無不一致者。

5

機關資訊系統或網頁資料安全控管情形

5-1機關於網頁公開資訊是否符合「個人資料保護法」、「政府資訊公開法」等規定。

5-2是否定期搜尋網站不當庫存資料並修正或改進設定。

5-3發現資訊安全漏洞狀況有無通報反映予政風單位。

6

系統存取異常狀況通報情形

6-1異常狀況之界定是否符合現況。

6-2有無建置資安異常通報機制。

6-3發現異常存取狀況有無通報反映予政風單位。

稽核人員

受稽核單位/人員

派駐人員電腦軟硬體規格

附件五

序號

品項名稱

規格

1

中階桌上型電腦(280W~300W)

1. 整組電腦為同一廠牌,不接受組裝電腦。

2. CPU:Intel第四代Core i5 3.2GHz(含)以上。

3. 晶片組:Intel B85(含)以上或Intel H81(含)以上。

4. RAM:提供4G(含)以上DDR3-1600(含)以上SDRAM,支援雙通道處理。

5. 硬碟:提供500GB(含)以上 SATAIII 7200rmp(含)以上。

6. 顯示介面:整合型Integrated Intel HD Graphics顯示晶片。

7. 擴充槽:2組(含)以上PCI-E,1組(含)以上PCI。

8. 內建I/O介面:網路介面RJ-45/Ethernet、音效介面、顯示卡介面。

9. 網路介面:具10/100/1000Mbps Ethernet網路介面。

10. USB:提供8組(含)以上USB連接埠,其中前端面板4組(含)以上。

11. 光碟機:提供DVD DL燒錄。

12. 提供雙獨立顯示數位影像輸出(HDMI或DVI或Display Port)與VGA。

13. 內接或外接IC卡讀卡機(可讀取自然人憑證IC卡)及記憶卡讀卡機。

14. 電源供應器:280W~320W,符合80 PLUS(含)以上規範。

15. 電源延長線:提供長度1.5M(含)以上,負載10A(含)以上,3孔插座5個(含)以上電源延長線1條。

16. 鍵盤/滑鼠:USB介面或PS2介面,附滑鼠墊。

17. 安全:主機需通過FCC及臺灣BSMI電磁相容檢驗標準。

2

19吋桌上型寬螢幕液晶顯示器

1. 需與桌上型電腦主機同一品牌。

2. 可視區域:19吋(含)以上。

3. 面板:LED背光模組 TFT-LCD。

4. 解析度:1440×900 @60Hz(含)以上。

5. 點距:0.285mm(含)以下。

6. 可視角度:水平160度(含)以上,垂直160度(含)以上。

7. 對比率:1000:1(含)以上。

8. 亮度顯示:250cd/m2(含)以上。

9. 總反應時間:5ms(含)以下。

10. 訊號輸入:類比D-sub。

11. 喇叭:提供內建或外接2個(含)以上喇叭有效輸出功率(RMS)為1W(含)以上。

12. 內建多層膜防刮玻璃。

13. 安全:符合TCO(The Swedish Confederation of Professional Employees) 99或03或05或06(含)以上,或TCO Display 5.0(含)以上等規範。

3

軟體

Microsoft Windows 7專業版、Microsoft Office 標準版 最新授權版(Word, Excel, Outlook, PowerPoint, OneNote)、Adobe Acrobat 11 標準版、防毒軟體、解壓縮軟體、影像編輯軟體等軟體。

附件六

著作人約定書

受雇(聘)人____________於雇(聘)用人____________雇(聘)用期間內,在雇(聘)用人執行客家委員會「建置臺灣客語語料庫」勞務採購案契約由受雇(聘)人所完成之著作,茲約定均以雇(聘)用人為著作人,此證。

    立約定書人  雇(聘)用人:

           代表人:

           地址:

    立約定書人  受雇(聘)人:

           身分證字號:

           地址:

中  華  民  國 年    月    日

客家委員會

附件七

「建置臺灣客語語料庫」勞務採購案

經費分析表

項次

品項及規格

單位

數量

單價

複價

備註

1

人事費

1-1

..

1-2

..

小計

 

 

2

業務費

 

 

2-1

專家諮詢費

 

 

2-2

語料庫系統工程

2-3

授權金

2-4

訪談費

2-5

資料彙整費

2-6

交通費

實報實銷

2-7

錄製語料

2-8

撰稿費

實報實銷

2-9

..

小計

 

 

3

差旅費

小計

 

 

4

設備租賃及使用費

4-1

..

共計2年期資訊設備租賃費用。

4-2

..

4-3

..

4-4

..

小計

5

駐會人員

5-1

駐會人員薪資

每月薪資32,000元;共2位駐點人員

5-2

駐會人員之單位負擔勞保、健保(含補充保費)、勞退金

共2位,每人

勞保:2,447元

健保:1,562元

勞退:1,998元

5-3

駐會人員工作獎金

依全年為1個月薪資32,000元乘以在職天數所占比例計算。

5-4

駐會人員加班費

核實支付

5-5

駐會人員出差交通及住宿費

核實支付

6

保險

6-1

公共意外險

6-2

旅遊平安險+意外醫療

7

管理費

8

雜支

雜支不得超過總金額5%

小計

 

 

 

 

合計(含稅)

 

 

 

備註:

1、 請明列本案各項費用成本分析。

2、 請投標廠商自行填寫,品項內容應包含執行本案所需之細項費用。

客家委員會

附件八

「建置臺灣客語語料庫」勞務採購案

廠商服務建議書與評分項目對照表

分項評分

項目

配分

廠商服務建議書

章節/頁次

工作重點摘要說明

蒐集及制定臺灣客語語料之規劃與具體可行性

(占30分)

語料庫系統功能的規劃及後續經營管理計畫之完整性

(占25分)

經費編列之合理性

(占20分)

專案執行能力及製作團隊之經驗與專業性

(占20分)

簡報及答詢

(占5分)

註:請投標廠商自行填寫,併入本採購案「服務建議書」徵求文件。

參考資料:「臺灣客語語料庫」建置規劃

附件九

壹、計畫緣由及目標

拜現代科技之賜,我們可以將語言數位化、典藏化。語言文化被保存並建檔後,可以提供數位學習資訊與語料檢索系統,而且大量的實際語料在語言分析中扮演非常重要的角色,如語言教學、比較語言學研究、言談分析、自然語言處理等都需要這些語料。語料庫的建立和研究在國外已行之多年,有些語料庫會根據年代來蒐集,有些會區分不同的文體,有些則會針對不同地區的語言使用。口語語料庫,例如日常對話和故事敘述,依照不同場合而蒐集。除了英語,世界其他語言如法語、德語、日語也致力建立語料庫,瀕臨死亡的語言以數位方式典藏語料庫,目的即在典藏當地少數語言,加拿大、拉丁美洲、阿拉斯加、太平洋地區即有涵蓋不同地域性質資料分布的少數語言資料庫。以漢語語料庫而言,香港有兩個粵語語料庫;中國The PH Corpus of Chinese,是涵蓋新華社新聞內容的語料庫;「梨的故事─七種中國方言的敘述方法」,收錄了七種中國方言的語料,並提供影音資料和轉寫文字;北京漢語語言學研究中心的CCL語料庫,包含現代漢語及古代漢語,有2.16億字。臺灣的語料庫有「中央研究院漢語平衡語料庫」,包含1000多萬目詞的帶標記平衡語料庫;「近代漢語語料庫」,數位典藏化唐五代以後的小說、戲曲文獻;「中研院漢語對話語音語料庫」是口語語料。

語料庫的建構具有非常重要的功能,對少數語言而言特別是重要。語料庫的系統性及便利化,不僅能強化研究,也能提供語言學習者自我學習。語言測驗評量、教材的研發也常會需要語料庫提供語言實際使用的範例,以及難易度參考,最重要的是語料庫將語言典藏、保存和紀錄之重要性及價值,對面臨流失情形嚴重之臺灣客語而言,建置「臺灣客語語料庫」這項工作更是刻不容緩。

「臺灣客語語料庫」的建置及維護是必須努力的目標,其中關於語料庫的平衡,是一個相當重要的概念。語料庫作為資料檢索的系統,不宜過於偏頗某一方面的文本或者某一個腔調,但是要達到語料庫平衡必須累積到一個程度,才有可能考慮平衡的概念。此規劃案以5年為期程,分3期程,逐步完成臺灣客語語料庫之產出規格,第一期程(第一年及第二年)處理語料庫內容,包括擬完成之書面語及口語字數、文類、文體、主題、語式,及口語不同之腔調,最終產出涵蓋完成語料呈現之系統架構建立、客語書面語文本及不同腔調之客語口語語料內容之數位化、語料斷詞、詞性標記及言談標記、後設資料建立、語料內涵加工及儲存。第二期程(第三年及第四年)處理與語料庫搭配之資訊系統,第一期程之語料庫內容仍滾動式持續擴充、測試並修正,降低斷詞及標記之錯誤率,第二期程資訊系統包含提供語料使用查詢檢索介面功能及分析、統計、線上學習等加值進階功能。第三期程(第五年)語料庫整體評估修正,包含語料庫系統介面修正及優化、語料庫網頁使用者優使性調查及撰寫語料庫內容及使用說明。

貳、語料內容規範

1、 語料分類屬性須涵括以下內容

(1) 文類

1、 書面語:圖書(詩、散文、小說、故事、謎語俗諺)、報紙雜誌、客語教材、客語工具書、劇本、評論、國語文競賽客語朗讀文章、講稿等。

2、 口語:日常對話、新聞電視節目、廣播節目、演講稿、訪談、劇本、評論、音樂、歌曲、口述歷史、朗讀、演講、說故事等。

(2) 文體

記敘、描寫、論說、說明。

(3) 語式

1、 written,

2、 written-to-be-read,

3、 written-to-be-spoken,

4、 spoken,

5、 spoken-to-be-written

(4) 主題

社會、生活、文學、科學、哲學宗教、教育、影視娛樂、體育、藝文創作、國際。

2、 語料輸出與儲存格式

(1) 書面語:文字檔。

(2) 口語:文字檔、影音檔、聲音檔。

3、 建立後設資料

參、語料蒐集及處理規範

1、 書面語

(1) 蒐集使用客語漢字書寫的圖書、雜誌、教材、報紙、平面媒體等。

(2) 取得授權。

(3) 遵照用字規範將文本數位化及建檔。

(4) 兩次交叉校訂用字及格式。

(5) 數位化文本斷詞及詞性標記。

2、 口語

(1) 取得語料來源之授權

(2) 語料來源:

1、 取得電視新聞、節目、廣播等現有的影音檔案。

2、 採錄自然口語日常對話(50~60分鐘)、獨白(10~15分鐘)、口述歷史(20~30分鐘)等之影像與聲音

(3) 語料收錄品質須清晰(包含聲音、畫面)

(4) 語料發音人男女比例須均衡

(5) 語料需涵蓋不同年齡層

(6) 語料需包含5個腔調(四縣(含南四縣)、海陸、大埔、饒平、詔安)

(7) 語料轉寫成文字、數位化及建檔

(8) 語料須遵照用字規範及言談標記

(9) 兩次交叉校訂用字及格式

(10) 數位化文本斷詞及詞性標記

(11) 影音檔須經加工,含隱私處理、音檔切割、其他後製(字幕或浮水印)

肆、用字規範

1、 採用客語漢字書寫

2、 以教育部臺灣客家語常用詞辭典、客家委員會客語認證詞彙資料庫做為主,不足的部分參考徐兆泉《臺灣四縣腔海陸腔客家話辭典》、楊政男等編《客語字音辭典》、何石松等編《客語詞庫》等

3、 現行輸入法無法產生的客語用字,由「Unicode擴展漢字」擴充

4、 標音及拼音,以客語拼音方案呈現

伍、斷詞、詞性標記及言談標記規範

1、 斷詞須符合客語語言語法特徵

2、 詞性標記須符合客語語言語法特徵,並能區別不同語法行為

3、 言談標記遵循Du Bois (1993)的言談分析標記系統(discourse transcription),須忠實反映自然語言的口語特性,如停頓(pause)、語碼轉換(code switching)、話語重疊(overlap)及其他口語語流中出現的標記。

陸、執行步驟與方法

第一期程:語料庫內容

年度

工作項目內容與產出規格

系統工程

1. 語料庫資訊系統架構設計與開發

2. 資料庫內容系統架構設計與開發

3. 斷詞系統設計與開發

4. 權威詞控管系統設計與開發

5. 後臺管理系統設計與開發

語料內容規範研發

6. 客語語料庫多重分類原則分類:屬性特徵及階層訂定

(文類、文體、語式、主題)

7. 客語斷詞原則訂定

8. 符合客語語言語法之特徵訂定

9. 用字、詞性標記、言談標記訂定

10. 後設資料格式訂定

語料作業

11. 語料採集、授權取得

12. 書面語語料數位化(2,000,000字)

13. 口語語料轉寫及數位化(50,000字)

14. 語料儲存(文字檔、影音檔)

15. 後設資料格式確立及後設資料建立

16. 語料斷詞人工檢視

17. 語料詞性標記標註

18. 言談標記標註

系統工程

1. 語料庫系統架構擴充與維護

2. 資料庫系統功能擴充與維護

3. 斷詞系統擴充與維護

4. 權威詞控管系統擴充與維護

5. 後臺管理系統擴充與維護

語料內容規範研發

6. 客語語料庫多重分類原則分類:屬性特徵及階層校正

(文類、文體、語式、主題)

7. 客語斷詞原則校正

8. 符合客語語言語法之特徵分析

9. 用字、詞性標記、言談標記檢視分析

10. 後設資料格式校正

語料作業

11. 符合客語語言語法之特徵校正

12. 用字、詞性標記、言談標記校正

13. 語料採集、授權取得

14. 書面語語料數位化(累計5,000,000字)

15. 口語語料轉寫及數位化(累計100,000字)

16. 語料儲存(文字檔及影音檔)

17. 後設資料校正

18. 語料斷詞人工校正

第二期程:語料庫搭配之資訊系統

年度

工作項目內容與產出規格

系統工程

1. 語料庫系統架構功能擴充與維護

2. 資料庫系統功能擴充與維護

3. 斷詞系統功能擴充與維護

4. 權威詞控管系統功能擴充與維護

5. 後臺管理系統功能擴充與維護

介面工程

6. 語料庫使用檢索介面建置

7. 語料庫後端上傳介面建置

8. 書面及口語語料入庫系統建置

語料內容規範討論

9. 客語語料庫多重分類原則分類:屬性特徵及階層校正

(文類、文體、語式、主題)

10. 客語斷詞原則檢視校正

11. 符合客語語言語法之特徵檢視校正

12. 用字、詞性標記、言談標記檢視校正

13. 後設資料格式檢視校正

語料作業

14. 用字、詞性標記、言談標記校正

15. 語料採集、授權取得

16. 書面語語料數位化(累計8,000,000字)

17. 口語語料轉寫及數位化(累計150,000字)

18. 語料儲存(文字檔及影音檔)

19. 後設資料校正

20. 語料斷詞人工校正

21. 書面及口語語料入庫

系統工程

1. 語料庫系統架構功能擴充與維護

2. 資料庫系統功能擴充與維護

3. 斷詞系統功能擴充與維護

4. 權威詞控管系統功能擴充與維護

5. 後臺管理系統功能擴充與維護

介面工程

6. 語料庫使用檢索介面測試與修正

7. 語料庫後端上傳介面測試與修正

8. 書面及口語語料入庫系統測試與修正

進階功能工程

9. 語料庫分析、檢索及統計功能建置

10. 線上學習系統建置

11. 電腦、手機、平板三個裝置版本開發及建置

語料內容規範討論

12. 客語語料庫多重分類原則分類:屬性特徵及階層校正

(文類、文體、語式、主題)

13. 客語斷詞原則檢視校正

14. 符合客語語言語法之特徵檢視校正

15. 用字、詞性標記、言談標記檢視修正

16. 後設資料格式檢視校正

網頁視覺設計

17. 網頁設計及美化

語料作業

18. 用字、詞性標記、言談標記校正

19. 語料採集、授權取得

20. 書面語語料數位化(累計11,000,000字)

21. 口語語料轉寫及數位化(累計200,000字)

22. 語料儲存(文字檔及影音檔)

23. 後設資料格式校正

24. 語料人工斷詞校正

25. 書面及口語語料入庫

第三期程:語料庫整體評估修正

年度

工作項目內容與產出規格

系統工程

1. 語料庫資訊系統技術文件撰寫與程式碼移交

2. 資料庫內容系統技術文件撰寫與程式碼移交

3. 斷詞系統技術文件撰寫與程式碼移交

4. 權威詞控管系統技術文件撰寫與程式碼移交

5. 後臺管理系統技術文件撰寫與程式碼移交

介面工程

6. 語料庫使用檢索介面最終測試與修正

7. 語料庫後端上傳介面最終測試與修正

8. 書面及口語語料入庫系統最終測試與修正

進階功能工程

9. 語料庫分析、檢索及統計功能測試與修正

10. 線上學習系統測試與修正

11. 電腦、手機、平板三個裝置版本測試與修正

語料內容規範討論

12. 客語語料庫多重分類原則分類:屬性特徵及階層最終檢視確定(文類、文體、語式、主題)

13. 客語斷詞原則最終檢視確定

14. 符合客語語言語法之特徵最終檢視確定

15. 用字、詞性標記、言談標記最終檢視確定

16. 後設資料格式最終檢視確定

網頁視覺設計

17. 網頁設計及美化

語料作業

18. 用字、詞性標記、言談標記校正

19. 語料採集、授權取得

20. 書面語語料數位化(累計15,000,000字)

21. 口語語料轉寫及數位化(累計300,000字)

22. 語料儲存(文字檔及影音檔)

23. 後設資料格式校正

24. 語料人工斷詞校正

25. 書面及口語語料入庫

評估與回饋

26. 語料庫網頁使用者調查以評估優使性(usability)

27. 記錄計畫所有執行項目並撰寫語料庫內容及使用說明

柒、預期效益

1、 量化效益

(1) 語料庫包含臺灣客語書面語料約15,000,000字、臺灣客語口語語料約300,000字。

(2) 語料庫涵蓋臺灣客語口語北四縣(含南四縣)、海陸、大埔、饒平、詔安,共5腔調。

(3) 語料庫涵蓋臺灣客語口語不同腔調之男女性別比例接近1:1及不同年齡層。

(4) 語料庫涵蓋各種文類、文體、語式、主題,共4種分類屬性。

2、 質化效益

(1) 成為全球第一個同時收錄書面語、口語的臺灣客語平衡語料庫。

(2) 保存與典藏臺灣客語之聲音與文字。

(3) 提供專家學者語料內容及語料庫的檢索、統計及進階功能,進行研究。

(4) 提供臺灣客語語言能力認證之命題材料及題目難易度分級判定基礎。

(5) 提供政府與教育機構教學、數位學習與推廣。

(6) 增強臺灣客家族群對於母語的認同感。

(7) 提供其他族群的語言建立語料庫之參考與借鏡。

捌、資料蒐集及文獻整理

  主要包含2部分,一是蒐集參考國內外書面及口語語料庫的實例,來擷取語料庫呈現之方式及功能;二是參閱有關語料庫建置、開發及運用語料庫之相關研究之文獻,從中習得語料庫建置需考慮之語料庫語言學學理、原則及應用。

一、國外語料庫

1 English

1.1 The Lancaster/Oslo-Bergen Corpus (LOB): approximately 1,000,000 words of British written English dating from 1960. The corpus is made up of 15 different genre categories.

1.2 The Longman-Lancaster Corpus: 30 million words of written language taken from literature, magazines, papers and more ephemeral materials such as leaflets and packaging.

1.3 The Brown University Corpus: approximately 1,000,000 words of American written English dating from 1960.

1.4 Collins Cobuid: a huge "corpus" of modern English text on computer to analyze language usage.

1.5 The International Corpus of English (ICE): collecting corpora in 20 countries and regions (Australia to Zambia).

1.6 The Lancaster Speech, Writing and Thought Presentation Spoken Corpus: to investigate the nature of speech, writing and thought presentation (SW&TP) in contemporary spoken British English.

1.7 The Helsinki Corpus (Diachronic Part): samples from texts covering the Old, Middle, and Early Modern English periods. 1,500,000 words in total.

1.8 The Brooklyn-Geneva-Amsterdam-Helsinki Parsed Corpus of Old English: a selection of texts from the Old English Section of the Helsinki Corpus of English Texts, annotated to facilitate searches on lexical items and syntactic structure.

1.9 The York-Toronto-Helsinki Parsed Corpus of Old English Prose (YCOE): a 1.5 million word syntactically-annotated corpus of Old English prose texts.

1.10 British National Corpus: a one hundred million word corpus of British English, both spoken and written.

1.11 CobuildDirect service: an on-line service for accessing a corpus of modern English language text, written and spoken.

1.12 Corpus of Spoken Professional American-English: one sub-corpus consists mainly of academic discussions such as faculty council meetings and committee meetings related to testing; the second sub-corpus contains transcripts of White House press conferences, which are almost exclusively question-and-answer sessions.

1.13 Michigan Corpus of Academic Spoken English: the on-line, searchable collection of transcripts of academic speech events recorded at the University of Michigan.

1.14 Santa Barbara Corpus of Spoken American English

1.15 The London-Lund Corpus of Spoken English: the spoken English texts comprise both dialogue and monologue. The written English texts include not only printed and manuscript material but also examples of English read aloud, as in broadcast news and scripted speeches.

1.16 The Wellington Corpus of Spoken New Zealand English

2 Chinese

2.1 A cleaned up segmented version of Guo Jin's Chinese PH corpus: the source is news text from the P.R. of China's Xinhua news agency.

2.2 Hong Kong Cantonese Adult Language Corpus (HKCAC)

2.3 Hong Kong Corpus of Primary School Characters (HKCPSC)

2.4 北京大學中國語言學研究中心語料庫(CCL)

2.5 梨的故事──七種中國方言的敘述方法

3 Bosnian

3.1 The Oslo Corpus of Bosnian Texts: consists of a corpus of approximately 1.6 million words.

4 Bulgarian

4.1 A corpus of spoken Bulgarian: approx. 50,000 word tokens.

5 Dutch

5.1 The Alpino Treebank: contains syntactically annotated Dutch sentences.

5.2 The Spoken Dutch Corpus: A corpus of contemporary Dutch as spoken by adults in Flanders and the Netherlands.

6 German

6.1 The TIGER project: this treebank consists of app. 700,000 tokens (40,000 sentences) of German newspaper text. It was semi-automatically tagged with part-of-speech and syntactic structures.

6.2 NEGRA Corpus: A Syntactically Annotated Corpus of German Newspaper Texts.

6.3 The Mannheimer Corpus Collection: the world's largest, growing, collection of German online corpora for linguistic research.

6.4 The COSMAS corpus archive: more than 1736 million running words.

6.5 The Bonn corpus of Early New High German: contains 40 texts of app. 30 pages each.

7 Israeli

7.1 The Corpus of Spoken Israeli Hebrew

8 Italian

8.1 CORIS/CODIS: a 100-million-word corpus of contemporary written Italian.

8.2 BADIP (Banca dati dell'italiano parlato): containing an online edition of the 500,000 word LIP-Corpus.

9 Japanese

9.1 SAMANTHA ERROR CORPUS: a compilation of spelling errors produced by 333 Japanese users of the English language.

10 Portuguese

10.1 Corpus of Brazilian Media Portuguese

11 Russian

11.1 Archives of The Computer Fund of Russian Language

11.2 Poeziya Russian Poetry

11.3 Proza Russian Prose

11.4 Publichnaja elektronnaja biblioteka (E. Peskin's Archive), Russian literature

11.5 Russian Literature Texts (George Fowler's Archive)

11.6 Russkoyazychnye literaturnye arhivy na Internete modern literature (Maksim Moshkow's Library)

11.7 Gazety i zhurnaly Russian Newspapers and Magazines on the www

12 Serbian/ Croatian:

12.1 BIBLIJA Die ganze Bibel in kroatischer Sprache

12.2 Ganz phantastisch: South Slavic Literature-WebSite von Borut Maricic?, Literaturcorpus (auch Slovenisch)

12.3 Srpskohrvatski tekstualni korpusi (Danko Sipka)

12.4 Jugoslovenski tekstualni korpus , Universit?t Aarhus

12.5 Homepage des Serbian Unity Congress (Textarchiv )

13 Slovene:

13.1 Leposlovje Slovene Literature Corpus

13.2 Kortlandt: Freising Manuscripts

13.3 Sammlung slovenischer Dialektmaterialien (collected by David Stermole, Canada)

13.4 The TELRI Republic (Translations of Plato's Republic into Slovene and other languages)

14 Spanish

14.1 The CRATER Spanish corpus: morph-syntactically tagged telecommunication manuals.

14.2 The ELDA (European Language resources Distribution Agency): multilingual corpora which include Spanish

15 Swedish

15.1 The Spoken Language Corpus of Swedish at Göteborg University: A