thdl 系統功能簡介

55
1 THDL 系系系系系系 (THDL v0.88 a9f5) 杜杜杜 2010-05-20

Upload: thdl

Post on 15-Apr-2017

5.257 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Thdl 系統功能簡介

1

THDL 系統功能簡介(THDL v0.88 a9f5)

杜協昌2010-05-20

Page 2: Thdl 系統功能簡介

2

THDL: Taiwan History Digital Library

• THDL: 臺灣歷史數位圖書館• 數位化的臺灣史資料

– 全文 (fulltext) 、詮釋資料 (metadata) 、與少數影像– 從約 250 個資料來源,抽出與臺灣相關的檔案

• 全文超過 8,000 萬字,涵蓋年代從 1621 到 1911 年• 包括明清政府檔案、古契書、地方志、札記等• 是相當珍貴的第一手史籍資料• 目前的內容,分為明清檔案與古契書兩部分

– 不似一般網頁內容參差不齊, THDL 的每一篇文件都有其重要性

Page 3: Thdl 系統功能簡介

3

《明清檔案》• 從 235 種文獻擷取出與台灣相關的明清行政史料

– 內閣大庫• 清中央最重要的檔案庫,所藏檔案包括明代檔案、從盛京移來的滿文老檔、滿文木牌等入關前的舊檔與清代檔案三大類。藏於編號為禮、樂、射、御四庫,是皇帝及內閣大臣處理政務後留存的重要文件,長期秘藏於清宮。這些檔案是我國歷史上保存數量最大、最完整的檔案。

– 明實錄、清實錄• 《清實錄》是清代歷朝官修史料的彙編,內容涉及政治、經濟、文化、軍事、外交及自然現像等眾多方面,是研究清代歷史必須憑藉的重要文獻。

– 奏摺• 皇帝和臣子間的往來文書

– 軍機處檔案、上諭檔、月褶檔、起居注、宮中檔等

Page 4: Thdl 系統功能簡介

4

《古契書》

• 清代到日治時期的契約文件– 多半是古地契,記載某塊地在某日期的地權轉移或交易– 可用來研究臺灣早期的開墾情況,以及民間社會的交易行為

• 主要的資料來源– 國立台中圖書館

• 已刊印古契書、日治時期臺灣總督府檔案等– 台大圖書館

• 岸裡大社文書、臺灣大學南部古契書、竹塹北門鄭利源號古契書、臺北市文獻會古契書等– 目前有 32,435 件古契書,其數量每個月仍持續地增加中

Page 5: Thdl 系統功能簡介

5

THDL 系統• 設計目標:

– 提供各式工具,讓研究者取用 THDL 的豐富內容– 從文件檢索到概念採礦 (Concept Mining)

• 檢索:幫助使用者找到「符合特定查詢」的文件。• 採礦:希望能提供一個環境,在互動中激發使用者的好奇心,幫助使用者發掘一些「原本並不知道」的有趣情事。

• THDL 首頁: http://thdl.ntu.edu.tw/– 全文資料庫登入頁: http://thdl.ntu.edu.tw/THDL/– 必須申請帳號才能登入使用– 申請帳號時必須有一個 email 帳號,且該 email 必須以 .edu.tw 、 .gov.tw 或 .edu 結尾。若沒有符合的 email 信箱,則需聯絡系統管理員來申請。

Page 6: Thdl 系統功能簡介

6

系統登入頁面

Page 7: Thdl 系統功能簡介

7

功能 ( 一 ) :找到想要的文件• 全文檢索:

– 選定一個文獻集,找出全文含有某查詢詞彙的文件– 支援較為複雜的運算

• AND: 例如「 + 楊景素 + 髮」可找出全文同時含有「楊景素」與「髮」的文件• OR: 例如「番女 番婆」可找出全文含「番女」或「番婆」的文件• NOT: 例如「建省 - 福建省」可找出全文含「建省」,但不含「福建省」的文件

Page 8: Thdl 系統功能簡介

8

功能 ( 一 ) :找到想要的文件• 進階檢索:

– 可以針對「出處」、「作者」、「西曆年」等 metadata 欄位進行查詢• 後分類瀏覽與檢索:

– 後分類:對比於「事先就編排好的前分類」,是系統依查詢結果進行組織分類的一種方法– 因後分類會將搜尋的結果依照年代、出處、作者等進行分類排序,使用者可點選感興趣的年代、出處或作者,來縮小搜尋範圍

Page 9: Thdl 系統功能簡介

9

THDL: 全文檢索 全文檢索查詢「林爽文」

含查詢字串的部分文件內容 全文含「林爽文」的文件共有 1565 篇

選擇所欲搜尋的文獻集(明清檔案) 系統的使用說明

Page 10: Thdl 系統功能簡介

10

幾個全文檢索的例子• 林文察

全文含「林文察」的文件。 • + 劉銘傳 + 劉璈(注意:兩個詞彙間,需要有空白字元!)

全文同時含有「劉銘傳」與「劉璈」的文件。• + 林爽文 +張丙 +蔡牽

全文同時含有「林爽文」、「張丙」與「蔡牽」的文件。• 粵民 粵人 粵庄 客仔 客民

全文含任一「粵民、粵人、粵庄、客仔、客民」詞彙的文件。 • + 找洗 - 找洗字

全文含「找洗」,但不含「找洗字」的文件。 • + 杜賣 找 洗 贖 贈 增 添

全文含「杜賣」,且至少含有「找洗贖贈增添」其中一字者。

Page 11: Thdl 系統功能簡介

11

進階檢索對 metadata 欄位進行單一詞彙 (single term) 的全文比對進階檢索: 在文件檢索的右方,找到「進階檢索」的連結 點選連結,將顯示進階檢索可查詢的欄位 輸入查詢(例如,在「中曆年份」輸入「乾隆」) (系統將回傳所有「成文年代」含有「乾隆」的文件)註:本例子的檢索效果,相當於在一般的檢索欄位中,輸入

「 chyear:乾隆」

Page 12: Thdl 系統功能簡介

後分類檢索 : 縮小搜尋範圍

將全文含「林爽文」的文件,依照「年代」進行後分類排列。若點選「乾隆五十二年」,則可搜尋到全文含「林爽文」、且成文於乾隆五十二年的 644 篇文件。

全文檢索查詢「林爽文」選定目前所要檢索的文獻集(明清檔案)

後分類欄位

Page 13: Thdl 系統功能簡介

13

點選後分類「年代 : 乾隆五十二年」的結果…

系統回傳「乾隆五十二年」含有「林爽文」的 644 篇文件

相當於查詢「 {TM:乾隆五十二年 } 林爽文」

Page 14: Thdl 系統功能簡介

14

亦可利用後分類篩選關心的「出處」

在文獻集「明清檔案」查詢「林爽文」,得到 1565 篇文件 在左方「詮釋資料欄位」點選「出處」 勾選「清實錄臺灣史資料專輯」與「內閣大庫檔案 ( 資料庫 ) 」 按下左下方的「檢視」鈕 結果相當於查詢「林爽文 {CL: 清實錄臺灣史資料專輯 | 內閣大庫檔案 ( 資料庫 )} 」 若文件已被儲存於某自訂文件集,其標題會以淺綠色底顯示,否則會是淺紫底色

Page 15: Thdl 系統功能簡介

15

功能 ( 二 ) :檢視找到的文件• 呈現方式:

– 提供數種檢視文件內容的呈現方式– 若有取得古契書圖檔的版權或許可,系統將提供原件的圖檔讓使用者檢視

• 文件排列方式:– 預設是依照(由編校人員指定)檔名順序排列,可切換為依照「年代」或「出處」排列

Page 16: Thdl 系統功能簡介

16

「檢索結果」的呈現模式

Page 17: Thdl 系統功能簡介

17

「逐篇檢視」模式• 頁面左方將列出回傳文件的標題與重要 metadata 。• 點選左方文件的標題,右方將顯示該文件完整的

metadata 與全文。

若發現 metadata 或全文有誤,使用者可透過這些連結回報

Page 18: Thdl 系統功能簡介

18

「詞頻與全文」模式• 頁面左方會列出回傳文件中,最常出現的人名與地名。• 頁面右方則會將文件內容依序列出。

Page 19: Thdl 系統功能簡介

19

「逐篇檢視」模式:依照年代排列• 「逐篇檢視」模式:頁面左方將列出回傳文件的標題與重要

metadata 。•左方會依照時間(年代)順序排列文件

Page 20: Thdl 系統功能簡介

20

「詞頻與全文」模式:依照年代排列

Page 21: Thdl 系統功能簡介

21

THDL 中,取得授權的古契書會提供影像檔

目前具有影像檔的古契書:北市文獻會契書台灣中部平埔族古文書竹塹北門鄭利源家古契岸裡大社高雄市立歷史博物館古文書臺大人類學系古文書臺大南部古契書

Page 22: Thdl 系統功能簡介

22

功能 ( 三 ) :觀察文件群的特徵• 回傳文件的年代分佈圖

– 觀察文件的數量,如何隨著年代推移而增減• 後分類文件分佈:

– 觀察分類(例如「年代」或「出處」)的統計分佈,有時也可以得到一些有用的資訊• 詞頻分析:

– 若查詢結果的全文含有「人名」、「地名」等詞彙,系統將列出頻率較高的詞彙,以及一些統計資訊。– 另外,在查詢結果頁,會列出與查詢結果相關的前 8 位人名、以及前 10 個地名

Page 23: Thdl 系統功能簡介

23

檢索結果的「年代 - 文件數量」分佈圖

在檢索結果的第一頁(其他頁次將不會顯示),會顯示回傳文件在年代上的分佈圖。本例中,回傳文件有 3737 筆,但 metadata 具明確年代資訊的只有 3512 筆。

Page 24: Thdl 系統功能簡介

24

《明清檔案》文件在年代上的分佈圖

• 若某年的文件數量多,則在這一年在台灣必然發生了清廷相當關心的重要事件 1787(乾隆五十二年) : 林爽文事件 1884(光緒十年) : 中法戰爭爆發,法國軍隊砲轟基隆,登陸淡水。 1895(光緒二十一年) : 1894 年中日甲午戰爭爆發, 1895 馬關條約割讓台灣澎湖。台灣人民成立台灣民主國(獨立宣言),數月後被日軍擊潰。 1874(同治十三年) : 台灣事件(日本藉口琉球漂民事件發動對台灣的侵略,開始清朝在台灣的洋務運動) 1806 (嘉慶十一年 ): 海賊蔡牽之亂 1833 (道光十三年):張丙事件

AD1787

AD1874

AD1806

AD1833

AD1884

AD1895

Page 25: Thdl 系統功能簡介

25

詞頻分析

df: 查詢結果中,含詞彙 t 的文件數量(例如 t =常青, df=588 表示查詢結果有 588 篇含「常青」)tq: 「含有 t 的文件,可被查詢 q 找出」的比例(例如,在此 q= 林爽文,若 t=常青,則因 tq 的值為 0.42 ,表示含有「常青」的文件中,有 42% 亦含有「林爽文」)

查詢 q = 林爽文

Page 26: Thdl 系統功能簡介

詞頻分析的簡單應用(一)

• 在《明清檔案》下查詢「唐景崧」,回傳 834 篇文件。觀察其詞頻分析。• 發現這 834 篇文件中,含「劉銘傳」的有 168 件 ( 約佔 20%)• 但 tq 只有 0.079 (7.9%) ,也就是說含「劉銘傳」的文件中,只有 7.9% 含有「唐景崧」。• 這可能暗示:對劉銘傳的政治生涯來說,唐景崧可能不是那麼地重要…

Page 27: Thdl 系統功能簡介

27

詞頻分析的簡單應用(二)

• 在《明清檔案》下查詢「朱一貴」,回傳 246 篇文件。觀察其詞頻分析。• 與「朱一貴」最常共同出現的,不是平亂的「藍廷珍 」,卻是「林爽文」與「常青」。為什麼呢?• 因為提到「林爽文之亂」的文件,經常也會提到「朱一貴之亂」• 含「林爽文」的文件中,約有 5.8% 也含有「朱一貴」;含「藍廷珍」的文件中,有高達 33.8% 也含有「朱一貴」。

Page 28: Thdl 系統功能簡介

28

功能 ( 四 ) :人名權威檔• 人名權威檔資訊

– 若詞頻分析的某個人名,有權威檔的資訊可供參考,則會在該人名旁,顯示「生平」的連結供使用者點選– 目前有「故宮與中研院史語所合作建置之明清檔案人名權威資料」、「國圖明清人物小傳」與「文建會臺灣歷史辭典」

Page 29: Thdl 系統功能簡介

29

查詢結果,會列出幾個相關的人名與地名(若要查閱某人的權威檔資料,可輸入此人名,然後點「生平」的連結)

Page 30: Thdl 系統功能簡介

30

人名權威檔

• 在詞頻分析的人名、或檢索結果的相關人名旁,若顯示有「生平」連結,則點選後可檢視該人物的權威檔資訊• 例如查詢「義民」,相關人名會列出「林爽文」,點選其旁的「生平」連結,就可以顯示林爽文的權威檔資訊

Page 31: Thdl 系統功能簡介

31

亦可利用「詞頻與全文」來查閱人名權威檔(「詞頻分析」會列出查詢結果中,出現次數較多的人名)

Page 32: Thdl 系統功能簡介

32

功能 ( 五 ) :自訂文件集• 頁面左方,會顯示最近所使用的查詢• 使用者可自訂個人的文件集

– 把感興趣的文件儲存起來,方便日後調閱– 若想查找比較模糊、現代的觀念,或者沒有明確關鍵字詞時,可利用自訂文件集儲存分批搜尋的結果– 可以對自訂的文件集進行縮小範圍的檢索– 在查詢結果中,系統會標示該文件已經被儲存於哪些「自訂文件集」中

Page 33: Thdl 系統功能簡介

33

使用者最近使用過的一些查詢

檢索頁面的左上方,會顯示最近使用的 4 個查詢 若「最近幾次檢索」右方的箭頭方向朝下,則點選後可顯示最近曾使用的其他查詢(箭頭會切換為方向朝上)

Page 34: Thdl 系統功能簡介

儲存「使用者自訂的文件集」 輸入查詢 從回傳結果的後分類裡,勾選欲儲存的文件子集合 在頁面的最下方,找到「自訂文件集」,並輸入欲儲存的文件集名稱 點選「加入文件集」按鈕

查詢「林爽文」 在後分類勾選「乾隆」 「自訂文件集」輸入「林爽文:乾隆時期」 按下「加入文件集」後,在「個人文件集」 下,會多出名為 [ 林爽文:乾隆時期 ] 項目

文件若已被儲存於某個自訂文件集,標題將會以淺綠底色來顯示,否則就會是淺紫底色。

Page 35: Thdl 系統功能簡介

35

可以直接調閱已儲存的文件集

若點選已儲存的 [ 林爽文:乾隆時期 ] ,系統會回傳該文件集的文件

Page 36: Thdl 系統功能簡介

36

可以對儲存的文件集進行縮小範圍的查詢

例如,在檢索欄位輸入「 [ 林爽文:乾隆時期 ] 鹿港 鹿仔港」,可檢索到該文件集中,含有「鹿港」或「鹿仔港」的文件(共 379 篇)

Page 37: Thdl 系統功能簡介

37

使用「自訂文件集」的例子 (1/4) 假設想找「民亂的歷史記憶」文件 輸入查詢「 +三案 +九案」 系統回傳 4 篇文件(這四篇文件都含有「三案」、「九案」) 假設我們只認為第 4 篇是想要的。我們將該文件勾選起來 頁面文件內容的下方,找到「自訂文件集」,輸入「民亂的歷史記憶」 點選「將勾選加入」按鈕

Page 38: Thdl 系統功能簡介

38

使用「自訂文件集」的例子 (2/4) 系統仍然顯示查詢「 +三案 +九案」的結果 頁面左方的「自訂文件集」下,多出一項 [ 民亂的歷史記憶 ] 第 4 篇文件的標題底色變成淺綠色,表示它已被儲存到某個自訂文件集中

Page 39: Thdl 系統功能簡介

39

使用「自訂文件集」的例子 (3/4)

假設我們想知道:民亂發生後,如何描述之前的類似案例 輸入查詢「前此蔡逆」 系統回傳 6 篇文件,其中 4 篇成文於嘉慶十一年,另 2 篇是在嘉慶十三年(平定蔡牽之亂後) 假設我們只認為「嘉慶十三年」的那兩篇文件是想要的。因此我們從左方勾選「嘉慶十三年」。 在左方後分類項目下方,找到「自訂文件集」的輸入欄位,填入「民亂的歷史記憶」 點選「加入文件集」按鈕

Page 40: Thdl 系統功能簡介

40

使用「自訂文件集」的例子 (4/4) 系統仍顯示查詢「前此蔡逆」的結果 第 1 篇(與第 6 篇)的標題底色變成淺綠色,表示它們已被儲存於某個自訂文件集 頁面左方 [ 民亂的歷史記憶 ] 右方數字顯示 3 ,表示它目前含有 3 篇文件

點選 [ 民亂的歷史記憶 ] ,系統將調出這個自訂文件集所儲存的那些文件(包含「 +三案 +九案」所找到的 1 篇,以及「前此蔡逆」所找到的 3 篇)

Page 41: Thdl 系統功能簡介

41

功能 ( 六之一 ) :相關文件• 相關文件(上下手契)

– 檢視文件時,若資料庫存有其他的契書,和該文件有「上下手契」、「原契與契尾」、「鬮分契」、「契書內容相同」等關係,系統將列出「相關文件」連結

Page 42: Thdl 系統功能簡介

42

《古契書》之「相關文書」 : 文件的上下手契

• 查詢「龜崙」,第一篇文件有個「相關文書」的連結。點選該連結,系統會顯示該文件和相關的上下手契。點選連結旁的小箭頭圖示,會顯示關聯圖。• 連結旁的 (3/4) :分子表示與該文件直接相關的上下手契數量( 3 篇),分母表示與該文件相關的所有上下手契數量(共 4 篇)

Page 43: Thdl 系統功能簡介

43

功能 ( 六之二 ) :相似文件• 相似文件

– 檢視一篇文件時,若資料庫中有「內容文字大量相同」的其他文件,系統將列出「其他相似文件」的連結

Page 44: Thdl 系統功能簡介

44

兩件《臺大南部古契書》的全文內容

cca110001-od-tc00053-0001-u.txt

• 我們稱第一篇有 符號的文件為「基準文件」• 在第二篇文件中,我們將「文字出現順序與基準文件的順序相同」的那些內容,用灰底字標示出來• 在這兩篇文件中,有高達 95% 的內容是一樣的(但成文日期卻不同!)

cca110001-od-tc00047-0001-u.txt B

B

Page 45: Thdl 系統功能簡介

45

另一個例子:不同出處的相似文件

• 《岸裡大社》的契書有圖檔,但《大茅埔開發史 》則沒有• 《岸裡大社》的原文(圖檔亦然)寫作「鄭△△」,但另一篇則寫明「鄭成鳳」

cca110001-od-al00955_093_01-u.txt 《岸裡大社 》B

ntul-od-bk_isbn9789570241039_031032.txt 《大茅埔開發史 》

Page 46: Thdl 系統功能簡介

46

功能 ( 七 ): 兩個文件集之間的比較• 給定文件集 A, B ,有時會想比較它們在年代的分佈

•語法: q1 ?vs q2– 其中 q1, q2 為一般的查詢字串– 在「年代 - 文件數量」分佈圖中,將以紅色線顯示 D(q1) ( q1 的查詢結果),而以灰色線顯示 D(q2) ( q2 的查詢結果)《明清檔案》全文含「鹿港」的文件分佈

《明清檔案》全文含「淡水」的文件分佈

Page 47: Thdl 系統功能簡介

47

《明清檔案》 < 六堆相關 > ?vs < 北客相關>

• 在《明清檔案》下查詢: <六堆相關 > ?vs <北客相關 >– 紅色:客委會專案, <六堆相關 > 所查找出的文件– 灰色:客委會專案, <北客相關 > (北部客家)所查找出的文件

• 自西元 1806 年(嘉慶十一年,蔡牽之亂)後,與「北部客家相關」的文件就大幅領先– AD 1783 (乾隆四十八年) : 漳泉械鬥– AD 1826 (道光六年) : 臺灣北路閩粵民人械鬥– AD 1842 (道光二十二年) : 1840-1842 鴉片戰爭,在此文件多為「逆夷復犯臺港 」等事

Page 48: Thdl 系統功能簡介

48

《古契書》絕賣 ?vs 杜賣

• 在《古契書》下查詢:絕賣 ?vs 杜賣– 紅色:「絕賣」所查找出的文件– 灰色:「杜賣」所查找出的文件– 從上圖可以很明顯地看到:全文含「絕賣」的契書數量逐漸減少,而含「杜賣」的數量則逐年增加

Page 49: Thdl 系統功能簡介

49

功能 ( 八之一 ) :分析詞彙的前後綴詞• ?termpat: 立 .{1,8}字 + 立 +字

– 分析同時含有「立、字」的文件中,這兩個字之間有哪些字( 1~8 個中文字)出現,其出現篇數與總次數– 可發現《古契書》中,「立杜賣盡根契字 」出現最多– 其他還有「立鬮書合約字 」、「立合約字 」、「立約字 」等

• ?termpat: 立 .{1,8}字 {CL:岸裡大社 }– 分析《岸裡大社》 (2653 件 ) 的「立…字」出現情形

• ?termpat: 立 .{1,8}字 {CL: 台灣私法物權編 }– 分析《台灣私法物權編 》 (994 件 ) 的「立…字」出現

Page 50: Thdl 系統功能簡介

50

《岸裡大社》古文書的「立…字」分佈情形

Page 51: Thdl 系統功能簡介

51

《台灣私法物權編》的「立…字」分佈

Page 52: Thdl 系統功能簡介

52

功能 ( 八之二 ) :找出前後綴詞間的詞彙• ?clipterm:奴才 .{2,5}跪奏 +奴才 +跪奏

– 在《明清檔案》中,「奴才」與「跪奏」之間( 2~5 個中文字)出現的人名、其出現篇數及次數(此例中,每篇恰只出現一次)

Page 53: Thdl 系統功能簡介

53

其他:使用者回饋的連結• 使用者回饋的連結

– 使用者若發現文件的內容有誤( metadata 、錯別字、標註錯誤等),可利用此機制回報給內容校對人員

Page 54: Thdl 系統功能簡介

54

全文的顯示頁面中,包含有使用者回饋的連結

• 點選回傳文件的標題,可進入「顯示該文件 metadata 與全文」的頁面• Metadata 資訊的右下方,有提供使用者回報錯誤的「更正 metadata 錯誤」的連結;全文的右下方,有「更正全文錯誤」的連結

人地名詞彙的更正與回報

Page 55: Thdl 系統功能簡介

55

使用者回饋

人地名詞彙的更正與回報

更正 metadata 錯誤