文字計數 在中文世界的應用和推廣文字計數的用語和淵源 一、michael laver,...

24
文字計數 文字計數 在中文世界的應用和推廣 在中文世界的應用和推廣 東吳大學人文社會學院 東吳大學人文社會學院 97 97 學年度發展特色計畫暨學術研究室 學年度發展特色計畫暨學術研究室 成果發表會論文 成果發表會論文 主持人: 主持人: 徐振國 徐振國 共同主持人:郭豐州 共同主持人:郭豐州 研究助理:廖文偉、林人芳 研究助理:廖文偉、林人芳

Upload: others

Post on 03-Nov-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

  • 文字計數文字計數 在中文世界的應用和推廣在中文世界的應用和推廣

    東吳大學人文社會學院東吳大學人文社會學院9797學年度發展特色計畫暨學術研究室學年度發展特色計畫暨學術研究室

    成果發表會論文成果發表會論文

    主持人:主持人:

    徐振國徐振國

    共同主持人:郭豐州共同主持人:郭豐州研究助理:廖文偉、林人芳研究助理:廖文偉、林人芳

  • 文字計數的用語和淵源文字計數的用語和淵源

    一、一、Michael Laver, Kenneth Benoit, and John Garry Michael Laver, Kenneth Benoit, and John Garry 的的

    文字計數(文字計數(word scoringword scoring))““Extracting policy positions from political texts using Extracting policy positions from political texts using words as datawords as data”” APSR. 2003APSR. 2003文本內容分析(文本內容分析(textual content analysistextual content analysis))沿襲於(沿襲於(content content anlaysisanlaysis),但作了根本改變),但作了根本改變

    二、西方學界傳統中廣義的文字計數(二、西方學界傳統中廣義的文字計數(word countingword counting))

    和事件計數(和事件計數(event countingevent counting)和主題文本分析)和主題文本分析

    ((thematic text analysisthematic text analysis))在文獻資料中匯集成大規模專業字詞資料庫在文獻資料中匯集成大規模專業字詞資料庫

    可統稱之為文本論述分析(可統稱之為文本論述分析(textual discourse analysistextual discourse analysis))

    http://www.tcd.ie/Political_Science/wordscores/papers/WordscoresAPSR2_paper.pdfhttp://www.tcd.ie/Political_Science/wordscores/papers/WordscoresAPSR2_paper.pdfhttp://www.tcd.ie/Political_Science/wordscores/papers/WordscoresAPSR2_paper.pdf

  • 文本論述分析文本論述分析

    「論述」(「論述」(discoursediscourse)包括「言談」()包括「言談」(talktalk)和「文本」()和「文本」(texttext))藉語言來瞭解人們的溝通媒介和行為和現代語言學的發展有密切關連藉語言來瞭解人們的溝通媒介和行為和現代語言學的發展有密切關連

    在二十世紀中葉之前的現代語言學,建立在個別語言學的專業基礎在二十世紀中葉之前的現代語言學,建立在個別語言學的專業基礎

    上,如語法學,語音學,符號學,字詞學,和語意學等等。上,如語法學,語音學,符號學,字詞學,和語意學等等。

    二十世紀中葉,特別是在二十世紀中葉,特別是在19701970年代初期之後,語言學凸顯了語意學的年代初期之後,語言學凸顯了語意學的

    重要性,而將個別專業語言放在具有整體脈絡意涵的「論述」之中重要性,而將個別專業語言放在具有整體脈絡意涵的「論述」之中

    來作綜合性的思考來作綜合性的思考

    論述語言學就開創了一種方法論的總體主義(論述語言學就開創了一種方法論的總體主義(methodological methodological holismholism)以別於科學實證主義的方法論個體主義()以別於科學實證主義的方法論個體主義(methodological methodological individualismindividualism))

  • 論述分析作為一種研究方法論述分析作為一種研究方法

    研究者可選用適當的文本,形成專業字詞資料庫,運用關鍵語詞進行檢研究者可選用適當的文本,形成專業字詞資料庫,運用關鍵語詞進行檢

    索,形成研究所需的資料並展現統計頻次,藉以呈現脈絡和語境,來進行索,形成研究所需的資料並展現統計頻次,藉以呈現脈絡和語境,來進行

    閱讀和詮解。閱讀和詮解。

    文本論述分析的具體運作程序:文本論述分析的具體運作程序:

    ((11)文類的特性和選擇)文類的特性和選擇

    ((22)語言學法則的依據:按語音、語法、和語意之特性,)語言學法則的依據:按語音、語法、和語意之特性,

    或按語段、語詞、和單字上的萃取方式,以呈現文本之特性。或按語段、語詞、和單字上的萃取方式,以呈現文本之特性。

    ((33)語料庫和專業字詞庫之製作和整合:商用或學術專用;開放或)語料庫和專業字詞庫之製作和整合:商用或學術專用;開放或

    封閉。封閉。

    ((44)電腦軟體的設計:使用者和軟體程式寫作者之間的磨合)電腦軟體的設計:使用者和軟體程式寫作者之間的磨合

    ((55)資料庫的管理和使用:自行建構之資料庫或自網路搜尋取得之)資料庫的管理和使用:自行建構之資料庫或自網路搜尋取得之

    資料資料

    ((66)資料的展現和解讀:解釋和詮解的分際。)資料的展現和解讀:解釋和詮解的分際。

  • 文本論述分析的案例說明文本論述分析的案例說明

    (一)短文本主題檢索(一)短文本主題檢索

    (二)長文本主題檢索(二)長文本主題檢索

    (三)長文本語詞計數(三)長文本語詞計數

    (四)中研院分詞庫之語詞計數(四)中研院分詞庫之語詞計數

    (五)(五)FranzosiFranzosi之之SAOSAO過錄法和頻次呈現過錄法和頻次呈現

  • 〈〈一一〉〉短文本主題檢索之案例短文本主題檢索之案例

    案例一案例一

    紐約時報和洛杉磯時報索引的分析紐約時報和洛杉磯時報索引的分析

    Frequency of the Words Communism or Frequency of the Words Communism or Communist(sCommunist(s) per 10,000 ) per 10,000 wordsFromwordsFrom: Wayne Danielson and Dominic : Wayne Danielson and Dominic LasorsaLasorsa

    ““Perceptions of Social Change: 100 Years of FrontPerceptions of Social Change: 100 Years of Front--Page Content in The New York Times and The Los Angeles TimesPage Content in The New York Times and The Los Angeles Times””

  • 案例二案例二

    台灣社會政治經濟資料庫網址:台灣社會政治經濟資料庫網址:

    http://politics.idc.scu.edu.tw/index.phphttp://politics.idc.scu.edu.tw/index.php

    自動繪圖網址:自動繪圖網址:http://163.14.72.94:8080/graph.htmlhttp://163.14.72.94:8080/graph.html

    從反共/反攻/統一中國等語詞變遷顯示兩岸關係變化之示意圖從反共/反攻/統一中國等語詞變遷顯示兩岸關係變化之示意圖

    0

    20

    40

    60

    80

    100

    120

    140

    160

    年份 41 45 49 53 57 61 65 69 73 77 81 85 89 93

    兩岸

    統一中國

    反共

    反攻

    http://politics.idc.scu.edu.tw/index.phphttp://163.14.72.94:8080/graph.html

  • 案例三、台灣銀行經濟日誌(糧食危機)案例三、台灣銀行經濟日誌(糧食危機)

    陳儀主政時代糧食議題分佈表

    0

    5

    10

    15

    20

    25

    30

    時間

    34年

    8月34

    年9月

    34年

    10月

    34年

    11月

    34年

    12月

    35年

    1月35

    年2月

    35年

    3月35

    年4月

    35年

    5月35

    年6月

    35年

    7月35

    年8月

    35年

    9月35

    年10

    月35

    年11

    月35

    年12

    月36

    年1月

    36年

    2月36

    年3月

    時間

    刊登次數 刊登次數

  • 〈〈二二〉〉長文主題檢索之案例長文主題檢索之案例

    金觀濤和劉青峰金觀濤和劉青峰

    香港中文大學:中國思想史資料庫香港中文大學:中國思想史資料庫

    包括了清末民初的重要報紙和刊物,如包括了清末民初的重要報紙和刊物,如 《《新青年新青年》》等,高達一億四千餘萬筆等,高達一億四千餘萬筆

    號稱中文世界規模最大的專業字詞資料庫號稱中文世界規模最大的專業字詞資料庫

  • 案例一:討論清末「革命」、「改案例一:討論清末「革命」、「改 革」、「改良」等語詞概念之演變革」、「改良」等語詞概念之演變

    〈〈觀念起源的猜想與證明-兼評觀念起源的猜想與證明-兼評

    ““革命革命””的現代性-中國革命話語考論的現代性-中國革命話語考論〉〉自自

    《《近代史研究所集刊近代史研究所集刊》》((4242期期

    2003.122003.12))

  • 案例二:案例二:《《新青年新青年》》雜誌中某些雜誌中某些 政治術語的頻次統計政治術語的頻次統計

  • 金觀濤呈現了不少個人成果。然而其龐大的專業字詞庫並未公開。金觀濤呈現了不少個人成果。然而其龐大的專業字詞庫並未公開。

    他如何形成資料和取的數據,並不清楚。他如何形成資料和取的數據,並不清楚。

  • 〈〈三三〉〉長文本語詞計數以顯示政策概長文本語詞計數以顯示政策概 念演變之案例念演變之案例

    案例一:劉小彪中國政府工作報告分析案例一:劉小彪中國政府工作報告分析

    (汕頭大學新聞學院劉小彪教授製;繁體字形為研究助理廖文偉所轉。)(汕頭大學新聞學院劉小彪教授製;繁體字形為研究助理廖文偉所轉。)

    政府工作報告三十年來出現最多的政府工作報告三十年來出現最多的1010個詞個詞

  • 案例三:劉小彪中共人大會報告語案例三:劉小彪中共人大會報告語 詞分析詞分析(汕頭大學新聞學院劉小彪教授製;繁體字形為研究助理廖文偉(汕頭大學新聞學院劉小彪教授製;繁體字形為研究助理廖文偉

    所轉。)所轉。)

    中共十一大到十七大報告中出現

    中共十一大到十七大報告中出現

    次數最多的

    次數最多的1010個實詞

    個實詞

  • 案例四、案例四、《《中研院中文分詞詞庫中研院中文分詞詞庫》》對劉小彪案例中分詞之測試對劉小彪案例中分詞之測試

    此係用中研院中文分詞資料庫中之分詞方法,採新浪網中之人大報告資此係用中研院中文分詞資料庫中之分詞方法,採新浪網中之人大報告資

    料,和對劉小彪料,和對劉小彪1010個實詞所作之比對個實詞所作之比對

  • (四)(四)《《中研院中文分詞詞庫中研院中文分詞詞庫》》 總統文告語詞分析之實例總統文告語詞分析之實例

    詞 1953 詞 1954 詞 1955 詞 1960 詞 1961 詞 1962 詞 1964

    我們 254 我們 137 我們 194 我們 41 我們 83 我們 112 我們 50

    同胞 89 同胞 53 革命 84 自由 23 世界 55 革命 76 主義 46

    反共 83 反共 34 反攻 64 革命 21 生命 43 主義 54 民族 30

    工作 72 自由 34 同胞 52 民族 21 就是 39 大陸 49 大陸 23

    大陸 69 就是 33 復國 40 亞洲 19 共產 39 反共 48 同胞 19

    就是 64 大陸 32 大陸 36 同胞 16 大陸 38 自由 45 革命 18

    自由 60 他們 32 民族 33 大陸 16 革命 35 同胞 40 反共 16

    民族 59 戰爭 27 反共 32 中華 16 主義 30 就是 37 臺灣 16

    革命 59 中華 26 青年 32 世界 15 今日 29 共產 35 毛匪 15

    反共

    抗俄55 奸匪 25 中華 31 民國 14 民族 28 共匪 34 共產 14

  • (四)(四)《《中研院中文分詞詞庫中研院中文分詞詞庫》》 總統文告語詞分析之實例總統文告語詞分析之實例

    詞 1965 詞 1966 詞 1967 詞 1968 詞 1969 詞 1970 詞 1971

    我們 52 你們 122 我們 104 民主 119 我們 82 我們 48 我們 69

    革命 39 革命 100 文化 87 文化 108 毛賊 65 革命 30 革命 30

    共匪 34 我們 94 大陸 68 我們 107 革命 58 自由 30 中華 27

    人民 34 主義 91 民族 66 民族 96 主義 49 大陸 29 世界 26

    同胞 32 大陸 83 主義 64 毛賊 87 科學 49 就是 28 同胞 26

    戰爭 31 澤東 71 民主 63 革命 81 大陸 46 同胞 27 國家 26

    國民 26 毛澤

    東71 中華 58 主義 80 就是 45 民族 25 民國 26

    世界 22 文化 70 革命 57 國民 66 青年 43 世界 24 大陸 23

    大陸 22 民族 63 毛賊 53 大陸 64 國民 40 今天 21 中華

    民國23

    就是 19 就是 61 三民

    主義52 中華 62 民主 38 國民 21 就是 19

  • (四)(四)《《中研院中文分詞詞庫中研院中文分詞詞庫》》 總統文告語詞分析之實例總統文告語詞分析之實例

    詞 1972 詞 1973 詞 1974 詞 1975 詞 1976 詞 1977 詞 1978

    民主 28 我們 87 革命 58 大陸 26 我們 91 我們 107 我們 90

    我們 20 民族 38 國民 53 毛賊 25 民主 58 蔣公 67 國民 75

    憲政 13 革命 34 主義 49 同胞 23 文化 50 民主 59 蔣公 65

    國家 11 民主 34 我們 46 民主 20 蔣公 48 國家 45 國家 63

    建設 10 自由 29 建設 38 主義 19 中華 40 大陸 44 總統 58

    革命 9 今天 29 毛賊 37 中華 17 同胞 37 建設 43 民主 56

    民族 9 中華 29 民主 36 民國 16 主義 34 民族 40 大陸 43

    政治 9 文化 28 大陸 30 我們 15 憲政 34 同胞 39 同胞 42

    國民 8 就是 25 民族 30 就是 15 精神 29 青年 38 革命 39

    大陸 7 中國 24 中華 29 民族 15 三民主義

    29 精神 37 自由 39

    大家 7 同胞 23 就是 28 青年 15 大陸 28 革命 35 精神 39

  • 〈〈五五〉〉FranzosiFranzosi的的SAOSAO過錄和頻次過錄和頻次 呈現呈現

    不以理論來規範分類範疇,來篩選事實;而是掌握抗爭不以理論來規範分類範疇,來篩選事實;而是掌握抗爭

    活動中的細節來進行實錄。活動中的細節來進行實錄。

    呈現主角-行動-目的基本呈現主角-行動-目的基本SAOSAO形式,並擴散成種種的形式,並擴散成種種的

    變形:變形:

  • 依據上述依據上述SAOSAO過錄方式,下圖顯示,原來由過錄方式,下圖顯示,原來由 勞工主導的抗爭和罷工,逐漸由法西斯所取勞工主導的抗爭和罷工,逐漸由法西斯所取

    代。代。

  • 五、文本內容分析五、文本內容分析 (長文本單字之萃取和計數)(長文本單字之萃取和計數)

    LaverLaver等人的文字計數的程序可以下表來說明等人的文字計數的程序可以下表來說明

  • LaverLaver文字計數轉用於中文的困難和可文字計數轉用於中文的困難和可 能突破能突破

    LaverLaver的統計軟體已由洪永泰教授轉譯成中文的統計軟體已由洪永泰教授轉譯成中文

    基本困難是中文文字與西方文字的結構性差異:基本困難是中文文字與西方文字的結構性差異:

    英文文章中只要兩個空格中間的字母的集合或者是一個空格和一個英文文章中只要兩個空格中間的字母的集合或者是一個空格和一個

    標點符號間的字母的集合即是一個字;而中文文章結構中沒有空標點符號間的字母的集合即是一個字;而中文文章結構中沒有空

    格,而且詞是中文表達意涵的最基本單位,一個有意義的詞可能是格,而且詞是中文表達意涵的最基本單位,一個有意義的詞可能是

    單字詞,也可能是多個單字組合而成。如何在中文文句中的淬取出單字詞,也可能是多個單字組合而成。如何在中文文句中的淬取出

    詞彙來是一個課題。詞彙來是一個課題。

    郭豐州,廖文偉郭豐州,廖文偉

    基於上述認識,郭豐州比較了各種中文斷詞演算法的優劣,而採取基於上述認識,郭豐州比較了各種中文斷詞演算法的優劣,而採取

    「長詞優先演算法」(「長詞優先演算法」(maximum matchingmaximum matching)和「由下而上合併演)和「由下而上合併演

    算法」(算法」(bottombottom--up merging algorithmup merging algorithm)來作為各項文本測試之基)來作為各項文本測試之基

    礎。礎。

  • 表一、兩方法以表一、兩方法以1999/81999/8--2 2 中國時報社論為分中國時報社論為分 詞對象結果數目比較詞對象結果數目比較

    基於此,過去三年來的測試,特別是去年基於此,過去三年來的測試,特別是去年11/2311/23和林瓊珠和林瓊珠

    教授兩次三報總統大選民意論壇內容分析的比對,主要教授兩次三報總統大選民意論壇內容分析的比對,主要 還是以兩字以上的「詞」作為萃取的基礎。然而測試結還是以兩字以上的「詞」作為萃取的基礎。然而測試結 果無法達到果無法達到LaverLaver在英文和其他西文中的文字計數效果。在英文和其他西文中的文字計數效果。

  • 文本內容分析測試方向的改變文本內容分析測試方向的改變

    一、過去還是一直以「詞」作為核心思考,未真正以「字」作為分析一、過去還是一直以「詞」作為核心思考,未真正以「字」作為分析

    單元。此不符單元。此不符LaverLaver「語盲」(「語盲」(languagelanguage--blindblind)之文字計數技術要)之文字計數技術要

    求。故特要求以長詞優先演算法,以單字的計算基礎,來測試中文求。故特要求以長詞優先演算法,以單字的計算基礎,來測試中文

    的文字計數效果。的文字計數效果。

    二、如何從「二、如何從「““語盲語盲””文字計數技術」推測出具有價值內涵的政策位置。文字計數技術」推測出具有價值內涵的政策位置。

    這涉及這涉及LaverLaver文章中隱含的詮釋架構。按文章中隱含的詮釋架構。按LaverLaver等人在文章中用了不等人在文章中用了不

    少「諸面向」少「諸面向」dimensionsdimensions、「諸空間」(、「諸空間」(spacesspaces)和「一項文本空)和「一項文本空

    間的代表性」間的代表性」a spatial representation of the textsa spatial representation of the texts等類字眼。等類字眼。LaverLaver 等人其實是在一個理論性的時空脈絡基礎上,來運用文字計數的統等人其實是在一個理論性的時空脈絡基礎上,來運用文字計數的統

    計功能和效率。計功能和效率。

    LaverLaver等人的文字計數功能,不僅是一個方法和技術課題,實連結了質等人的文字計數功能,不僅是一個方法和技術課題,實連結了質

    化研究和量化研究的特性,甚至銜接了人文詮釋和科學解釋方法論化研究和量化研究的特性,甚至銜接了人文詮釋和科學解釋方法論

    觀點。觀點。

    文字計數� 在中文世界的應用和推廣 文字計數的用語和淵源 文本論述分析 論述分析作為一種研究方法文本論述分析的案例說明〈一〉短文本主題檢索之案例 案例二�案例三、台灣銀行經濟日誌(糧食危機)〈二〉長文主題檢索之案例案例一:討論清末「革命」、「改革」、「改良」等語詞概念之演變案例二:《新青年》雜誌中某些政治術語的頻次統計投影片編號 12〈三〉長文本語詞計數以顯示政策概念演變之案例案例三:劉小彪中共人大會報告語詞分析(汕頭大學新聞學院劉小彪教授製;繁體字形為研究助理廖文偉所轉。)案例四、《中研院中文分詞詞庫》對劉小彪案例中分詞之測試�此係用中研院中文分詞資料庫中之分詞方法,採新浪網中之人大報告資料,和對劉小彪10個實詞所作之比對(四)《中研院中文分詞詞庫》總統文告語詞分析之實例(四)《中研院中文分詞詞庫》總統文告語詞分析之實例(四)《中研院中文分詞詞庫》總統文告語詞分析之實例〈五〉Franzosi的SAO過錄和頻次呈現依據上述SAO過錄方式,下圖顯示,原來由勞工主導的抗爭和罷工,逐漸由法西斯所取代。五、文本內容分析�(長文本單字之萃取和計數)Laver文字計數轉用於中文的困難和可能突破表一、兩方法以1999/8-2 中國時報社論為分詞對象結果數目比較 文本內容分析測試方向的改變