中文文本可讀性特徵選取與模型建立...

94
國立臺灣師範大學資訊教育研究所 碩士論文 指導教授:張國恩 博士 宋曜廷 博士 張道行 博士 中文文本可讀性特徵選取與模型建立 - 以華語為第二語言教材為例 Feature Selection and Model Construction for Classification of Chinese Text Readability: A Case Study of Teaching Materials for Chinese as Second Language 研究生:陳于佳 中華民國一○一年七月

Upload: others

Post on 24-Jun-2020

11 views

Category:

Documents


1 download

TRANSCRIPT

  • 國立臺灣師範大學資訊教育研究所

    碩士論文

    指導教授:張國恩 博士

    宋曜廷 博士

    張道行 博士

    中文文本可讀性特徵選取與模型建立

    - 以華語為第二語言教材為例 Feature Selection and Model Construction for Classification of

    Chinese Text Readability: A Case Study of Teaching Materials

    for Chinese as Second Language

    研究生:陳于佳 撰

    中華民國一○一年七月

  • i

    摘要

    中文文本可讀性特徵選取與模型建立 - 以華語為第二語言教材為例

    陳于佳

    由於全球學習華語熱潮的興起,學習華語的人數年年增加。不論是母語學習,

    或者是第二語言學習,閱讀在語言學習中都扮演了重要的角色。但如何選擇適當

    難易度的文本是在閱讀過程中常面臨到的問題。教師在教學時必須選擇符合學習

    者程度的教材,來提高華語文教學的效率。

    本研究以《新版實用視聽華語》、《遠東生活華語》、《新實用漢語課本》、《中

    文聽說讀寫》、《讀報學華語》、《實用商業會話》等六套常用華語教材為例,結合

    特徵選取方法與支援向量機建立預測模型預測文本 CEFR 等級,並探討不同特徵

    組合所造成結果的差異。

    實驗結果顯示,不需使用全部指標,只須採用較為重要的指標組合即可達到

    最佳預測正確率,約為 85.47%。期盼本研究所建立的可讀性算則不但可提供華

    語教師能更系統化、循序漸進的教學,學生也可透過此預測模型選擇符合自身程

    度的課文學習,減少摸索的時間,來達到有效提升學習成效的結果。

    關鍵字:可讀性、特徵選取、支援向量機

  • ii

    Abstract

    Feature Selection and Model Construction for Classification of Chinese Text

    Readability: A Case Study of Teaching Materials for Chinese as Second Language

    Yu-Chia Chen

    In recent years, the number of people in the world learning Chinese is growing

    rapidly. Reading plays an important role in language learning, but how to select

    reading text which is suitable for learners is one of problem in reading. Teachers have

    to choose reading materials at the right reading level for learners to improve efficiency.

    Readability assessment is a method to quantify reading difficulty for learners.

    In this study we combined support vector machine with feature selection

    methods to construct a model to predict the CEFR level of the six most popular

    Chinese teaching materials : Practical Audio-Visual Chinese, Far East everyday

    Chinese, New Practical Chinese Reader, Integrated Chinese, Learning Chinese with

    Newspaper, and Practical Business Conversation. We also compared the predicting

    performance by different combination of features.

    The experimental results have shown the effectiveness of the feature selection

    method. Choosing important features can reach the best performance, the accuracy is

    about 85.47%. We hope our study can promote more effective teaching and learning

    in Chinese learning.

    Keywords: Readability, Feature Selection, Support Vector Machine

  • iii

    誌謝 終於開始提筆寫誌謝詞,也代表兩年的研究生涯正式告一段落。原本覺得誌

    謝詞應該是論文中最為容易的章節,但真正要提筆寫時,才發現並不容易,因為

    要感謝的人,實在太多。回首在師大資教所的這兩年,承蒙許多人的幫助,也因

    為有這些人不斷的支持與鼓勵,我才能順利的完成論文。 本論文得以順利完成,首先要感謝的是在求學生涯中給予我許多研究上的幫

    助的老師們:要感謝我的指導教授張國恩老師、宋曜廷老師以及張道行老師,感

    謝張國恩老師雖然平時公務繁忙,但仍然很有耐心的指導我們並給予我們許多寶

    貴的建議;感謝宋曜廷老師在繁忙的行程中總是不厭其煩的指導與啟發,讓我的

    論文研究方向更為明確;感謝張道行老師總是細心的指導我的論文撰寫並給予許

    多細節上的建議。接著要感謝陳茹玲老師在論文撰寫階段時,給予我許多研究方

    向的提點,還有可讀性團隊的冠生、維駿、駿逸、宜憲等人在研究上的協助。接

    著感謝在華語教材分級上蔡雅薰老師、林振興老師、熊玉雯老師、陳方琲老師、

    徐東玲老師以及安璿的協助,謝謝老師們在百忙之中仍然抽空審視教材並參與討

    論,讓我的研究資料更完整。最後也要感謝我的口試委員侯惠澤老師在口試時的

    指正與建議,讓我的論文能更為完善。在此向以上的老師們致上最高的敬意。 接著要感謝 ITS 實驗室的好伙伴佳樺、佳琳、家慈,雖然第一次離開家到陌

    生的城市中生活,但因為有妳們的陪伴而不覺得自己孤單,在苦悶的研究生涯中

    一起分享許多喜怒哀樂的事,一起面對許多研究上的困難挫折並互相鼓勵,也一

    起出去吃喝玩樂玩遍台北,認識妳們也讓我的研究生活更為豐富,謝謝妳們!感

    謝實驗室的學長姐育琳、幀祥、宥尹、慧萱、舒嵐、夢珂、皓程、天瑋、姈蓉、

    張珈、豐岱,總是能在研究上互相幫忙並給予彼此許多意見,謝謝你們!。感謝

    實驗室貼心的學弟妹夢琚、鈺瑄、千榕、怡靜、姵萱、怡萱、其恩、士弘,時常

    協助我們許多事情,特別是口試的時候,有你們的幫忙總是覺得很安心,謝謝你

    們!感謝同屆的好同學們,一起修課完成許多報告、一起在研究上互相鼓勵、一

    起出去吃吃喝喝,謝謝你們!感謝我的室友富閔,一起在研究室度過許多寫論文

    的苦悶夜晚,遇到研究上的困難總是互相幫忙,遇到難過的事也總是互相加油打

    氣,在最重要的碩二階段,沒有妳的陪伴,就無法順利的完成論文。謝謝妳! 最後也是最為感謝的是我的家人,永遠是我最大的支柱,無論遇到開心或難

    過的事,總是第一個想與你們分享,你們也總是給我無條件的鼓勵與支持,一直

    是我求學中最大的動力。感謝你們的栽培與關懷,讓我能順利的完成碩士學位。 在資教所的這兩年有苦有樂,也成長許多,現在真正要離開了,僅將這篇誌

    謝獻給許多幫助過我的人們,謝謝。

    于佳 民國一百零一年七月於師大

  • iv

    目錄 附表目錄 .................................................................................................................... vi

    附圖目錄 .................................................................................................................. viii

    第一章 緒論 .............................................................................................................. 1

    第一節 研究背景與動機 ...................................................................................... 1

    第二節 研究目的 ................................................................................................. 5

    第二章 文獻探討 ...................................................................................................... 6

    第一節 華語為第二語言教材發展現況與能力指標 ........................................... 7

    第二節 可讀性 ................................................................................................... 12

    第三節 特徵選取 ............................................................................................... 19

    第四節 支援向量機 ........................................................................................... 23

    第三章 研究方法 .................................................................................................... 26

    第一節 中文文本可讀性指標分析系統 ............................................................. 28

    第二節 挑選影響第二語言習得之中文可讀性指標 ......................................... 30

    第三節 特徵選取方法 ........................................................................................ 35

    第四節 支援向量機的訓練與測試 .................................................................... 37

    第四章 實驗設計 .................................................................................................... 39

    第一節 實驗一 ................................................................................................... 40

    壹、 實驗資料 .................................................................................................. 40

    貳、 實驗流程 .................................................................................................. 42

    參、 實驗結果 .................................................................................................. 43

    第二節 實驗二 ................................................................................................... 45

    壹、 實驗資料與工具 ...................................................................................... 45

    貳、 實驗流程 .................................................................................................. 45

    參、 實驗結果 .................................................................................................. 47

  • v

    第三節 實驗三 ................................................................................................... 54

    壹、 實驗資料與工具 ...................................................................................... 54

    貳、 實驗流程 .................................................................................................. 54

    參、 實驗結果 .................................................................................................. 57

    第五章 結果與討論 ................................................................................................ 70

    第一節 SVM 與 GLM 預測結果之差異 ............................................................ 70

    第二節 Feature Selection 效果 ........................................................................... 70

    第三節 SVM 各等級預測嚴重錯誤分析 ........................................................... 71

    第四節 SVM 分類嚴重錯誤文章分析 ............................................................... 71

    第六章 結論與未來發展 ........................................................................................ 74

    第一節 結論 ....................................................................................................... 74

    第二節 未來發展 ............................................................................................... 76

    參考文獻 ................................................................................................................... 78

  • vi

    附表目錄

    表 2- 1 CEFR 能力指標............................................................................10

    表 2- 2 Dale-Chall 公式分數與級別對應表 .............................................14

    表 2- 3 L2 可讀性公式介紹 .....................................................................18

    表 2- 4 交叉表(觀察次數) ...................................................................21

    表 2- 5 交叉表(期望次數) ...................................................................22

    表 2- 6 支援向量機核心函數數學式 .......................................................24

    表 3- 1 本研究整理之中文可讀性指標 ...................................................34

    表 3- 2 CEFR * 高筆劃字元數 觀察次數交叉表範例 ...........................35

    表 3- 3 CEFR * 高筆劃字元數 期望次數交叉表範例 ...........................36

    表 4- 1 本研究採用教材列表 ...................................................................42

    表 4- 2 CEFR 各等級篇數及平均字數 ....................................................43

    表 4- 3 各冊教材 CEFR 分級結果 ...........................................................44

    表 4- 4 本研究採用之中文可讀性指標 ...................................................46

    表 4- 5 本研究採用特徵 Chi-square 值排序結果.....................................48

    表 4- 6 研究中隨機分配 5 個 fold 在各等級所包含篇數 ........................55

    表 4- 7 各 fold 在不同指標組合下 SVM 模型分級正確率 ......................58

    表 4- 8 各 fold 在不同指標組合下 GLM 模型分級正確率 .....................59

    表 4- 9 SVM 採用 9 個指標預測矩陣 ......................................................60

    表 4- 10 GLM 採用 9 個指標預測矩陣......................................................61

    表 4- 11 GLM 採用 8 個指標預測矩陣 ......................................................61

    表 4- 12 SVM 採用 8 個指標預測矩陣 ......................................................62

    表 4- 13 各 fold 在不同指標組合下 SVM 模型分等正確率 ......................63

    表 4- 14 各 fold 在不同指標組合下 GLM 模型分等正確率 .....................64

    表 4- 15 SVM 採用 7 個指標預測矩陣 ......................................................65

  • vii

    表 4- 16 GLM 採用 7 個指標預測矩陣......................................................65

    表 4- 17 GLM 採用 12 個指標預測矩陣 ....................................................66

    表 4- 18 SVM 採用 12 個指標預測矩陣 ....................................................66

    表 4- 19 各 fold 在不同指標組合下 SVM 模型嚴重錯誤率 ......................67

    表 4- 20 各 fold 在不同指標組合下 GLM 模型嚴重錯誤率 .....................68

    表 4- 21 不同指標組合下 SVM 各等級預測嚴重錯誤率 ..........................69

    表 4- 22 不同指標組合下 GLM 各等級預測嚴重錯誤率 ..........................69

    表 5- 1 SVM 分類嚴重錯誤課文 .............................................................72

    表 5- 2 春聯及燈謎課文範例 ...................................................................73

  • viii

    附圖目錄

    圖 2- 1 SVM 基本概念 .............................................................................. 23

    圖 3- 1 本研究架構圖 ............................................................................... 27

    圖 3- 2 文本可讀性指標自動化分析系統介面 ......................................... 28

    圖 4- 1 字數在各等級之特徵值分布結果 ................................................. 49

    圖 4- 2 詞數在各等級之特徵值分布結果 ................................................. 49

    圖 4- 3 副詞數在各等級之特徵值分布結果 ............................................. 49

    圖 4- 4 實詞數在各等級之特徵值分布結果 ............................................. 50

    圖 4- 5 詞頻平均在各等級之特徵值分布結果 ......................................... 50

    圖 4- 6 低筆畫字元數在各等級之特徵值分布結果 ................................. 50

    圖 4- 7 中筆畫字元數在各等級之特徵值分布結果 ................................. 51

    圖 4- 8 高筆畫字元數在各等級之特徵值分布結果 ................................. 51

    圖 4- 9 字元平均筆畫數在各等級之特徵值分布結果 ............................. 51

    圖 4- 10 二字詞數在各等級之特徵值分布結果 ......................................... 52

    圖 4- 11 三字詞數在各等級之特徵值分布結果 ......................................... 52

    圖 4- 12 句平均詞數在各等級之特徵值分布結果 ..................................... 52

    圖 4- 13 實詞功能詞比率在各等級之特徵值分布結果 ............................. 53

    圖 4- 14 單句數比率在各等級之特徵值分布結果 ..................................... 53

  • 1

    第一章 緒論

    第一節 研究背景與動機

    近年來全球興起學習華語的熱潮,華語文教學也逐漸受到廣泛地重視與討論,

    學習華語的人不再侷限於海內外華人,在歐、美、亞洲許多非華裔國家也漸漸將

    華語文納入學校課程之中。在全球學習華語文的人數年年以倍數增加的情況下

    (教育部統計,2010),也帶動了來台學習華語的人數,大專院校紛紛設立語言

    中心,來因應華語學習資源的大量需求,也因此更凸顯了華語文教學的重要性。

    不論是母語學習,或者是第二語言學習,閱讀在語言學習中都扮演著重要的

    角色。但如何能在閱讀過程中選擇適當難易度的文本閱讀是學習者常面臨到的問

    題。倘若教師在教學上所使用的教材過於淺顯,會導致學習者覺得乏味而缺乏學

    習動機;反之,若教材過於艱澀不易理解,則容易增加學習者的挫折感(宋佩貞,

    2009;江少敏,2009)。綜合以上所述我們可以知道,要提高華語文教學的效率,

    教師必須選擇符合學生程度的華語文教材,而教材分級可以解決這個問題。教材

    的分級可以給予不同等級的語言學習者不同的重點教學,也讓華語文教師可以透

    過分級標準來選擇適當的教材教學,增加學習者對文本的理解程度,以達到良好

    的學習成效(蔡雅薰,2009)。但目前國內外出版之華語文教材種類繁多,卻苦

    無一套完整的分級制度,讓學生及教師在選擇教科書的時候無所適從,也可能會

    有銜接困難的問題,因此如何建立臺灣華語文教材的分級制度格外重要。

    教材的分級首先要了解課文文本的難易程度,才能將教材分類到適當的級別,

    可讀性評估(Readability Assessment)是其中一種較常被使用的方法,可將學習

    者理解文本的程度量化(Feng, Jansche, Huenerfauth, & Elhadad, 2010)。可讀性的

    相關研究應用在教育、醫學、科學等領域中,在教育領域中更是廣泛的應用來協

    助分析教材的可讀性,做為教師選擇教材時的參考依據。國內外更有許多研究提

    出應用可讀性評估來做為分級教科書的標準,例如宋佩貞(2009)就利用了國外

    常用的可讀性公式來檢測臺灣國民小學英語教科書之難易度,並試圖建置一套符

  • 2

    合臺灣審訂標準的可讀性公式。

    而評估可讀性的方法可分為人工與自動化兩種方式,人工方式是透過專家進

    行教材落點,如國立臺灣師範大學國語教學中心與國家華語測驗推動工作委員會

    (2008)曾舉辦「歐洲共同語文參考架構與華語教材的對應」工作坊,透過熟悉

    CEFR 能力指標的教師檢視臺灣常用華語教材所屬之 CEFR 等級。然而文本數量

    龐大,透過專家分級文本必須花費更多的時間與人力。隨著自然語言處理技術的

    發展,文本分級已逐漸走向自動化,開始出現一些線上語料庫可分析文章詞頻,

    或是分析文章字數及句長等基本統計(Benjamin, 2012),臺灣目前也發展了線上

    自動分析文章可讀性指標系統,如宋曜廷、陳茹玲、李宜憲、查日龢、曾厚強、

    林維駿、張道行、張國恩(2012)就發展了文本可讀性自動化分析系統(Chinese

    Readability Index Explorer, CRIE),提供了自動斷詞與可讀性指標自動計算等功

    能,讓使用者可以透過此系統自動產生文本分析結果。

    上述大部分可讀性自動分析系統都是以特徵為本(Feature-based)方式設計。

    特徵為本的方式主要是從眾多文本特徵中找出影響文章可讀性的特徵做為指標,

    再建立數學模型來求得指標與文本難度之間的關係。雖然過去的研究中已提出許

    多影響文章可讀性的指標,但大部分都是採用以第一語言學習者為對象之指標。

    但是由於學習起點的不同,學習者在學習第二語言的過程中可能會因為環境、母

    語等因素影響到第二語言的習得(簡淑芬,2008),而導致與第一語言的學習難

    點有所差異。因此我們認為在建立以華語為第二語言的可讀性公式時,不能僅使

    用第一語言的指標,而必須將第二語言習得的因素也考慮進去。

    但影響文章可讀性的指標眾多,如何決定該採用哪些指標才能達到最佳預測

    結果,也是需考慮的問題之一。此時特徵選取(Feature Selection)可以解決這類

    問題。特徵選取方法可挑選出重要性較高的特徵或是過濾影響力較低的特徵,來

    降低分類維度,避免過度配適 (Over-Fitting)的問題。特徵選取的方法有許多,

    卡方統計量(χ2 statistics, CHI)為一種常用的特徵選取方法,Yang 與 Pedersen

    (1997) 的研究中比較了文件頻率(Document Frequency, DF)、資訊增益量

  • 3

    (Information Gain, IG)、交互資訊量(Mutual Information, MI)、卡方統計(χ2

    statistics, CHI)及詞彙強度(Term Strength, TS)等五種特徵選取方法分類文章效

    果,結果顯示卡方統計、文件頻率及資訊增益量的分類效果較佳;吳儼庭(2005)

    的研究中,使用了卡方統計與資訊增益這兩種特徵選取方法,評估各個變數對於

    尿路感染與院內感染的重要性,結果也顯示僅挑選重要的變數,可以增加預測效

    度。故本研究採用 Chi-square 卡方統計量方法,選取對 CEFR 等級影響力較大的

    指標來建立可讀性數學模型。

    在決定採用那些影響文章可讀性的指標並透過可讀性自動分析系統分析指

    標數值後,接著透過這些指標數值建立預測模型。而在建立模型方法部分,多數

    的研究都是發展一般線性模型(Generalized Linear Model, GLM),一般常見的可

    讀性公式如:Flesch Kincaid、Dale-Chall 等,都是透過線性方式建立公式來估算

    文本適讀年級值的方法。在建立線性模型時,主要是先透過分析文章特質,將可

    能影響文章可讀性的指標納入,以迴歸分析的方式,將文本難度量化成文本適合

    閱讀年級值。例如 Crossley, Greenfield, & McNamara(2008)的研究中,就透過

    了逐步迴歸方法,分別納入詞頻、語法相似度及實詞重疊率等三個與閱讀理解有

    關的指標,來預測文本克漏字分數,所產生的公式稱做 Coh-Metrix L2 reading

    index。

    近年來,許多研究顯示,相較於非線性預測模型的分類效果,線性模型的分

    類效果較不理想(Petersen & Ostendorf, 2009 ; Feng et al., 2010),也因此可讀性

    研究趨勢已經逐漸由線性朝向非線性發展。而在非線性建立模型方法中,許多研

    究採用支援向量機(Support Vector Machine, SVM)來分類文章可讀性,其主要

    概念是利用了超平面(hyperplane)將資料分類,經過訓練與測試後,便可建立

    出預測模型進行文章的分類。支援向量機具有小樣本學習的特性,不須使用大量

    的資料樣本即可計算(林宗勳,2006)。支援向量機目前也已被廣泛應用在文本

    分類、影像辨識等領域。例如 Schwarm 與 Ostendorf(2005)的研究就使用了支

    援向量機來進行文本可讀分類,結果顯示支援向量機比 Flesch-Kincaid 等傳統可

  • 4

    讀性公式的分類結果來得更好;Tanaka-Ishii、Tezuka、Terada(2010)也使用 SVM

    將文本分類,並與 Flesch–Kincaid、Dale–Chall 等傳統可讀性公式做比較,結果

    也顯示傳統可讀性公式的分類效果較差。

    基於以上的背景,本研究使用國內外以華語為第二語言(Chinese as Second

    Language, CSL)學習者常用的華語教材為例,整合了國內外文獻中所提出影響

    文章可讀性的語言特徵,篩選出符合中文特性、且與第二語言習得有關的特徵,

    經由 Chi-Square 特徵選取方法將各特徵對於等級影響力的重要程度做排序,並依

    序將特徵逐一納入建立支援向量機預測模型,同時也建立線性可讀性預測模型,

    以比較不同特徵組合以及與線性模型分類效果之差異。希望本研究所建立之可讀

    性預測模型能讓學習者或教師在選擇教材時能夠有所依循,找出適合本身程度的

    教科書,來達到更有效的學習。

  • 5

    第二節 研究目的

    本研究之目的共五項:

    一、找出符合中文特性並與華語為第二語言習得過程有關的可讀性指標

    二、透過 Chi-Square 特徵選取法排序各指標重要性

    三、建立可預測以華語為第二語言教材的可讀性分級模型

    四、比較不同特徵組合造成結果上的差異

    五、比較傳統線性方法和支援向量機在以華語為第二語言文本可讀性預測

    結果的差異

  • 6

    第二章 文獻探討

    本研究的相關文獻可分為三部分,第一節說明由於目前華語文教學熱潮的興

    起,帶動了以華語為第二語言(Chinese as Second Language, CSL)教材的出版,

    但目前已出版的華語教材繁多,卻沒有一套統一的分級制度來讓教師或學生在選

    擇教材時有所依循,由此也可看出華語教材分級的重要性。而能力指標是設計教

    材的基準,在第一節的最後也說明了目前可參考的外語能力指標。

    由於本研究是從可讀性的角度來探討教材的難易度,因此在第二節中回顧了

    可讀性的相關文獻,首先說明可讀性之定義及之前已發展的相關研究。在第二節

    的最後探討了以第一語言(First Language)為對象之可讀性研究與以第二語言

    (Second Language)為對象之可讀性研究有何差異,並介紹目前已發展之第二

    語言可讀性公式。

    一般可讀性的研究都是先找出影響文章可讀性的指標,但如何找出對年級影

    響力較大的指標是重點之一,此時特徵選取(Feature Selection)可以解決這類問

    題,因此在第三章中將介紹特徵選取方法以及本研究所採用的卡方特徵選取法。

    而可讀性目前的趨勢逐漸走向非線性方式建立模型,許多研究皆指出非線性

    比線性所得到的結果更佳,因此本研究使用非線性方式建立模型,並與線性模型

    預測結果做比較。至於所使用的分類器支援向量機(Support Vector Machine, SVM)

    及支援向量機應用於可讀性之相關研究將於第四節中介紹。

  • 7

    第一節 華語為第二語言教材發展現況與能力指標

    壹、 華語文教學發展與教材使用現況

    全球學習華語熱潮的興起,學習華語的人不再僅侷限於海內外華人,許多非

    華裔國家也漸漸將華語文納入學校課程之中。在學習華語文的人數逐漸提升之下,

    更凸顯了華語文教學的重要性。根據教育部統計處的統計(2010),外籍生留華

    人數已從民國 85 年的 5,431 人,增加到 100 年的 24,539 人。而在亞洲協會(Asia

    Society)及大學理事會(College Board)共同主辦的第一次全美中文會議報告中

    (Asia Society and The College Board, 2008),也提到了在美國 K-12 的學校中,

    提供中文課程的學校從 2004 年的 263 所,至 2007 年已成長到 779 所,顯示在海

    內外華語文的市場的潛力及需求,是不容小覷的。

    在華語文教學蓬勃發展的情況下,要提高華語文教學的效率,自然也不能輕

    忽了教材的重要性。江少敏(2009)也提到華語教材的質量對於教學成效有很大

    的影響,而在評估教材質量的參數中,教材難度是否合適是近年來學者所感興趣

    的研究問題。因為一套符合學生能力的教材能讓教師教學更事半功倍,也能讓學

    生能更有效率的學習。

    為了因應海內外學習華語的熱潮,臺灣目前已出版的華語文教科書種類眾多,

    海外也出版許多華語文教材,但是這些教材卻缺乏一套統一的分級制度,使得教

    師們在規劃教學大綱時會有所限制。許多學者在研究中也指出了這些問題,例如:

    陳燕秋(2000)的研究中分析了臺灣華語文教材的發展現況,其中也提到了目前

    最大的困難仍是分級模糊的問題;蔡雅薰(2009)的研究中也提到了目前臺灣的

    華語文教材主要是依照各語言中心所訂定的「課程級數」,來搭配其相對應的教

    材,而不是以「教材級數」,因此而導致教學及學習上有許多困難。至於華語文

    教材為何急需一套統一的分級標準之原因,將於後段詳述之。

  • 8

    貳、 華語文教材分級重要性

    第二語言教材在華語文教學中扮演著重要的角色,主要是能系統化地引導學

    習者學習聽、說、讀、寫等語文能力。在本質上,教材是教學和學習的資源,也

    是教師在教學過程中與學生溝通合作的媒介,和學生的學習成效也有相輔相成的

    效果,在教與學中都佔了極重要的地位。但如何能依據學生的能力選擇適當的教

    材,是教師在教學上時常遇到的問題,對學生來說,過度淺易的教材缺乏挑戰性,

    而過度艱深的教材又可能使得學生的學習事倍功半而萌生挫折感(宋佩貞,2009;

    江少敏,2009)。一般而言,適當難易度的教材可以提升學生的學習成效及興趣,

    李泉(2005)也認為一套難易、課文長短皆適中的教材能增加學生學習時的成就

    感,並產生進一步學習的欲望。

    在各國盛行華語文教學的情況下,市面上已出版的華語文教材種類眾多,但

    其分級標準仍不明確,許多學者指出,教材的分級對於教學及學習都有其重要性,

    孫德坤(1996)認為教材課文必須有一語言難度等級標準,來判斷這篇課文是適

    合零起點的學習者,或者是初學者,抑或是中等水平的學習者等,他認為必須從

    詞彙、語法、功能等方面來對教材難度進行界定,而要進行界定則必須有一個較

    科學、完備的依循標準;陳惠玲(1996)認為教材分級可以作為教師擬定教學目

    標以及編輯、採用現有教材的參考,也能讓學生選課有所依循而減少摸索的時間;

    詹秀嫻(2002)認為分級制度最大的意義就是能讓抽象的語言能力落實為具體的

    語言標準,由於學生在不同的學習階段學習時,其發展現象也可能不盡相同,因

    此制定一套教材分級標準不但可以把學習當成一個線性發展的軌道來看,還能釐

    清教材編寫者在分級教材時所依據的標準以及包含的能力指標,讓教師或學生在

    選擇教材時更明確而不會無所適從;蔡雅薰(2009)也指出,有效的華語文教材

    分級能提供不同等級的語言學習階段不同的教學,讓華語文教師能有效掌握各階

    段的學習重點來選擇適當的教材,並協助學習者依據分級來選擇課程學習。

    以上的研究都說明了教材分級的重要性,但從目前已出版的華語教材來看,

    許多以分級的華語教材主要是以初、中、高三等級來劃分,但教師或學習者無法

  • 9

    從教材的命名看出每套教材所區分的初、中、高級的定義是否相同,呂必松(1999)

    也認為即使兩本教材同樣的命名為「初級」教材,但不代表這兩本初級教材所涵

    蓋的內容及區分的標準是相同的。也因此我們必須透過將現有教材分級來解決此

    問題。

    由以上研究者所述皆可看出,目前以華語為第二語言教材的分級,仍有許多

    問題,為了讓教師與學生都能更系統化、循序漸進的教學與學習,建立一套以華

    語為第二語言教材的分級制度,實為刻不容緩之事。至於該用什麼能力指標作為

    分級華語教材的標準,在第三部分會詳細介紹目前可參考的外語能力指標。

    參、 華語文能力指標

    一、美國外語教學協會指標(ACTFL)

    美國外語教學協會(The American Council on the Teaching of Foreign

    Languages, ACTFL) 1986年發展出ACTFL 語言能力指標(Proficiency Guidelines)

    作為外語課程目標、教學設計及評量的重要依據。ACTFL 在 1987 年也針對中文

    發展了中文能力綱要(Chinese Proficiency Guidelines)。ACTFL 在聽、說、讀、

    寫四大類別中,各分為初級(novice)、中級(intermediate)、進階級(advanced)、

    優級(superior)四級,而在聽與讀的類別又多了傑出(distinguish)的等級。在

    這些類別中,初級與中級細分為低(low)、中(mid)、高(high)三個階層,進

    階級的部分是分為一般(advanced)與晉級(advanced plus)兩個階層(蔡雅薰,

    2009)。ACTFL 以美國外交學院(Foreign Service Institute, FSI)所訂出來的五個

    等級為基礎,詳細描述了語言學習者在聽說讀寫不同等級的各種溝通功能、詞彙

    正確運用等能力。

    二、歐洲共同語言參考架構 (Common European Framework of Reference, CEFR)

    歐洲理事會在 2001 年公布了「歐洲共同語言參考架構」,簡稱 CEFR(The

    Common European Framework of Reference for Languages : Learning, Teaching,

    Assessment),在歐洲各國不斷地被推廣及應用,目前國際上包含了歐盟會員國、

  • 10

    加拿大、日本、紐西蘭等四十餘國都以 CEFR 做為外語教學課程設計、教材編纂

    及評量工具的參考依據,也因此 CEFR 已經成為國際認定的語言能力參考標準之

    一,讓語言教師、教材編纂者、評量設計者都能有一套共同遵循的準則。

    CEFR 採三等六級的語言能力分級方式,首先分成 A、B、C 三個等級,分

    別為基礎、獨立、精熟使用者。接著在每等級中再細分兩個階層,共有 A1、

    A2、B1、B2、C1、C2 等六級,分別為入門級、基礎級、進階級、高階級、流

    利級和精通級。表 2-1 為 CEFR 六個等級的能力指標說明:

    表 2- 1 CEFR 能力指標

    程度 級數 說明

    Proficient

    User

    精熟使用者

    C2(精通級)

    Mastery

    能毫無困難且完全了解所聽與所讀到的訊息。能由不同的口頭或書面訊息作出

    摘要,重建要旨以作有條理的呈現。能自然、流利、精確地表達自我,甚至能

    在更複雜的情況下,精準分辨當中的細微差異

    C1(流利級)

    Effective

    Operational

    Proficiency

    能了解多智識領域且高難度的長篇文字,認識隱藏其中的深意。能流利隨意地

    自我表達而不會明顯地露出尋找措辭的樣子。針對社交、學術及專業的目的,

    能彈性地、有效地運用言語工具。能清楚的針對複雜的議題,創造出清晰、結

    構完整且詳盡的內容,顯示其有效掌控體裁、銜接、與連貫的技巧。

    Independent

    User

    獨立使用者

    B2(高階級)

    Vantage

    無論是具體及抽象主題的複雜內容,均能了解其重點,這也含括了個人專業領

    域的技術討論。能以某種流暢度且自然地與母語人士互動,且不會感到緊張。

    能針對大多數的主題創造出完整詳盡的內容,並能針對相關議題提出解釋,對

    各種觀點分析優劣。

    B1(進階級)

    Threshold

    針對一般職場、學校、休閒等場合,常遇到的熟悉事物時,在收到標準且清晰

    的訊息後,能了解其重點。在目標語言地區旅遊時,能應付大部分可能會出現

    的一般狀況。針對熟悉及個人感興趣之主題能製造簡單且相關的話題。能敘述

    經驗、事件、夢想、希望及志向,針對看法及計畫能簡短地給予理由及解釋。

    Basic User

    基礎使用者

    A2(基礎級)

    Way Stage

    能了解大部分與切身相關的句子及常用詞彙,例如非基本之個人及家族資訊、

    購物、當地地理環境、工作狀況等。針對熟悉、單純、例行性的任務能以簡單、

    直接地溝通方式交換訊息。能簡單地敘述個人背景,周遭環境及立即需求。

    A1(入門級)

    Breakthrough

    能了解並使用熟悉的日常表達方式,及使用非常簡單之詞彙以求滿足基礎需

    求。能介紹自己及他人並能針對個人背景資料,例如住在哪裡、認識何人以及

    擁有什麼事物等問題作出問答。能在對方語速緩慢、用詞清晰並提供協助的前

    提下作簡單的交流。

    資料來源:Common European Framework of Reference for Languages: learning, teaching, assessment:

    24

  • 11

    目前已公布的外語能力指標之中,以 CEFR 的發展最為完備,也受到最多國

    家所採納。在臺灣的華語文教育中,也有許多應用 CEFR 的研究案或著作,例

    如:2008 年國立臺灣師範大學所舉辦的「歐洲共同語文參考架構與華語教材的

    對應」工作坊;國家華語測驗推動工作委員會所開發的新版華語文能力測驗

    (Test of Proficiency–Huayu, TOP–Huayu,簡稱 TOP)也是依據 CEFR 來規

    劃進行;周中天與張莉萍在 2007 年所發表的《華語文能力分級指標之建立》一

    文中分別分析比較了中國大陸的《漢語水平等級標準與語法等級大綱》、美國外

    語教學協會指標(ACTFL guidelines)、加拿大語言基準(Canadian Language

    Benchmarks, CLB)、歐洲共同語言參考架構(CEFR)後,認為臺灣華語文能力

    分級若採用 CEFR 架構做為大綱,適度修改並融入漢字、詞彙及語法等指標後,

    有利於與國際華語教育做接軌;蔡雅薰(2009)《華語文教材分級原理研製》一

    書中也認為 CEFR 可做為臺灣華語文教材編寫的基礎架構,讓臺灣的華語文教

    材能走向國際。

    因此,基於以上背景,本研究採用了 CEFR 來做為教材分級的標準,將教材

    課文分別對應至 CEFR 各級別,建立以 CEFR 為效標之線性與非線性可讀性預

    測模型。

  • 12

    第二節 可讀性(Readability)

    壹、 可讀性概念

    可讀性是衡量一篇文章容易閱讀及理解程度的指標,是最常被用來估計文

    章難度的方法。可讀性的概念發展至今有許多不同定義,朗文語言教學及應用語

    言學辭典(Longman Dictionary of Language Teaching & Applied Linguistics)定義

    可讀性為書面材料容易被閱讀和理解的程度;Klare(1963)定義可讀性為作者

    的寫作風格容易被閱讀理解的程度;McLaughlin(1969)定義可讀性為人們對於

    某些閱讀材料的吸引力和理解的程度。

    可讀性的高低會影響學習者的閱讀理解,適當可讀性水平的文章可有效地避

    免學習者因為學習教材太簡單而認為無挑戰性,缺乏求知的動機;或是因閱讀困

    難而有挫折感(Chall & Conrad, 1991;宋佩貞,2009;江少敏,2009)。為了避

    免學習者在閱讀歷程中產生不必要的認知負荷,因此可讀性的評估有其重要性。

    貳、 先前可讀性研究發展情況

    可讀性發展情況可分為三部份說明:首先說明一開始發展的可讀性研究,大

    部分都是透過迴歸分析建立線性可讀性公式。接著由於自然語言處理技術的出現

    時,文本可讀性分類走向自動化,因此漸漸開始採用非線性方式建立預測模型。

    因此在第二部分說明採用非線性方式預測可讀性的相關研究。不論是採用線性或

    非線性建立模型,都必須先找出影響文章難度的因素來預測文本年級,起初所採

    用的指標較少且為表面特徵,但隨著技術的發展,指標也越來越多元,預測文本

    可讀性時如何挑選出最佳的指標組合,也是需考慮的問題之一,因此在第三部分

    中說明。

    一、線性可讀性公式發展

    起初可讀性的研究大多是採用一般線性模型(Generalized Linear Model, GLM)

    方式,納入影響文章難度的語言特徵,以迴歸分析的方式產生可讀性公式。楊孝

  • 13

    濚(1971)認為可讀性公式是一種利用科學統計方法,判斷文章對於某種水準的

    讀者可能理解的程度。而使用可讀性公式只能作為判斷教材之難易度的工具,並

    沒有辦法達到百分之百的準確率。

    英文的可讀性公式已經發展很長一段時間,並已廣泛的利用來分析文章之可

    讀性。早在 1920 年代就有教育學者發現使用詞彙難度和句子長度可以用來預測

    文章的難度,隨著測量方式的不同,可讀性公式也不斷地推陳出新,到了 1980

    年代,已經發展了約 200 個可讀性公式,所發表的研究也達到上千個(DuBay,

    2004)。相較於英文可讀性研究,中文的可讀性研究相對較少,且年代也都較為

    久遠。以下分別列舉較常見的英文與中文可讀性公式:

    (一) 英文可讀性公式

    1. Flesch Reading Ease(Flesch, 1948):所預測的分數為「閱讀舒適程度」,分

    數範圍在 0 至 100 之間,分數越高,表示越容易閱讀,公式如下:

    閱讀舒適程度 = 206.835 − 0.846 × 每百字平均音節數 − 1.015 ×

    每句平均字數

    2. Flesch-Kincaid Grade Level(Kincaid, Fishburne, Rogers, & Chissom, 1975):

    改編自 Flesch Reading Ease,是以美國學校的年級值來評估文章的可讀性分

    數,公式如下:

    年級值 = 0.39 × 每句平均字數 + 11.8每字平均音節數 − 15.59

    3. Dale-Chall(Dale & Chall, 1948):為最常使用於教育領域的公式,所採用

    的指標為難字比例與每句平均字數,難字比例指的是在 Dale-Chall 3000

    常用字表以外的詞彙比率,公式如下:

    難易度分數 = 0.1579 × 難字比例 + 0.0496 × 每句平均字數 +

    3.6365

    透過公式所計算出來的分數可透過級別對應表來對應至各級別,如表

    2-2。

  • 14

    表 2- 2 Dale-Chall 公式分數與級別對應表

    級別 4.9 以下 4 以下 5.0 至 5.9 5 至 6 6.0 至 6.9 7 至 8 7.0 至 7.9 9 至 10 8.0 至 8.9 11 至 12 9.0 至 9.9 13 至 15(大學) 10.0 以上 16 以上(大學畢業)

    (二) 中文可讀性公式

    1. 楊孝濚(1971):

    分析了 15 個包含詞彙、句子等方面的影響文章可讀性指標,以迴歸分析建立

    可讀性公式,公式如下:

    讀物難易程度 = 14.95961 + 39.0774 × 詞彙數+ 1.11506 × 句數 −

    2.48491 × 平均筆畫數

    2. 荊溪昱(1995):

    以年級和學期作為依變項,課文長度、平均句長及常用字比率做為自變項發展

    中文可讀性公式,分別如下:

    年級 = 17.52547988+ 0.00242523×課文長度+ 0.04414527 ×平均句長−

    18.33435443 ×常用字比率

    學期 = 34.53858379 + 0.00491625 × 課文長度+ 0.08996394 ×

    平均句長 − 36.73710603 × 常用字比率

    3. 宋曜廷等人(2012):

    分別以年級和學期作為依變數,並使用了 24 個影響文章可讀性的指標建立預

    測國中小教科書課文的可讀性公式,公式如下:

    年級 = −4.23 + 0.04 ×難詞數+ 1.91 ×實詞數取 log + 0.06 ×負向連接詞數

    −0.01 ×二字詞數+ 3.19 ×實詞總類數− 0.03 ×三字詞數+ 0.06 ×代名詞數

  • 15

    學期 = −9.56 + 0.08 ×難詞數+ 3.24 ×實詞數取 log + 0.15 ×負向連接詞數

    −0.002 ×二字詞數+ 4.69 ×實詞總類數比− 0.05 ×三字詞數+ 0.01 ×

    代名詞數

    二、非線性可讀性算則出現

    近年來許多研究結果顯示,非線性方式建立可讀性模型的預測準確率比起線

    性方式預測準確率來得更高,也因此可讀性研究的趨勢逐漸走向非線性方式,較

    熱門的建立模型方式為支援向量機(Support Vector Machine, SVM)。Schwarm 等

    人(2005)的研究採用了 SVM 來進行文本可讀分類,結果顯示 SVM 比起傳統

    的 Flesch-Kincaid formula 的分類結果來得更好,Tanaka-Ishii 等人(2010)也使

    用 SVM 將文本分類,並與 Flesch-Kincaid、Dale-Chall 等傳統可讀性公式做比較,

    結果也顯示傳統可讀性公式的分類效果較差。關於 SVM 的概念及相關研究將於

    第四章詳述。

    而採用線性與非線性模型各有其優缺點:線性模型較能清楚表達可讀性公式

    的內容以及各指標的權重,但當資料為非線性,或者不符合常態分配假設時效果

    會較差。非線性模型雖然可以更精準的分類文本,但必須要在不斷的嘗試錯誤下,

    才能找出最佳的數學模型,所花費的時間較長。因此要採用線性或者非線性模型,

    仍需考慮所採用的文章資料屬性及人力。在研究中,透過 SVM 建立非線性模型,

    為了與線性預測結果相比,透過逐步迴歸建立線性預測模型,來比較兩種預測模

    型之效果差異。

    三、指標發展更多元

    隨著可讀性技術的發展,指標數量也逐漸增加,由曼菲斯大學所提出的文本

    特徵分析器 Coh-Metrix,就已提出了約 60 個可讀性指標(Graesser, McNamara,

    Louwerse, & Cai, 2004; McNamara, Louwerse, McCarthy, & Graesser, 2010)。但要

    良好預測文章可讀性不僅要採用多種指標,還要考慮如何篩選出重要的指標,並

    找出好的指標組合,使用過多不重要的指標也會讓系統複雜度增加,同時也增加

    了分類時的計算時間,也可能因此而影響到分類正確率(李御璽、顏秀珍、楊乃

  • 16

    樺、廖晨涵、黃柏文、英家慶、賴郁菁,2007;楊燕珠、林莉雯,2008)。

    透過以上所述,因此我們在建立可讀性算則時,並不能一昧地將所有指標丟

    入,必須依照文章屬性,選擇出較為重要且具有區分文章年級能力的指標,才能

    提升預測正確率。因此我們必須進行特徵選取(Feature Selection)的動作,透過

    特徵選取,可以過濾掉無意義或區分能力低的指標,達到提升正確率的效果,特

    徵選取方法及計算方式將於第三章詳述。

    參、 以第二語言(Second Language, L2)學習者為對象之可讀性研究

    起初關於可讀性的研究及傳統可讀性公式大部分分析的文本都是第一語言

    學習者所使用的文本,並沒有針對第二語言學習者使用的文本做討論。然而第

    二語言學習者與母語學習者在學習語言的過程其實並不相同,也因此教材著重

    的部分也有差異。陳燕秋(2000)的研究中提到,第二語言學習者從學習母語

    的過程中,已經具備對一般事物的知識及常識,因此在學習新語言的時候,就

    可以透過過去的知識及經驗,延伸到新語言的技能中;舒兆民(2011)也提到,

    以華語為第二語言的學習者並沒有華語的基礎,因此會認為華語的每個字都像

    圖畫,也因此教師在教學時,必須採用不同於母語學習者的教學方式及步驟。

    以上研究都說明了由於學習歷程的不同,因此母語與第二語言教材間存在著差

    異性。

    由於母語與第二語言教材設計編排上的不同,因此傳統的可讀性公式是否

    能適用於第二語言學習者所使用的教材,也是需討論的問題之一。因此在後續

    的研究中,有學者就探討了使用傳統的可讀性公式來評估第二語言學習者文本

    的可讀性,是否也能有同樣的成效。在 Hamsik(1984)的研究中,檢測了 Flesch、

    Dale-Chall、Fry、Lorge 四個傳統可讀性公式在預測以英語為第二語言(English

    as Second Language, ESL)文本克漏字測驗的效度,結果顯示這四個傳統可讀性

    公式所預測的結果和克漏字測驗成績有顯著相關。Brown(1998)的研究中也

    比較了日本以英語為第二外語(English as Foreign Language, EFL) 大學生之克

  • 17

    漏字成績與 Flesch、Flesch-Kincaid、Fry Graph、Gunning、Fog 及 Gunning-Fog

    等六個傳統可讀性公式的相關性,結果顯示第一語言的文本特徵與第二語言文

    本的閱讀難度並不密切相關。Greenfield(1999)的研究中檢測了 Flesch Reading

    Ease、Flesch-Kincaid、Coleman-Liau、Dale-Chall 及 Bormuth 等傳統可讀性公

    式預測文章難度結果與日本 EFL 大學生之克漏字成績之相關性,結果顯示這些

    傳統可讀性公式與克漏字成績的相關性約有 0.691 至 0.861。

    以上的研究中,使用傳統可讀性公式來預測第二語言文本克漏字成績之結

    果皆不相同,由此現象也可看出,傳統可讀性公式所使用的文本特徵並不一定

    與影響第二語言習得的文本特徵相同,因而可能產生不同的結果,也時常有研

    究者批評傳統可讀性公式僅考慮第一語言學習特徵,並沒有將第二語言學習者

    的因素納入,例如 Carrel(1987)就認為傳統可讀性公式並沒有考慮到讀者的

    特性或是文章因素例如語法複雜度、修辭等,因此必須發展一個能評估第二語

    言文本可讀性的公式,才能確保所選用的第二語言文本符合第二語言學習者的

    能力;Brown(1998)的研究也同樣的認為由於讀者母語、教育程度等特性的

    不同,文章的可讀性可能也不同,傳統可讀性公式忽略了以讀者為基礎考量的

    指標,並沒有將以第二語言學習者為基礎的指標考慮在內。由此現象也可看出

    發展一套適用於第二語言學習者文本的可讀性公式的重要性。目前關於 L2 可

    讀性研究介紹如下:

    (一) Brown EFL Difficulty Estimate :

    Brown(1998)的研究中比較了克漏字成績與六個傳統可讀性公式的相關性。

    實驗結果相關係數並不高,因此 Brown 採用了每句音節數、克漏字詞彙頻率、

    超過 7 字母的詞數及功能詞比率為指標,發展出新的公式。詳細公式介紹於表

    2-3。

    (二) Miyazaki EFL Readability Index

    Greenfield(1999)的研究中,也是先比較了克漏字成績與傳統可讀性公式的相

    關性,再進一步檢測所有傳統可讀性公式所使用的變數後發現,僅用每字平均

  • 18

    字母數及每句字數預測克漏字分數的效果最佳,因此使用這兩個指標發展公式。

    詳細公式介紹於表 2-3。

    (三) Recalculated Brown EFL Difficulty Estimate

    Greenfield(2004)的研究中,使用 Bormuth 語料庫中的文本,以及 Brown EFL

    Difficulty Estimate 公式中的四個變數重新計算迴歸公式。結果也顯示調整後的

    Brown EFL Difficulty Estimate 公式效果較佳。詳細公式介紹於表 2-3。

    (四) Coh-Metrix L2 reading index

    Crossley 等人(2008)的研究中考慮了與閱讀理解歷程有關的三個指標,分別

    為詞頻、語法相似度及實詞重疊率來預測克漏字分數,並與傳統可讀性公式做

    比較,結果顯著較佳。詳細公式介紹於表 2-3。

    表 2- 3 L2 可讀性公式介紹 公式名稱 計算公式 採用指標

    Brown EFL Difficulty Estimate

    EFLDif iculty = 38.7469 + (. 7823 × Syllablesper Sentence) + (− 126.1770 × PassageFrequency) +(1.2878 × %LongWords) + (0.7596 ×%FunctionWords)

    每句音節數 克漏字詞彙頻率 長詞比率 功能詞比率

    Miyazaki EFL Readability

    Index

    EFLDif iculty = 164.935– (18.792 × Lettersper Word)–(1.916 × WordsperSentence)

    每字平均字母數 每句字數

    Recalculated Brown EFL Difficulty Estimate

    = 33.232 + (– .249 × )+ (12.834 × ) +(– 48.665 × %LongWords) + (– 65.650 × % )

    每句音節數 克漏字詞彙頻率 長詞比率 功能詞比率

    Coh-Metrix L2 reading

    index

    Predictedcloze=-45.032+(52.230×ContentWord OverlapValue)+(61.306×SentenceSyntaxSimilarity Value)+(22.205×CELEXFrequencyValue)

    實詞重疊率 語法相似度 詞頻

  • 19

    第三節 特徵選取(Feature Selection)

    將文章進行可讀性分類時,首先進行的動作是將須採用的文本可讀性指標輸

    入預測模型,透過自然語言處理技術的發展,使得文本的處理能更自動化,並且

    也可納入更多指標來進行預測。但在選取指標進行預測的過程中,如果所選取的

    指標包含區分能力較低、且較不重要的指標進行預測,會提高分類所需的時間及

    增加系統複雜度,甚至會降低預測正確率,Ng, Goh, & Low(1997)的研究結果

    也說明了使用的特徵到達一定的數量後,便無法再提升預測正確率,甚至還會因

    為特徵中包含了雜訊而使得分類正確率下降。此時特徵選取(Feature Selection)

    就可以解決這類問題。特徵選取主要的目的是從特徵中挑選具關鍵影響力且足以

    代表該類別必要資訊的特徵,確定哪一些特徵擁有較佳的區分能力,除去雜訊或

    是可能影響結果的特徵,以期獲得更佳的預測正確率,並可藉此節省計算時所需

    花費的時間。

    特徵選取依照其運作方式的不同,可分為包裝式(Wrapper)與過濾式(Filter)

    兩種類型,包裝式特徵選取方法是透過演算法評估正確率來找出最佳特徵組合,

    常見的方法有:粒子族群最佳化演算法(Particle swarm optimization, PSO)、基

    因演算法(Genetic Algorithm, GA)等。而過濾式特徵選取方法主要是計算資料

    集中單一特徵的權重值,從特徵集合 D 中挑選出權重值較高特徵組合成子集合 d

    進行預測,常見的方法有卡方統計量( statistics, CHI)、資訊增益(Information

    Gain, IG)等。採用包裝式特徵選取方法篩選特徵雖然可以獲得較佳的結果,但

    因為其計算量大,因此必須耗費極高的計算成本,而過濾式特徵選取方法具有計

    算速度更快,也較容易實作的特性,可以處理較多的資料(Liu & Motoda,1998;

    Guajardo, Miranda, & Weber, 2005)。也因此在研究中所使用的方法為過濾式特徵

    選取法。

  • 20

    在過濾式特徵選取方法中,常見的方法如以下(Yang & Pedersen, 1997):

    一、文件頻率(Document Frequency, DF):

    文件頻率計算了特徵在所有的文件中出現的頻率。這種方法假設了一些 DF 值較

    低的特徵值可能較不具資訊,影響力也不大,對於預測及分類上並沒有很大的貢

    獻,因此會將 DF 值低於門檻值的特徵過濾掉。

    二、資訊增益(Information Gain, IG):

    在機器學習上已被廣泛地使用。資訊增益量根據特徵在各類別中出現與否的機率,

    計算該特徵對於分類所能提供的資訊量,計算出的資訊量也代表該特徵的重要

    性。

    三、卡方統計量( statistics, CHI):

    卡方統計用來檢測變數與類別之間的獨立程度,卡方統計值越高,表示變數與類

    別間相關性越高,反之則越低。

    四、交互資訊(Mutual Information, MI):

    計算兩個詞彙之間的相關程度,如果 MI 值越大,代表共同出現的機率越高,反

    之則越低。

    五、詞彙強度(Term Strength, TS):

    從訓練集合當中找出相似度(cosine 值)超過門檻的文件,再以條件機率公式測

    量每詞彙在兩個相關文件中的資訊量。

    由於近年來,卡方統計被廣泛地應用做為分類模型時選取重要特徵的方法,

    Yang 等人(1997)的研究中比較了文件頻率、資訊增益量、交互資訊量、卡方

    統計及詞彙強度等五種特徵選取方法分類路透社語料庫文章之效果,結果顯示卡

    方統計、文件頻率及資訊增益量的分類效果較佳;吳儼庭(2005)也用了卡方統

    計與資訊增益這兩種方法來評估各個變數對於尿路感染與院內感染的重要性,透

    過人工的方式來減少或增加變數,來訓練網路,找出最適合的變數組合;蔡佾翰

    (2011)也使用卡方統計挑選出最能分辨訓練資料可讀性類別的詞彙,來建立

  • 21

    SVM 數學模型;李俊宏(2012)的研究中使用 SVM 來分類商品評論文件,也透

    過了卡方統計方法來減少特徵詞的數量。由於以上的研究都獲得不錯的效果,因

    此本研究使用卡方統計做為特徵選取的方法,找出對於 CEFR 等級影響力較大的

    指標來建立數學模型。

    卡方統計量是基於統計理論發展而成,其虛無假設為兩個變項是獨立的,主

    要透過交叉表檢測特徵與類別之間的獨立程度。卡方統計量的計算公式如公式 1

    所示。卡方值χ 主要是透過觀察次數與期望次數的計算,當觀察次數與期望次

    數差異越大時,卡方值落在拒絕域的機率也越高,則接受虛無假設機率越小,反

    之則越大。因此卡方值越高,表示特徵與類別之間越不獨立,也就是相關性越高

    的意思,反之則相關性越低。:

    = ∑ ( − )2

    (1)

    如公式 1 所示,卡方統計是透過觀察次數與期望次數之計算,O 指的是實驗

    中所得到的觀察次數,觀察次數如表 2-4 所示;E 指的是根據虛無假設推論出的

    次數,稱為期望次數,期望次數如表 2-5 所示。

    表 2- 4 交叉表(觀察次數)

    類別 c 總計

    是 否

    特徵 t 是 A B A + B 否 C D C + D

    總計 A + C B + D N

  • 22

    表 2- 5 交叉表(期望次數)

    類別 c 總計

    是 否

    特徵 t 是 (A + C) × (A + B)

    (B + D) × (A + B) A + B

    否 (A + C) × (C + D) (B + D) × (C + D)

    C + D

    總計 A + C B + D N

    將表 2-4 的觀察次數以及表 2-5 的期望次數代入公式 2 後,可以得到計算數

    學式如以下:

    ( , ) = ×( )( )×( )×( )×( ) (2)

    其中 t 指的是特徵,c 指的是類別,

    A 指的是特徵 t 在類別 c 中出現的文件數

    B 指的是特徵 t 在類別 c 以外的類別中出現的文件數

    C 指的是類別 c 中特徵 t 沒有出現的文件數

    D 指的是類別 c 以外的類別中,特徵 t 沒有出現的文件數

    N 指的是整個資料集中所有文件數

  • 23

    第四節 支援向量機 (Support Vector Machine)

    壹、 支援向量機概念

    支援向量機是Vapnik於1995年所提出的一種監督式學習(Supervised learning)

    的方法,廣泛的應用於分類以及迴歸分析中。支援向量機是以統計學習理論

    (Statistical Learning Theory)為基礎發展出來的機器學習方法。使用支援向量機

    處理分類及預測方面的問題都有不錯的效果,在解決小樣本、非線性及高維模式

    識別問題中表現出許多特有的優勢(林宗勳,2006),也被廣泛地應用在各個領

    域,例如:影像辨識、人臉偵測、文件分類等。

    支援向量機的基本概念是在訓練資料(x)所構成的空間中,找出一個超平

    面(Hyperplane),來區分兩種或多種不同類別的資料,並希望這個超平面與兩個

    類別的距離越大越好,才能更精確的判斷是屬於哪個集合。如圖 2-1 所示,藍色

    矩形為第一個類別(標記為+1),紅色圓形為第二個類別(標記為-1),SVM 要找

    出的超平面為 x+b=0,此超平面能讓兩個類別之間的距離達到最大,找出最能區

    別兩類資料的超平面後,便可利用此超平面來分類測試資料。

    圖 2- 1 SVM 基本概念(石琢暐,2011)

  • 24

    使用支援向量機時,可選擇不同的核心函數(Kernel Function)將資料映射

    到不同的高維空間,而預測結果也會因為核心函數的不同而有所差異。常見的有

    線性核心函數(Linear)、多項式核心函數(Polynomial)、輻狀基底函數(Radial

    Basis Function, RBF)和 S 型函數(Sigmoid)等四種。核心函數詳細數學式介紹

    如表 2-6:

    表 2- 6 支援向量機核心函數數學式

    核心函數 數學式

    線性(Linear) K , =

    多項式(Polynomial) K , = + , > 0

    輻狀基底函數(Radial Basis Function) K , = − − , > 0

    S 型(Sigmoid) K , = tanh +

    在這四種核心函數中,其中以輻狀基底函數使用較為廣泛,又因為輻狀基底

    函數具有可處理高維及非線性資料、須調整的參數較少,操作較容易,預測能力

    也較佳、以及可減少計算時間等特性(Hsu, Chang, & Lin, 2003),因此本研究選

    擇了輻狀基底函數作為支援向量機的核心函數。

    不同的 SVM 核心函數所需調整的參數及參數數量都不同,使用者必須依據

    其選擇的核心函數來調整對應的參數,而參數選擇的適當與否也會影響到預測準

    確率的高低,也因此參數的設定對於建立預測模型十分重要。然而在參數的選擇

    上並沒有一定的標準,使用者通常採用試誤法(trial and error)調整參數。

    基於以上所述,在本研究中採用了輻狀基底函數作為 SVM 的核心函數,並

    且透過試誤法嘗試不同參數,來找出能獲得最佳預測效果的參數。

  • 25

    貳、 支援向量機於可讀性之應用

    由於近年來許多研究發現,採用非線性方式預測文章可讀性可以獲得比線性

    方式更好的效果,也因此可讀性研究的趨勢逐漸由線性走向非線性方式,而目前

    較常用的非線性方式則是使用支援向量機來進行文本可讀性的分類。擷取已定義

    好年級的文本特徵值後,丟入支援向量機模型中訓練,產生訓練模型後,便可透

    過此模型來預測其他文本所屬的年級值,其預測準確率會比線性建模方式來得更

    高,因此支援向量機被廣泛地使用在文本分類領域。

    Schwarm 等人(2005)的研究中就使用了 SVM 來進行文本的分類,研究結

    果也顯示 SVM 比起 Flesch-Kincaid formula 等傳統可讀性公式的分類結果來得更

    好;Feng 等人(2010)的研究中使用了邏輯斯回歸與 SVM 將文本分類至國小年

    級,結果顯示 SVM 獲得的準確率較佳;蔡佾翰(2011)也使用了 TF-IDF 和 SVM

    來評量國小各科文章的可讀性,結果顯示僅納入傳統公式使用的三個特徵值的效

    果,會比此三個特徵值加上 TF-IDF 的效果來的更好。

    基於以上所述,本研究採用支援向量機作為建模方式,從文獻回顧中找出符

    合中文特性、且與第二語言習得有關的指標,透過特徵選取方法找出重要程度較

    高的指標納入支援向量機訓練模型建立華語為第二語言可讀性公式。

  • 26

    第三章 研究方法

    圖 3-1 說明本研究的實施流程,共分為三階段,並針對每個階段詳細描述。

    第一階段為專家分級階段,由於所選用的教材皆沒有一個統一分級來定義該

    教材級別,因此在研究中先請教授華語文經驗豐富的老師針對所選用教材文本進

    行討論,定義出教材所屬的級別。另外也考慮到即使是同冊教材中,每篇課文也

    可能會有難度不一的情況,因此在專家分級階段,是以「課文篇數」為單位將文

    本逐篇分級,而不是以「冊別」為單位。

    專家分級階段歷時一個半月,每週與華語教師進行會議一次,在每週開會討

    論前,先請每位老師閱讀教材後定義教材課文所屬之級別,接著統計每篇課文每

    位老師所定義的級別是否有所差異,並在開會時做討論,假設該篇課文大多數的

    老師都將其歸類在同一級別,則將該篇課文歸類在該級別;若老師們的意見不一

    致或差距較大時,再針對該篇課文做討論,討論時每位老師會說明自己將課文歸

    類在某一級別的原因,並聽取其他老師的意見做適當的調整以達到共識,最後以

    每位老師都同意的等級作為分級結果。

    在第二階段,首先透過文獻分析法,從宋曜廷等人(2012)所開發的中文可

    讀性指標分析系統(Chinese Readability Index Explorer, CRIE)所提供的可讀性

    指標中挑選符合中文特性,並且與華語為第二語言有關的可讀性指標,並透過

    CRIE 擷取文章特徵並依其影響力大小做排序。在第一節中將介紹所使用的 CRIE

    系統,系統內提供了詞彙、句法等可讀性指標,在第二節中將會說明挑選符合研

    究需要指標的過程。而透過 CRIE 系統擷取出每篇文本特徵值後,接著透過卡方

    特徵選取方法,將每個特徵依其 Chi-square 值大小作排序,Chi-square 值越大,

    表示該指標對於 CEFR 級別的影響力越大。特徵選取過程會在第三節中做說明,

    而透過特徵選取方法所產生的指標重要性排序結果將提供第三階段訓練模型時

    使用。

  • 27

    第三階段是支援向量機的測試與訓練,首先將資料分為訓練資料(80%)與

    測試資料(20%),透過 80%的教材課文訓練模型,其餘的 20%教材課文則用來

    測試模型的效能。在訓練模型階段,透過第二階段所產生的指標重要性排序結果,

    將指標依序納入支援向量機模型中進行訓練,並透過試誤法調整參數,觀察比較

    其預測結果,並找出最佳指標組合。詳細的訓練與測試過程將於第四節中說明。

    圖 3- 1 本研究架構圖

  • 28

    第一節 中文文本可讀性指標分析系統

    本研究使用了宋曜廷等人(2012)所開發的文本可讀性指標自動化分析系統

    (Chinese Readability Index Explorer, CRIE)來分析各文本特徵值,系統介面如圖

    3-2 所示。

    圖 3- 2 文本可讀性指標自動化分析系統介面

    此文本可讀性指標自動化分析系統操作步驟如下:

    1. 勾選所欲分析之指標:

    進入系統後,會列出目前已發展之指標,共分為文章基本描述、詞彙類

    指標、句法類指標、語意類指標、文章凝聚性指標、其他指標等六類,

    使用者可從這六類指標中勾選所需分析之指標。

    2. 輸入欲分析文章:

    使用者可選擇單篇課文分析或是多重檔案分析,單篇課文分析是直接將

    欲分析課文貼入文字欄位中,多重檔案分析則是先將 txt 格式的文章電

    子檔壓縮成 zip 格式後批次載入系統中。輸入文章後選擇文章來源是教

  • 29

    科書、報章雜誌、期刊論文、網路文章或其他。選擇完畢後即可進行分

    析。

    3. 產生該篇文本特徵值:

    分析完畢後,使用者可選擇存成 excel 檔案或是在新視窗中顯示,即可

    獲得文章特徵值。

    目前 CRIE 系統所開發的指標大致上可分為詞彙類、句法類、語意類、文章

    凝聚性等類型,本研究從已發展的指標中挑選出符合研究需求的指標,將在第二

    節說明所挑選的 14 個指標以及先前文獻中對指標的描述。

  • 30

    第二節 挑選影響第二語言習得之中文可讀性指標

    英文的可讀性研究已經發展很長一段時間,中文的可讀性研究相對稀少。而

    英文屬於拼音文字,與中文漢字的組成結構不同,即使拼音文字系統的可讀性研

    究已經有多年成果,但也因為這兩種文字系統的語言特性差異,也使得英文的可

    讀性算則對於中文並不適用。楊孝濚(1971)也提到,要設計中文可讀性公式,

    必須要先研究中文的特質,也因此我們必須挑選出符合中文特性的因素作為指標,

    並排除拼音文字相關因素。

    過去的可讀性研究所提出的指標大多是針對第一語言學習者,但學習者在學

    習第二語言的過程中可能會因為環境、母語、認知等因素影響到第二語言的習得,

    簡淑芬(2008)提到了以華語為第二語言的學習者容易因為母語的負遷移而產生

    學習偏誤,學生會依據其母語習得的策略來做為學習華語的策略,因此而可能產

    生負面的干擾。也因此第一語言和第二語言學習時可能會產生不同的學習難點,

    我們必須將影響第二語言習得的可讀性指標也納入考慮;Brown(1998)也提到,

    目前已經發展許多針對第一語言的可讀性指標,卻很少有針對第二語言學習者的

    指標出現。

    基於以上的因素,在研究中透過文獻分析法,整理過去文獻中所提出的指標,

    並從中篩選出符合中文特性、且與第二語言習得有關的可讀性指標,做為建立可

    讀性公式的指標,文獻整理如下:

    (一) 詞彙因素

    1. 篇長:

    一般來說,一篇文章的篇幅越長,對學習者來說就越難閱讀,郭望皓(2009)

    的研究也認為篇長能夠預測文本難度。篇長越長,文本難度越大,反之則越小,

    而篇長反映著一篇文章的字數及詞數,因此在研究中依據篇長概念發展了「字

    數」及「詞數」兩個指標。

  • 31

    2. 二字詞及三字詞:

    楊孝濚(1971)認為二字詞與三字詞是由單一個字所組成,會失去本身單

    字的意義,所表達的意思會與原意有別,因此在研究中將「二字詞數」與「三

    字詞數」皆列為影響可讀性的指標。

    3. 長詞(超過七字母的詞)比率:

    Brown(1998)、Greenfield(2004)的研究中使用了長詞(超過七字母的

    詞)比率作為第二語言可讀性公式的指標之一。但字母長度僅限用於拼音文字,

    並不適用於中文,因此此指標並未納入考慮。

    4. 每字平均字母數:

    Greenfield(1999)的研究中使用了每字平均字母數作為第二語言可讀性

    公式的指標之一,但字母數僅限用於拼音文字,也不適用於中文,因此未納入

    考慮。

    5. 詞頻:

    詞頻指的是詞彙在教材等書面材料出現的次數(江新,2005),由於較常

    用的詞彙,學生使用的頻率高,因此有助於記憶與理解;而不常用的詞彙由於

    使用頻率低,因此較容易被遺忘。江新(2006)的研究結果顯示了漢字頻率對

    於非漢字圈學生的學習是有影響的,頻率越高,學習效果越好。張金橋(2008)

    的研究結果顯示留學生在識別漢字時,存在詞頻效應,詞頻高比詞頻低的單字

    詞識別速度較快。Crossley 等人(2008)的研究中也使用了詞頻作為第二語言

    可讀性公式的指標之一。

    上述的研究都提到了學習者在學習時,會受到詞頻效應的影響。在江新

    (2005)的研究中提到,詞頻對於第二語言學習者而言,包含兩種不同的意涵,

    第一種為母語者詞頻,又稱為一般詞頻,表示該詞彙出現在成人母語者書面材

    料中的頻率;第二種稱為學習者詞頻,又稱為教材詞頻,表示詞彙在第二語言

    學習者已學過的教材中出現的頻率,也就是詞的重現率,或稱為複現率。但母

    語者所用的教材中詞彙出現的頻率與第二語言學習者的教材中詞彙出現的頻

  • 32

    率並不一定相同,因此如要研究第二語言學習者在學習詞彙時所受到的詞頻效

    應,應該採用學習者詞頻。柳燕梅(2002)的研究結果中也指出,外國學生在

    學習華語時存在詞頻效應,詞彙的重現率越高,越能增加學生對該詞彙的熟悉

    程度。因此在研究中即透過學習者詞頻的概念,使用了「詞頻平均」做為可讀

    性指標之一。

    6. 筆畫數:

    漢字由筆畫組成,筆畫也是構成漢字的最小單位。許多漢字認知心理研究

    都指出,對於母語為拼音文字的外國學生來說,識別漢字為學習中文的一大難

    點。艾偉(1949)在《漢字問題》中也發現筆畫數少的漢字比筆畫數多的漢字

    來得容易識別;張金橋(2008)的研究結果顯示留學生在識別漢字時,存在筆

    畫數效應,筆畫數多的單字詞比筆畫數少的單字詞識別速度慢、正確率也較低。

    因此在研究中,將筆畫數做為影響文章可讀性的指標之一,並根據筆畫數概念

    使用了「低筆畫字元數」、「中筆畫字元數」「高筆畫字元數」「字元平均筆畫數」

    等四個指標建立算則。

    7. 副詞數:

    徐峰(2008)的研究中指出,副詞的學習對於第二語言學習者來說有許多

    難點,特別是詞頻較高的副詞,用法較複雜多變,是外國學生學習最困難的地

    方。因此在研究中使用了「副詞數」作為指標之一。

    (二) 句法因素

    1. 平均句長:

    句子的長度常是造成學生閱讀困難的主要原因,較長的句子可能包含多個

    子句而使得閱讀難度增加。陳世敏(1976)的研究中也認為句子的長短是影

    響中文可讀性的最重要因素之一;張寧志(2000)也用了平均句長作為標準

    來分析對外漢語教材難度;郭望皓(2009)的研究也認為平均句長能夠預測

    文本難度,平均句長越長,文本難度越大,反之則越小;Greenfield(1999)

    的研究中也使用了每句字數作為第二語言可讀性公式的指標之一,每個句子

  • 33

    的長短也和句子的字數多寡有關,因此根據以上所述,將「句平均詞數」指

    標納入考慮。

    2. 每句音節數:

    Brown(1998)、Greenfield(2004)的研究中使用了每句音節數作為第二

    語言可讀性公式的指標之一。每句音節數也反映著句子的長短,但由於音節數

    是拼音文字的語言特徵,中文每個字皆為單音節,因此此指標並不適用於中文,

    未納入考慮。

    3. 實詞與功能詞:

    詞可分為實詞與功能詞兩類,實詞指的是具有實在詞彙意義的詞,如名詞、

    動詞、形容詞等,功能詞則是不具有實在意義,主要是表達語氣或感情的詞彙,

    如介詞、連接詞等。而在華語教學中,功能詞一直是學生的學習難點之一,每

    個功能詞的用法都很不一樣,徐峰(2008)就認為在華語為第二語言教學中,

    功能詞較難以把握和應用,為學習難點之一。郭望皓(2009)的研究也認為實

    詞與功能詞的數量能夠預測文本難度。文本中實詞與功能詞的比例越大,文本

    難度越大,反之則越小。Brown(1998)、Greenfield(2004)的研究中也使用

    了功能詞比率作為第二語言可讀性公式的指標之一。因此在研究中依據此概念

    使用了「實詞與功能詞比率」及「實詞數」作為指標之一。

    4. 單句與複句:

    句子有單句及複句之分,單句包含一個單純完整的詞句,而複句是由二

    或三個以上單句構成,複句使用率比單句來得更高,意義也較廣,因此單句

    數較多的文章通常對學生來說較為簡單。江少敏(2008)的研究中提到,華

    語的單句是最簡單易懂的句子;崔岑岑(2008)的研究也認為,華語的複句

    比單句在邏輯語義、結構層次都複雜很多,外國學生在學習華語複句時時常

    出錯。因此本研究依據此概念,使用了「單句數比率」作為指標之一。

  • 34

    透過以上文獻所述,排除不適用於中文的可讀性指標後,整理出 14 個符合

    中文特性,並且對以華語為第二語言的習得過程有影響的指標,指標列表如表

    3-1。

    表 3- 1 本研究整理之中文可讀性指標

    指標名稱 研究者

    字數 郭望皓(2009)

    詞數 郭望皓(2009)

    二字詞數 楊孝濚(1971)

    三字詞數 楊孝濚(1971)

    詞頻平均 柳燕梅(2002)、江新(2005、2006)、張金橋(2008)、Crossley et al.,(2008)

    低筆畫字元數 艾偉(1949)、張金橋(2008)

    中筆畫字元數 艾偉(1949)、張金橋(2008)

    高筆畫字元數 艾偉(1949)、張金橋(2008)

    字元平均筆畫數 艾偉(1949)、張金橋(2008)

    副詞數 徐峰(2008)

    句平均詞數 陳世敏(1976)、張寧志(2000)、郭望皓(2009)、Greenfield(1999)

    實詞功能詞比率 徐峰(2008)、郭望皓(2009)、Brown(1998)、Greenfield(2004)

    實詞數 徐峰(2008)、郭望皓(2009)

    單句數比率 江少敏(2008)、崔岑岑(2008)

    挑選完所需指標後,接著依據第一節中所描述的三個操作步驟,首先我們先

    勾選 14 個可讀性指標,接著將研究中所採用的教材文本電子檔壓縮成 zip 格式

    後批次輸入 CRIE 中,分析所有課文的 14 個指標特徵值。

    雖然本研究所採用的指標在前述所提到的文獻中都說明了對於華語為第二

    語言的習得過程的影響力,但我們仍然不知道各指標對於 CEFR 級別影響程度的

    多寡,因此我們在第三節中使用了特徵選取方法,來比較這些指標對於第二語言

    習得過程的影響力。

  • 35

    第三節 特徵選取方法

    在特徵選取階段,本研究所使用的特徵選取方法為卡方統計量(χ2 statistics,

    CHI)。在第二章文獻探討第三節中也說明了卡方統計量的計算公式,以公式 1

    為例:

    ( , ) =( − )

    在計算每個特徵的卡方值時,先透過統計軟體建立該特徵與等級之間的交叉

    表,範例說明如表 3-2 及表 3-3 所示,以 CEFR A1 級為例,高筆畫字元數為 0 的

    資料筆數在 A1 級中有 34 筆,高筆畫字元數為 1 的在 A1 級中有 5 筆,以此類推。

    而實際觀察次數不只 5 次,但受限於篇幅問題,在此僅列出觀察次數 0 至 5 次的

    結果。建立類別與特徵之間的觀察次數交叉表後,接著是計算期望次數,期望次

    數的計算方式在第二章表 2-6 中有做說明,主要是該縱列的總和乘上該橫列的總

    和再除以所有筆數,以 CEFR A1 值觀察次數 0 為例,期望值為觀察次數 0 的筆

    數總和 99 乘上 CEFR A1 級的資料筆數總和 43 筆,再除以所有資料筆數 315 筆,

    因此可得到期望次數為 13.51,其餘的期望次數以此類推。觀察次數與期望次數

    計算完畢後,便可將觀察次數及期望次數的值代入,加總之後即為該特徵對於該

    類別之卡方值。

    表 3- 2 CEFR * 高筆劃字元數 觀察次數交叉表範例

    觀察次數 總和

    0 1 2 3 4 5

    CEFR

    A1 34 5 3 0 1 0 43 A2 49 31 18 13 5 2 118 B1 12 12 17 14 15 12 82 B2 1 2 8 15 12 13 51 C1 3 1 1 1 4 6 16 C2 0 1 1 1 2 0 5

    總和 99 52 48 44 39 33 315

  • 36

    表 3- 3 CEFR * 高筆劃字元數 期望次數交叉表範例

    期望次數 總和

    0 1 2 3 4 5

    CEFR

    A1 13.51 7.10 6.55 6.01 5.32 4.50 43 A2 37.09 19.48 17.98 16.48 14.61 12.36 118 B1 25.77 13.54 12.50 11.45 10.15 8.59 82 B2 16.03 8.42 7.77 7.12 6.31 5.34 51 C1 5.03 2.64 2.44 2.23 1.98 1.68 16 C2 1.57 0.83 0.76 0.70 0.62 0.52 5

    總和 99 52 48 44 39 33 315

    計算每個特徵的卡方值後,該卡方值即為該特徵對於 CEFR 等級的影響程度

    大小,卡方值越大,表示該特徵對於 CEFR 等級影響越大,反之則越小。在第四

    階段支援向量機的訓練與測試中,會透過第三階段特徵選取後獲得的指標重要性

    排序結果,依重要程度最高至最低依序納入建立模型,來比較不同指標組合獲得

    的結果是否有所差異。

  • 37

    第四節 支援向量機的訓練與測試

    本研究使用支援向量機作為文章可讀性的分類器。建立文本可讀性預測模型

    過程可分為幾部分:

    一、 選擇自變數與依變數:

    本研究中所使用的依變數為文章的 CEFR 等級,自變數為所選用的 14

    個中文 L2 可讀性指標。由於在研究中我們無法得知該採用多少指標組合可

    以得到較佳的結果,因此我們依據特徵選取階段時,將自變數依照特徵選取

    後的重要性排序結果,從重要程度最高的特徵先納入 SVM 中進行預測,記

    錄其結果後再丟入重要程度次高的特徵,如此反覆測試直到全部指標都納入

    為止。

    二、 設定核心函數及參數:

    接著設定 SVM 核心函數及參數,由於可處理高維及非線性資料、須調

    整的參數較少,操作較容易,預測能力也較佳、以及可減少計算時間等特性

    (Hsu et al., 2003),因此在研究中採用的核心函數為輻狀基底函數。而輻狀

    基底函數在訓練過程中,所需設定的參數為 Gamma 值,在第二章文獻探討

    中提到,在 SVM 的訓練階段,參數的選擇適當與否對於預測正確率影響很

    大,又因為參數的設定並沒有一定的標準,也無法知道其範圍為何,因此在

    研究中我們採用試誤法(trial and error)設定輻狀基底函數的參數,先設定

    一組參數,將訓練資料丟入建立模型,再以測試資料做測試,接著更改下一

    組參數後再將訓練資料丟入,同樣的以測試資料做測試,以此類推,找出最

    佳預測結果。

    三、 隨機分配訓練與測試資料:

    在建立預測模型時,常見的作法是將全部資料樣本分成訓練資料集

    (Training Data Set)與測試資料集(Testing Data Set)。使用訓練資料來建

    立預測模型,而測試資料則是用來評估所建立之預測模型預測未知樣本的準

  • 38

    確率。而在訓練過程中,可能會產生過度配適(Over-fitting)的問題,也就

    是在某些情況下,訓練資料獲得的正確率很高,在測試資料所獲得的正確率

    卻很低的不合理現象。而交叉驗證(Cross Validation)是一種常用來避免這

    類問題發生的方法 (Hsu et al., 2003;林宗勳,2006);李孟謙(2004)的

    研究中也使用了交叉驗證來避免 SVM 發生過度配適的問題。而交叉驗證方

    法中較常見的為 k-fold 交叉驗證法,將資料平均分成 k 等份,每次採用其中

    一等份資料做為測試資料,其餘的資料作為訓練資料,記錄此次訓練結果後,

    將測試資料換成另一等份資料,其餘的資料作為訓練資料,如此反覆執行 k

    次後,會得到 k 個不同訓練資料得到的模型所產生的訓練結果,將 k 次的正

    確率平均做為結果。

    而在應用 k-fold 交叉驗證法的相關研究中,主要是依照所使用的資料集

    大小來決定 fold 的個數,5-fold 為最常用的設定,如 Duan, Keerthi, & Poo

    (2003)。因此我們在研究中使用了 5-fold 交叉驗證法,將資料隨機分成 5

    組,每次用一組資料輪流當做測試資料,其餘的作為訓練資料。在研究中,

    先透過SPSS軟體將全部資料分成 5組,fold1採用第一組資料做為測試資料,

    其餘四組為訓練資料;fold2 採用第二組資料做為測試資料,其餘四組資料

    做為訓練資料,以此類推。

    四、 測試預測模型正確率:

    本研究共將資