the research for the recognition of the image of...

61
中文字印刷體影像文字 辨識之研究 The research for the recognition of the image of printed Chinese characters 研究生:李宜靜 指導教授:蔡賢亮 博士

Upload: others

Post on 21-Feb-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

  • 義 守 大 學 資 訊 管 理 研 究 所

    碩 士 論 文

    中文字印刷體影像文字 辨識之研究

    The research for the recognition of the image of printed Chinese characters

    研究生:李宜靜 指導教授:蔡賢亮 博士

    中 華 民 國 九 十 八 年 八 月 

  •  

     

    中文字印刷體影像文字辨識之研究

    The research for the recognition of the image of

    printed Chinese characters

    研 究 生:李宜靜 Student:Yi-Ching Li

    指導教授:蔡賢亮博士 Advisor:Dr. Hsien-Leing Tsai

    義守大學 資訊管理研究所

    碩士論文

    A Thesis Submitted to Institute of Information Management

    I-Shou University in Partial Fulfillment of the Requirements

    for the Master Degree in

    Information Management Aug, 2009

    Kaohsiung, Taiwan, Republic of China

    中 華 民 國 九 十 八 年 八 月

  •  

         I

  •  

         I

    中文字印刷體影像文字辨識之研究

    研究生:李宜靜 指導教授:蔡賢亮

    義守大學資訊管理研究所

    摘 要

    本論文意在發展並改良一種影像中文字細線化演算法與影像中文字辨識演算法。

    在影像中文字細線化演算法部份,提出一個以粒子群體最佳化(PSO)為基礎的影像

    筆劃抽取方法,及提出一個細線化方式,用來抽取中文字骨架線。主要是利用 PSO 得

    到四個方向(0°、45°、90°、135°)筆劃長度的閥值,將四張影像中大於閥值的筆劃留下,

    去除重疊部份,以便之後細線化操作。在細線化方面是利用筆劃邊界找出初步細線化結

    果,再將各端點合併得到文字的骨架線。

    在影像中文字辨識演算法部份是結合“影像文字自動擷取演算法” [2],使整個系統

    整體化。首先利用[2],將影像文字自動擷取並分割出來,再將切割後之影像文字進行辨

    識工作,並將辨識結果儲存於資料庫中,以期將來做數位典藏之用。影像中文字辨識可

    以分成二個部份:一、影像文字資訊抽取,二、辨識。

    在影像文字資訊抽取這個部份,本研究參考[3]中從 24 方位環狀擷取特徵編碼的概

    念,以得到每個文字影像的碼號。在辨識部份,本研究利用漢明距離找出前 5 項最接近

    的候選項,再使用基因演算法(Genetic Algorithm, GA)作為最後辨識步驟。

    從實驗證明,本文所提出的細線化方法能夠有效的抽取文字骨架線,並在效率上有

    不錯的表現。而提出的影像中文字辨識演算法,也有相當好的辨識效果。本研究欲將偵

    測、切割、辨識合為一體,使影像中文字可以被使用於數位典藏中。

    關鍵字:筆劃抽取、粒子群體最佳化、編碼、基因演算法

  •  

         II

    The research for the recognition of the image of printed Chinese characters

    S t u d e n t: Yi - C h i n g L i A d v i s o r: Dr. Hsien-Leing Tsai

    D e p a r t m e n t o f I n f o r m a t i o n M a n a g e m e n t ,

    I - S h o u U n i v e r s i t y

    Abstract

    This paper develops and improves the algorithms of thinning of the Chinese character

    images and the algorithm of recognition the Chinese character images.

    The algorithms of thinning of the Chinese character images:

    Our study extracted the stroke of the Chinese character images based on Particle Swarm

    Optimization, and put forward the way of thinning to extract the skeleton of Chinese

    characters. First, PSO has been used in get the threshold of the four directions (0 °, 45 °, 90 °,

    135 °) stroke length. Second, we removed the part of stroke overlap. Third, according to the

    border of stroke, we get the results of the initial thinning. Final, we get the skeleton through

    the combined endpoints.

    The algorithm of recognition the Chinese character images:

    Principally, we connected our algorithm with the [2]. First, we used the [2] to capture

    and separate the image of Chinese characters automatically. Second, we used the Chinese

    character images that have been cut to recognize it. Then the results of recognition will be

    stored in the database. The algorithm of recognition the image of Chinese characters can be

    divided into two parts: one is extract the information of the Chinese character images, the

    other is recognition. The part of extract the information of the Chinese character images: We

    used the concept of [3]. The concept is through 24 positions to get the characteristics of the

  •  

         III

    Chinese character images. Then we used the characteristics of the Chinese character images to

    encoding. Recognition: First, we used the Hamming distance to get candidates. Then we used

    genetic algorithm as the final step in recognition.

    According to the experimental result, we proved the method of thinning can effective

    extract the skeleton, and the efficiency is good. The algorithm of recognition the Chinese

    character images that we proposed also has good performance on the result of recognition. We

    combined the detection, cutting and recognition. Through the above processes, the Chinese

    character images can be used in digital archives.

    Keyword: extract the stroke, Particle Swarm Optimization, encoding, genetic algorithm

  •  

         IV

    致謝

    這篇論文的完成,首先最感謝的人就是我研究所兩年的指導教授---蔡賢亮 老師,

    這段期間跟著老師學到了非常多東西,剛開始進入研究所程式語言是一竅不通,但經過

    老師的敦敦教誨後,程式能力已進步不少,而且老師的教導不僅僅只於課業上,還包括

    許多做人處事的道理,與解決問題的能力;在撰寫論文時也持續不斷的給我鼓勵,對我

    的研究學習幫助甚多。另外,感謝口試委員周照偉老師及張弘毅老師對於論文的撰寫與

    修改給了我很多非常珍貴的意見。

    再來要感謝的是實驗室的同學們──雅惠、婉容、佩玲、阿浩、禮仁、Min、阿偉、

    嘉鴻、昱叡、阿勝在這段難熬的時間裡,彼此之間相互支持與鼓勵,讓我感受到同學之

    間的溫暖,還有佩君學姐與煜書學長也指導了我相當多的事情,在碩士這兩年的期間

    裡,真的很謝謝你們,這段時光絕對是我人生中最難忘的經驗之一。

    最後要感謝的是我的家人,在我就讀研究所的這段期間,默默的支持我,讓我能夠

    無後顧之憂的專心完成學業,順利完成碩士論文,帶著感激之心,盛重的感謝大家。

  •  

      

    V

    目 錄 第一章 緒論 .................................................................................................................... 1

    1.1 研究動機 ............................................................................................................ 1 1.2 研究目的 ............................................................................................................ 1 1.3 研究架構與流程 ................................................................................................ 2

    第二章 文獻探討 ............................................................................................................ 3 2.1 影像中文字細線化演算法 ................................................................................ 3

    2.1.1 抽取筆劃 .......................................................................................................... 3 2.1.2 去除雜訊 .......................................................................................................... 5 2.1.3 抽取骨架線 ...................................................................................................... 7

    2.2 影像中文字辨識演算法 ............................................................................................. 8 2.2.1 影像文字資訊抽取 .......................................................................................... 8 2.2.2 辨識 .................................................................................................................. 9

    第三章 研究方法 .......................................................................................................... 11 3.1 影像中文字細線化演算法 ....................................................................................... 11

    3.1.1 抽取筆劃 ........................................................................................................ 12 3.1.2 去除重疊與雜訊 ............................................................................................ 13 3.1.3 細線化 ............................................................................................................ 16 3.1.4 取得骨架線 .................................................................................................... 16

    3.2 影像中文字辨識演算法 ........................................................................................... 16 3.2.1 特徵抽取與編碼 ............................................................................................ 18 3.2.2 辨識 ................................................................................................................ 19

    3.2.2.1 漢明距離 ............................................................................................. 20 3.2.2.2 基因演算法 ......................................................................................... 20

    第四章 實驗結果與討論 .............................................................................................. 23 4.1 影像中文字細線化演算法 ....................................................................................... 23

    4.1.1 實驗樣本 ........................................................................................................ 23 4.1.2 作業環境 ........................................................................................................ 23 4.1.3 PSO 抽取筆劃實驗......................................................................................... 23 4.1.4 去除重疊與雜訊 ............................................................................................ 24 4.1.5 細線化實驗 .................................................................................................... 25 4.1.6 連接筆劃實驗 ................................................................................................ 26 4.1.7 比較 ................................................................................................................ 28

    4.2 影像中文字辨識演算法 ........................................................................................... 28 4.2.1 訓練樣本 ........................................................................................................ 28 4.2.2 作業環境 ........................................................................................................ 29 4.2.3 訓練樣本測試效果 ........................................................................................ 29

  •  

      

    VI

    4.2.3 初步辨識實驗 ................................................................................................ 29 4.2.3.1 二值化影像之不同尺寸的測試樣本: ............................................. 30 4.2.3.2 灰階影像之不同尺寸的測試樣本 ..................................................... 34 4.2.3.3 不同字型之測試樣本 ......................................................................... 38 4.2.3.4 初步辨識實驗總結 ............................................................................. 42

    4.2.4 最終辨識實驗 ................................................................................................ 43 4.2.5 比較 ................................................................................................................ 46

    第五章 結論與未來研究 .............................................................................................. 47 參考文獻 .................................................................................................................................. 48

  •  

      

    VII

    表目錄 表一:[20]特徵點類型 ................................................................................................ 7

    表二、[3]之特徵序列(Template length 為向量長度,Template Dθ 為向量角度差) 9

    表三、5401 個常用字的訓練樣本(排序由編碼加總值由小到大) .................... 19 表四、本研究與文獻之比較 ..................................................................................... 28 表五、本研究與文獻之比較 ..................................................................................... 46

  •  

      

    VIII

    圖目錄 圖一、[21]流程圖 ........................................................................................................ 3 圖二、[20]筆劃抽取成果 ............................................................................................ 4 圖三、[21]筆劃抽取成果 ............................................................................................ 4 圖四、[20]二值化後,去雜訊前之成果 .................................................................... 4 圖五、[21]二值化後,去雜訊前之成果 .................................................................... 4 圖六、[21]去雜訊之流程圖 ........................................................................................ 6 圖七、[20]去雜訊後之成果 ........................................................................................ 6 圖八、[21]去雜訊後之成果 ........................................................................................ 6 圖九、[20]片段筆劃的二端點骨架線 ........................................................................ 7 圖十、[20]抽取特徵點與骨架線 ................................................................................ 8 圖十一、[3] .................................................................................................................. 9 圖十二、[15]不同影像大小的碼號 .......................................................................... 10 圖十三、影像中文字細線化演算法流程圖 ..............................................................11 圖十四、PSO 流程圖................................................................................................. 13 圖十五、筆劃區塊編碼方向依據 ............................................................................. 14 圖十六、編碼成果 ..................................................................................................... 14 圖十七、去除重疊與雜訊之流程圖 ......................................................................... 15 圖十八、(a)水平筆劃處理 (b)其他筆劃處理 (c)初步細線化結果 ....................... 16 圖十九、影像中文字辨識演算法流程圖 ................................................................. 17 圖二十、(a)中心點求法 (b)24 方位......................................................................... 18 圖二十一、詞庫(排序由多字到少字) ................................................................. 19 圖二十二、GA 流程圖 .............................................................................................. 22 圖二十三、抽取筆劃結果(由左到右分別為原圖、0°、45°、90°、135°)............ 24 圖二十四、去除重疊與雜訊之結果(上為水平筆劃、下為其他筆劃) .................. 25 圖二十五、初步細線化結果 ..................................................................................... 26 圖二十六、(a)合併完水平與垂直之結果 (b)最後合併結果.................................. 27 圖二十七、“夕”連接失敗之原因 ............................................................................. 27 圖二十八、訓練樣本 ................................................................................................. 30 圖二十九、尺寸小筆劃多的畫素圖 ......................................................................... 38 圖三十、(突變率不變)連續最佳解次數與辨識率 ............................................... 44 圖三十一、(連續最佳解次數不變)突變率與辨識率 ........................................... 45

  •  

      1

    第一章 緒論

    本章主要針對本研究的基本命題詳加說明。內容共分為三部份:第一部份為研究動

    機之闡述;第二部份為研究目的之釐清;第三部份為研究架構與流程。

    1.1 研究動機

    影像中文字細線化演算法至今已有相當多的學者進行研究,但大多皆需要不斷侵蝕

    才能得到細線化結果,若影像中文字筆劃寬度很寬,將需要相當多的時間,故本論文提

    出此細線化演算法,期能有更好的效率。

    而本論文之所以研究影像中文字辨識演算法是因為,各式新聞各樣主題充斥在日常

    生活中,但當你要尋找特定資訊時,就有其不方便的地方,所以這時,發展一套「新聞

    影像數位典藏技術」是必須的,而新聞影像數位典藏所涵蓋的技術是非常廣泛的,其中

    「數位內容自動建構機制」便是一個相當重要的部份。此部份是用來自動擷取出新聞影

    像的重要資訊,例如:新聞影像的標題文字便是最重要的資訊,再利用此資訊作為新聞

    影像分類的依據,最後將新聞分門別類地典藏在資料庫中,以方便往後使用者檢索新聞

    之用。

    1.2 研究目的

    由於影像中文字細線化演算法大多皆需要不斷侵蝕才能得到細線化結果,當影像中

    文字筆劃寬度很寬,將需要花費相當多的時間。故本論文之所以研究影像中文字細線化

    演算法的第一個目的,在增強細線化演算法的效率,期能更有效的解決細線化問題。

    而在上一節中,有提及「新聞影像數位典藏技術」的重要性,其中的「數位內容自

    動建構機制」也是這議題中相當重要的部份,而新聞影像的數位內容自動建構機制又可

    粗略分為三大流程:一、影像文字區塊偵測與擷取;二、影像文字辨識及關鍵字辨識;

    三、分類器與資料庫的建立機制。在影像文字區塊偵測與擷取部份,本研究利用 [2],

    將已切割好的新聞影像文字作為辨識來源;在影像文字辨識及關鍵字辨識部份,便是本

  •  

      2

    研究的重點,本研究利用[3]的 24 方位環狀擷取特徵的概念,抽取影像文字資訊進而編

    碼,再使用基因演算法予以辨識,期望得到良好的辨識效果。

    影像文字辨識及關鍵字辨識,在整個系統中是屬於第二步驟,當然若前置步驟做的

    不好,辨識將無法執行,但若辨識率不高或誤判率高,對整個系統影響也會極大,因為

    將會影響到後續資料庫的建置…等等的問題,所以本研究希望得到很好的辨識率以使整

    個「新聞影像數位典藏技術」更加完善,也使後續建置資料庫更加容易。

    故本論文之研究目的如下:

    1. 以粒子群體最佳化(PSO)為基礎的影像筆劃抽取方法,及提出一個細線化方式,用來

    抽取中文字骨架線,期望能夠增強細線化演算法的效率,更有效的解決細線化問題。

    2. 利用[3]的 24 方位環狀擷取特徵的概念,抽取影像文字資訊進而編碼,再透過基因演

    算法予以辨識,期望得到良好的辨識效果,使「新聞影像數位典藏技術」更加完善。

    1.3 研究架構與流程

    本論文的架構為第一章是緒論,大概介紹研究動機、研究目的與研究架構與流程,

    第二章為文獻探討,探討各文獻之優缺點,並大概闡述本研究將如何改善,第三章為研

    究方法,闡述本論文所使用的方法,並詳細說明之,第四章為實驗與討論,介紹實驗結

    果並討論實驗結果,第五章為結論。

  •  

      3

    第二章 文獻探討

    本章將對相關文獻進行整理,並介紹本研究有使用到的相關文獻,並探討他們各自

    的優缺點。

    2.1 影像中文字細線化演算法

    在進行影像中文字細線化前,必須先抽取筆劃,再去除雜訊,之後才進行細線化步

    驟,以下將介紹抽取筆劃、去除雜訊[20][21]與細線化[18]文獻。

    圖一、[21]流程圖

    2.1.1 抽取筆劃

    [20][21]是使用 gabor filters 抽取筆劃,成果如圖二、三。

    優點:抽取之筆劃相當漂亮,有助於後續工作的進行。

    缺點:因為 gabor filters 必須使用旋積操作,所以相當耗時,且處理過後會成灰階影像,

    所以必須再經一道手續([20][21]中是使用 iterative search 找到閥值)處理成二值影像,

    再者 gabor filters 的參數設定也是一個重要的問題,所以本研究使用掃圖的方式抽取筆

    劃,而掃圖的依據是使用粒子群體最佳化(PSO),希望找出最佳筆劃長度閥值,期能降

    低抽取筆劃的時間。

    抽取筆劃後,不管是因為抽取不完整導致(如圖四、五)或影像來源本身的雜訊,

    都有可能影響到後續處理,所以接下來將介紹去除雜訊的方法。

  •  

      4

    (a)原始影像 (b)0°筆劃影像 (c) 45°筆劃影像 (d) 90°筆劃影像 (e)135°筆劃影像

    圖二、[20]筆劃抽取成果

    (a)原始影像 (b)0°筆劃影像 (c) 45°筆劃影像 (d) 90°筆劃影像 (e)135°筆劃影像

    圖三、[21]筆劃抽取成果

    (a)原始影像 (b)0°筆劃影像 (c) 45°筆劃影像 (d) 90°筆劃影像 (e)135°筆劃影像

    圖四、[20]二值化後,去雜訊前之成果

    (a)原始影像 (b)0°筆劃影像 (c) 45°筆劃影像 (d) 90°筆劃影像 (e)135°筆劃影像

    圖五、[21]二值化後,去雜訊前之成果

    (a)  (c) (b)  (d) (e) 

    (a)  (c) (b)  (d) (e) 

  •  

      5

    2.1.2 去除雜訊

    [20][ 21]先將筆劃區塊編碼後,再進行去除雜訊,首先先計算筆劃區塊畫素,當畫

    素小於 13 時,刪除此區塊,反之,檢查是否與檢查過的筆劃區塊有重疊,若沒有重疊,

    則儲存成已檢查過的筆劃區塊,若有重疊,則計算重疊率:

    O ( ) oc

    Averlapping rate ORA

    = (1)

    oA :筆劃區塊重疊面積, cA :筆劃區塊面積

    狀況 1:當新檢查的筆劃區塊重疊率( NCOR )小於 0.5且已檢查過的筆劃區塊重疊率( VCOR )

    也小於 0.5 時,刪除重疊區塊。

    狀況 2:當 0.5NCOR < 且 0.5VCOR ≥ ,刪除已檢查過的筆劃區塊且儲存新檢查的筆劃區塊

    為已檢查過的筆劃區塊。

    狀況 3:當 0.5NCOR ≥ 且 0.5VCOR < ,忽略新檢查的筆劃區塊。

    狀況 4:當 0.5NCOR ≥ 且 0.5VCOR ≥ 且 VC NCOR OR≥ 時,忽略新檢查的筆劃區塊;反之,

    刪除已檢查過的筆劃區塊且儲存新檢查的筆劃區塊為已檢查過的筆劃區塊。流程圖如圖

    六。

    優點:可順利將雜訊去除,如圖七、八。

    缺點:刪除小面積的閥值設定對筆劃較多的字恐怕會遺失筆劃資訊。

  •  

      6

    圖六、[21]去雜訊之流程圖

    (a)原始影像 (b)0°筆劃影像 (c) 45°筆劃影像 (d) 90°筆劃影像 (e)135°筆劃影像

    圖七、[20]去雜訊後之成果

    (a)原始影像 (b)0°筆劃影像 (c) 45°筆劃影像 (d) 90°筆劃影像 (e)135°筆劃影像

    圖八、[21]去雜訊後之成果

    (a)  (c) (b)  (d) (e) 

  •  

      7

    2.1.3 抽取骨架線

    [20]是先抽取暫時骨架線(如圖九),以取得各端點資訊,之後將各端點予以處理,

    使端點成為不同分岔數的特徵點(如表一)。

    (a)正方形為找到的端點 (b)暫時骨架線

    圖九、[20]片段筆劃的二端點骨架線

    在抽取暫時骨架線的概念,是使筆劃區塊起點畫素儘可能找到最遠的畫素,使之相

    連(如圖九)。

    而端點處理成特徵點的方法,是使用一個學習式的方式,使幾何特性結合倒傳遞類

    神經網路,再使用 majority-voting techniques 修正可能出現的錯誤,成果如圖十。

    表一:[20]特徵點類型

    (a) (b)

  •  

      8

    (a)為原始字體示意圖 (b)為抽取特徵點後(圓形代表為 1 分岔點,菱形代表為 2 分岔點,

    三角形代表為 3 分岔點,正方形代表為 4 分岔點,星形代表為 5 分岔點,)

    圖十、[20]抽取特徵點與骨架線

    優點:抽取出之骨架線相當漂亮,特徵點準確率也相當高。

    缺點:步驟繁瑣,且倒傳遞類神經網路訓練較耗時,而 majority-voting techniques 修正

    也相當消耗記憶體。

    [18]是使用遮罩作為細線化工具,但需不斷運作直到筆劃寬度為單 pixel 為止。

    優點:細線化後不會斷開。

    缺點:當筆劃寬度寬時,將相當耗時,故本研究聯想到可找取筆劃兩邊邊界求取中點,

    以達到細線化結果。

    2.2 影像中文字辨識演算法

    影像中文字辨識演算法主要分成二個部份:一、影像文字資訊抽取,二、辨識。以

    下將介紹相關文獻。

    2.2.1 影像文字資訊抽取

    [3]是使用 24 方位環狀擷取特徵,特徵包含向量長度與向量角度,抽取方式如圖十

    一。將得到如表二的特徵序列,作為比對辨識之用。

    優點:因有長度與角度資訊,故當測試樣本有旋轉或縮放時,仍然可以找出對應模組。

    缺點:此方法只適用於較簡單的輪廓圖形,若要將影像中文字擷取長度與角度作為特徵

    (a) (b) (c)

  •  

      9

    序列將會相當繁雜,故本論文只採用 24 方位環狀擷取特徵的概念,而特徵是擷取 pixel

    變化的次數,期能運用在相似字型上。

    圖十一、[3](以八方位為例)左:計算出樣板的形狀中心(center point);中:計算邊跡到形狀

    中心的傾角。邊跡傾角減去方位角度所得到的最小角度差,即方位座標點;右:八方位座

    標點相減,得到比對的特徵-邊跡向量。

    表二、[3]之特徵序列(Template length 為向量長度,Template Dθ 為向量角度差)

    Template length : 14.76 17.72 18.43 … 11.18

    Template Dθ : 44.24 50.07 41.21 44.20 ….. 41.82

    2.2.2 辨識

    [15]中,本研究參考了漢明距離的概念,作為初步篩選的依據,公式如下: 4 4

    1 2 1, , 2, ,1 1

    ( , ) | |k i k ik i

    d W W w w= =

    = −∑∑ (2)

    r,k,iw 代表第 r 個字的第 k 列的 i 行中的碼號。

    例子:

    如圖十二:d( t1W , 1561W )=|(6-6)|+|(0-0)|+|(0-0)|+|(2-2)|+|(4-4)|+|(1-1)|+|(2-2)|+|(0-0)|+|(2-3)|+

    |(3-2)|+ |(0-1)|+ |(0-0)|+ |(1-1)|+ |(2-2)|+ |(0-0)|+ |(0-0)|=3。

  •  

      10

    (a) Character 1561C . (b) Character t1C .

    (a) Image size: 120 × 120

    Codeword: 1561W = {(6, 0, 0, 2), (4, 1, 2, 0), (2, 3, 0, 0), (1, 2, 0, 0)}

    (b) Image size: 90 × 90

    Codeword: t1W = {(6, 0, 0, 2), (4, 1, 2, 0), (3, 2, 1, 0), (1, 2, 0, 0)}

    圖十二、[15]不同影像大小的碼號

  •  

      11

    第三章 研究方法

    本論文主要有二個主題,一為影像中文字細線化演算法,流程圖如圖十三,二為影

    像中文字辨識演算法,流程圖如圖二十,以下將詳細介紹各演算法之研究方法。

    3.1 影像中文字細線化演算法

    在本研究中影像來源是二值化影像,即不是 0 就是 1,在這章節中又分為幾個小部

    份:(1)抽取筆劃 (2)去除重疊與雜訊 (3)細線化 (4)取得骨架線。

    圖十三、影像中文字細線化演算法流程圖

    PSO 抽取筆劃

    得到 4方向筆劃

    去除重疊與雜訊並分成水平筆劃與其他筆劃

    細線化

    筆劃合併

  •  

      12

    3.1.1 抽取筆劃

    本研究是使用粒子群體最佳化演算法(PSO)找尋最佳抽取筆劃長度依據,流程圖如圖十四。

    (1)初始粒子數與粒子位置。

    (2)算出目標函式的值,本研究的目標函式是參考[21]的重建誤差,公式如下:

    RE = OE + α * LE (3)

    RE 為重建誤差,OE 為重疊誤差,LE 為遺失誤差,α為 LE 的權重,由實驗決定。

    而 OE 公式為:x,y

    M (x,y)>1

    x,y

    M (x,y)-1

    i(x ,y)∑

    ∑ (4)

    M(x,y)為 4 個方向的筆劃陣列相加,i(x,y)為原影像畫素相加。

    而 LE 公式為: x,y

    x,y

    i(x ,y)-N (x,y)

    i(x,y)∑

    ∑ (5)

    N(x,y)為 4 個方向的筆劃陣列互相做 or 操作,即只要 4 個筆劃陣列中有 1 個有非 0 畫素,

    即設定此位置畫素為 1。

    再找出經驗中最佳的 RE(本研究是希望誤差值越小越好,所以本研究是尋找最小

    解)並紀錄其值與位置,再找出全域最佳值,並紀錄其值與位置

    (3)更新速度與位置,利用公式(6)(7)

    p p 1 bp p 2 gp pV =w V + c rand() (p -x ) + c rand() (p -x )× × × × × (6)

    p p px = x + V (7)

    pV 為粒子的速度,w 為上一代速度的權重, 1c 、 2c 為學習因子, bpp 為經驗最佳解位置,

    gpp 為全域最佳解的位置。

    (4)是否訓練完畢,若是跳出迴圈,若否重複(2)(3)直到訓練完畢。

  •  

      13

    初始粒子數與粒子位置

    求目標函數值

    紀錄經驗最佳值與位置和全域最佳值與位置

    更新速度與位置

    是否訓練完畢

    結束

    YN

    圖十四、PSO 流程圖

    3.1.2 去除重疊與雜訊

    在去除重疊與雜訊之前,必須先將筆劃區塊編號,本研究編碼方式,是使用掃圖的

    模式,號碼從 2 開始,步驟如下(成果如圖十六)

    step1:從左而右,由上而下掃描,當遇到第一個不為 0 的畫素,且此位置的左邊畫素為

    0 或此位置為最左邊的位置,將位置記錄成開頭位置( tP ),之後檢查此位置的 4 個方向

    (如圖十五(a)圓圈所示),是否有不為 0 的畫素,若沒有,代表此位置為所屬筆劃區塊

    的開頭,將他予以編碼;若他的上方皆無不為 0 的畫素,但左邊有不為 0 的畫素,代表

    此區塊開頭已找到,並將此位置的值更改為與左邊的值相同;若皆不是以上狀況,則將

    此位置( nowP )的值更改為與第一個不為 0 的畫素的值( 1P )相同,再檢查是否與左邊編號相

    同,若不同:當左邊較大時,往回修正到紀錄的開頭位置 tP ,且修正成 1P 的值;若左邊

    較小且大於 1 時,將 nowP 的值更改為此位置左邊的值。

    step2:掃描到 0 且左邊的值不為 0,則號碼+1。

    step3:在 step1 處理後,會有一些狀況無法成功編碼,如一些斜線部份,故再掃描一次,

    但掃描方向是從右而左,由上而下,當遇到不為 0 的畫素,檢查此位置的 8 個方向(如

  •  

      14

    圖十五(b)菱形所示),並找出 8 方向不為 0 的最小值(min),若有不為 0 的最小值,將 nowP

    的值更正為 min,並更正 8 方向的值為 min。

    (a) (b)

    (a)圓圈所示是 step1 的方向依據 (b)菱形所示是 step2 的方向依據

    圖十五、筆劃區塊編碼方向依據

    圖十六、編碼成果

    在去除重疊與雜訊的部份,本研究是參考[21]的方法,但在步驟上有些許不同,步

    驟如下,流程如圖十七:

    1. 判斷是否與已檢查之筆劃重疊,是繼續;否加入已檢查之筆劃。

    2. 計算重疊率如公式(1),若二者皆0.5,

    舊區塊重疊率0.5,則看較大者,若舊區塊較大

    ‐1,‐1 

    1,1 

    0,0 0,‐1 

    ‐1,1 ‐1,0 

    1,0 

    0,1 

    1,‐1 

    ‐1,‐1 

    1,1 

    0,0 0,‐1 

    ‐1,1 ‐1,0 

    1,0 

    0,1 

    1,‐1 0 

  •  

      15

    即刪除已檢查之重疊區塊,反之亦然。

    3. 檢查新筆劃區塊是否有與標記部份重疊,是標記;否加入為已檢查之筆劃。

    4. 是否還有未檢查之筆劃區塊,是重複 1~3 步驟;否刪除標記部份。

    5. 檢查是否有

  •  

      16

    3.1.3 細線化

    本研究使用找邊界的方式使筆劃細線化,在去除重疊與雜訊的步驟時,已先將水平

    筆劃與其他筆劃區分開來,是因為這兩種筆劃的細線化方式有些許不同,細述如下: 1. 水平筆劃處理,由左而右由上而下掃瞄,找出筆劃上下邊界,再利用上下邊界找出中線,得到水平筆劃細線化結果,如圖十八(a)。 2. 其他筆劃處理,由上而下由左而右掃描,找出筆劃左右邊界,再利用左右邊界找出中線,得到其他筆劃細線化結果,如圖十八(b)。 3. 最後將兩種結果合併得到初步細線化結果,如圖十八(c)。

    圖十八、(a)水平筆劃處理 (b)其他筆劃處理 (c)初步細線化結果

    此方法雖能快速的得到細線化結果,但有時會有斷裂的問題,故本研究必須做最後步驟才能得到完整骨架線。

    3.1.4 取得骨架線

    在上章節已取得初步細線化結果,接下來要進行筆劃合併的動作,步驟如下:

    1. 處理水平筆劃,當掃圖發現端點時,且該端點為水平筆劃所有,則與原圖比對讓該合

    併的端點合併。

    2. 處理垂直筆劃,當掃圖發現端點時,且該端點為水平筆劃所有,則與原圖比對讓該合

    併的端點合併。

    3. 掃圖發現端點時,若該端點需要合併,則找距離 5 pixels 以內的 pixel,若有則判斷該

    pixel 與要合併之端點在原圖中是否應合併,若是則合併,若找不到要合併的 pixel 則延

    伸 1 個 pixel,直到該端點不為端點為止。

    3.2 影像中文字辨識演算法

    本演算法主要分為二部份,一為特徵抽取及編碼,二為辨識,以下將詳細介紹,圖

    (a) (b) (c)

  •  

      17

    十九為流程圖。

    圖十九、影像中文字辨識演算法流程圖

    得到

    辨識結果:王金平參加跑步 關鍵字:王金平、參加、跑步 

    得到

    抽取特徵並編碼

    各別得到

    number= 48 code={1,1,1,3 ,3,3,1,3,3,3,1,1 ,1,1,1,3,3,3,1,3 ,3,3,1,1}

    number= 46 code={1,3,3,3 ,3,3,1,3,3,3,3,1 ,1,3,1,1,1,1,1,1 ,1,1,1,3}

    number= 104 code={1,3,5,3 ,5,5,3,5,5,7,5,3 ,1,1,7,3,7,7,7,7 ,7,3,1,3}

    number= 84 code={5,5,5,5 ,3,1,1,1,5,3,5,3 ,3,3,3,3,1,7,1,1 ,5,5,5,5}

    number= 110 code={5,5,5,5 ,5,5,3,1,5,7,7,5 ,5,5,7,5,3,1,1,3 ,5,7,5,5}

    number= 88 code={1,3,5,5 ,3,3,3,3,3,5,5,3 ,1,1,3,7,7,3,1,5 ,7,7,3,1}

    number= 66 code={1,3,3,3 ,3,3,1,1,1,5,5,3 ,1,3,3,1,5,5,3,3 ,3,3,3,1}

    初步辨識挑選候選項

    第一個字候選項有{三,工,王},第二個字候選項有{釜,奎,金},第三個字的候選項有{千,禾,平}…

    GA 辨識

  •  

      18

    3.2.1 特徵抽取與編碼

    本研究主要是參考[3] 24 方位環狀擷取特徵的概念,但在特徵上不使用向量長度與

    向量角度,因為影像中文字的結構較為複雜,故本研究使用 24 方位環狀擷取各方向 pixel

    的變化次數,作為特徵序列,而這特徵序列即為此字的編碼,特徵抽取方式如下。

    1. 利用掃圖找到上、下、左與右邊界,得到影像中文字的中心點,如圖二十一(a)。

    2. 從中心點的 0°開始擷取 pixel 變化的次數,擷取完後角度增加 15°,直到 24 方位皆擷

    取完畢,方位變化如圖二十一(b)。

    例:圖十九(b)中 0°方位只有一次 pixel 變化,即由非 0 pixel 變為 0 pixel,故此方位特徵

    為 1,而 45°方位有 3 次 pixel 變化,故此方位特徵為 3,以此類推,故得編碼為

    { 1,1,1,3,3,3,1,3,3,3,1,1,1,1,1,3,3,3,1,3,3,3,1,1 }。

    圖二十、(a)中心點求法 (b)24 方位

    此方法因有很少的計算量,所以速度相當的快,但因中心點位置的關係,故有些資

    訊無法擷取出,故編碼有可能會有重複,如圖二十(a)中“王”與“工”即有相同編碼,所以

    本研究利用字組成詞的概念去進行辨識,以彌補此項缺點,並藉此作到關鍵字擷取。

    而在進行辨識之前,必須先建立詞庫(如圖二十一)與 5401 個常用字的訓練樣本

    270°

    90°

    180° 15°

    45°

    (b)

    (a)

  •  

      19

    (如表三)。

    圖二十一、詞庫(排序由多字到少字)

    表三、5401 個常用字的訓練樣本(排序由編碼加總值由小到大)

    字 編碼加總 編碼 單字是否有意義

    一 24 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 true

    丫 24 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 false

    二 28 0 0 0 2 2 2 2 2 2 2 0 0 0 0 0 2 2 2 2 2 2 2 0 0 true

    人 30 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 1 1 3 1 3 1 1 true

    十 32 1 3 3 1 1 1 1 1 1 1 3 3 1 1 1 1 1 1 1 1 1 1 1 1 true

    干 32 1 1 1 1 3 3 1 3 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 false

    于 34 1 1 1 1 3 3 1 3 3 1 1 1 1 1 1 1 1 3 1 1 1 1 1 1 false

    六 34 2 0 2 2 2 2 2 2 2 2 2 0 2 2 2 2 0 0 0 0 0 2 2 2 true

    3.2.2 辨識

    在上節中已介紹到詞庫與 5401 個常用字的訓練樣本,而本研究為了方便辨識比對

    之用,故將詞庫與訓練樣本寫到程式中,以訓練樣本為基底連接詞庫,例:表三中“一”

    的屬性有字、編碼加總、編碼、單字是否有意義與指標,指標即是為了連接詞庫,當字

    一 發不可收拾 枝獨秀 席之地 時之間 落千丈 視同仁 觸即發 … 乙 二醇 烯 炔 卯 酸 丁 二烯 烷 香 憂 七 手八腳 拼八湊 言絕句 言律詩 彩繽紛 七事變 零八落 情六慾 … 乃 至 父 弟 九 牛二虎之力 一八事變 牛一毛 泉之下 九重陽 霄雲外 死一生 … 了 不起 解到 不得 解 事 結 斷 得 當 了 然 案 願 悟 債

    … 

    … 

  •  

      20

    與詞庫中第一個字相同時,即連接起來,建立完之詞庫以下稱為 database。

    而辨識部份可分為二步驟,第一利用漢明距離找出候選項,第二使用基因演算法作

    為最後辯識之用,以下將詳細介紹各階段使用方法。

    3.2.2.1 漢明距離

    本研究當讀入測試樣本後,將會抽取 24 編碼(code)並計算編碼加總(number),因而

    得到這兩個重要資訊,之後先利用 number 去 database 中找出[number-β, number+β]範圍

    內所有的漢明距離(公式(2)),之後挑選出前 γ項作為候選項。β與 γ為實驗設定。

    3.2.2.2 基因演算法

    本研究是使用基因演算法當作最後階段的辨識,染色體數由測試樣本字數決定,細

    節如下,流程如圖二十二:

    1. 輪盤法隨機產生基因:

    因候選項有名次之分,故使用輪盤法隨機產生基因,例:測試樣本有 3 個字,候選

    項排序由差到優,第一個字的候選項有{三,工,王},第二個字的候選項有{釜,奎,金},第

    三個字的候選項有{千,禾,平},之後計算機率,以第一個字為例:三的機率為 1/1+2+3,

    工的機率為 2/1+2+3,王的機率為 3/1+2+3,之後隨機產生 1 個 0 ~ 1 的數,若此數小於

    等於 1/6 即產生三,若大於 1/6 但小於等於 3/6 即產生工,若大於 3/6 但小於 1 即產生王,

    產生出基因如{工,金,平}。

    2. 計算目標函式:

    公式如下: count k

    kji

    j=1 i

    f int ness= ( rank )∑ ∑ (8)

    jirank 為第 j 個詞的第 i 個字在候選項的名次分數,

    k 為詞的長度,count 為詞的數量

    例:基因為{王,金,平},其中“王”為 3 個候選項中名次最好者“金” “平”亦然,則

  •  

      21

    3f int ness=(3+3+3) ,若基因為{王,奎,平},則 1 1f int ness=3 +0+3 ,因無法組成詞,而“王”

    與“平”皆為單字有意義,故為名次的 1 次方,而奎為單字無意義故為 0。

    3. 複製:

    本研究是利用輪盤法挑選基因進交配池,首先將各條基因 fintness 值累加

    ( totalfintness ),各條基因的機率為 fintness/totalfintness,之後使用累計分配,也就與 1.

    的作法相同。

    4. 交配:

    本研究是使用單點交配,例:基因{王,奎,平}與{工,金,平}進行交配,隨機一個 1~3

    的數,設為 1,則“王”與“工”交換,則基因變為{工,奎,平}與{王,金,平}。

    5. 突變:

    突變是為了跳脫區域最佳解,作法為:首先將染色體(測試樣本數)*基因數*突變

    率即是要突變的染色體個數,之後隨機挑選一染色體,從該字的候選項中隨機選取一候

    選項替代之,例:基因{工,奎,平}中“奎”進行突變,此字的候選項為{釜,奎,金},隨機挑

    選一個候選項作替代,假設挑到“金”,則基因變為{工,金,平}。

    6. 精英策略:

    精英策略是為加快收斂,作法為在經過交配與突變後的基因中,挑選最好的基因取

    代最差的基因。

    7. 精英取代:

    從所有舊基因與新基因中,挑選原始基因數個好的基因作為下一代基因。

  •  

      22

    圖二十二、GA 流程圖

    經基因演算法後將輸出一組最佳基因做為最後辯識結果,即結果將會是一組字串如

    圖十九,因本研究是以字組成詞的概念作為辨識原理,故辨識結果也可拆成各個關鍵

    字,以利數位典藏之用。在下一章中將細說本研究所做的各種實驗。

    輪盤法隨機產生基因

    計算舊基因 fintness 值 

    複製 

    交配 

    突變 

    計算新基因 fintness 值 

    判斷是否符合

    中止條件

    精英策略 

    精英取代 

    結束程式 

    Y

    N

  •  

      23

    第四章 實驗結果與討論

    本章節將分別介紹影像中文字細線化演算法與影像中文字辨識演算法的各種實驗

    與結果,並對實驗結果進行解說與討論。

    4.1 影像中文字細線化演算法

    本章節將介紹影像中文字細線化演算法的各步驟實驗成果,並對實驗結果進行討

    論。

    4.1.1 實驗樣本

    本研究主要是針對新聞影像文字進行骨架線抽取,故使用和平圓新書為文字樣本,

    會先將文字影像正規化到 64*64 的二值化影像,再進行處理。

    4.1.2 作業環境

    本研究使用於作業系統 Microsoft XP Professional Version 2002 Service Pack2,處理

    器為 Intel(R) Pentium(R) D CPU 3.40GHz,記憶體為 1.00GB RAM,此實作系統使用 java

    完成。

    4.1.3 PSO 抽取筆劃實驗

    本研究設定粒子數為 10 顆粒子,而粒子位置是設定 3 到 18 之間。在訓練部份,本

    研究從筆劃較多的字中隨機抽取 100 個字做為 PSO 的訓練樣本,挑筆劃較多的字做訓

    練樣本是為了怕遺失筆劃資訊,其中公式(3)實驗後發現遺失誤差 α=3 時效果最好,故本

    研究採取 α=3,而終止條件是當誤差值

  •  

      24

    圖二十三、抽取筆劃結果(由左到右分別為原圖、0°、45°、90°、135°)

    從圖二十三中可以看到水平與垂直筆劃皆可順利被抽取出,但垂直筆劃被過分抽

    取,這是因為 PSO 訓練樣本是以筆劃較多的字為主,所以會有許多小筆劃資訊必須被

    保留,故 4 方向參數中必有一參數偏小,而此參數即為垂直筆劃參數,故垂直筆劃被過

    分保留。

    使用 PSO 抽取筆劃長度閥值的優點在於,只要訓練過一次之後,這 4 個參數即可

    被任何字使用,在時間上將會相當有效率。

    4 方向筆劃被抽取後,我們可以從圖二十三中看出有很多筆劃區塊是被重複抽取

    的,故本研究利用下述方法去除重疊與雜訊。

    4.1.4 去除重疊與雜訊

    去除重疊與雜訊的部份,是使用上階段抽取出的四個方向筆劃,分別是 0°筆劃先與

  •  

      25

    45°筆劃操作,再與 90°筆劃操作,最後與 135°筆劃做去重疊的動作,再將水平筆劃與其

    他筆劃分開,實驗結果如圖二十四所示,而平均 1 個字花費 0.0093 秒。

    圖二十四、去除重疊與雜訊之結果(上為水平筆劃、下為其他筆劃)

    從圖二十四中,可以看到本研究成功的去除了重疊筆劃,而之所以將筆劃區分為水

    平筆劃與其他筆劃,是為了接下來細線化之用。

    4.1.5 細線化實驗

    將上階段結果進行初步細線化操作,結果如圖二十五所示,平均一個字花費 0.0125

    秒。

  •  

      26

    圖二十五、初步細線化結果

    從圖二十五中,可以看到本研究成功的將影像中文字細線化,且在時間上,細線化

    一個字平均只花了 0.0032 秒,成功的縮短了細線化所需花費的時間,但因之前作的去除

    重疊與本研究所提出的細線化方法,所以從圖二十五中可以看到筆劃間皆是斷開的,故

    進行筆劃連接使整個骨架線完整化。

    4.1.6 連接筆劃實驗

    將上階段之結果做筆劃連接的動作,結果如圖二十六所示,平均一個字花費 0.0156

    秒。

  •  

      27

    圖二十六、(a)合併完水平與垂直之結果 (b)最後合併結果

    從圖二十六(a)中,可以看到經過第一次的水平與垂直筆劃合併後,較方正的字已漂

    亮的連結成功,但較不端正的字則尚未處理漂亮,故要進行第二階段合併,結果如圖二

    十六(b)所示。

    從圖二十六(b)中,可以看到“夕”的末端未能連接成功,這是因為上端點(如圖二十

    七第四列之紅圈)向下延伸之 pixel 在原圖是 0,故無法向下延伸以致於無法與下端點(如

    圖二十七第七列之紅圈)連接成功。而“永”是因為在去除重疊的部份無法去除乾淨,故

    留下了許多雜訊,以致於筆劃連接崎嶇,這些問題都是我們未來研究的重要方向。

    圖二十七、“夕”連接失敗之原因

    (a) (b)

  •  

      28

    4.1.7 比較

    經上述的實驗結果顯示,在抽取筆劃部份,本研究利用 PSO 找取四方向最佳筆劃

    長度閥值,再利用這四個參數使用掃圖的方法抽取筆劃,雖然 PSO 需要時間訓練,但

    訓練過一次後即可給不同樣本使用,而[20][21]使用 gabor 濾波抽取筆劃相當耗費時間,

    故在效率上本研究優於[20][21]。在細線化部份,本研究利用筆劃邊界找取細線化的方

    式,不需要不斷侵蝕即可得到細線化結果,故在效率上優於[18]。故本研究所提出之方

    法,成功的縮短了細線化時間,並有不錯之效果。

    表四、本研究與文獻之比較

    抽取筆劃 細線化

    本研究 PSO 找筆劃長度閥值 本研究 邊界找取

    [20][21] Gabor 濾波 [18] 遮罩

    4.2 影像中文字辨識演算法

    本章節將介紹影像中文字辨識演算法的各步驟實驗成果,並對實驗結果進行討論。

    4.2.1 訓練樣本

    本研究主要是針對新聞影像文字進行辨識,故使用字型為和平圓新書的 64*64 的二

    值影像,作為訓練樣本,先將 5401 個常用字抽取特徵並編碼及儲存如表三,實驗發現

    編碼重複率很低,5401 個字中只有{一,ㄚ}、{口,凸}、{工,王}、{今,令}、{正,

    疋}、{沫,沬}這六組有重複,且重複的編碼都只有 2 個,故本研究所使用之擷取特徵

    方法有相當好的效果,再將這 5401 個編碼作為接下來辨識之訓練樣本,而詞庫則為網

    路上找得,並加以擴充,如加入人名、常用詞…等等,也是為了辨識之用。

  •  

      29

    4.2.2 作業環境

    本研究使用於作業系統 Microsoft XP Professional Version 2002 Service Pack2,處理

    器為 Intel(R) Pentium(R) D CPU 3.40GHz,記憶體為 1.00GB RAM,此實作系統使用 java

    完成。

    4.2.3 訓練樣本測試效果

    本實驗先使用訓練樣本作為各階段實驗時間的樣本,樣本字數為 7,流程如圖十九。

    在抽取影像中文字資訊的部份,共花費 0.219 秒,平均一個字花費 0.031 秒。

    在初步辨識部份,是先設定 β=20,即是在[number - 20,number + 20]的範圍內計算漢

    明距離找出候選項,而候選項數是先設定為 5,即 γ=5,共花費 0.234 秒,平均一個字花

    費 0.033 秒。

    在最後辨識部份,是使用 GA 辨識,而各參數為:基因數=10、交配率=0.8、突變

    率=0.08,終止條件為當最佳目標函數值連續 40 次不變動則訓練完畢,共花費 0.36 秒,

    平均一個字花費 0.051 秒。

    以下將再進行不同實驗進行本方法的驗證。

    4.2.3 初步辨識實驗

    本實驗將使用不同的測試樣本,測試初步辨識的辨識率。

  •  

      30

    圖二十八、訓練樣本

    4.2.3.1 二值化影像之不同尺寸的測試樣本:

    實驗樣本為二值化影像,即不是白就是黑,不是 1 就是 0,字型為和平圓新書。實

    驗設定:β=20、γ=5:

    測試樣本一:

    尺寸為 32*32

    抽取資訊結果:

    number= 48

    code={ 1,1,1,3,3,3,1,3,3,3,1,1,1,1,1,3,3,3,1,3,3,3,1,1 }

    初步辨識之候選項:

    訓練樣本:

    number= 48 code={1,1,1,3,3,3,1,3,3,3,1,1,1,1,1,3,3,3,1,3,3,3,1,1}

    number= 104 code={1,3,5,3,5,5,3,5,5,7,5,3,1,1,7,3,7,7,7,7,7,3,1,3}

    number= 84 code={5,5,5,5,3,1,1,1,5,3,5,3,3,3,3,3,1,7,1,1,5,5,5,5}

  •  

      31

    { 壬, 玉, 三, 工, 王 }

    各漢明距離為:

    { 6, 6, 4, 0, 0 }

    測試樣本二:

    尺寸為 32*32

    抽取資訊結果:

    number= 102

    code={ 1,3,7,3,5,3,3,3,5,3,5,3,1,3,7,3,7,7,7,7,7,3,3,3 }

    初步辨識之候選項:

    { 春, 姜, 穹, 脊, 參 }

    各漢明距離為:

    { 24, 24, 22, 22, 14 }

    測試樣本三:

    尺寸為 32*32

    抽取資訊結果:

    number= 82

    code={ 5,5,5,5,3,1,1,1,5,3,5,3,3,3,3,3,1,5,1,1,5,5,5,5 }

    初步辨識之候選項:

    { 刖, 圳, 那, 則, 加 }

    各漢明距離為:

    { 14, 14 , 14, 14 , 2 }

  •  

      32

    測試樣本四:

    尺寸為 100*100

    抽取資訊結果:

    number= 48

    code={ 1,1,1,3,3,3,1,3,3,3,1,1,1,1,1,3,3,3,1,3,3,3,1,1 }

    初步辨識之候選項:

    { 去, 玉, 三, 工, 王}

    各漢明距離為:

    { 8, 6, 4, 0, 0 }

    測試樣本五:

    尺寸為 100*100

    抽取資訊結果:

    number= 132

    code={ 3,5,7,5,7,5,3,7,5,7,5,3,1,3,15,3,9,7,7,7,7,3,1,7 }

    初步辨識之候選項:

    {氧, 耆, 責, 剿, 曹}

    各漢明距離為:

    { 50, 50, 50, 48, 46 }

  •  

      33

    測試樣本六:

    尺寸為 100*100

    抽取資訊結果:

    number= 84

    code={ 5,5,5,5,3,1,1,1,5,3,5,3,3,3,3,3,3,1,1,5,5,5,5,5 }

    初步辨識之候選項:

    { 把, 地, 坷, 那, 加}

    各漢明距離為:

    { 16, 16, 14, 12, 12}

    實驗結果發現,測試樣本五的初步辨識並不正確,這是因為測試樣本的 number 與

    訓練樣本相差大於 β,故本研究將 β改為 30 以修正此問題,修正結果如下。

    β=30、γ=5:

    測試樣本一:

    初步辨識之候選項:{ 玉, 壬, 三, 工, 王 }

    各漢明距離為:{ 6, 6, 4, 0, 0 }

    測試樣本二:

    初步辨識之候選項:{ 春, 姜, 脊, 穹, 參 }

    各漢明距離為:{ 24, 24, 22, 22, 14 }

    測試樣本三:

  •  

      34

    初步辨識之候選項:{ 刖, 圳, 那, 則, 加 }

    各漢明距離為:{ 14, 14, 14, 14, 2 }

    測試樣本四:

    初步辨識之候選項:{ 玉, 壬, 三, 工, 王 }

    各漢明距離為:{ 6, 6, 4, 0, 0 }

    測試樣本五:

    初步辨識之候選項:{ 黍, 春, 昏, 曾, 參 }

    各漢明距離為:{ 40, 38, 38, 34, 28}

    測試樣本六:

    初步辨識之候選項:{ 坩, 拍, 那, 加, 抑 }

    各漢明距離為:{ 12, 12, 12, 12, 10 }

    實驗證明將 β 修正為 30 後,有效的改善了原本的問題,並成功的增強了初步辨識

    的辨識率。將本研究與[15]相比後發現,本研究因不需繁雜的前置步驟,[15]必須先將

    影像中文字細線化,且本研究沒有複雜的編碼方式,[15]必須將經細線化後抽取之特徵

    點(如表一)進行分群,才能得到編碼,所以在時間上節省了相當多的時間,且從實驗

    中也可看出本研究所提出的方法在效果上也有相當好的表現,接下來以灰階影像進行實

    驗,因本研究的原理不會因影像是否為二值化而有所改變,故以灰階影像進行驗證。

    4.2.3.2 灰階影像之不同尺寸的測試樣本

    實驗樣本為灰階影像,即 pixels 在[ 0,255 ]範圍內,0 為黑、255 為白,字型為和平

    圓新書。實驗設定:β=30、γ=5:

  •  

      35

    測試樣本一:

    尺寸為 32*32

    抽取資訊結果:

    number= 48

    code={ 1,1,1,3,3,3,1,3,3,3,1,1,1,1,1,3,3,3,1,3,3,3,1,1 }

    初步辨識之候選項:

    { 玉, 壬, 三, 工, 王 }

    各漢明距離為:

    { 6, 6, 4, 0, 0 }

    測試樣本二:

    尺寸為 32*32

    抽取資訊結果:

    number= 78

    code={ 1,5,1,1,3,5,3,3,3,3,1,3,3,3,1,3,7,7,3,3,3,5,5,3 }

    初步辨識之候選項:

    { 么, 日, 弦, 茁, 店 }

    各漢明距離為:

    { 26, 26, 26, 26, 24 }

    測試樣本三:

    尺寸為 32*32

  •  

      36

    抽取資訊結果:

    number= 82

    code={ 5,5,5,5,3,1,1,1,5,3,5,3,3,3,3,3,3,1,1,3,5,5,5,5 }

    初步辨識之候選項:

    { 坩, 加, 那, 仙, 抑 }

    各漢明距離為:

    { 10, 10, 10, 10, 8 }

    測試樣本四:

    尺寸為 100*100

    抽取資訊結果:

    number= 48

    code={ 1,1,1,3,3,3,1,3,3,3,1,1,1,1,1,3,3,3,1,3,3,3,1,1 }

    初步辨識之候選項:

    { 玉, 壬, 三, 工, 王 }

    各漢明距離為:

    { 6, 6, 4, 0, 0 }

    測試樣本五:

  •  

      37

    尺寸為 100*100

    抽取資訊結果:

    number= 108

    code={ 1,3,5,3,5,5,3,7,3,5,5,3,1,3,9,3,7,7,7,7,7,5,1,3 }

    初步辨識之候選項:

    { 直, 菅, 春, 宣, 參 }

    各漢明距離為:

    { 24, 24, 22, 22 , 12 }

    測試樣本六:

    尺寸為 100*100

    抽取資訊結果:

    number= 86

    code={ 5,5,5,5,3,1,1,1,5,3,5,3,3,3,3,3,3,5,1,3,5,5,5,5 }

    初步辨識之候選項:

    { 坩, 圳, 那, 抑, 加 }

    各漢明距離為:

    { 14, 14, 14, 12, 6 }

    從實驗結果發現,測試樣本二辨識錯誤,這是因為圖的尺寸太小,字的複雜度又高,

    導致筆劃畫素不分離(如圖二十九),故造成初步辨識錯誤,但從其他測試樣本可以發

    現,本研究所提出的方法,確實可以應用於灰階影像上,但在尺寸小的影像應用上,最

    好進行直方圖等化拉大對比或轉為二值化影像,避免筆劃糾結,導致辨識錯誤。

  •  

      38

    圖二十九、尺寸小筆劃多的畫素圖

    接下來將對不同字型進行實驗,以正確定位本研究可應用範圍。

    4.2.3.3 不同字型之測試樣本

    在上一實驗已證實,本研究可以應用於灰階影像,故本實驗使用 64*64 的灰階影像

    進行實驗,實驗設定:β=30、γ=5。

    測試樣本字型:新細明體

    測試樣本一:

    抽取資訊結果:

    number= 48

    code={ 1,1,1,3,3,3,1,3,3,3,1,1,1,1,1,3,3,3,1,3,3,3,1,1 }

  •  

      39

    初步辨識之候選項:

    { 玉, 壬, 三, 工, 王 }

    各漢明距離為:

    { 6, 6, 4, 0, 0 }

    測試樣本二:

    抽取資訊結果:

    number= 124

    code={ 4,6,6,6,6,6,6,6,4,6,4,4,4,2,4,4,8,6,6,6,6,6,4,4 }

    初步辨識之候選項:

    { 庫, 廁, 島, 唐, 博 }

    各漢明距離為:

    { 18, 18, 16, 14, 14 }

    測試樣本三:

    抽取資訊結果:

    number= 84

    code={ 4,4,4,4,2,0,2,2,6,4,6,4,4,4,4,4,4,2,0,2,4,6,4,4 }

    初步辨識之候選項:

    { 仰, 故, 肋, 皿, 如 }

    各漢明距離為:

    { 14, 14, 12, 12, 10 }

  •  

      40

    測試樣本字型:新細明體

    測試樣本四:

    抽取資訊結果:

    number= 48

    code={ 1,1,1,1,3,7,1,1,3,3,1,1,1,1,1,3,3,3,1,3,3,3,1,1 }

    初步辨識之候選項:

    { 三, 壬, 玉, 工, 王 }

    各漢明距離為:

    { 12, 10, 10, 8, 8 }

    測試樣本五:

    抽取資訊結果:

    number= 92

    code={ 1,1,3,3,5,3,5,3,3,3,5,3,3,5,7,3,5,5,7,7,1,1,1,9 }

    初步辨識之候選項:

    { 丞, 釘, 恨, 麥, 家 }

    各漢明距離為:

    { 38, 38, 38, 36, 36 }

    測試樣本六:

  •  

      41

    抽取資訊結果:

    number= 68

    code={ 5,3,3,3,1,1,1,3,3,3,3,3,3,3,3,1,5,1,1,1,3,5,5,5 }

    初步辨識之候選項:

    { 凡, 仙, 中, 凶, 彬 }

    各漢明距離為:

    { 18, 16, 16, 14, 12 }

    測試樣本字型:和平粗圓體

    測試樣本七:

    抽取資訊結果:

    number= 48

    code={ 1,1,1,3,3,3,1,3,3,3,1,1,1,1,1,3,3,3,1,3,3,3,1,1 }

    初步辨識之候選項:

    { 玉, 壬, 三, 工, 王 }

    各漢明距離為:

    { 6, 6, 4, 0, 0 }

    測試樣本八:

    抽取資訊結果:

    number= 106

    code={ 2,4,4,4,4,4,4,4,4,4,6,4,2,2,2,6,6,6,6,6,6,6,6,4 }

  •  

      42

    初步辨識之候選項:

    { 包, 菩, 官, 宮, 宜 }

    各漢明距離為:

    { 14, 10, 10, 10, 8 }

    測試樣本九:

    抽取資訊結果:

    number= 84

    code={ 5,5,5,5,5,3,1,1,5,3,3,3,3,3,3,3,3,1,1,3,5,5,5,5 }

    初步辨識之候選項:

    { 仞, 佣, 坷, 抑, 他 }

    各漢明距離為:

    { 12, 10, 10, 10, 10 }

    從測試樣本一~九中發現,本研究所提出之方法對不同字型之簡單字體(測試樣本

    一、四、七)算有不錯的辨識效果,但對稍微多的筆劃字體辨識效果卻相當的差,這是

    因為不同字型的筆劃走向與筆劃寬度不同的關係,故訓練樣本的選擇極為重要,而此缺

    點也是未來研究的重要方向。

    4.2.3.4 初步辨識實驗總結

    從上述各實驗中可以發現,本研究雖然應用在與訓練樣本不同的字型上效果不佳,

    但在同字型的樣本上效果相當的好,無論是尺寸縮放或是影像型態的不同(二值化或灰

    階影像)皆可正確辨識,且十分的有效率,所以本研究成功的提出了一個特徵抽取方式

    與初步辨識方法。

  •  

      43

    4.2.4 最終辨識實驗

    本研究是使用 GA 作最後辨識,實驗樣本將以訓練樣本為主,做各參數的實驗。

    本章節將進行探討突變率與連續最佳解次數的實驗,實驗結果如下,以下實驗時間

    為辨識所花費之時間。

    實驗一:突變率=0.01 且連續 10 次最佳解不變,得到辨識率為 0.081,平均一個字花費

    0.00532 秒。

    實驗二:突變率=0.01 且連續 20 次最佳解不變,得到辨識率為 0.270,平均一個字花費

    0.01073 秒。

    從實驗一、二中發現,突變率相同但訓練次數增多有效的提升了辨識率,這是因為

    訓練不足的關係,故提升訓練次數到可以接受的時間與辨識率。

    實驗三:突變率=0.01 且連續 25 次最佳解不變,得到辨識率為 0.355,平均一個字花費

    0.01292 秒。

    實驗四:突變率=0.01 且連續 30 次最佳解不變,得到辨識率為 0.435,平均一個字花費

    0.01508 秒。

    實驗五:突變率=0.01 且連續 35 次最佳解不變,得到辨識率為 0.528,平均一個字花費

    0.0172 秒。

    實驗六:突變率=0.01 且連續 40 次最佳解不變,得到辨識率為 0.595,平均一個字花費

    0.01906 秒。

    從實驗三~六中發現,增加訓練次數對辨識率已有趨緩的趨勢,這是因為突變率太

    低以致於陷入區域最佳解,故提升突變率。

  •  

      44

    突變率0.01

    0

    0.2

    0.4

    0.6

    0.8

    1

    10 20 25 30 35 40

    連續最佳解次數

    辨識

    圖三十、(突變率不變)連續最佳解次數與辨識率

    實驗七:突變率=0.02 且連續 40 次最佳解不變,得到辨識率為 0.599,平均一個字花費

    0.01913 秒。

    實驗八:突變率=0.03 且連續 40 次最佳解不變,得到辨識率為 0.875,平均一個字花費

    0.0163 秒。

    實驗九:突變率=0.04 且連續 40 次最佳解不變,得到辨識率為 0.944,平均一個字花費

    0.01499 秒。

    實驗十:突變率=0.05 且連續 40 次最佳解不變,得到辨識率為 0.979,平均一個字花費

    0.01415 秒。

    實驗十一:突變率=0.06 且連續 40 次最佳解不變,得到辨識率為 0.976,平均一個字花

    費 0.0143 秒。

    實驗十二:突變率=0.07 且連續 40 次最佳解不變,得到辨識率為 0.986,平均一個字花

    費 0.01373 秒。

    實驗十三:突變率=0.08 且連續 40 次最佳解不變,得到辨識率為 0.994,平均一個字花

    費 0.01344 秒。

    實驗十四:突變率=0.09 且連續 40 次最佳解不變,得到辨識率為 0.991,平均一個字花

    費 0.01332 秒。

    實驗十五:突變率=0.1 且連續 40 次最佳解不變,得到辨識率為 0.999,平均一個字花費

  •  

      45

    0.01323 秒。

    連續40次最佳解不變

    0

    0.2

    0.4

    0.6

    0.8

    1

    0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

    突變率

    辨識

    圖三十一、(連續最佳解次數不變)突變率與辨識率

    從實驗七~九中發現,增加突變率對辨識率有相當顯著的增長趨勢,這是因為突變

    率太低而陷入了區域最佳解,故提升突變率有效的增強了辨識率,而增加突變率時間反

    而減少,這是因為突變率提升雖會使染色體變異變大,但因本研究所採取的精英策略與

    精英取代,使基因能有效的往最佳解的方向變動,故反而使時間縮短。以下將再進行縮

    短連續最佳解次數與突變率為 0.1 的實驗以確認連續最佳解次數的使用。

    實驗十六:突變率=0.1 且連續 30 次最佳解不變,得到辨識率為 0.984,平均一個字花費

    0.01124 秒。

    實驗十七:突變率=0.1 且連續 35 次最佳解不變,得到辨識率為 0.992,平均一個字花費

    0.01221 秒。

    從實驗十六、十七中發現,縮短連續最佳解次數雖能減少辨識所花費的時間,但相

    對的降低了辨識率,故本研究經實驗後決定使用突變率=0.1 且連續 40 次最佳解不變為

    終止條件,因其效率與效果是本研究所滿意的,故使用之。

    本研究使用 GA 作最後辨識是因為當要辨識的字詞過多時,一一組合與比對將會花

    費過多的時間,例:10 個字的測試樣本,候選項為 γ個,則有個 10γ 的組合,故使用 GA

  •  

      46

    作為最後辨識。

    4.2.5 比較

    經上述實驗結果顯示,在前置步驟上,本研究不需前置步驟而[15]需先經細線化處

    理,而在編碼方面,本研究使用 24 方位環狀擷取特徵在計算上相當簡單,而[15]是使用

    k-mean 分群,故在時間上,本研究優於[15]。在辨識方面,[15]使用漢明距離只能大概

    的抽出可能的候選項,而本研究利用漢明距離找出候選項後再利用 GA,進一步的得到

    辨識結果即一組字串與關鍵字,而所得之關鍵字可應用於數位典藏、檢索、分類…之用,

    且本研究在時間上也相當的有效率。故本研究所提出之方法成功的縮短了抽取特徵的時

    間也成功的達到了辨識的效果。

    表五、本研究與文獻之比較

    前置步驟 編碼方式 辨識

    本研究 無 24 方位環狀擷取特徵 漢明距離、GA

    [15] 細線化 k-mean 分群 漢明距離

  •  

      47

    第五章 結論與未來研究

    在這篇論文中,本研究最主要是提出了兩個演算法,一為影像中文字細線化演算

    法,二為影像中文字辨識演算法。

    在影像中文字細線化演算法中,本研究提出了以 PSO 訓練出最佳筆劃長度抽取閥

    值與邊界求取細線化的方式,實驗證明本研究成功的抽取出影像中文字的骨架線,並在

    效率上有相當好的表現。在此演算法中,本研究之貢獻為提出一個以不同閥值抽取四方

    向筆劃的概念與不使用疊代的方式細線化的方法,並成功的驗證本研究所提出之方法是

    可行的。

    在影像中文字辨識演算法中,本研究提出了以 24 方位環狀擷取特徵的方式,成功

    的抽取出足以代表此影像的編碼,再計算漢明距離挑選出候選項進行 GA 辨識,實驗證

    明本研究有相當好的辨識效果且成功的擷取出關鍵字,而在應用上也有相當大的彈性。

    在此演算法中,本研究之貢獻為成功的辨識出影像中文字且得到整句影像中文字的關鍵

    字,而此關鍵字將可被應用於數位典藏、檢索、分類…之用。

    未來研究方面,以影像中文字細線化演算法來說,雖然成功的抽取出筆劃,但在去

    除重疊的部份還需要再加強以得到更精確的筆劃以利後續細線化操作,而在最後筆劃間

    連接的部份也是我們未來研究的方向。

    以影像中文字辨識演算法而言,我們的未來研究是對所抽取出之關鍵字進行應用,

    如可應用於數位典藏,將[2]所擷取出之各影像文字進行辨識並得到關鍵字,再利用關鍵

    字進行影像分類,例:關鍵字為“王金平”即可分類到政治新聞區,如關鍵字為“王建民”

    即可分類到運動新聞區…以此類推。此舉也可便利使用者在檢索方面可順利的找到所需

    要的影像資料,使本研究更實際的被應用在現實生活中。而在訓練樣本字型上過於敏感

    的問題也是未來研究的一個方向,建議可以多加幾個訓練樣本字型以使應用更加有彈

    性,可以更容易被使用在現實生活中。

  •  

      48

    參考文獻

    [1] 吳成柯、戴善榮、程湘君和雲立實 釋, ”數位影像處理,” 儒林出版社, 1993.

    [2] 林君諺, “影像文字自動擷取演算法,” 義守大學資訊管理研究所碩士論文, 2007.07.

    [3] 林家均、李正宇,“基於環狀取樣以向量為特徵的新式比對技術,” 資訊科技國際研討

    會論文集, 2009.

    [4] 蔡仲智, “應用輪廓線分析於中文字筆劃抽取,” 中興大學電機工程研究所碩士論文,

    2003.07.

    [5] 蘇木春、張孝德 編著,“機器學習類神經網路、模糊系統以及基因演算法則,” 全華

    科技圖書股份有限公司 印行, 2003.

    [6] An-bang Wang, Kuo-chin Fan and Wei-hsien Wu, “Recursive hierarchical radical

    extraction for handwriten Chinese characters”, Pattern Recognition, vol. 30, no. 7, pp.

    1213-1227, 1997.

    [7] Fen Zhang, Yun-shan Wang, Cheng-yong Gao, Shu-chun Si and Jian-qiang Xu, “An

    improved parallel thinning algorithm with two subiterations,” OPTOELECTRONICS

    LETTERS, vol. 4, no. 1, 2008.

    [8] J. Lu, X. Yuan and T. Yahagi, “A Method of Face Recognition Based on Fuzzy c-Means

    Clustering and Associated Sub-NNs,” Neural Networks, IEEE, vol.18, Issue 1,

    pp.150-160, 2007.01.

    [9] Jia Zeng and Zhi-Qiang Liu, “Markov Random Field-Based Statistical Character

    Structure Modeling for Handwritten Chinese Character Recognition,” IEEE, vol.30, no.5,

    2008.05.

    [10] Jia Zeng and Zhi-Qiang Liu, “Type-2 Fuzzy Markov Random Fields and Their

    Application to Handwritten Chinese Character Recognition,” IEEE TRANSACTIONS

    ON FUZZY SYSTEMS, vol. 16, no. 3, 2008.06.

    [11] K.J. Wang, D.R. Liu, Y. Zhao and X.Z. Han, “An improved method on Chinese character

  •  

      49

    recognition,” IEEE, vol.5, pp.3072- 3076, 2003.

    [12] Khawaja, S. Tingzhi, N.M. Memon and A. Rajpar, “Recognition of printed Chinese

    characters by using Neural Network,” IEEE, pp. 169-172, 2006.12.

    [13] Kuo-Chin Fan, Wei-Hsien Wu and Meng-Pang Chung, “A Symmetry-Based Coarse

    Classification Method for Chinese Characters,” IEEE, vol. 32, no. 4, 2002.11.

    [14] Liang Tiancai, Qiu Zhiwen and Pi Youguo, “Simple Grid Based on Cognitive

    Mechanism and Application Research on Description for Structure of Chinese

    Character,” Proceedings of the 26th Chinese Control Conference, pp. 26-31, 2007.07.

    [15] M.G. Wen, C.C. Han, K.C. Fan and D.W. Tang, “A Coarse Classification Scheme on

    Printed Chinese Characters by Encoding the Feature Points,” Journal of Information

    Science and Engineering, vol. 19, no. 4, pp. 555-570, 2003.04.

    [16] Rong He and Hong Yan, “Stroke extraction as pre-processing step to improve thinning

    results of Chinese characters,” Pattern Recognition Letters, vol.21, pp.817-825, 2000.

    [17] Shuyan Zhaoa, Zheru Chia, Penfei Shib and Hong Yanc, “Two-stage segmentation

    ofunconstrained handwritten Chinese characters,” Pattern Recognition, vol. 36,

    pp.145-156, 2003.

    [18] Xuefang Zhu and Shuyi Zhang, “A Shape-adaptive Thinning Method for Binary

    Images,” 2008 International Conference on Cyberworlds, pp.721-724, 2008.

    [19] Xuewen Wang, Xiaoqing Ding and Changsong Liu, “Gabor filters-based feature

    extraction for character recognition,” Pattern Recognition, vol. 38, pp.369-379, 2004.08.

    [20] Y.M. Su and J.F. Wang, “A Learning Process to Identification of Feature Points on

    Chinese Characters,” IEEE Trans. on Systems, Man, and Cybernetics Part A: Systems

    and Humans, vol. 33, no. 3, pp. 386-395, 2003.05.

    [21] Y.M. Su and J.F. Wang, “A novel stroke extraction method for Chinese characters using

    Gabor filters,” Pattern Recognition, vol. 36, no. 3, pp. 635-647, 2003.03.

    [22] Yuan Y. Tang, Feng Yang and Jiming Liu, “Basic Processes of Chinese Character Based

  •  

      50

    on Cubic B-Spline Wavelet Transform,” IEEE, vol.23, no.12, 2001.12.