粒迁移学习方法及其在序列标注中的应用 -...

106
粒迁移学习方法及其在序列标注中的应用 Granular Transfer Learning Methods with Applications in Sequence Labeling 名: 孙世昶 号: 10909010 师: 林鸿飞 学科、 专业: 计算机应用 期: 大连理工大学 Dalian University of Technology

Upload: others

Post on 21-Feb-2020

21 views

Category:

Documents


0 download

TRANSCRIPT

博 士 学 位 论 文

粒迁移学习方法及其在序列标注中的应用

Granular Transfer Learning Methods with Applications in Sequence

Labeling

作 者 姓 名: 孙世昶

学 号: 10909010

指 导 教 师: 林鸿飞

学科、 专业: 计算机应用

答 辩 日 期:

大连理工大学

Dalian University of Technology

大连理工大学学位论文独创性声明

作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的

成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或

集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一

同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。

若有不实之处,本人愿意承担相关法律责任。

学位论文题目: 粒迁移学习方法及其在序列标注中的应用

作 者 签 名 : 日期: 年 月 日

大连理工大学学位论文版权使用授权书

本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论文工作的知

识产权属于大连理工大学,允许论文被查阅和借阅。学校有权保留论文并向国家有关部

门或机构送交论文的复印件和电子版,可以将本学位论文的全部或部分内容编入有关数

据库进行检索,可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论文。

学位论文题目: 粒迁移学习方法及其在序列标注中的应用

作 者 签 名 : 日期: 年 月 日

导 师 签 名 : 日期: 年 月 日

答辩委员会主席: 日期: 年 月 日

大连理工大学博士学位论文

- I -

摘 要

机器学习方法的一个核心目标是提升从经验出发进行泛化的能力。迁移学习通过将

已有的知识迁移到目标域,从而达到提高模型在目标域中的泛化能力的目的。然而现有

迁移学习模型仍然存在负迁移、欠适配等问题。为了解决这些问题,需要进一步研究与

迁移有关的信息的结构和粗糙程度。本文提出了“粒迁移学习”,将粒计算的思想引入

到迁移学习领域中,通过信息粒化(Information Granulation)、粒模型(Granular Model)和

粒度(Granularity)方法解决负迁移和欠适配的问题。粒迁移学习方法的特点是考虑了特

征、特征映射和结构的粒度对迁移学习效果的影响。

本文主要创新性工作包括以下四个方面:

(1) 提出了基于数据集结构信息的粒迁移学习方法。当源域数据集包含结构性信息

时,该方法通过对特征粒度的选择来解决负迁移问题。为了描述特征的粒度,提出了基

于数据集结构的信息粒化方法,建立了区间形式的信息粒,从而将特征的粒度引入迁移

学习中。建立了区间二型模糊隐马尔可夫模型(Interval type-2 fuzzy Hidden Markov Model,

IHMM)用于处理区间信息粒。为了使用高效的 Viterbi 算法进行推断,给出了通过随机

优化进行粒度选择的方法。通过多个序列标注实验表明基于数据集结构信息的粒迁移学

习方法较好地解决了与特征粒度有关的负迁移问题,提高了模型的泛化能力。

(2) 提出了基于对应关系的粒迁移学习方法。当源域和目标域的特征之间可以通过

公共表示建立对应关系时,该方法通过对特征映射粒度的选择来解决负迁移问题。为了

描述特征映射的粒度,提出了对应关系的信息粒化方法,通过模糊 C 均值方法建立了模

糊集形式的对应信息粒,从而将特征映射粒度引入迁移学习。建立了粒二型模糊隐马尔

可夫模型(Granular Type-2 fuzzy Hidden Markov Model, GT2HMM)用于处理对应信息粒,

给出了通过随机优化进行粒度选择的方法。通过多个序列标注实验表明基于对应关系的

粒迁移学习方法较好地解决了与特征映射粒度有关的负迁移问题,提高了模型的泛化能

力。

(3) 提出了基于生成结构的粒迁移学习方法。当目标域可以用生成模型建模时,该

方法通过结构保持来解决欠适配问题,并通过结构粒度的选择来应对在解决欠适配问题

的过程中导致的过拟合问题。建立了子结构正则化迁移学习模型 (Substructural

regularization Transfer Learning Model, STLM). 为了保持目标域结构,通过相对熵在正则

化框架下引入结构的相似性。为了选择适合数据条件的子结构,通过一致边界分析了不

同子结构作为正则项参数的条件。为了高效地进行参数估计,推导出了模型的解析解,

并证明了极值的充分必要条件。通过多个序列标注实验表明基于生成结构的粒迁移学习

粒迁移学习方法及其在序列标注中的应用

- II -

方法较好地解决了与生成模型结构的粒度有关的欠适配以及过拟合问题,提高了模型的

泛化能力。

(4) 提出了基于模型选择的粒模型推断方法。当目标域中存在规则性知识时,该方

法作为对粒迁移学习中推断方法的补充,通过在推断中引入规则性知识来解决欠适配问

题。为了在粒模型中融合规则性知识,提出了基于似然比的模型选择方法(Likelihood

Ratio Model Selection, LRMS), 通过规则性知识比较候选预测结果的优劣,并将似然比

计入对预测结果的评分。LRMS 可以输出整个状态序列作为候选序列,从而避免了回退

标注器对上下文关系的破坏。通过多个序列标注实验表明基于模型选择的粒模型推断方

法较好地解决了与目标域知识欠缺有关的欠适配问题,提高了模型的泛化能力。

关键词:迁移学习;文本挖掘;序列标注;粒度

大连理工大学博士学位论文

- III -

ABSTRACT

An essential goal of machine learning methods is to improve the generalization capacity

from experience. Transfer learning can achieve the goal of improving generalization capacity

of models by transferring current knowledge to target domain. However, current transfer

learning models are still hindered by the problems including negative-transfer and

under-adaptation. To solve these problems, further research should be carried out on the

structure and uncertainty of transfer-related information. In this dissertation, a theoretical

method system called ―granular transfer learning‖ is put forward, which introduces the

thoughts of Granular Computing into the field of transfer learning. The negative-transfer and

under-adaptation problems are targeted using Information Granulation, Granular Models and

Granularity. Granular transfer learning is characterized by the unique thinking of the influence

of granularity of features and structures on transfer learning.

The major original works in this dissertation are summarized as follows:

(1) A granular transfer learning method, which is based on dataset structure information,

is proposed. When structure information is contained in source domain dataset, the

negative-transfer problem is targeted by the selection of feature granularity. To describe the

feature granularity, an information granulation method is proposed based on dataset structure

information, and information granules in form of intervals are created to introduce feature

granularity into transfer learning. An Interval type-2 fuzzy Hidden Markov Model (IHMM) is

proposed to process interval granules. To enable the efficient Viterbi algorithm in model

inference, a method of granularity selection is presented using stochastic optimization.

Empirical experiments show that the granular transfer learning method is a good solution for

negative-transfer problem relating to feature granularity and improves the generalization

capacity.

(2) A granular transfer learning method, which is based on correspondences, is proposed.

When feature correspondences can be built using common representation between source and

target domains, the negative-transfer problem is targeted by the selection of feature mapping

granularity. To describe the feature mapping granularity, an information granulation method

for correspondences is proposed, and information granules in form of fuzzy sets are created to

introduce feature mapping granularity into transfer learning. An Granular Type-2 fuzzy

Hidden Markov Model (GT2HMM) is proposed to process correspondence granules.

Granularity selection is presented using stochastic optimization. Empirical experiments show

that this granular transfer learning method is a good solution for negative-transfer problem

relating to feature mapping granularity and improves the generalization capacity.

粒迁移学习方法及其在序列标注中的应用

- IV -

(3) A granular transfer learning method, which is based on generative structures, is

proposed. When target domains can be modeled with generative models, the under-adaptation

problem is targeted by preserving generative structures. The side-effect, which is an

overfitting problem, is targeted by selecting granularity over substructures. A Substructural

regularization Transfer Learning Model (STLM) is propsed. To preserve the structure of

target domain, structural similarity is considered in regularization framework using relative

entropy. To select a substructure suitable for data conditions, the appropriateness of using

various substructures as regularizer parameters is analyzed using uniform bounds. To

efficiently estimate the parameters, an analytical solution is derived and is proved to be a

necessary and sufficient condition of extremum. Empirical experiments show that the granular

transfer learning method is a good solution for the under-adaptation and overfitting problem

relating to generative substructures and improves the generalization capacity.

(4) An inference method of granular models, which is based on model selection, is

proposed. When rule-like knowledge exists in target domain, this method acts as a

supplement for inference methods in granular transfer learning, so that the under-adaptation

problem is targeted by using rule-like knowledge in inference. To fuse rule-like knowledge

with granular model, a Likelihood Ratio Model Selection (LRMS) method is proposed. The

candidate prediction results are compared using rule-like knowledge and the likelihood ratio

is used in the scoring of the results. LRMS can use the whole sequence as a candidate and

thus avoid the situation that context relation is broken by backoff taggers. Empirical

experiments show that the inference method is a good solution for the under-adaptation

problem relating to the lack of target domain knowledge and improves the generalization

capacity.

Key Words:Transfer Learning; Text Mining; Sequence Labeling; Granularity

大连理工大学博士学位论文

- V -

目 录

摘 要 ............................................................................................................................. I

ABSTRACT ..................................................................................................................... III

TABLE OF CONTENTS .............................................................................................. VIII

图目录 ............................................................................................................................... X

表目录 .............................................................................................................................. XI

主要符号表 ..................................................................................................................... XII

1 绪论 ............................................................................................................................. 1

1.1 研究背景与意义 ................................................................................................. 1

1.1.1 研究背景 ................................................................................................. 1

1.1.2 理论意义 ................................................................................................. 2

1.1.3 应用价值 ................................................................................................. 2

1.2 国内外相关工作研究进展 ................................................................................. 2

1.2.1 迁移学习 ................................................................................................. 2

1.2.2 粒计算 ..................................................................................................... 4

1.2.3 序列标注 ................................................................................................. 5

1.3 粒迁移学习的研究思路 ..................................................................................... 5

1.4 粒迁移学习的方法体系 ..................................................................................... 7

1.5 序列标注中的迁移学习问题 ............................................................................. 9

1.6 本文的组织结构 ............................................................................................... 11

2 基于数据集结构信息的粒迁移学习 ....................................................................... 12

2.1 特征粒度与负迁移问题 ................................................................................... 12

2.2 基于数据集结构信息的粒迁移学习方法 ....................................................... 13

2.2.1 数据集结构信息的区间粒化方法 ....................................................... 13

2.2.2 区间二型模糊隐马尔可夫模型 ........................................................... 14

2.3 实验过程与结果分析 ....................................................................................... 17

2.3.1 实验数据集介绍 ................................................................................... 17

2.3.2 前期工作的实验结果 ........................................................................... 18

2.3.3 迁移学习实验结果与分析 ................................................................... 22

2.4 本章小结 ........................................................................................................... 30

3 基于对应关系的粒迁移学习 ................................................................................... 31

3.1 对应关系中特征映射的粒度 ........................................................................... 31

粒迁移学习方法及其在序列标注中的应用

- VI -

3.2 基于对应关系的粒迁移学习方法 ................................................................... 33

3.2.1 对应关系的信息粒化 ........................................................................... 33

3.2.2 粒二型模糊隐马尔可夫模型 ............................................................... 36

3.3 迁移学习实验结果与分析 ............................................................................... 38

3.3.1 实验数据 ............................................................................................... 38

3.3.2 实验设置 ............................................................................................... 39

3.3.3 实验结果与分析 ................................................................................... 40

3.4 本章小结 ........................................................................................................... 46

4 基于生成结构的粒迁移学习 ................................................................................... 47

4.1 粒度与子结构 ................................................................................................... 47

4.2 序列迁移学习与子结构正则化 ....................................................................... 48

4.3 基于生成结构的粒迁移学习模型 ................................................................... 50

4.3.1 子结构正则化 ....................................................................................... 50

4.3.2 子结构粒度选择 ................................................................................... 51

4.3.3 使用相对熵的子结构保持 ................................................................... 52

4.3.4 极值的充分和必要条件 ....................................................................... 53

4.3.5 时间复杂性 ........................................................................................... 55

4.4 迁移学习实验结果与分析 ............................................................................... 56

4.4.1 实验数据 ............................................................................................... 56

4.4.2 实验设置 ............................................................................................... 57

4.4.3 实验结果与分析 ................................................................................... 58

4.5 本章小结 ........................................................................................................... 68

5 基于模型选择的粒模型推断方法 ........................................................................... 69

5.1 粒模型推断与模型选择 ................................................................................... 69

5.2 规则性知识与似然比模型选择方法 ............................................................... 69

5.2.1 规则性知识 ........................................................................................... 69

5.2.2 似然比 ................................................................................................... 70

5.2.3 似然比模型选择方法 ........................................................................... 71

5.3 迁移学习实验结果与分析 ............................................................................... 72

5.3.1 实验数据 ............................................................................................... 72

5.3.2 实验设置 ............................................................................................... 73

5.3.3 实验结果与分析 ................................................................................... 73

大连理工大学博士学位论文

- VII -

5.4 本章小结 ........................................................................................................... 77

6 结论与展望 ............................................................................................................... 78

6.1 结论 ................................................................................................................... 78

6.2 创新点 ............................................................................................................... 80

6.3 展望 ................................................................................................................... 81

参 考 文 献 .................................................................................................................... 82

攻读博士学位期间科研项目及科研成果 ...................................................................... 89

致 谢 .......................................................................................................................... 90

作者简介 .......................................................................................................................... 91

粒迁移学习方法及其在序列标注中的应用

- VIII -

TABLE OF CONTENTS

1 Introduction .................................................................................................................. 1

1.1 Research Background and Significance ............................................................ 1

1.1.1 Research Background ................................................................................ 1

1.1.2 Theoretical Significance ............................................................................ 2

1.1.3 Empirical Value......................................................................................... 2

1.2 Related Works ................................................................................................... 2

1.2.1 Transfer Learning ...................................................................................... 2

1.2.2 Granular Computing .................................................................................. 4

1.2.3 Text Sequence Transfer Learning ............................................................. 5

1.3 Research Thought of Granular Transfer Learning ............................................ 5

1.4 Theoretical Method System of Granular Transfer Learning ............................. 7

1.5 Transfer Learning Problem Definition in Sequence Labeling .......................... 9

1.6 Organizational Structure ................................................................................. 11

2 Granular Transfer Learning Based on Dataset Structure Information ...................... 12

2.1 Feature Granularity and Negative Transfer ....................................................... 12

2.2 Granular Transfer Learning Method Based on Dataset Structure Information . 13

2.2.1 Granulation Method of Dataset Structure Information ......................... 13

2.2.2 Interval Type-2 Fuzzy Sequence Labeling Model…………………….14

2.3 Experimental Results and Analysis ................................................................... 17

2.3.1 Dataset Introduction .............................................................................. 17

2.3.2 Experimental Results of Previous Works.............................................. 18

2.3.3 Experimental Results and Analysis of Transfer Learning .................... 22

2.4 Chapter Summary .............................................................................................. 30

3 Granular Transfer Learning Based on Correspondence Relation ............................. 31

3.1 Feature Mapping Granularity in Correspondences ........................................... 31

3.2 Granular Transfer Learning Method Based on Correspondence Relations ...... 33

3.2.1 Information Granulation of Correspondences ....................................... 33

3.2.2 Granular Type-2 Fuzzy Hidden Markov Model ................................... 36

3.3 Sequence Labeling Experimental Results and Analysis ................................... 38

3.3.1 Data Preparation .................................................................................... 38

3.3.2 Experimental Setting ............................................................................. 39

3.3.3 Experimental Results and Analysis ....................................................... 40

3.4 Chapter Summary .............................................................................................. 46

4 Granular Transfer Learning Based on Generative Structures ................................... 47

大连理工大学博士学位论文

- IX -

4.1 Granularity and Substructures ........................................................................... 47

4.2 Sequence Transfer Learning and Substructural Regularization ........................ 48

4.3 Granular Transfer Learning Method Based on Generative Structures .............. 50

4.3.1 Substructural Regularization ................................................................. 50

4.3.2 Substructrue Granularity Selection ....................................................... 51

4.3.3 Substructure Preservation with Relative Entropy ................................. 52

4.3.4 Necessary and Sufficient Condition of Extremum ................................ 53

4.3.5 Time Complexity ................................................................................... 55

4.4 Sequence Labeling Experimental Results and Analysis ................................... 56

4.4.1 Data Preparation .................................................................................... 56

4.4.2 Experimental Setting ............................................................................. 57

4.4.3 Experimental Results and Analysis ....................................................... 58

4.5 Chapter Summary .............................................................................................. 68

5 Granular Transfer Learning Inference Using Model Selection ................................. 69

5.1 Granular Model Inference and Model Selection ............................................... 69

5.2 Rule-like Knowledge and Likelihood Ratio Model Selection .......................... 69

5.2.1 Rule-like Knowledge ............................................................................. 69

5.2.2 Likelihood Ratio .................................................................................... 70

5.2.3 Likelihood Ratio Model Selection ........................................................ 71

5.3 Sequence Labeling Experimental Results and Analysis ................................... 72

5.3.1 Data Preparation .................................................................................... 72

5.3.2 Experimental Setting ............................................................................. 73

5.3.3 Experimental Results and Analysis ....................................................... 73

5.4 Chapter Summary .............................................................................................. 77

6 Conclusion and Future Works .................................................................................... 78

6.1 Conclusion ....................................................................................................... 78

6.2 Innovation........................................................................................................ 80

6.3 Future Work .................................................................................................... 81

References ........................................................................................................................ 82

Achievements ................................................................................................................... 89

Acknowledgements .......................................................................................................... 90

Author Introduction .......................................................................................................... 91

粒迁移学习方法及其在序列标注中的应用

- X -

图目录

图 1.1 粒迁移学习方法的研究思路 ............................................................................. 6

图 1.2 粒迁移学习的一般方法 ..................................................................................... 8

图 2.1 的不确定覆盖域........................................................................................... 15

图 2.2 不同语料大小的词性标注平均准确率 ........................................................... 20

图 2.3 IHMM 中粒度的选取 ....................................................................................... 22

图 2.4 直推迁移学习方式下的第一组词性标注结果 ............................................... 25

图 2.5 直推迁移学习方式下的第二组词性标注结果 ............................................... 25

图 2.6 归纳迁移学习方式下的第一组词性标注结果 ............................................... 28

图 2.7 归纳迁移学习方式下的第二组词性标注结果 ............................................... 28

图 3.1 对应关系中特征映射的粒度 ........................................................................... 32

图 3.2 二型模糊集形式的对应信息粒 ....................................................................... 35

图 3.3 GT2HMM 的框架图 ......................................................................................... 37

图 3.4 GT2HMM 与其他算法在第一组实验中的比较. ............................................ 39

图 3.5 GT2HMM 与其他算法在第二组实验中的比较. ............................................ 40

图 3.6 在 Twitter 语料中 GT2HMM 与其他算法的比较 .......................................... 43

图 3.7 数据集大小对准确率的影响 ........................................................................... 44

图 3.8 ―news vs. editorial‖任务中聚类大小对粒模型表现的影响 ......................... 45

图 3.9 ―editorial vs. fiction‖任务中聚类大小对粒模型表现的影响 ....................... 45

图 4.1 子结构正则化学习系统框架图 ......................................................................... 49

图 4.2 Twitter 语料中参数 对序列标注准确率的影响 ............................................ 56

图 4.3 ―editorial vs. fiction‖任务中参数 对序列标注准确率的影响 ....................... 57

图 4.4 ―government vs. adventure‖任务中参数 对序列标注准确率的影响 ............ 58

图 4.5 以―news‖为目标域的序列迁移学习任务的结果 ........................................... 60

图 4.6 以―editorial‖为目标域的序列迁移学习任务的结果 ...................................... 61

图 4.7 Twitter 语料序列迁移学习任务的结果 .......................................................... 61

图 4.8 Brown 语料的 20 个任务的实验结果对比 ..................................................... 62

图 4.9 同域 Brown 数据集产生的正则项参数的差异 .............................................. 63

图 4.10 跨域 Brown 数据集产生的正则项参数的差异 ............................................ 64

图 4.11 同域 Twitter 数据集产生的正则项参数的差异 ........................................... 65

图 4.12 跨域 Twitter 数据集产生的正则项参数的差异 ........................................... 65

大连理工大学博士学位论文

- XI -

图 4.13 不同正则项参数的 Brown 语料的词性标注结果 .......................................... 66

图 4.14 不同正则项参数的 Twitter 语料的词性标注结果 ......................................... 67

图 5.1 LRMS 的流程 ................................................................................................... 71

图 5.2 第一组序列迁移学习实验结果 ....................................................................... 76

图 5.3 第二组序列迁移学习实验结果 ....................................................................... 76

表目录

表 2.1 Brown 语料中的主要类型及词语多样性 ....................................................... 17

表 2.2 Twitter 语料的主要标签及统计信息 .............................................................. 18

表 2.3 参数区间化的隐马尔可夫模型的结果 ........................................................... 21

表 2.4 IHMMM 中 PSO 参数设置 .............................................................................. 23

表 2.5 直推迁移学习的第一组结果和成对 t 检验 .................................................... 24

表 2.6 直推迁移学习的第二组结果和成对 t 检验 .................................................... 26

表 2.7 归纳迁移学习的第一组结果和成对 t 检验 .................................................... 27

表 2.8 归纳迁移学习的第二组结果和成对 t 检验 .................................................... 29

表 3.1 第一组实验结果和成对 t 检验 ........................................................................ 41

表 3.2 第二组实验结果和成对 t 检验 ........................................................................ 42

表 4.1 带有成对 t 检验的 22 个迁移学习任务的准确率(单位:%) ........................... 59

表 4.2 运行时间比较 ................................................................................................... 67

表 5.1 似然比检验的计算 ........................................................................................... 70

表 5.2 LRMS 推断中的 PSO 参数的设置 .................................................................. 73

表 5.3 Brown 语料 20 个迁移学习任务的第一组实验结果 ..................................... 74

表 5.4 Brown 语料 20 个迁移学习任务的第二组实验结果 ..................................... 75

粒迁移学习方法及其在序列标注中的应用

- XII -

主要符号表

符 号 代表意义

O 观察值序列

Q 标注序列

二型模糊集

标注数据域

未标注数据域

源域

目标域

HMM 的参数

A 状态迁移矩阵

B 符号发射矩阵

初始状态分布

相对熵

大连理工大学博士学位论文

- 1 -

1 绪论

1.1 研究背景与意义

1.1.1 研究背景

机器学习是人工智能研究中十分活跃的一个分支。1959 年 Samuel 设计了具有一定

学习能力的跳棋程序,并将机器学习定义为“使计算机在没有明确编程的情况下具有学

习能力”的研究。Mitchell 认为机器学习是对“能通过经验自动改进的计算机算法”的

研究。机器学习方法可以从数据中学习经验,并将结果应用于对数据的预测和分析,因

而在广泛的领域中得到应用。

在机器学习中,首先通过训练集中的数据得到模型,然后将模型用于待测试的数据。

为了使这种模式具有合理性,机器学习算法一般会要求训练数据和测试数据具有独立同

分布的性质。为了扩展机器学习方法的应用范围,当训练数据和测试数据之间存在分布

差异时,也希望能够将已有的经验用于新的数据域。这样,迁移学习逐渐受到关注,并

产生了丰富的成果;许多研究结果已经发表到顶级的期刊和会议。根据维基百科的定义,

迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种机器学习方法1。

机器学习方法的一个核心目标是提升从经验出发进行泛化的能力[1]。迁移学习通过

将已有的知识迁移到目标域,从而达到提高模型在目标域中的泛化能力的目的。其中迁

移的对象可以包括带有权重的实例、模型的参数和对特征的公共表示等。这些方法对于

机器学习的理论和应用具有重要的价值。但是现有模型仍然存在负迁移、欠适配等问题。

为了进一步提高迁移学习模型的泛化能力,需要进一步研究与迁移有关的信息的结构和

粗糙程度。

人可以进行广泛的学习,而现阶段的机器学习方法的泛化能力有限。作为一种机器

学习方法,理想的机器学习的状态是像人一样理解和应用数据中的信息和知识。目前机

器学习技术和这种理想状态相比距离尚远。人的泛化学习的一个特点是在可以在不同的

粒度上感知世界。作为人工智能领域中的一个研究热点,粒计算试图模拟人的这种认知

方式,用不同粒度的结构来描述事物。姚一豫等人[2]将粒计算定义为“研究基于多层次

粒结构的思维方式、问题求解方法、信息处理模式,及其相关理论、技术和工具的学科”。

从粒计算的观点来看,不确定性和确定性是信息在不同知识粒度层次上的不同表现形式

1 https://en.wikipedia.org/wiki/Inductive_transfer

粒迁移学习方法及其在序列标注中的应用

- 2 -

[3]. 粒计算为带有不确定性的知识、信息的表示和处理提供了思路。因此,将粒计算引

入迁移学习成为可能。

1.1.2 理论意义

机器学习是人工智能研究中十分活跃的一个分支,正获得越来越广泛的应用。机器

学习能够从数据中进行学习的条件是需要大量样本,因为通过大量样本建立的模型可以

较好地逼近测试集所需要的规律。随着应用范围的扩展,人们希望在数据稀疏的新领域

中应用机器学习方法,这就要求放宽经典机器学习中对于训练数据和测试数据的独立同

分布的约束。迁移学习正是在没有独立同分布假设的前提下研究如何将已有的经验用于

数据稀疏的新领域,已经成为机器学习中一个重要的研究方向。因此,通过研究迁移学

习的理论和方法体系可以从泛化能力的角度对经典机器学习理论进行扩展和补充。

人工智能是对人的意识和思维的信息过程的模拟。人类的泛化学习能力是迁移学习

的理想状态,人的泛化学习的一个特点是在可以在不同的粒度上感知世界。作为人工智

能领域中的一个研究热点,粒计算试图模拟人的这种认知方式,用不同粒度的结构来描

述事物。因此,将粒计算的思想和方法引入迁移学习可以补充和扩展迁移学习理论,也

可以促进人工智能领域内的迁移学习和粒计算这两个研究方向的交叉与融合。

1.1.3 应用价值

本文将粒迁移学习方法应用于文本的序列标注。序列标注是文本分析的重要环节,

对于信息抽取和信息检索的研究和应用具有重要的意义。随着网络应用的发展,微博等

新的文本域不断出现,这使得序列标注的迁移学习研究成为十分重要和迫切的研究课

题。文本序列标注包括词性标注(Part-of-speech Tagging), 组块分析(Chunk Parsing), 命名

实体识别(Named Entity Recognition)等任务,其中词性标注是自然语言处理领域的基础

性研究课题,其作用是通过上下文等信息计算决定符号的词性标签。特别是对于微博文

本,由于写作者口语化的表达方式和拼写不规范的特点,为现存的标注模型带来新的挑

战。

文中的主要方法适用于离散数据,特别是可以用马尔可夫链建模的领域数据。因此

本文对于序列标注以外的其他领域的迁移学习问题也有应用价值和借鉴意义。

1.2 国内外相关工作研究进展

1.2.1 迁移学习

迁移学习(Transfer Learning)是将相关已知领域中学习到的知识或模型进行迁移,从

而解决经验不足的目标领域上的任务。在一些研究中也称作领域适应 (Domain

大连理工大学博士学位论文

- 3 -

Adaptation)[4-8]

. 在传统的机器学习方法中,假定模型的学习和应用都发生在同一个领

域,迁移学习将此扩展到领域和任务都可以不同的情况。根据源域和目标域是否有已标

注数据的情况,Pan 和 Yang[9]指出迁移学习的情形包括归纳迁移学习(Inductive Transfer

Learning), 直 推 迁 移 学 习 (Transductive Transfer Learning) 和 无 监 督 迁 移 学 习

(Unsupervised Transfer Learning)三种。

根据 Pan 和 Yang[9]的综述,迁移学习方法可以从“迁移的是什么”这个角度进行分

类。这样,从迁移对象这个角度,迁移学习方法主要分为基于实例的迁移学习[10]、基于

参数的迁移学习[11, 12]和基于特征表示的迁移学习[13-15]。

在基于实例的迁移学习中,经常使用对实例进行加权的技术。为了减轻协变量漂移

的影响,Sugiyama 等人[16]使用高斯和函数直接对不同领域之间的分布的比率进行建模。

他们又在论文[17]中提出了协变量漂移情况下的无偏交叉验证的方法。对于不同领域之间

条件分布概率可能改变的情况,Zhang et al.[18]对训练数据进行重新加权和转换,以再现

目标域的协变量分布。在于 Adaboost 框架结合的研究中,Dai et al.提出 TrAdaboost[10]

, 迭

代地调整实例权重。对于诸如词性标注的迁移学习任务,Jiang[19]提出一个灵活的实例加

权框架来调整不同实例的权重。

基于参数的迁移学习通常假设原模型和目标模型之间共享某些参数或先验分布。最

大后验(Maximum a Posteriori, MAP)[20]和最大似然线性回归(Maximum Likelihood Linear

Regression, MLLR)[21]方法是比较流行的领域适应方法,在包括语音识别[21-23]和文本识别

[20]等领域被广泛使用,而且可以用于以 HMM 为基础的序列标注。Ait-Mohand et al.[20]

通过 MAP 和 MLLR 迁移高斯分布密度的参数进行字体适配,并用于字符识别中。对于

基于 HMM 的语音合成,Karhila et al.[24]研究了噪音对 MLLR 和 MAPLR 方法的影响。

基于特征表示的迁移学习方法试图找到公共特征表示来缩小不同领域之间的差距。

Pan et al.[25]使用最大平均差异在再生核希尔伯特空间中减小不同领域之间的差异。与联

合分布和边界分布一起使用优化的结构风险泛函,可以在正则化框架下训练出自适应的

分类器[14, 26]。 Duan et al.[27]假设辅助分类器的学习发生在与目标域相同的核空间中,对

一系列基础分类器进行权衡,并应用于视频检测和文档检索。Xiao et al.[28]使用一种双线

性算法建立分布表示向量。特定于语言结构,Blitzer et al.[29]使用结构对应关系来估计词

之间的相关性,通过对应关系实际上减小了不同文本域之间的差异。但是他采用数值向

量作为扩展特征表示方法,不易在 HMM 这样的使用离散特征空间的模型中使用,并且

没有包含对应关系启发中的模糊性。

目前迁移学习已经获得了广泛的应用。首先在文本挖掘领域典型的应用包括文本的

分类和聚类[30, 31],情感分析[32, 33], 命名实体识别[34-36]

, 文本分析[37, 38]与消歧[39]等自然语

粒迁移学习方法及其在序列标注中的应用

- 4 -

言处理任务。其次在图像处理领域,迁移学习用于图像分类、视频检测[40]等任务中。此

外,在室内定位[41],协同过滤[42],操作系统[43]等领域也逐渐开始对迁移学习的应用。

1.2.2 粒计算

Zadeh 在 1997 年第一次提出了粒计算(Granular Computing)的概念。随后在不同的研

究领域中引起关注,并逐渐成为人工智能领域的一个研究热点。从人工智能角度来看,

粒计算是模拟人类思考和解决大规模复杂问题的自然模式,将整个问题简化为更容易计

算的子问题。粒计算提出逐步精确化的特征表示思想,即信息粒化表示。从粒计算的观

点来看,不确定性和确定性是信息在不同知识粒度层次上的不同表现形式[3]. 在粒计算

中,用信息粒表示知识的不确定性,而信息粒可以采取区间、模糊集[44]、粗糙集[45]、商

空间[46, 47]等多种形式。

区间是一种较简便的表示信息粒度的方法。王熙照[48]较早研究了区间值属性决策树

学习算法,利用了区间属性和决策树分割直接的对应关系,通过最小化分割信息熵,来

得到由区间属性定义的决策树的割点。覃远翔[49]用熵计算出模糊性数据的可信区间,最

后去除那些不在可信区间内的数据。Pedrycz[50]认为区间通过引入二分法实现了对数据

的抽象,即数据元素属于或不属于一个信息粒,依赖于从数据中提取信息的粒度;并将

区间作为信息粒的一种实现形式。Song 和 Pedrycz[51]在神经网络中使用区间连接并输出

区间结果。

山西大学的郭虎升和王文剑通过数据粒化来提高支持向量机的学习效率[52],对不同

的粒计算不同的超平面偏移因子并通过动态粒化过程得到不同层次的粒[53]。文本有不同

的粒化方法,邱桃荣[54]采用本体对多属性的词进行粒化,以获取领域概念以及概念之间

的关系。这种方法需要使用文本对象多个方面的属性信息,对于数量庞大而结构简单的

文本语料并不适用。曾嘉等[55]介绍了使用二型模糊集对局部主题分布参数进行融合的方

法,这体现了信息粒化的思想。Pedrycz et al.建立了一套模糊信息粒化的方法[50, 56, 57],

并且已经在很多领域得到应用[58, 59]。Song et al.[51]建立了粒度神经网络模型,使用区间

连接的神经网络参数并且输出区间化的结果。Pedrycz et al.[60]认为粒模型可以被用作原

模型的一种抽象,适用于向目标环境进行知识迁移,并且把信息粒度看成是知识迁移和

复用中重要的设计资产。

Yao[61]认为粒计算研究应通过多视角、多层次粒结构和粒计算的三元论建立新的思

想、方法和理论体系。三元论强调粒计算不仅仅是计算而且包括计算的哲学、方法论。

例如本文在处理文本的粒化问题时,并没有现成的算法和具体的方法,但是粒计算的思

想和方法论为解决迁移学习中的粒度表示问题提供了有价值的参考。

大连理工大学博士学位论文

- 5 -

1.2.3 序列标注

对于序列标注问题有很多基于统计学习的模型,包括隐马科夫模型(HMM)[62],最大

熵模型(MEMM)[63],条件随机域模型(CRF)

[64]等。研究者在不同背景下对序列标注模型

的表现给出了不尽相同的评价,Nguyen[65]倾向于 Structured SVMs,而在 Brants

[66]的比

较中经过平滑和未登录词处理的 HMM 的性能超过其他模型。一般地,HMM 的学习速

度比指数系模型[67, 68]快。由于在模型的表示能力和计算复杂性方面取得了很好的平衡,

HMM 具有计算高效性和模型简单性的优点。曾嘉在信息融合中用二级隶属度表示参数

的不确定性[69, 70],建立了以高斯分布为基础的 HMM 的二型模糊形式。区间作为数值特

征的一种扩展被使用到 HMM 中[71, 72]。具有不确定参数的 HMM 可以看成是候选模型的

集合。基于 HMM 的模型选择方法[73, 74]被广泛使用于文字和语音的序列标注。Escalante

[75]通过训练集同时优化模型的参数和超参数来降低分类错。采用 Bayes 方法[76]可以对所

有可能的参数值做积分,但需要使用 Gibbs 采样等计算复杂的概率推断方法。

文本的序列标注模型广泛使用在包括词性标注[77, 78]、名实体识别[79]、句法分析[80, 81]

等任务中。其中词性标注是文本分析的基础,并成为信息抽取和检索的预处理工具。随

着微博(包括 Twitter)等社会媒体的流行,词性标注等序列识别任务对现有的模型提出了

迁移学习的要求,其原因在于微博文本口语化的表达和自由化的拼写方式[82, 83]。在源域

和目标域的词典差异较大时,为源域训练的模型可能在目标域表现很差[84, 85]。因此本文

研究面向序列标注任务的迁移学习,重点是提高序列标注模型在不同领域之间的泛化能

力。

1.3 粒迁移学习的研究思路

迁移学习在一定程度上处理了目标域的数据稀疏问题,但是迁移学习模型泛化能力

的提高仍然受到负迁移和欠适配问题的影响。负迁移是指源域的知识和任务对目标域的

任务造成负面影响;欠适配[15]是指跨领域的概率分布失配问题未能充分修正。本文从粒

度的观点来分析原因。如图 1.1 所示,“负迁移”框中有多余的部分,表示某个粒度的

迁移对象对模型有负面影响;而“欠适配”框中有不足的部分,表示欠缺与目标域分布

相关的知识。对此,分别采用筛选和补充的思路。可以通过挖掘数据中的粒度信息尽可

能地避免负迁移问题,并通过保持目标域结构或融合目标域规则性知识解决欠适配问

题。因此本文在粒计算的思想和方法的启发下展开对迁移学习问题的研究,将信息粒化

方法、粒模型和粒度思想用在迁移学习中,以解决负迁移等问题,达到提高迁移学习模

型泛化能力的目标。具体思路包括几方面:

粒迁移学习方法及其在序列标注中的应用

- 6 -

(1) 传统机器学习方法通常假定数据集是论域中数据的具有代表性的采样,即代表

了论域的分布,因而对于数据集结构信息并不加以利用。由于源域和目标域的分布差异,

使用源域数据集默认的特征粒度建立的模型不一定适合目标域。这样,迁移学习模型在

粒度考量方面的欠缺会造成在使用源域特征时产生负迁移。为了解决负迁移问题,希望

表示出源域数据集的结构对特征以及参数的粒度的影响,即描述出依赖于源域结构的特

征粒度。因此基于数据集结构进行信息粒化,用信息粒表示带有结构信息的源域数据对

应的模型参数,从而通过粒度控制负迁移产生的条件。对于模型参数而言,数据集的结

构信息形成了对领域信息的划分,而区间信息粒可以通过与划分对应的特征向量来构

造。因此建立基于数据集结构信息的区间信息粒和区间二型模糊形式的粒模型。

图 1.1 粒迁移学习方法的研究思路

Fig. 1.1 Research thought of granualr transfer learning

(2) 在迁移学习中,一种有效地提高模型泛化能力的方法是建立源域和目标域特征

之间的公共表示。对应关系[29]通过公共表示对目标域特征进行映射。除了把对应关系作

为数值型扩展特征以外,还可以从特征映射粒度这一角度入手,以便探寻负迁移问题的

解决方案。由于特征映射的复杂性,在特征映射的过程中并非全部对应关系都有助于提

高模型的泛化能力。某个粒度上的对应关系可能对目标域的任务造成负面影响,即产生

负迁移。为了充分挖掘对应关系的价值,需要表示出对应关系的结构和粗糙程度。因此

本章提出对应关系的信息粒化方法,并建立粒模型来处理对应信息粒。通过粒度控制对

应关系对粒模型的影响,从而控制负迁移产生的条件。为了得到对应关系的结构、以及

大连理工大学博士学位论文

- 7 -

词和词聚类之间的近似程度,采用模糊 C 均值方法在枢轴空间中进行对应关系的模糊聚

类。为了同时表示多个聚类对符号的启发,以及启发的不确定程度,所以选择模糊集作

为信息粒的形式。

(3) 如果目标模型中没有保持足够的目标域的结构特征,就会造成欠适配问题。在

机器学习中,生成模型通过指定联合概率分布来建立数据域的结构。例如高斯混合模型

代表了数据域中存在的子总体(Subpopulation)的结构、隐马尔可夫模型代表了序列域的

生成结构。在迁移学习模型中保持目标域的生成结构有助于解决欠适配问题。由于源域

和目标域的生成结构存在差异,保持整个生成结构并不一定有助于提高泛化能力。保持

某个粒度上的生成结构(称为子结构)可以解决欠适配问题,但是保持其他子结构可能会

在解决欠适配问题的同时又导致过拟合问题。因此提出基于子结构的粒迁移学习,即通

过粒度来控制生成结构的保持对迁移学习模型的影响。可以根据数据条件选择合适的子

结构,并在实现中采用正则化作为框架。

(4) 如果目标模型中没有足够的关于目标域的知识,就会造成欠适配问题。基于已

经建立的粒迁移学习模型, 应当研究和解决对进一步提高泛化能力造成影响的欠适配问

题。因此考虑在推断中通过模型选择引入目标域的规则性知识,以解决欠适配问题,增

强粒模型的泛化能力。也就是说,将粒模型作为候选模型的集合,将粒模型与规则性知

识的结合作为模型选择的问题,在某种指标下根据规则性知识从候选模型集中选择与目

标域适配性好的模型。

1.4 粒迁移学习的方法体系

粒迁移学习方法通过对特征、特征映射和结构性知识中的粒度的描述和选择来解决

迁移学习中的负迁移和欠适配等问题。粒迁移学习的一般方法如图 1.2 所示,主要包括

粒度的表示、粒模型的建立和推断。首先根据可用信息的特点采用不同的粒度表示方法。

在迁移学习中,粒度的来源包括源域、目标域、以及源域和目标域的公共表示。然后根

据得到的信息粒或知识表示粒度建立相应的粒模型,最后对粒模型进行推断。这样,粒

迁移学习体系包含以下五个方面:

(1) 特征粒度的描述与选择

特征粒度是指特征中信息的粗糙程度。本文给出了一种在源域中描述和选择特征粒

度的方法,即基于数据集结构信息的粒迁移学习方法。根据源域的组织结构或层次性,

可以通过区间信息粒描述特征的粒度。对源域的特征粒度进行描述和选择有利于解决负

迁移问题。

粒迁移学习方法及其在序列标注中的应用

- 8 -

图 1.2 粒迁移学习的一般方法

Fig. 1.2 General method of granualr transfer learning

(2) 特征映射粒度的描述与选择

特征映射的粒度是指特征对应关系的结构和粗糙程度。本文给出了一种在公共表示

中描述和选择特征映射粒度的方法,即基于对应关系的粒迁移学习方法。对于通过公共

表示实现的特征映射,将特征映射的结构和粗糙程度表示为对应信息粒,通过模糊集来

实现对应关系的信息粒化。对公共表示的特征映射粒度进行描述和选择有利于解决负迁

移问题。

(3) 结构粒度的描述与选择

结构粒度是指生成模型的参数的子集所代表的模型结构的粗糙程度。本文给出一种

在目标域中描述和选择结构粒度的方法,即基于生成结构的粒迁移学习方法。根据数据

条件选择合适的子结构,并采用正则化框架将子结构用作约束条件,以保持目标域的结

构。对生成结构的粒度进行描述和选择的好处是有利于在解决欠适配问题的同时避免过

拟合问题。

本文第 2~4 章分别为每种粒度来源给出了一种描述和选择粒度的方法。但是这些方

法可以进一步扩展,并不仅限于在一种粒度来源下应用。

(4) 根据粒度建立粒模型的方法

对于不同形式的信息粒采用不同粒模型进行处理。例如通过区间参数可以建立区间

模型,通过模糊集参数可以建立模糊模型。粒模型通过粒度控制进入模型的信息,并对

输入的粒度信息进行由粗到精的处理。

大连理工大学博士学位论文

- 9 -

在序列标注问题中,具有符号发射意义的数值型参数本身具有概率的属性,因此在

对应的粒模型中将参数表示为二型模糊集。

(5) 粒模型的推断方法

在使用粒模型进行预测时,可以根据经验粒度或经过目标域验证集检验的粒度进行

去模糊化,再推断得到数值型输出;也可以使用模糊推断,得到模糊型输出。

特别地,当目标域中存在可以用于模型选择的规则性知识时,可以在粒模型的推断

中通过模型选择引入这些规则性知识来解决欠适配的问题。

1.5 序列标注中的迁移学习问题

尽管迁移学习已经被应用于各种不同的数据域[86-88], 对于序列域的研究还比较少。

在序列标注任务中,由序列域内部结构导致的相关性使得通常的独立同分布假设并不适

用,这为源域和目标域之间的分布适配造成了困难。本文围绕序列标注来探讨不同场景

下的粒迁移学习方法的应用。这里给出序列标注中的迁移学习问题的定义。

用 表示符号集合,其中 为符号集合的模。这样符号序列可以用

表示,其中 是一个代表序列长度的变量。

序列特征空间 是 的一个语言依赖的子集。用 表示 中的一个观察值

序列。

用 表示隐含状态集合,其中 是隐含状态集合的模。对应地, 表

示状态序列集合。

序列特征空间 作为 的一个子集与 相关联。用 表示 中的一个标注

序列,其中 与 相对应, .

定义:序列域

序列域 包括标注数据域 和未标注数据域 .

未标注数据域 是由 和边界概率 构成的元组,也就是说, ,

其中 .

标注数据域 是由 , , 边界概率 和联合概率 构成的元组,即

, 其中 .

需要注意的是,常用的独立同分布假设在这里并不适用,数据不能看成是 和 的

联合分布中的抽样,因为 具有明显的序列相关性。这样, 无法直接地由

来估计。

以词性标注问题作为例子,一个句子的词序是有意义的,这导致一些以“词袋”为

假设的模型无法使用。

粒迁移学习方法及其在序列标注中的应用

- 10 -

定义:序列标注任务

给定序列域 , 序列标注任务 要解决的问题是为 找到 ,使得特定指标

最大化。这里指标经常选用条件概率:

(1.1)

其中 表示通过 学到的模型。

在使用隐马科夫模型建模 和 的关系以前,首先介绍其参数 :

(1) 状态迁移矩阵

用 表示状态迁移矩阵,其中 , ,

. 例如,在词性标注问题中, 描述的是在句子中不同词性相互转换的概率。

(2) 符号发射矩阵

用 表示符号发射矩阵,其中 , ,

, . 例如,在词性标注问题中, 描述的是特定词性生成词的概率。

(3) 初始状态分布

用 表示初始状态分布,其中 , , 是序列在初始时刻的

状态, . 例如,在词性标注问题中, 描述的是句子初始词性的概率。

通常分类任务会以如下方式优化符号-状态对:

(1.2)

而序列标注任务 可以如同公式(1.1)那样优化最佳路径指标。这在隐马科夫模型中

等价于公式(1.3)。

(1.3)

用 代表 时刻沿着以 结尾的单一路径的最佳得分,如公式(1.4):

(1.4)

那么 可以用 Viterbi 算法递归地求解,如公式(1.5):

(1.5)

定义:目标域

目标域 是序列标注任务 所要应用到的数据域。

目标域 中标注数据常常存在数据稀疏的问题,也就是说 中的标注数据 的规

模是不足的。

定义:源域

大连理工大学博士学位论文

- 11 -

源域 是能够为目标域 的序列标注任务(记做 )提供有用的观察值或观察值

-标注序列的数据域,即使 与 之间的边界概率 和条件概率 不同。假设

中的标注数据(记做 )是充足的。

定义:序列迁移学习

给定 , 序列迁移学习通过利用源域的序列标注任务 和 中的知

识以增强目标域序列标注任务 .

1.6 本文的组织结构

下面介绍本文其余部分的组织结构:

第 2 章从源域的数据集结构信息入手,重点研究特征粒度的描述与选择,以解决源

域信息造成的负迁移问题。提出基于数据集结构的信息粒化方法,用区间信息粒描述数

据集结构对特征粒度的影响,并提出区间二型模糊隐马尔可夫模型以处理区间信息粒。

第 3 章从源域和目标域的对应关系入手,重点研究特征映射粒度的描述与选择,以

解决公共表示造成的负迁移问题。提出对应关系的信息粒化方法,通过模糊集形式的信

息粒描述公共表示中的特征映射粒度,并建立粒模型以处理对应信息粒。

第 4 章从目标域的生成结构入手,重点研究结构粒度的描述与选择,以解决与目标

域结构保持有关的欠适配以及过拟合问题。提出基于正则化方法的迁移学习模型,分析

不同子结构作为正则项参数的条件,并给出保持目标域子结构的方法。

第 5 章从规则性知识的融合入手,重点研究粒模型的推断方法,以解决目标域知识

欠缺造成的欠适配问题。提出基于似然比的模型选择方法,使粒模型与规则性知识相融

合,从而提高粒模型的推断效果。

第 6 章总结本文的工作和创新点,并展望未来将继续开展的研究。

粒迁移学习方法及其在序列标注中的应用

- 12 -

2 基于数据集结构信息的粒迁移学习

数据集对于机器学习模型的学习效果具有重要意义。数据集通常带有结构信息,例

如文本数据集Brown语料取自500多种文章来源并被分类为多种文体风格,包括“新闻”,

“小说”等。语料中的数据所属的类型或文章标签就是一种数据集的结构信息,反映了

数据集在采样过程中的组织结构。传统机器学习方法通常假定训练数据集代表了论域中

数据的分布,因而对于数据集的结构信息并不加以利用。

由于源域和目标域的分布差异,使用源域数据集默认的特征粒度建立的模型不一定

适合目标域。这样,迁移学习模型在粒度考量方面的欠缺会造成在使用源域特征时产生

负迁移。为了解决负迁移问题,需要描述特征的粒度,即表示出特征中信息的粗糙程度。

本章将数据集的结构信息作为对领域信息的划分,并采用与划分对应的特征向量来

构造区间信息粒,以便描述数据集结构信息对特征粒度的影响。并建立了区间二型模糊

形式的粒模型。

2.1 特征粒度与负迁移问题

在迁移学习中,特征对于目标模型的预测能力有重要的影响,而特征中的信息有不

同的粗糙程度,即特征的粒度。不同粒度的特征可以是精确的表达,例如数值型特征,

也可以用粗糙一点的表达,例如区间型特征。

不合适的特征粒度会导致建立的迁移学习模型产生负迁移。为了解决负迁移问题,

必须考虑特征的粒度是否适合建立目标域模型。受粒计算思想的启发,可以通过信息粒

化来描述特征的粒度。信息粒是由于相似性而组织起来的复杂信息实体,可以采用模糊

集、粗糙集、商空间等多种实现形式。粒计算方法通常先建立信息粒化表示,然后建立

粒模型以处理信息粒。但是将粒计算思想用于迁移学习的研究刚刚开始,缺少详细的实

施方法。为了将粒计算的思想和基础方法引入迁移学习,首先需要找到具体领域中适合

知识迁移的信息粒化方法。本章根据数据集结构信息来建立区间信息粒的方法,采用

Pedrycz 提出的区间粒化方法[50]来建立文本域特征的区间信息粒。

为了处理区间信息粒,需要将处理数值型输入的模型扩展为粒模型。在估计粒模型

的参数时,需要做的不是完全拟合源域的分布,而是以源域分布为基础的抽象的、有利

于知识迁移的模型。本章通过对特征粒度的选择来控制负迁移产生的条件,从而构建适

合于知识迁移的模型。这符合 Pedrycz 的“粒模型是对原模型的抽象,有利于知识的迁

移[60]”的思想。

大连理工大学博士学位论文

- 13 -

因此,本章重点研究特征粒度的表示,提出带有结构信息的数据集的区间信息粒化

方法,并建立区间二型模糊隐马尔可夫模型(IHMM)用于处理区间信息粒。在大量序列

标注实验中 IHMM 取得了明显的准确率的提升,从而表明基于数据集结构信息的粒迁

移学习方法的有效性。

2.2 基于数据集结构信息的粒迁移学习方法

2.2.1 数据集结构信息的区间粒化方法

计算对象的粒化是粒计算中具有挑战性的问题,粒化是指以粒的方式表示信息的过

程,即将研究对象根据某种相似性而形成的聚集表示为可以处理的形式。这在一定程度

上是对人的认知方法的一种模拟,人在面对大量复杂信息时往往会将其简化为不同的聚

集,每个聚集便是一个粒。目前在很多粒计算研究中,将连续特征采用区间的形式进行

粒化,从而得到有效的处理;例如时间特征[89]就是一种可以区间粒化的连续特征。文本

是一种由离散的词特征组成的复杂数据,而词特征本身难以用区间的形式表示出来。为

了解决负迁移问题,本章找到一种文本的区间粒化方法,即通过对数据集结构信息进行

粒化,以利用语料库中篇章、类别等组织结构方面的信息。

数据集结构信息是一种反映数据聚集情况和采样方式的信息,对迁移学习有一定的

影响。样本分布的不均衡性可能体现于各种粒度,有时一篇文章里某些特征非常显著,

有时特征的显著性从某种文体中表现出来。可以推断,通过不同的粒度来使用特征会造

成模型对目标域的不同适宜程度。使用信息粒作为对数值特征的一种抽象,可以增加模

型对负迁移问题的处理能力。因此,有必要在迁移学习中引入基于数据集结构信息的粒

化表示方法。

Pedrycz[50]认为区间通过引入二分法实现了对数据的抽象,即数据元素属于或不属

于一个信息粒,依赖于从数据中提取信息的粒度;并将区间作为信息粒的一种实现形式。

区间信息粒的构造方法如下。

为了使粒度具有合理性,从实验事实中建立信息粒的基本原则是满足两个相互竞争

的要求:

○1 实验事实的充分性。在区间粒的边界内作为支撑的数据越多,则实验事实越充

分。

○2 语义的具体性。区间长度越短则对语义的表述越具体。

假定实验事实来自一维的数值型数据向量 ,通常认为中数 具有代表性和估

计的鲁棒性。可以通过考量中数左侧或右侧的数值,分别求解下界 和上界 . 对于 ,

实验事实由中数右侧数值的基数来考量,即 。在构造优化目标时,

粒迁移学习方法及其在序列标注中的应用

- 14 -

使用增函数 来表示希望获得更多的实验事实。同时使用减函数 表示希望获得更

具体的表示,即较小的区间长度。所以 可以通过如下优化问题来求解。

(2.1)

(2.2)

同理, 的实验事实由中数左侧数值的基数来考量,即 , 并

通过如下优化问题来求解:

(2.3)

(2.4)

函数 和 可以选择为公式(2.5)和(2.6)的形式,其中 为粒化提供了一定的灵

活性。

(2.5)

(2.6)

较大的 起到强调语义具体性的效果,较小的 起到强调事实充分性的效果。

区间信息粒化包括以下三个步骤:

○1 通过数据集结构信息将源域数据集划分为等价类 , 其中等价关系

表示数据实例在给定的结构性信息下属于数据集的相同划分。

○2 通过特征的聚合意义,生成与上一步中的等价划分对应的 个特征,组成特征向

量 .

○3 通过求解公式(2.1)和(2.3)中的优化问题,得到与 对应的区间信息粒 ,

其含义是对实验事实的充分性和语义的具体性的平衡。 可以用在对模型参数的求解中。

2.2.2 区间二型模糊隐马尔可夫模型

对应于区间粒形式的输入,需要建立粒模型进行处理。考虑隐马尔可夫模型对于序

列标注任务的高效性,本节建立区间二型模糊隐马尔可夫模型(IHMM)以完成序列迁移

学习任务。

(1) IHMM 的定义

区间二型模糊隐马尔可夫模型 IHMM 通过其参数 来刻画。

○1 二型模糊状态迁移向量:

代 表 二 型 模 糊 状 态 迁 移 向 量 , 其 中 ,

. 这里 是一个区间二型模糊集(IT2 FS),意义是状态 对状态

的隶属程度。 为二级隶属度函数的域(Domain), 称为主隶属(Primary Membership).

大连理工大学博士学位论文

- 15 -

○2 二型模糊符号发射向量

代 表 二 型 模 糊 符 号 发 射 向 量 , 其 中 二 型 模 糊 集

, 主隶属 . 这里 是一个区间二型模糊集,

意义是符号 对状态 的隶属程度。

○3 二型模糊初始状态

二 型 模 糊 集 代 表 二 型 模 糊 初 始 状 态 , 其 中 主 隶 属

, 其中 , 是初始时 刻的状 态, ,

.

由于区间二型模糊集的二级度为常数 1,因此 IT2 FS 可以由其不确定覆盖域

(Footprint of uncertainty, FOU)来描述。FOU 由主隶属的并集构成。例如对于 , 其 FOU

由公式(2.7)给出。如图 2.1, 区间二型模糊集 可以由二维平面上的 FOU 描述。

(2.7)

图 2.1 的不确定覆盖域

Fig. 2.1 Footprint of uncertainty for

本章将 IHMM 用于两种迁移学习设置。其一是只在源域中有已标注文本,称为直

推学习设置;其二是目标域也有少量已标注文本,称为归纳学习设置。

(2) IHMM 的构建

IHMM 的构建可以分成以下三个步骤:

粒迁移学习方法及其在序列标注中的应用

- 16 -

○1 如果目标域没有已标注数据,在以语料结构为单位的子集上进行 HMM 监督学

习,从而得到构建参数需要的数值型特征。如果目标域也有少量已标注数据,用目标域

验证集和以语料结构为单位的子集一起进行 HMM 监督学习,从而得到构建参数需要的

数值型特征。这样对应于每个参数得到一组数值型数据。

○2 将对应于 HMM 每个参数的一组数值型数据,根据公式(2.1)至公式(2.6)建立

个区间信息粒,作为 , , 的主隶属 ,表示出 .

○3 通过 , , 来建立 IHMM: .

一般地,粒模型的构建需要把特征的粒度转化为模型参数的粒度。在 IHMM 中,

如果把数据集中与状态和符号有关的比率看成是高级的特征,那参数的粒度是由特征的

粒度直接对应得到的。

(3) IHMM 的推断

算法 2.1: IHMM 的去模糊化算法

输入: , 目标域验证集

输出:

01. if 目标域验证集==NULL:

02. 在 , , 中取各主隶属的中点作为 的参数值

03. else:

04. 设定 PSO 的粒子的维度为 HMM 参数的个数

05. 将 的主隶属 作为 PSO 粒子在对应维度上的取值范围

06. bestFitness = 0

07. = NULL

08. while 未达到最大迭代次数:

09. 生成候选粒子 R

10. 根据候选粒子得到一个对应的 HMM, 记为 (R)

11. 测试 (R)在目标域验证集上的准确率,记为 Fitness

12. if Fitness > bestFitness:

13. bestFitness = Fitness

14. = (R)

15. 更新粒子 R 的位置

16. end while

17. 返回

大连理工大学博士学位论文

- 17 -

为了在序列标注中使用高效的Viterbi算法,需要对 IHMM进行去模糊化。脆性(Crisp)

值的选取要平衡方便计算和取得最适合目标域的隶属度这两个目标。由于 IHMM 使用

了模糊集的概念,其参数的含义是隶属度而不是概率。去模糊化后得到的脆性参数值的

HMM 模型中不再满足原有的诸如 的概率约束。

去模糊化算法如算法 2.1 所示。对于不同的迁移学习设置,可以采用不同的去模糊

化方法。对于直推学习,采用区间中点得到脆性的值;这里区间的中点代表一种经验粒

度。对于归纳学习,可以利用目标域的少量已标注文本,采用粒子群(PSO)[90]等优化方

法选取适合目标域的脆性 HMM,记为 .

PSO 算法受种群的社会行为的启发,模仿种群合作的方式寻找食物而建立优化原

则。首先,每个粒子被初始化为随机的候选解。在每一轮迭代中,根据当前速度 、

粒子自身的最优位置 和群体的最优位置 调整自己的速度;然后根据新的速度

更新当前解。这个优化原则可以表示为公式(2.8)和(2.9),其中 为惯性权重,

和 是学习因子, 和 是随机数。这里根据粒度优化问题需要只使用一维的候选解 .

(2.8)

(2.9)

2.3 实验过程与结果分析

2.3.1 实验数据集介绍

表 2.1 Brown 语料中的主要类型及词语多样性

Tab. 2.1 Major Categories and lexical diversity of Brown Corpus

类型 包含文章的例子 词语多样性

science_fiction Heinlein: Stranger in a Strange Land 4.67

editorial Christian Science Monitor: Editorials 4.51

adventure Field: Rattlesnake Ridge 5.61

government US Office of Civil and Defence Mobilization 5.95

news Chicago Tribune: Society Reportage 4.97

reviews Time Magazine: Reviews 4.30

mystery Hitchens: Footsteps in the Night 5.69

romance Callaghan: A Passion in Rome 4.85

humor Thurber: The Future, If Any, of Comedy 4.67

粒迁移学习方法及其在序列标注中的应用

- 18 -

本文使用 Brown 语料和 Twitter 语料构造跨域数据集。首先介绍两个语料的情况。

○1 Brown 语料被编辑为英语语言文本的通用语料,是第一个百万词集的英文电子

语料,并且包含 500 多种文本的来源。这些文本来源通过语体被分类为形式小说、新闻、

社论等多种类别。表 2.1 展示了 Brown 语料的主要类型及词语多样性。

○2 本文使用的 Twitter 语料是基于 TWPOS[82]建立的。TWPOS 数据包含 1500 条

Twitter 消息已经词性标注信息。根据情感倾向性将 Twitter 语料分成主观和客观两个类

型。TWPOS 包含 25 种词性标签,其中有一些是在通常的文本标注中很少使用的,例如

“E‖代表情感类型,包括“:)”等符号。主要标签及统计信息见表 2.2, 可见主观与客观

两种类型在词性标注中有不同的语法结构,例如在主观类型 Twitter 消息中有更多的感

叹词(interjection )和形容词(adjective).

表 2.2 Twitter 语料的主要标签及统计信息

Tab. 2.2 Statistics of major tags in Twitter corpus

类型 类型含义 例子 主观中的百分比 客观中的百分比

A adjective great 6.5 4.5

R adverb very 5.2 4.5

! interjection lol 4.6 1.7

E emotion :-) 1.2 0.8

, punctuation !!! 12.7 11.7

G abbreviation ily 0.6 1.1

V verbal want 14.9 15.0

N common noun gift 12.5 14.3

A adjective great 6.5 4.5

2.3.2 前期工作的实验结果

这里介绍本文的一些前期工作的实验结果,内容是建立一个简单的参数区间化的序

列标注模型。由于文本的信息粒化是有一定挑战性的工作,对文本数据集建立参数区间

化的模型可以为粒迁移学习方法的提出做了一些铺垫。另外,实验结果也有一定对比作

用。

由于数据稀疏等原因,确定性参数的模型难以代表数据域的特点,所以尝试使用区

间参数的模型。这个工作的意义在于,对于如何面向文本域的应用建立包含不确定性的

模型进行了初步探索。由于文本特征主要以词的方式存在,采用区间方法的一个难点是

特征本身很难用区间的形式表示出来。

大连理工大学博士学位论文

- 19 -

(1) 基于分类信息的参数区间化模型及其推断方法

随着互联网应用和社会媒体的发展,各种类标签广泛存在于 Twitter 等社会媒体语

料中。因此提出使用类标签作为序列标注的辅助信息。

这里选择文本倾向性作为类标签。文本倾向性分析是自然语言处理的热门课题,其

任务是判断文本是否包含了主观性的意见。在建立词性标注模型时可以考虑作者的情感

倾向的影响,主观文本和客观文本倾向于不同的标注模型结构。对于词性标注任务,文

本倾向性分析提供了一种全局信息,因此本节的意义是把主观性分析的结果用到语法层

面的词性标注任务。

由于情感极性只有主观和客观两种,本节的方法可以看成是参数区间化方法的一种

简单形式。

为了利用文本倾向性分析所提供的类别信息,分别根据主观语料和客观语料形成

HMM 参数的两次采样,这样就构成了类属数为 2 的简化形式的参数区间化模型。

对 Twitter 语料的倾向性分类采用朴素贝叶斯方法,其参数可以根据以下公式训练得

出,其中 表示文本倾向性为“主观”。

(2.10)

(2.11)

(2.12)

考虑隐马尔可夫模型对于序列标注任务的高效性,建立参数区间化的隐马尔可夫模

型(simple Interval Hidden Markov Model, sIHMM). 通过其参数 来刻画:

○1 状态迁移区间矩阵:

代表状态迁移区间矩阵,其中

.

○2 符号发射区间矩阵

代表符号发射区间矩阵,其中

.

○3 初始状态区间向量

代表初始状态区间向量,其中 , 是

初始时刻的状态, , .

以上参数也可以表示为矩阵形式,如状态迁移区间矩阵可以表示为:

粒迁移学习方法及其在序列标注中的应用

- 20 -

(2.13)

在推断时将主观程度作为一种启发信息,根据主观程度选择区间值。如果测试集中

没有倾向性信息,可以根据朴素贝叶斯模型的参数通过公式(2.14)来计算观察值序列 的

主观程度。然后可以根据主观程度从区间参数 中根据公式(2.15)得到脆性的参数值

用于推断。

(2.14)

(2.15)

(2) Twitter 语料的参数区间化模型的实验

图 2.2 不同语料大小的词性标注平均准确率

Fig. 2.2 Average POS tagging accuracy in various corpus size

○1 数据准备

大连理工大学博士学位论文

- 21 -

实验数据来自 TWPOS[82]

. 将 TWPOS 语料标注为“主观”和“客观”两种类型。在

TWPOS 中共有 25 个词性标签,其中一些很少在通常的文本标注中使用,例如“E‖代表

“:-)”等情感词。

表 2.3 参数区间化的隐马尔可夫模型的结果

Tab. 2.3 Results of simple Interval Hidden Markov Model

各次实验 训练集 HMM(obj) sIHMM(obj) HMM(sub) sIHMM(sub)

1

200 60.78 60.69 65.27 66.06

300 62.37 63.12 67.02 67.28

400 65.64 65.73 67.36 68.76

500 67.32 67.23 68.50 70.07

600 67.79 68.44 71.47 71.82

700 68.81 69.47 71.73 72.16

2

200 54.20 55.30 70.03 70.18

300 58.27 58.44 73.78 73.47

400 60.31 61.07 74.39 74.39

500 60.56 61.58 76.45 76.68

600 62.17 62.51 77.14 77.98

700 62.77 64.63 77.37 77.91

3

200 63.37 64.28 71.63 72.89

300 63.37 64.28 71.63 72.89

400 65.37 65.00 73.70 74.33

500 66.00 67.45 74.15 75.76

600 66.36 67.91 75.58 76.93

700 67.27 68.99 77.74 78.82

4

200 66.34 66.52 74.31 74.13

300 66.34 66.52 74.31 74.13

400 66.34 66.52 74.31 74.13

500 66.78 66.70 73.78 74.48

600 67.40 67.57 74.31 75.26

700 68.37 68.45 75.35 76.22

○2 实验结果

本章进行了HMM和 sIHMM在不同语料大小下对主观性语料(sub)和客观性语料(obj)

进行词性标注的实验。为了考察算法的稳定性,在不同数据集上进行了四组实验。每组

粒迁移学习方法及其在序列标注中的应用

- 22 -

实验中使用了不同大小的训练集,训练集的大小从 200 个句子到 700 个句子。实验程序

基于 NLTK 实现,以“词-标签”准确率作为方法性能的衡量指标。实验结果如图 2.2

和表 2.3, 单位是%.

从图中可以看出, sIHMM 在主观性和客观性语料上都取得了高于 HMM 的平均准确

率。但是从表 2.3 给出的各组的准确率来看,sIHMM 在个别实验中准确率不如 HMM.

在语料增大时,虽然 HMM 和 sIHMM 都有准确率的提高,sIHMM 的提高趋势更加

明显。此实验中准确率的提高来自全局性的类别信息。实验表明文本倾向性作为一种全

局性的数据集结构信息可以为序列标注任务提供帮助。但是这种简单的区间隐马尔可夫

模型对于准确率的提高不是很明显,而且没有保证在每一次运行中都取得准确率的提

高。

2.3.3 迁移学习实验结果与分析

词性标注是评估序列学习方法的经典任务。词性标注被认为是自然语言处理中的一

个基础部分,并且是信息抽取与检索的重要的预处理工具。词性标注是通过计算的方式

在文本上下文中确定词性标签。随着微博等网络应用的发展,词性标注常常需要被引入

到新的文本域。通过迁移学习,可以达到把已有领域中的模型和信息移植到新领域的目

的。

图 2.3 IHMM 中粒度的选取

Fig. 2.3 Choice of granularity in IHMM

大连理工大学博士学位论文

- 23 -

为了把 IHMM 和其他方法相比较,并说明参数设置,本章进行了 Brown 语料的实

验。在构造迁移学习任务时,语料中的不同类型的文本分别被用作源域数据和目标域数

据。

(1) 实验数据

由于 Brown 语料包含丰富的文体类型,本章使用 Brown 语料来构建迁移学习任务。

在语料中使用一种类型作为源域,并用另一种类型作为目标域。对于每一个“源域-目

标域”形式的迁移学习任务,使用如下方式构造训练集、测试集,以及验证集的数据。

在直推学习设置中,本章取源域中前 18 个文件,计约 1800 个已标注句子作为训练集;

取目标域中的 100 个句子作为测试集。在归纳学习设置中,使用源域中的 18 个文件作

为训练集;取目标域中的前 200 个句子作为验证集、接下来 100 个句子作为测试集。对

于 IHMM,将源域的每个文件作为一次对 HMM 各参数的采样。

按以上方式构造两组实验,每组选择 5 种文体风格来构成跨域词性标注任务。第一

组使用包括新闻、社论、科幻、政府和历险这五种文体风格的语料,其中任意两种可以

组成一个跨域任务,共 20 个任务。第二组使用包括奇幻、回顾、爱好、浪漫和学术这

五种文体风格的语料,其中任意两种可以组成一个跨域任务,共 20 个任务。

(2) 实验设置

本章在两种设置下进行 IHMM 和其他方法的性能比较。其一是只在源域中有已标注

文本,称为直推学习设置,此时 IHMM(transductive)简记为 IHMM(t),与 HMM 进行比

较。其二是目标域也有少量已标注文本,称为归纳学习设置,此时 IHMM(inductive)简

记为 IHMM(i); 与 DT-HMM 进行比较。

○1 HMM:采用传统的机器学习模型[62],利用源域数据进行训练。

○2 DT-HMM: 将源域数据作为先验,以最大后验(MAP)[22, 91]方式估计目标模型的参

数。

表 2.4 IHMMM 中 PSO 参数设置

Tab. 2.4 Parameter setting for PSO in IHMM

参数名称 参数值

迟滞度 0.5

认知比率 1.0

社会化比率 1.0

种群大小 5

最大迭代次数 15

粒迁移学习方法及其在序列标注中的应用

- 24 -

在 IHMM 中,参数 代表粒度,是粒化方法中的影响序列标注性能的因素。对于参

数 的设置,使用点列 来进行数值实验。本章使用了 6 个任务来展示参

数 对准确率的影响,结果如图 2.3 所示。实验表明 时通常有较好的表现。在下面

的实验中取 .

PSO 算法参数的设置如表 2.4.

(3) 实验结果与分析

表 2.5 直推迁移学习的第一组结果和成对 t 检验

Tab. 2.5 First group results and paired test for transductive transfer learning

源域 目标域 HMM IHMM(transductive)

editorial

news

85.21 86.39

fiction 70.16 73.87

government 82.09 83.28

adventure 68.63 69.87

news

editorial

84.37 86.22

fiction 80.15 82.18

government 82.26 83.17

adventure 78.22 80.37

news

fiction

78.98 79.54

editorial 82.28 83.64

government 75.44 76.62

adventure 84.76 85.20

news

government

85.26 86.08

editorial 87.96 88.55

fiction 77.11 77.88

adventure 75.46 75.64

news

adventure

86.06 86.16

editorial 85.82 85.90

fiction 89.29 89.98

government 78.51 79.28

平均(%) 80.90 81.99

成对t检验 t 值 N/A 5.72

p值 N/A 1.65*10-5

大连理工大学博士学位论文

- 25 -

图 2.4 直推迁移学习方式下的第一组词性标注结果

Fig. 2.4 First group POS tagging performance in transductive transfer learning

图 2.5 直推迁移学习方式下的第二组词性标注结果

Fig. 2.5 Second group POS tagging performance in transductive transfer learning

粒迁移学习方法及其在序列标注中的应用

- 26 -

○1 直推迁移学习的实验

首先进行直推迁移学习的实验,第一组实验结果见图 2.4 和表 2.5,第二组实验结果

见图 2.5 和表 2.6,单位是%.

在两组实验的共计 40 个直推迁移学习任务中,IHMM(transductive)在每个任务中都

取得了准确率的提升。由表中“平均”一行可知,在第一组中,IHMM(transductive)比

HMM 平均高出 1.09 个百分点;在第二组中,IHMM (transductive)比 HMM 平均高出 1.41

个百分点。并且,在每个任务的每次运行中,IHMM 的准确率都高于采用标准监督学习

方法的 HMM, 没有出现负迁移。

表 2.6 直推迁移学习的第二组结果和成对 t 检验

Tab. 2.6 Second group results and paired test for transductive transfer learning

源域 目标域 HMM IHMM(transductive)

hobbies

mystery

84.41 85.68

reviews 85.74 88.27

romance 88.17 88.65

learned 71.18 75.61

mystery

hobbies

74.28 74.55

reviews 82.71 83.81

romance 74.14 75.42

learned 79.50 80.10

mystery

reviews

74.23 76.34

hobbies 80.70 81.92

romance 74.65 76.43

learned 70.94 73.85

mystery

romance

84.79 84.79

hobbies 80.54 81.96

reviews 83.31 84.45

learned 70.36 73.02

mystery

learned

74.56 74.69

hobbies 83.35 83.44

reviews 80.11 81.87

romance 72.91 73.90

平均(%) 78.53 79.94

成对t检验 t 值 N/A 5.66

p值 N/A 1.87*10-5

大连理工大学博士学位论文

- 27 -

为了评估性能提高的统计显著性,进行了成对 t 检验。零假设为 IHMM(transductive)

的准确率没有比原模型提高,备择假设为 IHMM(transductive)的准确率比原模型有了显

著提高。显著性水平设为 ,从表中可见 p 值远低于 ,因此可以得出 IHMM

已经获得显著的准确率提升的结论。

○2 归纳迁移学习的实验

然后进行归纳迁移学习的实验,在实验中与 DT-HMM 进行比较。第一组实验结果

见图 2.6 和表 2.7,第二组实验结果见图 2.7 和表 2.8:

表 2.7 归纳迁移学习的第一组结果和成对 t 检验

Tab. 2.7 First group results and paired test for inductive transfer learning

源域 目标域 DT-HMM IHMM(inductive)

editorial

news

87.04 88.37

fiction 78.48 80.75

government 85.11 85.90

adventure 76.74 79.81

news

editorial

84.98 86.53

fiction 83.04 84.03

government 83.64 84.29

adventure 82.61 83.64

news

fiction

81.28 82.15

editorial 83.89 84.89

government 79.91 80.47

adventure 86.26 86.44

news

government

87.32 88.00

editorial 89.88 89.97

fiction 84.29 85.81

adventure 82.83 84.11

news

adventure

87.90 88.44

editorial 88.14 88.37

fiction 91.14 92.30

government 83.28 84.59

平均(%) 84.39 85.44

成对t检验 t 值 6.67 N/A

p值 2.23*10-6 N/A

粒迁移学习方法及其在序列标注中的应用

- 28 -

图 2.6 归纳迁移学习方式下的第一组词性标注结果

Fig. 2.6 First group POS tagging performance in transductive transfer learning

图 2.7 归纳迁移学习方式下的第二组词性标注结果

Fig. 2.7 Second group POS tagging performance in transductive transfer learning

大连理工大学博士学位论文

- 29 -

表 2.8 归纳迁移学习的第二组结果和成对 t 检验

Tab. 2.8 Second group results and paired test for inductive transfer learning

源域 目标域 DT-HMM IHMM(inductive)

hobbies

mystery

86.65 87.26

reviews 87.38 88.35

romance 88.65 89.02

learned 82.40 83.68

mystery

hobbies

76.66 77.26

reviews 83.72 83.91

romance 76.11 76.62

learned 81.25 81.61

mystery

reviews

77.65 78.78

hobbies 82.30 82.44

romance 78.03 78.97

learned 77.46 78.36

mystery

romance

86.20 86.54

hobbies 83.43 85.41

reviews 85.58 85.86

learned 78.39 80.94

mystery

learned

82.94 83.03

hobbies 86.60 86.60

reviews 86.15 86.89

romance 82.94 83.85

平均(%) 82.52 83.27

成对t检验 t 值 5.20 N/A

p值 5.06*10-5 N/A

由图可见,IHMM 在每个归纳迁移学习任务中都取得了准确率的提升。由表中“平

均”一行可知,在第一组中 IHMM(inductive)比 DT-HMM 平均高出 1.05 个百分点;在

第二组中,IHMM (inductive)比 DT-HMM 平均高出 0.75 个百分点。在每个任务的每次

运行中,IHMM 都没有出现负迁移,并且都取得了高于迁移学习方法 DT-HMM 的准确

率。

为了评估性能提高的统计显著性,进行了成对 t 检验。零假设为 IHMM(inductive)

的准确率没有比原模型提高,备择假设为 IHMM(inductive)的准确率比原模型有了显著

粒迁移学习方法及其在序列标注中的应用

- 30 -

提高。显著性水平设为 ,从表中可见 p 值远低于 ,因此可以得出 IHMM 已

经获得显著的准确率提升的结论。

以上实验结果表明,基于数据集结构信息的粒化方法可以较好地避免序列迁移学习

模型的负迁移,从而提高了序列标注的准确率。

2.4 本章小结

本章提出基于数据集结构信息的粒迁移学习方法。为了解决负迁移问题,首先提出

基于数据集结构信息的粒化方法。用区间信息粒表示出源域数据集的结构对数据集中的

特征粒度的影响。然后提出区间二型模糊隐马尔可夫模型(IHMM)以处理区间信息粒。

给出了 IHMM 的构建方法和去模糊化方法。在文本的词性标注任务中进行了多个实验,

可以表明基于数据集结构信息的粒迁移学习方法较好地避免了负迁移,提高了模型的泛

化能力。

大连理工大学博士学位论文

- 31 -

3 基于对应关系的粒迁移学习

在迁移学习中,一种有效地提高模型泛化能力的方法是通过源域和目标域特征之间

的公共表示为目标域建立“好”的特征映射[9, 92]。Blitzer 提出通过枢轴特征来建立不同

文本域之间词特征的对应关系 (Correspondence), 建立了结构对应学习 (Structural

Correspondence Learning)的方法[29],对应关系便是一种公共表示。

由于特征映射的复杂性,在特征映射的过程中并非全部对应关系都有助于提高模型

的泛化能力。某个粒度上的特征映射可能对目标域的任务造成负面影响,即产生负迁移。

为了解决负迁移问题,需要描述特征映射的粒度,即表示出对应关系的结构和粗糙程度。

因此本章提出对应关系的信息粒化方法,并建立粒模型处理对应信息粒。通过粒度控制

对应关系对粒模型的影响,从而控制负迁移产生的条件。

为了得到对应关系的结构,本章采用模糊 C 均值方法在枢轴空间中进行对应关系的

模糊聚类。为了同时表示多个聚类对符号的启发,以及启发的不确定程度,本章选择二

型模糊集作为信息粒的形式。

3.1 对应关系中特征映射的粒度

基于表示的迁移学习方法试图找到公共特征表示来缩小不同领域之间的分布差异。

Blitzer et al.[29]提出通过枢轴特征来建立不同文本域之间词特征的对应关系,并将得出的

数值向量作为扩展特征并训练得到具有迁移学习能力的模型。这些扩展特征可以被看作

是对目标域特征的映射。但是,在特征映射的过程中包含不确定性,例如当使用聚集进

行特征映射时,不同的聚集的结构和粗糙程度会产生不同的特征映射的效果。如果能够

把这种特征映射的粒度表示出来,就可以在模型中通过适合迁移的粒度由粗到精地处理

特征。

图 3.1 示意了对应关系中特征映射的粒度。图中包括特定状态下的枢轴空间中的一

个未标注符号“extent”和三个已标注符号聚类。图中的表格表示聚类内的词及其和枢

轴词(required, of, to)共现的次数,表格的左上角表示聚类中心在枢轴空间中的位置。以

“extent”为中心的同心圆代表以各聚类对“extent”进行特征映射时有不同的可信度。

这里特征映射的粒度是指可以采用不同的聚类,也可以或采用聚类的不同粗糙程度。例

如只有与“extent”的接近程度大于阀值 的聚类才会被采用;又如可以按聚类中的词与

聚类中心的接近程度对聚类成员进行筛选。通过对特征映射粒度的描述,可以将对应关

系的不确定性保留在信息粒中,在粒模型中采用由粗到精的方式进行处理,以便通过粒

粒迁移学习方法及其在序列标注中的应用

- 32 -

度控制负迁移产生的条件。由于枢轴空间表示了对应关系,所以用聚类中词的标注信息

来近似“extent”的词频特征时实质上融合了对应关系和标注信息。

图 3.1 对应关系中特征映射的粒度

Fig. 3.1 Granularity of correspondence feature mapping

粒计算可以增强迁移学习方法对不完备信息的处理能力。张铃[93]等开始研究粒计算

思想与统计学习方法的结合。Pedrycz 将信息粒看作信息复用中重要的设计元素,通过

粒度在参数中的最优分配来建立更适用于新环境的模型;并认为粒度模型可以被用作原

模型的一种抽象,适用于向目标环境进行知识迁移[94]。粒计算方法通常先建立信息粒化

表示,然后建立粒模型以处理信息粒。信息粒是由于相似性而组织起来的复杂信息实体,

可以采用模糊集、粗糙集、商空间等多种实现形式。由于文本序列域带有离散的形式和

复杂的结构,这对数据集的粒化带来挑战。本章提出融合对应关系和标注信息的粒化方

法,使得粒计算方法可以用于处理文本序列迁移学习中对应关系启发的不确定性。首先,

词之间的对应关系通过模糊聚类转换为跨域文本的对应信息粒 (Correspondence

Information Granules, CIG). 然后建立使用二型模糊集的粒二型模糊隐马尔可夫模型

(GT2HMM)以处理对应信息粒,并给出了使用 GT2HMM 进行序列标注的方法。通过直

推迁移学习和归纳迁移学习的实验证明了方法的有效性。

大连理工大学博士学位论文

- 33 -

3.2 基于对应关系的粒迁移学习方法

3.2.1 对应关系的信息粒化

Blitzer et al.[29]提出通过枢轴特征来建立不同文本域之间词特征的对应关系,将得出

的数值向量作为扩展特征。这些数值向量构成的空间称为枢轴空间。本章采用融合了对

应关系和标注信息的粒化表示方法,与数值特征相比具有以下优点:

○1 信息粒表示方式包含了对应关系的不确定性,并可以采用粒计算由粗到精的方

式来处理不确定性。

○2 信息粒表示方式可以用来估计频率意义的参数,从而与 HMM 等模型相结合。

○3 采用聚类形式的信息粒具有一定的可解释性,可以通过聚类中的词来理解未标

注符号是由哪些已标注符号来近似的。

本节首先介绍对应关系的数值表示形式,即枢轴向量,然后介绍对应关系的模糊聚

类,最后给出对应信息粒的定义。

(1) 对应关系的数值表示

词在源域和目标域之间的对应关系是一种大量存在的上下文信息。对于词性标注、

情感倾向性分析等任务,可以假设对应关系强的词之间具有相似的语法特征或情感属性[29]。Blitzer 强调选择在不同领域之间共现相似性强的词特征作为枢轴特征。本章借助“词

右侧”类型的枢轴特征来提取词特征之间的对应关系。具体做法是首先在源域和目标域

中提取相邻词对建立上下文索引,然后选取在源域和目标域都大量出现的右侧词作为枢

轴特征,最后把词在枢轴空间中表示为枢轴向量。本章将枢轴向量定义如下:

定义: 枢轴向量

用 表示词 的枢轴向量,其中 代表枢轴的个数, 的意

义是词 与枢轴特征 的共现次数。

枢轴向量集可以通过 SVD 分解来进行压缩,以减少数据稀疏性的影响。

(2) 对应关系的模糊聚类

本章通过模糊 C 均值方法在枢轴空间中进行对应关系的模糊聚类,以得到词和词聚

类之间的近似程度。给定已标注符号的枢轴向量 ,聚类结构通过最大化如下目标函数

来实现:

(3.1)

这里 表示聚类 的原型, 是聚类数目, 表示分割矩阵, 是已标注符号的个

数;模糊数 通常设为 2。

粒迁移学习方法及其在序列标注中的应用

- 34 -

首先把已标注符号在枢轴空间中聚类得到聚类中心 和已标注符号的分割矩阵

, 的意义是聚类中的词对聚类的隶属度。

然后计算未标注符号与各聚类的近似关系。模糊 C 均值算法包括求中心和聚类两个

步骤。可以固定已得到的聚类中心 ,只重复算法的聚类步骤,就可以得出未标注符

号与各聚类的分割矩阵 , 这里 , 是未标注符号的个数. 的意义是用

聚类 的属性来近似符号 属性的可信度,反映了对应关系启发的不确定性。

(3) 其他模糊聚类标准

对于聚类的标准,除了公式(3.1)中使用的欧式距离以外,还可以采用模糊谓词。通

过模糊谓词表示词和聚类之间的近似程度,从而得到词对聚类的隶属度。这样,对应关

系组织为对词聚类的模糊集,保留了对应关系中的模糊性,使得模型可以在不同粒度上

处理和使用对应关系。在基于聚类的信息粒化中,可以使用模糊谓词作为聚类标准以表

达相似性等语义[95]。

定义: 包含谓词

为了对“包含”这种语言表达进行量化,包含谓词( )通过蕴涵关系 返回

一个满足如下两个属性的真值 :

○1 如果 x<y,则返回 1.

○2 返回 x 的单调递减函数

通常可以在 中使用 t-范数 ,包含谓词的实现形式如同公式(3.2).

(3.2)

定义: 优势谓词

为了对“优势”这种语言表达进行量化,优势谓词( )通过蕴含关系 返回

一个真值 ;优势谓词可以看成包含谓词的对偶形式。使用 t-范数 ,优势谓词的

实现形式如同公式(3.3).

(3.3)

定义: 相似谓词

相似谓词( )是 和 的聚合,作用是对“相似”这一语言表达进行量

化。 的实现形式如同公式(3.4),取值限定于单位区间内。

(3.4)

使用公式(3.2)-(3.4)的谓词定义,可以用对应关系来定义两个词向量 和 的接近

度:

大连理工大学博士学位论文

- 35 -

(3.5)

可以在聚类中以模糊谓词的形式为聚类对象提供一种度量。

(4) 对应信息粒

模糊聚类之后得到的 可以看成是一组模糊集,其中 表示使用第 个聚类对符

号 进行特征映射的可信度。这样, 反映出特征映射的粒度,是模糊集形式的信息

粒。

对于序列标注问题,可以将发射概率作为符号对状态的隶属度,因此需要用二型模

糊集才能更好地描述对符号发射特征的映射的粒度。定义跨域文本的对应信息粒为特定

于状态 的二型模糊集 :

(3.6)

由二型隶属度函数(Type-2 Membership Function, T2 MF) 刻画,其中

,k 轴表示未标注符号集的序号, 称为主度,意义是不同聚类对某一

符号的启发,启发的内容是对状态 的隶属程度。

图 3.2 二型模糊集形式的对应信息粒

Fig. 3.2 Type-2 fuzzy set as CIG

粒迁移学习方法及其在序列标注中的应用

- 36 -

图 3.2 描绘了一个二型模糊集形式的对应信息粒。对于特定符号 , 二级隶属度

函数(Secondary MF) 是二型隶属度函数 的一个垂直切片。二级隶属度

函数的域(Domain)称为主隶属(Primary Membership), 记作 , 定义如公式(3.7), 其中

表示聚类 对符号 的启发, 为聚类的个数,对于任意 有 .

(3.7)

二级隶属度函数的幅(Amplitude)称为二级度(Secondary Grade), 记作 ,

意义是聚类 对符号 的启发的可信度。这样,二级隶属度函数就反映出了对应关系启

发的不确定性。本章在图 3.1 中已经描绘过这种不确定性。

首先计算 , 即聚类 对符号 的近似. 通过数据集中的标注信息可以得到聚类 中

的符号 的发射概率 . 公式(3.1)中给出的分割矩阵 可以看成是 个模糊集 . 对

于每个聚类 , 选择使用 的 割集 中的符号:

(3.8)

采用公式(3.9)中的加权算术平均方法计算 :

(3.9)

然后用 和 来建立二型隶属度函数 :

(3.10)

由于 表示的是具有结构对应含义的枢轴空间的结构, 的计算使对应关系和标注

信息得到融合。同时由于 代表了未标注符号和已标注符号聚类的对应关系,所以对

于未标注符号,可以通过 所表示的对应关系的结构和粗糙程度来使用标注信息。

3.2.2 粒二型模糊隐马尔可夫模型

如图 3.3,在 GT2HMM 的框架中,使用未标注数据进行信息粒化。然后通过

GT2HMM 处理对应信息粒。GT2HMM 可以去模糊化(defuzzification)以便通过 Viterbi

进行高效的序列标注。给定一些目标域的标注数据时,可以通过粒度验证(Granularity

Validation)来选取最适合的粒度。最后给出一个脆性的(crisp)隐马尔可夫模型。

(1) 模型定义与参数估计

对于带有不确定性启发信息的对应信息粒,需要建立一个粒度模型来处理。为了得

到一个既可以处理信息粒又可以高效地进行参数估计的模型,将 HMM 扩展为粒二型模

糊隐马尔可夫模型(GT2HMM). 其参数 定义如下:

○1 初始状态分布

大连理工大学博士学位论文

- 37 -

初始状态分布 是初始状态的向量 , , . 其中 是

在初始时刻的状态, , , 。

○2 迁移概率矩阵

迁移概率矩阵表示为 , 其中 , ,

.

○3 对应信息粒符号发射向量

对应信息粒符号发射向量表示为 ,其中 是一个特定于 的

对应信息粒。

GT2HMM 使用对应信息粒符号发射向量 代替了 HMM 的符号发射矩阵,既表示

了符号发射的随机性,又描述了对应关系对模糊的启发信息的信度。 的主度 在意义

上接近于 HMM 中的符号发射概率。

以上,本章通过 HMM 和对应信息粒建立了 GT2HMM.

图 3.3 GT2HMM 的框架图

Fig. 3.3 The framework of GT2HMM

(2) 粒二型模糊隐马尔可夫模型的序列标注

给定粒度,GT2HMM 可以去模糊化,以便通过 Viterbi 进行高效的序列标注。这个

粒度由 的 平面[96]中的 值来控制,其意义是对 中的聚类做一个筛选, 的定义见

公式(3.11),

(3.11)

然后通过把主度 按信度 加权,如公式(3.12),得到符号发射矩阵 。

粒迁移学习方法及其在序列标注中的应用

- 38 -

(3.12)

由于 使用了融合的对应关系和标注信息,而 体现了未标注符号和已

标注符号聚类的对应关系,所以对未标注符号的近似实质上是通过对应关系使用了标注

信息。

将 GT2HMM 去模糊化得到的 HMM 记为 ,其中 为粒度参数。序列标

注结果通过 上的 Viterbi 方法得出。

如果在目标域有验证集,可以采用更细的粒度,从而在近似每一类词时使用不同的

粒度。

定义 种不同的粒度 ,其取值范围在一般粒度 的一个邻域上,

即 , 为区间长度的一半。我们试图找到一组 ,在

验证集中达到准确率的最大化,即求解如公式(3.13)的优化问题,其中 表示由 Viterbi

算法进行序列标注的准确率, 表示使用粒度参数 去模糊

化 GT2HMM 后得到的 HMM。

(3.13)

此问题可以由粒子群优化(PSO)等随机优化方法来求解. PSO 的优化原则可以表示

为公式(2.8)和(2.9). 这里根据粒度优化问题需要只使用一维的候选解 。此时序列标注

结果通过 上的 Viterbi 方法得出。

由上可见,对应关系中的不确定性在 GT2HMM 中是以一种由粗到精的方式被使用

的。

3.3 迁移学习实验结果与分析

迁移学习成为迅速发展的研究领域,在许多领域中被应用于各种数据域[97]。本节在

文本的序列域进行实验,序列标注是文本分析的重要环节,对于信息抽取和信息检索的

研究和应用具有重要的意义。迁移学习可以在不增加标注新文本域的负担的条件下增加

机器学习模型的性能表现。

3.3.1 实验数据

为了测试 GT2HMM 对于序列标注任务的有效性,本章对词性标注这个经典的序列

标注任务进行实验。实验中使用 Brown 语料和 Twitter 语料。Twitter 语料采用 TWPOS

数据中的 1500 条 Twitter 消息,并根据消息的情感倾向性把这些消息分成主观和客观两

个文本域。TWPOS 中包含 25 个标签,其中一些是一般文本语料中不常使用的,例如“E‖

大连理工大学博士学位论文

- 39 -

为“情感”标签,包含诸如“:)”这样的特殊词。Brown 语料是一个通用的百万词级

的英语平衡语料,文本取自 500 多种文章来源并被分类为多种文体风格,包括“新闻”,

“小说”等。

图 3.4 GT2HMM 与其他算法在第一组实验中的比较.

Fig. 3.4 Accuracy comparison between GT2HMM and other algorithms in the first

experiment group.

本章采用两种语料库构造迁移学习任务。对于 Twitter 语料,用主观和客观两个文

本域构造“主观-客观”和“客观-主观”两个跨域迁移学习任务。对于 Brown 语料,为

了进行广泛的实验,并且易于比较,本章进行了两组实验,每组选择 5 种文体风格来构

成 20 个跨域词性标注任务。第一组使用包括新闻、社论、科幻、政府和历险这五种文

体风格的语料,其中任意两种可以组成一个跨域任务。第二组使用包括奇幻、回顾、爱

好、浪漫和学术这五种文体风格的语料,其中任意两种可以组成一个跨域任务。

3.3.2 实验设置

本章在两种设置下进行 GT2HMM 和其他方法的性能比较。其一是只在源域中有已

标注文本,称为直推学习设置,此时 GT2HMM(transductive)简记为 GT2HMM(t);其二

是目标域也有少量已标注文本,称为归纳学习设置,此时 GT2HMM(inductive)简记为

粒迁移学习方法及其在序列标注中的应用

- 40 -

GT2HMM(i)。对于聚类标准,本章采用欧氏距离,因为在实验中发现采用模糊谓词时效

果通常不如采用欧氏距离。在直推学习设置中 IHMM(t)与 HMM 进行比较,在归纳学习

设置中 IHMM(i)与 DT-HMM 进行比较。DT-HMM 将源域数据作为先验,以最大后验

(MAP)[22, 91]方式估计目标模型的参数。

对于每一个迁移学习任务“源域-目标域”,在直推学习设置中,本章选取源域中

的 450 个已标注句子和目标域中的 450 个未标注句子来构成跨域数据集。在归纳学习设

置中,本章使用源域中的 450 个已标注句子作为训练集、目标域中的 50 个已标注句子

和 450 个未标注句子作为验证集和测试集。

图 3.5 GT2HMM 与其他算法在第二组实验中的比较.

Fig. 3.5 Accuracy comparison between GT2HMM and other algorithms in the second

experiment group.

3.3.3 实验结果与分析

(1) 标注准确率的总体表现与分析

第一组 Brown 语料实验的结果如图 3.4 和表 3.1,第二组 Brown 语料实验的结果见

图 3.5 和表 3.2, Twitter 语料的实验结果见图 3.6;单位是(%), 表中 KLD 一列给出了源域

和目标域之间的 KL 距离作为参考。

大连理工大学博士学位论文

- 41 -

表 3.1 第一组实验结果和成对 t 检验

Table 3.1 Accuracies and paired t test in first experiment group

任务 KLD HMM GT2HMM(t) DT-HMM GT2HMM(i)

new vs. edi 0.854 76.73 79.22 77.49 80.31

edi vs. new 0.789 74.99 78.33 77.15 79.98

new vs. fic 1.272 73.94 76.55 76.06 78.91

fic vs. new 1.118 65.27 69.61 69.12 72.90

new vs. gov 1.111 77.35 79.84 79.04 81.66

gov vs. new 1.055 67.39 72.44 71.89 75.47

new vs. adv 1.481 72.29 73.97 76.09 77.80

adv vs. new 1.359 60.98 63.31 66.31 67.97

edi vs. fic 1.062 76.17 78.88 78.58 80.99

fic vs. edi 1.009 68.56 72.10 71.83 75.27

edi vs. gov 0.931 76.77 78.92 79.08 81.41

gov vs. edi 1.005 71.50 76.01 72.92 77.43

edi vs. adv 1.239 73.59 75.55 76.47 78.76

adv vs. edi 1.229 63.74 67.56 68.36 72.32

fic vs. gov 1.301 66.20 69.61 71.94 75.20

gov vs. fic 1.479 67.74 71.24 73.18 75.86

fic vs. adv 0.752 80.63 83.56 81.76 84.31

adv vs. fic 0.751 77.44 79.70 78.99 81.32

gov vs. adv 1.676 64.75 66.56 72.53 72.71

adv vs. gov 1.548 61.80 64.97 67.82 72.18

平均准确率(%) 70.89 73.90 74.33 77.14

成对 t 检验 t 值 N/A 14.41 N/A 12.49

p 值 N/A 1.11x10-11

N/A 1.32x10-10

在直推学习设置中,GT2HMM(t)的准确率总是高于 HMM. 根据表中的平均准确率,

在两组实验中 GT2HMM(t)比 HMM 分别提高了 3.01%和 3.66%,而且 GT2HMM(t)还常

常高于DT-HMM这种利用了标注数据的归纳学习方法。在归纳学习设置中,GT2HMM(i)

的准确率总是高于 DT-HMM. 在两组实验中 GT2HMM(i)比 DT-HMM 的平均准确率分

别提高了 2.81%和 3.71%. 这些结果验证了 GT2HMM 可以有效的使用对应关系,提高了

泛化能力。同时,可以发现无论是在直推学习设置下,还是在归纳学习设置下,GT2HMM

能够在每一组语料中超过标准的监督学习方法,没有出现负迁移。

粒迁移学习方法及其在序列标注中的应用

- 42 -

表 3.2 第二组实验结果和成对 t 检验

Table 3.2 Accuracies and paired t test in second experiment group

任务 KLD HMM GT2HMM(t) DT-HMM GT2HMM(i)

mys vs. hob 1.121 65.81 69.45 68.44 73.06

hob vs. mys 1.170 74.49 76.55 76.91 79.07

mys vs. rev 1.057 65.10 68.70 67.30 70.92

rev vs. mys 1.083 76.55 78.86 78.35 80.70

mys vs. rom 0.724 75.79 79.16 76.82 80.10

rom vs. mys 0.739 80.20 83.25 80.88 84.01

mys vs. lea 1.943 62.77 68.17 69.42 74.70

lea vs. mys 1.771 56.01 58.51 69.76 72.19

hob vs. rev 0.965 71.89 75.12 72.82 75.95

rev vs. hob 0.914 73.73 76.90 75.25 78.34

hob vs. rom 1.123 72.31 74.15 74.80 76.98

rom vs. hob 1.063 67.71 71.31 70.17 73.77

hob vs. lea 1.353 72.76 78.37 75.08 80.13

lea vs. hob 1.399 63.97 68.75 68.70 74.31

rev vs. rom 1.051 74.69 77.11 75.74 78.58

rom vs. rev 0.976 65.79 71.95 67.42 73.93

rev vs. lea 1.345 71.29 75.13 74.16 77.70

lea vs. rev 1.517 61.82 67.64 65.68 70.67

rom vs. lea 1.775 63.53 68.04 70.67 74.75

lea vs. rom 1.766 56.16 58.51 66.55 69.24

平均准确率(%) 68.62 72.28 72.25 75.96

成对 t 检验 t 值 N/A 12.44 N/A 13.28

p 值 N/A 1.41x10-10

N/A 4.58x10-11

为了评估性能提高的统计显著性,本章进行了成对 t 检验。零假设为 GT2HMM 的

准确率没有比原模型提高,备择假设为 GT2HMM 的准确率比原模型有了显著提高。显

著性水平设为 ,从表中可见 p 值远低于 ,因此可以得出 GT2HMM 已经获

得显著的准确率提升的结论。

大连理工大学博士学位论文

- 43 -

图 3.6 在 Twitter 语料中 GT2HMM 与其他算法的比较

Fig. 3.6 Accuracy comparison between GT2HMM and other algorithms in Twitter corpus

可以通过对比 Brown 语料和 Twitter 语料来分析微博迁移学习的难点,以便进一步

找出应对方法。如图 3.6, “客观-主观”提高最小,而“主观-客观”和其他 Brown 语料

任务的提高比较接近。这说明对“主观”类型中的 OOV 通过对应信息粒来改进词性标

注时效果较弱,原因可能有两个。一是在主观性微博语料中词的对应性不强,二是没有

选好合适的粒度。

(2) 参数敏感性

○1 数据集大小对粒模型表现的影响

数据集大小通常对机器学习方法的表现有影响。本章进行了数据集大小对序列标注

准确率的影响的实验。在实验中源域和目标域的数据集同时从 150 个句子逐步增加到

500 个句子。图 3.7 描述了典型的实验结果。当数据集大小增加时,如图可见,

GT2HMM(inductive) 和 GT2HMM(transductive) 获得了超过DT-HMM和HMM的增长。

特 别 地 , 当 数 据 集 大 小 超 过 350 个 句 子 时 , 未 使 用 目 标 域 标 注 数 据 的

GT2HMM(transductive) 开始超过直推方式下的 DT-HMM 方法。

以上说明,GT2HMM 可以在各种数据集大小条件下取得准确率的提高。

粒迁移学习方法及其在序列标注中的应用

- 44 -

图 3.7 数据集大小对准确率的影响

Fig. 3.7 Accuracies on various dataset sizes

○2 聚类数目对粒模型表现的影响

本章进行了聚类数目对序列标注准确率的影响的实验。聚类的数目是对应信息粒化

中的重要参数,本章通过平均聚类大小来调整对应信息粒中聚类的数目。在实验中,源

域和目标域都使用 500 个句子,目标域被分成 4 组进行准确率测试。使用―news vs.

editorial‖ 和 ―editorial vs. fiction‖ 这两个任务作为典型情况来说明聚类大小对准确率的

影响,实验结果见图 3.8 和 3.9. 从图中可以看出,准确率并没有被聚类数目严重的影响。

○3 细粒度的初步实验

本章在“主观-客观”任务中尝试使用更细的粒度,以探讨针对微博语料特点的可

行方法。由于 Twitter 的主观文本中写作者的表达更加随意的特点,对于拼写错误的词

(包含连续三个以上的相同字符)、包含@等特殊符号的词使用 建立一个细化

的粒度范围,并使用 PSO 进行粒度随机优化。可以将 GT2HMM(t)平均准确率提高 0.2%,

并且将 GT2HMM(i)平均准确率提高 0.3%. 这说明“主观-客观”任务是微博词性标注的

难点,而使用更细的粒度会有一定的准确率提升,但目前实验中只使用了简单的细粒度

方法,因此提高很小。

大连理工大学博士学位论文

- 45 -

图 3.8 ―news vs. editorial‖任务中聚类大小对粒模型表现的影响

Fig. 3.8 The performance of granular model on various cluster sizes in ―news vs. editorial‖

task

图 3.9 ―editorial vs. fiction‖任务中聚类大小对粒模型表现的影响

Fig. 3.9 The performance of granular model on various cluster sizes in ―editorial vs. fiction‖

task

粒迁移学习方法及其在序列标注中的应用

- 46 -

(3) GT2HMM 与 IHMM 的对比

基于数据集结构信息的粒迁移学习和基于对应关系的粒迁移学习都是以解决负迁移

问题为目标的方法,因此我们对 GT2HMM 和 IHMM 这两个模型进行对比。以第一组迁

移学习任务为例,我们把表 3.1 中的平均准确率和第二章中的表 2.5 和 2.7 中的平均准确

率进行对比,发现即使在使用较少的源域标注数据的情况下,GT2HMM 在直推式和归

纳式迁移学习中的准确率提高(3.01%和 2.81%)明显高于 IHMM 的准确率提高(1.09%和

1.05%). 但是 GT2HMM 需要使用大量的目标域未标注数据来得到特征映射关系。因此,

在目标域有较多可以用来建立特征映射的未标注数据时,可以使用基于对应关系的粒迁

移学习方法,否则需要使用基于数据集结构的粒迁移学习方法。

3.4 本章小结

本章提出了结构对应关系的粒化表示和粒二型模糊隐马尔可夫模型(GT2HMM)以

处理对应关系中的不确定性,从而将粒计算使用到文本的序列迁移学习中。与 Blitzer

直接使用数值向量作为扩展特征不同,本章的工作侧重于从不确定性知识的表示这一角

度入手,以探寻负迁移问题的解决方案。将源域和目标域中的结构对应关系表示为对应

信息粒,这种对应关系的抽象既增加了对诸如 HMM 等使用离散特征空间的模型的适用

程度,又可以提高对应关系启发的可解释性。GT2HMM 的优点是可以由粗到精地处理

随机和模糊两种不确定性。在微博语料和通用语料的实验中取得了性能提升,从而验证

了方法的有效性。基于粒计算的知识迁移在文本的序列标注中尚未有公开发表的研究成

果,本章扩展了基于粒计算的迁移学习的理论和应用。

大连理工大学博士学位论文

- 47 -

4 基于生成结构的粒迁移学习

在机器学习中,生成模型通过指定联合概率分布来建立数据域的结构。例如高斯混

合模型代表了数据域中存在的子总体的结构、隐马尔可夫模型代表了序列域的生成结

构。

在迁移学习模型中保持目标域的生成结构有助于解决欠适配问题。但是由于源域和

目标域的生成结构存在差异,保持整个生成结构并不一定有助于提高泛化能力。保持某

个粒度上的生成结构(称为子结构)可以解决欠适配问题,但是保持其他子结构可能会在

解决欠适配问题的同时又导致过拟合问题。因此提出基于生成结构的粒迁移学习,即通

过粒度来控制生成结构对迁移学习模型的影响。

为了在迁移学习中保持目标域的生成结构,本章采用正则化作为框架。因为子结构

是否有助于迁移学习效果和数据集的规模条件有关,所以根据数据条件选择合适的子结

构作为正则项。

4.1 粒度与子结构

很多生成模型带有复杂的结构,在数据不充分的条件下,采用适合于问题的粒度是

一种解决数据不充分问题的思路。和建立整体式的(monolithic)模型的方法不同,采用粒

度的建模通过不充分的数据来获得一个在问题中可行的部分模型。王鹏等[98]在处理数据

流概念漂移问题时不是更新整个模型,而是得出受概念漂移影响的成分并在低粒度上更

新,以降低更新的代价。模型集成(Ensemble)方法[99, 100]也可以看成是降低了模型粒度,

通过分割出的各个成分对问题进行独立的预测,之后再集成每个成分的结果;但是这些

成分经常缺乏可解释性,即缺乏与问题对应的语义。Liu et al[101]用骨架作为高粒度的时

间结构来识别时间模式,以降低序列表示的基数灾难。本章实现的生成结构粒度是根据

数据集条件来选择子结构作为迁移对象。Pedrycz[102, 103]把信息粒度作为重要的设计资

产。论文[104, 105]提出不同的粒度分配方法。与这种数据表示的粒度不同,本章实现了基

于生成结构的目标域知识表示的粒度。

对目标域内部结构的确认可以改进迁移学习。Yang et al.[97]的三个迁移学习的例子说

明,来自不同学习任务的结构性知识有不同的形式。其中时间和拓扑特性[41]被用在HMM

中,以使过时的模型适用当前的模型。对于序列域来说,其结构可以通过 HMM 等生成

模型来建模。HMM 在表示能力和计算复杂性之间取得了很好的平衡,并被广泛应用于

很多具有挑战性的领域[106-108]。对于序列迁移学习任务,HMM 通常比指数模型[67, 68]在

粒迁移学习方法及其在序列标注中的应用

- 48 -

学习上更高效。在词性标注等文本的序列标注任务中,HMM 是最好的序列标注器[66]之

一。因此,本章希望找到一种可以与 HMM 结合的序列迁移学习方法。

目标域的不同子结构在迁移学习中的不同效果也是值得一提的问题。由于迁移高斯

协方差矩阵效果微弱,Kamel et al.[20]只迁移高斯矩心。研究者经常把 HMM 中的状态迁

移矩阵和符号发射矩阵分开处理。Binesh et al.[109]使用分类模型从有噪音的源中估计状

态迁移矩阵。Beal et al. [110]明确地在状态迁移矩阵中通过蒂利克雷过程整合无限参数。

Xu et al.[111]采用状态迁移矩阵表示聚类之间的迁移。Kim et al.

[112]将潜在的 Markov 结构

应用在在序列分类中。通过选择子结构粒度,我们发现 Markov 链适合词性标注任务中

的迁移,可能的原因在于状态迁移矩阵中包含了更多的关于文本语法的信息。

为了比较结构相似性,很多种度量方法已经被用在序列数据聚类[113], 序列数据分类

[112]和数据流变化检测[114]中。相对熵(也称为 Kullback-Leibler 距离)是一种度量不同分布

之间差异性的方法[115, 116]. Perduca 和 Nuel

[117]通过相对熵度量观察值对隐含状态后验分

布的影响。Ling and Dai[118]在集成不同的语音模型时通过相对熵提取声学相似性。本章

用相对熵来度量 STLM 和目标域之间的差异性。

4.2 序列迁移学习与子结构正则化

序列标注在生物信息学、语音识别、信息检索和计算语言学等领域中引起广泛的研

究兴趣,并取得了大量的应用成果。其中词性标注被认为是自然语言处理中一个核心的

基础部分,并且是信息抽取与检索的重要的预处理工具。词性标注是通过计算的方式在

文本上下文中确定词性标签。值得一提的是,在已有大量语料的文本域之外,序列标注

常常要被引入到新的文本域。目前,微博(包括 Twitter)等新的社会媒体技术正在高速

发展。这样,为新的文本域提供序列迁移学习方法成为十分急迫的任务。

尽管迁移学习已经被应用于各种不同的数据域, 对于序列域的研究还比较少。在序

列标注任务中,通常的独立同分布假设并不适用,因为序列域带有内部结构而导致了观

察值-标签对的序列相关性。不同数据域有不同的序列相关模式,例如不同情感倾向的

文本序列域在具有不同的词法分布的同时,还常常带有突出的语法特征。在经典机器学

习中,需要训练集和测试集同分布假设,这样将从训练集得到的模型用于测试集具有合

理性。而对于序列标注这种机器学习问题,实际上还要利用“同结构”假设,即要求训

练集和测试集的生成模型结构(或称为生成结构)也相同。因此生成结构对模型的泛化能

力有很重要的影响。在迁移学习中,序列域除了需要分布适配[119, 120]之外,还要考虑结

构保持,才能减少因为结构差异造成的负迁移。由于源域和目标域的生成结构存在差异,

保持整个结构并不一定有助于提高泛化能结力。某个粒度上的生成结构可能会导致迁移

大连理工大学博士学位论文

- 49 -

学习模型产生负迁移。迁移学习放松了同分布假设,使得从源域得到的模型可以应用到

有相似分布的目标域。对于数据域带有生成结构的情况,例如序列迁移学习,需要将“同

结构”假设放宽为子结构相同。因此本章提出通过子结构保持来解决负迁移问题。

基于参数的迁移学习是一种通过在源模型和目标模型之间共享参数达到迁移学习

目的的方法。其中最大后验方法(MAP) 根据目标域数据调整模型参数的先验估计。与

表示出先验的方法不同,正则化方法引入一个惩罚项,使得目标域信息的表示形式更加

自由。基于以上分析,本章通过正则化方法实现基于生成结构的粒迁移学习,提出子结

构正则化迁移学习模型(Substructural Regularization Transfer Learning Model, STLM). 正

则化方法的惩罚项被用来使得 STLM 和目标域具有子结构上的相似性。

图 4.1 子结构正则化学习系统框架图

Fig. 4.1 Learning system framework of substructural regularization

图 4.1 是子结构正则化学习系统框架图,其中变量 代表观察值,

代表状态。初始模型(Initial Model)的小方框里的随机箭头表示其结构是不适定的。如图

粒迁移学习方法及其在序列标注中的应用

- 50 -

所示,源域中有充足的观察值,但是其结构和目标域不相同;同时,目标域中的已标注

数据是不充分的。通过源域和目标域的已标注数据,可以建立一个初始模型,但它是不

适定的,其中的最优子结构无法确定。直观地,为了建立更好的目标模型,可以从目标

域选择性地学习子结构,并与不适定的模型相结合( )。本章强调在子结构粒度上根据

已标注数据集的条件保持目标域的特征。这种结合通过正则化来实现,其中 STLM 和目

标域的差异性被用作惩罚项。特别地,本章使用相对熵来度量这种不确定性。

本章提出基于生成结构的粒迁移学习,即通过粒度来控制生成结构对迁移学习模型

的影响,从而控制负迁移产生的条件。找到一种可以用解析解形式进行参数估计的序列

迁移学习模型。这种模型学习的高效性对于诸如在线学习等应用是有价值的。以正则化

理论和信息论方法为基础,极值的充分必要条件可以被证明。同时,子结构表示的有效

性可以通过一致边界来进行讨论。通过 Brown 语料和 Twitter 语料的 22 个跨域学习任务

的实验,STLM 的可行性得到了验证。

4.3 基于生成结构的粒迁移学习模型

4.3.1 子结构正则化

正则化方法引入一个惩罚项,即正则项。本章使用正则项来保持与目标域相关的知

识。而序列域的结构性知识可以由 HMM 等生成模型来表示。考虑到目标域中已标注数

据集的大小,本章以一种数据敏感的方式选择子结构,并用作正则项。

对于基于参数的概率模型,使用正则化的参数估计可以由如下公式表示:

(4.1)

其中 贝叶斯推断中的最大似然估计(MLE), 是正则化项, 表示待估计的参数, 是

加权因子。

在迁移学习问题的背景中,源域数据的使用会使目标模型向源域数据偏置,因而引

起对源域数据的过度拟合。正则化可以减少因为使用源域数据而造成的过度拟合问题。

考虑从数据集 中学习模型参数的问题,这里数据集 的规模是不足的。使用

源域数据的理由是因为观察值的充足性。但是使用源域数据会破坏目标域的结构并造成

过度拟合。因为我们常常可以通过有限的一些目标域的标注数据 来表示子结构信息,

并构造一个正则化项 。那么迁移学习中的正则化可以被表示为如下公式:

(4.2)

其中 是表示目标域结构性属性的子结构正则项。

大连理工大学博士学位论文

- 51 -

4.3.2 子结构粒度选择

下面根据 的规模选择生成模型的子结构作为正则化参数。对于序列标注问题,

可以用 HMM 表示目标域的生成结构。

HMM 是最流行的序列标注模型之一,广泛应用于各种领域的序列标注任务。因为

HMM 能够以较简单的方式有效地表示出序列生成过程。所以采用 HMM 来确定 的结

构性特征是一个自然的选择。HMM 的子结构包括状态迁移矩阵、符号发射矩阵和初始

状态分布,每一部分都描述了目标域特定方面的属性。其中状态迁移矩阵 通过 Markov

属性减少了序列表示中需要估计的条件概率的数目:

(4.3)

在选择子结构作为正则项参数时,本章采用一种数据敏感的方式。下面通过量化分

析的方式来判断哪个子结构可以用作正则项参数。直观地,如果目标域数据集的大小不

足以刻画一个子结构,那么选择这个子结构作为正则项参数是不可靠的。因为目标域数

据 的不充分性,我们关心数据能在何种程度上表示目标域 的真实分布。

本章以状态迁移矩阵 为例讨论正则项参数需要满足的条件。在监督学习,状态迁

移矩阵通过 中出现的迁移次数来估计。对状态迁移矩阵 的偏置的分析如下。

对于状态 的每次出现,关联一个 Bernoulli 随机变量 , , 其中 是

数据集中状态迁移的次数。当 是状态 到状态 的迁移时,置 ;否则,置 .

因为本章假定每种状态迁移有一个固定的概率,并且迁移之间具有马尔可夫属性, 可

以近似地看成独立同分布的随机变量。用 表示这种迁移的频率,其计算公式如下:

(4.4)

由于 是 的函数,所以也是一个随机变量。

用 表示事件: 偏离均值 . 根据 Chernoff 边界,事件 的概率的边界可以由公

式(4.5)给出,其中 是 的偏离。

(4.5)

由于存在 种状态迁移,可以推导出所有偏离发生的联合边界,记为 . 其一致收

敛结果由公式(4.6)给出,其中 .

(4.6)

粒迁移学习方法及其在序列标注中的应用

- 52 -

联合边界表明,给定目标域的 个样本,我们对于“所有偏离都不超过 ‖有

的置信度。可见置信度随 的增加而增加。

公式(4.6)的一个直接的结果是公式(4.7).

(4.7)

现在可以从公式(4.7)估计使用不同子结构作为正则化参数所产生的偏离。在词性

标注实验中,子结构粒度选择如下。

假定 , 使用包含 1000 个平均长度为 25 的序列的目标域数据集,其中有 20

种不同的标签。那么以 95%的概率,状态迁移频率的偏离小于 0.014. 因此,状态迁移

矩阵 比较容易代表目标域子结构的真实分布。

然后,本章量化地讨论当目标域数据不充分时,符号发射矩阵 不是好的子结构表

示的原因。发射频率的偏离与迁移频率很相似,不同在于 . 在上面的 1000 个序

列的例子中,假定 . 那么以 95%的概率,符号发射频率的偏离小于 0.0157. 但

是由于符号发射的平均频率是 , 即 0.0002, 偏离远大于平均频率。因此,数据条

件不足以使 成为好的子结构表示。

另外,本章考虑使用 作为正则化参数。但是通过验证集上的实验说明在使用

的情况下使用 并没有带来进一步的提高。可能的原因在于 在一个序列的似然估计

时只使用一次,而 对似然的影响要大很多。特别地,状态迁移矩阵带有更多可用的语

法信息。并且从模型选择的观点来看,增加正则化参数 会增加模型的复杂性。

因此,本章选择 作为词性标注实验中正则化参数的首选。

4.3.3 使用相对熵的子结构保持

接着需要度量两个 Markov 结构的差异性,以便惩罚偏离目标域经验分布过多的候

选模型。相对熵通常可以用来度量两个分布的差异性,因此也可以用来比较两个 HMM

的差异性。本章使用相对熵来度量目标域的经验分布和 STLM 中的分布。当选择状态迁

移矩阵作为正则项参数时,正则项如公式(4.8), 其中 表示要估计的状态迁移矩阵, 表

示 中的经验分布构成的矩阵。

(4.8)

通过子结构正则化,本章在使用源域的观察值中的信息的同时保持了目标域的结构

性特征,减少了 STLM 对源域数据的偏置。

大连理工大学博士学位论文

- 53 -

4.3.4 极值的充分和必要条件

本章把子结构正则化阐述为带有两个竞争性目标的优化问题。一方面,在相对熵标

准下得到一个尽可能与 相关的 。另一方面,使用更多的观察值以得到已标注数据的

尽量大的似然。如公式(4.9), 建立以小的结构差异和大的似然为目标的优化问题,并满

足参数的概率意义,其中 是来自于 的标注数据。

(4.9)

在等式约束下,公式(4.9)中的目标函数可以用拉格朗日乘子法求解。下面给出极值

的必要条件。

定理:由公式(4.9)阐述的正则化问题可以通过拉格朗日乘子法求解,得到的解如同

公式(4.10), 其中 是状态 作为初始状态的次数、 是状态 紧邻于 之后的

次数、 是符号 对应于状态 的次数。

(4.10)

证明:首先,建立包含与 有关的约束的拉格朗日函数 ,见公式(4.11):

(4.11)

这里使用 代表拉格朗日乘子,以避免与 HMM 参数 混淆。

基于 HMM 中观察值 的独立性假设,可以得到公式(4.12):

(4.12)

粒迁移学习方法及其在序列标注中的应用

- 54 -

考虑隐含状态序列是一个马尔可夫过程,得到公式(4.13):

(4.13)

结合公式(4.12)和(4.13)得出:

(4.14)

给 定 已 标 注 数 据 , 可 以 计 算 ,

和 .

然后可以得到 HMM 参数对于数据 的似然,如公式(4.15):

(4.15)

现在可以计算 关于 , 和 的偏导。将偏导置为零,即可求出如同公式

(4.10)的解,如此定理得证。 □

可以发现公式(4.10)是 STLM 参数估计的分析解。这意味着 STLM 的估计是十分高

效的。而且,这个解公式(4.10)也是子结构正则化问题极值的充分条件,证明如下。

定理:对于正则化阐述(4.9)中的目标函数和约束,公式(4.10)给出了严格的局部最

小值。

证明:用 和 代表正 则化 问题 (4.9) 中的 目标函数和约束, 其中

.

(4.16)

约束共有 个,我们也可以把约束 按关于 , 和 分开表示:

(4.17)

大连理工大学博士学位论文

- 55 -

易见 的二阶偏导全部为 . 用 代表 的海森(Hessian)矩阵,则 是零矩

阵。

用 代表 的海森矩阵, 的计算如同公式(4.18),其中 代表 HMM 的参数。计参

数数目为 , 则 .

(4.18)

容易发现公式(4.18)中只有如下 个二阶偏导数不为 :

(4.19)

由于所有非零的二阶偏导数都在 的对角线上,所以 是一个正定对角矩阵。因此

公式(4.20)中的矩阵是正定对角矩阵,其中 代表 .

(4.20)

这样公式(4.20)中的矩阵在切平面 上是正定的;而且在公式(4.10)

所代表的点上一阶偏导数为零. 因此可以得出公式(4.20)是严格局部最小值的结论。□

为了平衡最大似然目标和子结构保持目标,参数 被用作权重因子。当 减小时,

子结构正则化的影响得到加强;当 增大时,最大似然估计的影响加强,即目标模型更

倾向于拟合源域中的数据。由于目标域的数据不足,在选取参数 时可以采用交叉验证

以便充分利用数据。

4.3.5 时间复杂性

接下来讨论 STLM 的时间复杂性。用 代表句子的平均长度, 代表源域的已标注

数据集的长度, 代表目标域的训练集的长度。时间复杂性由如下两部分组成。

○1 用状态迁移矩阵表示目标域子结构知识的监督学习需要 .

○2 使用源域和目标域数据计算初始模型参数的监督学习需要 .

所以 STLM 总的时间复杂度是 , 其中 远大于 .

粒迁移学习方法及其在序列标注中的应用

- 56 -

4.4 迁移学习实验结果与分析

词性标注是评估序列学习方法的经典任务。为了把 STLM 和其他方法相比较,并说

明参数设置和正则项参数的选取,本章进行了 Brown 语料和 Twitter 语料的实验。语料

中的不同类型的文本分别被用作源域数据和目标域数据。

4.4.1 实验数据

本章基于 Brown 语料和 Twitter 语料以如下方式构建迁移学习任务:

○1 基于 Brown 语料构建迁移学习任务

Brown 语料被编辑为英语语言文本的通用语料,是第一个百万词集的英文电子语

料,并且包含 500 多种文本的来源。这些文本来源通过语体被分类为小说、新闻、社论

等多种类别。在每个类别中,根据语料的自然结构划分为 40 多个文件。本章选择 5 种

具有代表性的类型,包括 news, editorial, fiction, government 和 adventure. 使用每种类型

开头的 2000 个句子作为源域数据,或使用其开头的 240 个句子作为目标域。这样,通

过 5 种类型的组合可以构造出 20 个迁移学习任务,每个任务使用一个“源域 vs.目标域”

类型对。例如前 4 个任务是―editorial vs. news‖, ―fiction vs. news‖, ―government vs. news‖

和 ―adventure vs. news‖.

图 4.2 Twitter 语料中参数 对序列标注准确率的影响

Fig. 4.2 Sequence recognition accuracy over in Twitter corpus

○2 基于 Twitter 语料构建迁移学习任务

大连理工大学博士学位论文

- 57 -

Twitter 语料是基于 TWPOS[82]建立的。TWPOS 数据包含 1500 条 Twitter 消息已经

词性标注信息。利用 Twitter 语料的主观(subjective)和客观(objective)两种类型,可以构

造―subjective vs. objective‖和―objective vs. subjective‖两个任务。使用每种类型开头的 800

个句子作为源域数据,或使用其开头的 160 个句子作为目标域。

4.4.2 实验设置

本章使用 Python 语言实现实验代码。性能指标采用“符号-标签”对的准确率。

图 4.3 ―editorial vs. fiction‖任务中参数 对序列标注准确率的影响

Fig. 4.3 Sequence recognition accuracy over in ―editorial vs. fiction‖ task

在实验中,本章使用以下五种模型与 STLM 做比较:

○1 HMM1:采用传统的机器学习模型[62],利用目标域数据进行训练。

○2 HMM2:采用传统的机器学习模型[62],利用源域数据进行训练。

○3 HMM3:采用传统的机器学习模型[62],利用源域和目标域数据进行训练。

○4 IW-HMM: 采用 Jiang 的 Instance Weighting 方法[19]来进行 HMM 的训练。其中

参数 表示目标域中对观察值的标注与源域中标注相同的可能性。对于序列标注问题,

如果一个句子中观察值识别的准确率低于 ,则设置 。

○5 DT-HMM: 将源域数据作为先验,以最大后验(MAP)[22, 91]方式估计目标模型的参

数。

粒迁移学习方法及其在序列标注中的应用

- 58 -

参数 作为加权因子起到平衡最大似然目标和子结构保持目标的作用。对于参数 的

设置,过大或过小的值会导致 STLM 忽视正则项或源域数据。实际应用中可以通过一定

的验证数据以交叉验证的方式选取。

图 4.4 ―government vs. adventure‖任务中参数 对序列标注准确率的影响

Fig. 4.4 Sequence recognition accuracy over in ―government vs. adventure‖ task

为了测试 的影响,本章在 Brown 语料和 Twitter 语料进行了实验。实验中使用 5-fold

交叉验证,并采用 10 个点的候选值列表 . 典型

的实验结果如图 4.2-图 4.4. 实验中使用了不同的语料大小。可以发现 对于准确率的影

响在不同的数据集大小条件下比较稳定,因此可以使用少量数据选择 . 当 在 1 到 2 之

间时达到性能最优。并且从图中可以看到,当 趋于 0 时准确率下降很快,其原因是 STLM

估计中所用样本数量的减少。

4.4.3 实验结果与分析

(1) 序列标注的准确率与分析

下面给出在 Brown 和 Twitter 语料上 STLM 与其他方法比较的实验结果。来自这两

个语料各种类型数据的跨域学习任务一共有 22 个。由于每个任务使用 5-fold 交叉验证,

所以共有 110 次算法运行。包含成对 t 检验的结果通过表 4.1 给出。

大连理工大学博士学位论文

- 59 -

表 4.1 带有成对 t 检验的 22 个迁移学习任务的准确率(单位:%)

Table 4.1 Accuracy details of 22 transfer learning tasks with paired t-test (unit:%)

源域 目标域 HMM1 HMM2 HMM3 IW-HMM DT-HMM STLM

subjective objective 73.21 77.76 78.99 79.76 79.16 81.35

objective subjective 61.65 65.47 67.77 68.08 68.10 69.57

editorial

news

76.43 84.34 87.68 87.66 88.27 89.90

fiction 76.13 67.25 80.43 80.22 82.17 85.32

government 76.13 79.51 85.23 85.38 86.60 88.59

adventure 75.98 66.50 80.29 80.14 80.71 84.24

news

editorial

74.38 83.90 85.16 85.17 86.02 87.56

fiction 73.99 73.61 79.68 79.74 80.73 83.94

government 73.99 78.57 81.40 83.10 83.74 86.00

adventure 73.72 71.03 79.05 79.08 80.05 82.90

news

fiction

78.22 80.25 85.24 85.22 86.78 87.47

editorial 78.01 82.04 86.19 86.07 87.23 88.67

government 77.87 72.21 81.15 82.51 84.75 85.69

adventure 77.86 83.16 87.01 86.87 87.30 88.68

news

government

80.10 85.71 89.88 89.41 90.07 91.09

editorial 80.10 86.68 91.20 90.89 91.32 91.69

fiction 79.89 68.56 83.43 83.85 86.01 87.59

adventure 79.81 66.83 82.12 81.84 84.42 86.89

news

adventure

82.02 85.12 89.35 89.09 90.23 90.72

editorial 81.93 86.42 90.15 90.01 90.43 91.53

fiction 81.78 88.74 91.37 91.35 91.64 92.42

government 81.88 75.92 86.16 86.75 88.02 88.92

平均(共计 110 次运行) 77.05 77.71 84.04 84.19 85.17 86.85

成对t检验 t 值 23.81 7.84 9.60 10.04 8.59 —

p值 1.11*10-16

1.13*10-7

3.98*10-9

1.79*10-9

2.57*10-9

图 4.5-图 4.7 按分组的方式直观地给出了部分比较结果。例如图 4.6 展示的结果来

自以―editorial‖为目标域的如下四个任务:―news vs. editorial‖, ―fiction vs. editorial‖,

―government vs. editorial‖ 和 ―adventure vs. editorial‖. 图 4.8 给出了 Brown 语料的 20 个

任务的实验结果对比。

粒迁移学习方法及其在序列标注中的应用

- 60 -

图 4.5 以―news‖为目标域的序列迁移学习任务的结果

Fig. 4.5 Sequence transfer learning results with ―news‖ as target domain

由表 4.1 中“平均”一行所示,HMM1 和 HMM2 被其他方法超过很多,尤其是 STLM

的平均准确率比 HMM1 和 HMM2 提高了超过 9 个百分点。同时,STLM 比 HMM3 提

高了 2.81 个百分点。由于 HMM3 同时使用了源域和目标域的数据,STLM 比 HMM3

的提高说明本章的正则化方法有效地融合了标注信息和目标域的结构性信息。通过把

HMM3 与 IW-HMM 和 DT-HMM 的结果进行比较可以发现任务中准确率的提高是相当

困难的;例如 IWHMM 并没有在每一个任务中都超过 HMM3. 当迁移学习方法不如标准

的监督学习方法,便发生了负迁移。例如图 4.5 第二组对比结果,即―fiction vs. news‖

任务中,显示了负迁移的情况。

图 4.5-图 4.8 显示,在两种语料的每一种源域和目标域的组合中,STLM 都能取得

最高准确率。而且根据表 4.1 中“平均”一行所示,STLM 分别超过 IW-HMM 和

DT-HMM2.66 和 1.68 个百分点。这说明了 STLM 作为一种迁移学习方法的有效性和稳

定性。

大连理工大学博士学位论文

- 61 -

图 4.6 以―editorial‖为目标域的序列迁移学习任务的结果

Fig. 4.6 Sequence transfer learning results with ―editorial‖ as target domain

图 4.7 Twitter 语料序列迁移学习任务的结果

Fig. 4.7 Sequence transfer learning results for Twitter corpus

粒迁移学习方法及其在序列标注中的应用

- 62 -

下面初步分析 STLM 持续地超过另外两种迁移学习方法 IW-HMM 和 DT-HMM 的

理由。DT-HMM 通过不充分的目标域数据获取模型参数的后验分布。IW-HMM 通过准

确率来选择与目标域差异不大的序列,但是目标域是由整个模型来代表的,其对目标域

知识的利用方法可能不符合数据条件。STLM 在子结构粒度上使模型保持目标域的知

识,从而更好地利用了数据条件。

综上所述,STLM 通过数据敏感粒度可以很好地在利用标注信息和保持目标域知识

这两个目标之间平衡,从而达到有效地融合跨域信息的目的。

图 4.8 Brown 语料的 20 个任务的实验结果对比

Fig. 4.8 Results comparison between 20 tasks in Brown corpus

基于表 4.1 中的实验结果,可以进行成对 t 检验以评估准确率提高的显著性。对于

每一个与 STLM 比较的模型给出如下两个假设:

○1 零假设: STLM 的表现没有优于用于对比的模型的表现;

○2 备择假设: STLM 显著地超出用于对比的模型

显著性水平置为 . 从表中可见,p 值远低于 , 因此拒绝零假设。由此得出

结论:STLM 的表现与其他模型相比存在显著差异,即获得了显著的准确率提升。

大连理工大学博士学位论文

- 63 -

另外,通过在图 4.8 中水平比较任务的索引,可以发现从不同相似程度的源域进行

迁移学习会获得不同程度的提高。当目标域与源域更相似的时候,除 HMM1 以外的各

模型都取得了准确率的提高。以图中任务索引(Task Index)为 1 至 4 的任务为例,他们表

示源域分别为―editorial‖, ―fiction‖, ―government‖和―adventure‖时到―news‖的迁移结果。以

与目标域―news‖相似的―editorial‖和―government‖作为源域时,结果要好于不够相似的

―fiction‖和―adventure‖作为源域的情况。以上结果符合我们的直观判断。

(2) 正则化参数的敏感性实验与分析

图 4.9 同域 Brown 数据集产生的正则项参数的差异

Fig. 4.9 Difference between regularizer parameters from same domain Brown dataset

○1 Brown 语料中正则化参数的敏感性

正则化项的构造是 STLM 中重要的问题。因为本章使用隐马尔可夫模型来表示序列

数据集的结构特征,可以使用不同部分的隐马尔可夫模型作为正则化项的参数,包括状

态迁移矩阵 ,符号发射矩阵 和初始状态分布 .

在词性标注实验中,为了说明不同正则项参数的特性,本章比较由同域和跨域的数

据集产生的正则项参数之间的差异。首先建立 8 组用于对比的正则项参数, 即使用

―news‖类型的8*100个句子通过HMM监督学习的方式得到的 8组参数。然后使用―news‖

类型的另外 400 个句子得到一组正则项参数,用来比较同域数据产生的正则项参数之间

的差异。图 4.9 给出了通过相对熵度量的同域数据集产生的正则项参数的差异。最后使

粒迁移学习方法及其在序列标注中的应用

- 64 -

用―reviews‖类型的 400 个句子得到一组正则项参数,用来比较跨域数据产生的正则项参

数之间的差异。图 4.10 给出了通过相对熵度量的跨域数据集产生的正则项参数的差异。

从图中可以得出不同候选正则项参数的域内稳定性和域间可区分性。

对于 ,跨域数据集产生的正则项参数的差异并没有明显超过同域数据集产生的参

数的差异,这说明 在不同数据域之间并不具有可区分性。所以 在各种情况下对于子

结构保持的目标来说都不是好的选择。

图 4.10 跨域 Brown 数据集产生的正则项参数的差异

Fig. 4.10 Difference between regularizer parameters from cross-domain Brown dataset

对于 , 在同一数据域产生的正则项参数不具有稳定性。这说明 在小的目标域数据

集上并不是一个有价值的子结构特征。所以 不是正则项参数的好的选择。

对于 , 同域数据集产生的正则项参数的差异明显小于跨域数据集产生的参数的差

异,这说明 具有较好的域间可区分性。同时, 也具有较好的稳定性;可能的原因在

于在词性标注中代表语法特征的 比代表词法信息的 稳定。

并且 在序列标注模型中对于似然的影响大于 , 因为初始状态概率在一个序列中

只使用一次。

因此,本章倾向于使用 作为正则项参数。

大连理工大学博士学位论文

- 65 -

图 4.11 同域 Twitter 数据集产生的正则项参数的差异

Fig. 4.11 Difference between regularizer parameters from same domain Twitter

datasets

图 4.12 跨域 Twitter 数据集产生的正则项参数的差异

Fig. 4.12 Difference between regularizer parameters from cross-domain Twitter

datasets

粒迁移学习方法及其在序列标注中的应用

- 66 -

○2 Twitter 语料中正则化参数的敏感性

为了比较 Brown 和 Twitter 语料中正则项参数特性的不同,本章也对 Twitter 语料进

行了同域 Twitter 数据集产生正则项参数的差异和跨域 Twitter 数据集产生正则项参数的

差异的实验。结果如图 4.11 和图 4.12 所示。

从图中可以看出对于 ,跨域数据集产生的正则项参数的差异并没有明显超过同域

数据集产生的参数的差异,这说明 在 Twitter 语料中和在 Brown 语料中一样不具有跨

域可区分性。 的跨域可区分性要比 好一些。但是可以发现 在 Twitter 数据集中的一

致性不如在 Brown 数据集中的一致性那样明显,这可能是 STLM 在 Brown 数据集中取

得比在 Twitter 数据集中更多的准确率的提高的原因之一。

图 4.13 不同正则项参数的 Brown 语料的词性标注结果

Fig. 4.13 Brown corpus POS tagging results with various regularizer parameters

○3 正则化参数的各种组合

最后,为了验证各种正则项参数对序列迁移学习的影响,本章对所有 7 种正则项参

数的组合进行了实验。作为一个典型的例子,将―government vs. adventure‖和―objective vs.

subjective‖任务中在目标域 5个子数据集上的实验结果报告为图 4.13和图 4.14. 可以发

现正则项参数 通常取得最高的准确率。 与 的组合并不能带来平均准确率的提高,而

与 的组合则会使结果有所下降。特别是在 Twitter 语料中, 与 的组合比 有明显

大连理工大学博士学位论文

- 67 -

的降低。这与 Twitter 中用词的不规范性导致的词法特征迁移价值的减小有关。这个实

验的结果也验证了子结构粒度的结构保持优于整个 HMM 模型的结构保持,即采用子结

构粒度的目标域知识表示可以改善迁移学习的效果。

以上从实验的角度解释了本章选择迁移矩阵 作为正则项参数的理由。

图 4.14 不同正则项参数的 Twitter 语料的词性标注结果

Fig. 4.14 Twitter corpus POS tagging results with various regularizer parameters

(3) 各算法的时间效率

文本对 STLM 和其他算法的运行时间进行了测试和比较,实验在 Brown 语料进行,

结果如表 4.2.

表 4.2 运行时间比较

Tab. 4.2 Running Time Comparisons

算法 实例数 运行时间(秒) 运行时间/实例(毫秒)

HMM1 500 0.62 1.24

HMM2 10000 12.01 1.20

HMM3 10500 12.52 1.19

IW-HMM 10500 50.79 4.84

DT-HMM 10500 12.73 1.21

STLM 10500 17.01 1.60

粒迁移学习方法及其在序列标注中的应用

- 68 -

HMM1 和 HMM2 分别使用源域和目标域的数据,其他算法同时使用源域和目标域

的数据。我们从表 4.2 的“运行时间/实例”列中可以看出,STLM 取得了与 DT-HMM

等算法接近的时间效率。而 IW-HMM 消耗时间较多,原因在于对实例进行加权需要的

时间较多。STLM 由于得到了解析解,因而学习的时间效率较高。

4.5 本章小结

本章提出了基于生成结构的粒迁移学习,建立了子结构正则化迁移学习模型

(STLM) , 使用适合数据条件的子结构来保持目标域的特征。STLM 以正则化理论和隐马

尔可夫模型为基础,目标域和 STLM 的差异性通过相对熵来度量,通过正则化的惩罚项

将子结构粒度的目标域知识与源域中的经验相融合。STLM 权衡目标域子结构保持和跨

领域观察值利用这两个相互竞争的目标。由于本章推导出一个解析解作为极值的充分必

要条件,STLM 可以高效地进行参数估计。本章还分析了子结构作为正则化参数的条件

以及算法的时间复杂度。在 Brown 语料和 Twitter 语料上进行了大量的词性标注实验,

可以充分验证 STLM 在源域和目标域的各种组合任务中都没有出现负迁移现象,并取得

准确率的提升。

大连理工大学博士学位论文

- 69 -

5 基于模型选择的粒模型推断方法

在文本的序列标注任务中,经常采用的回退标注器(Backoff Tagger)是一种规则性知

识。例如后缀标注器(Affix Tagger)可以根据人工或自动生成的词后缀与词标签的映射关

系来给出词的标签。

如果目标模型中没有足够的关于目标域的知识,就会造成欠适配问题。基于已经建

立的粒迁移学习模型, 如果能在推断时引入规则性知识,就可以有助于解决欠适配问题,

提高粒模型在目标域中的预测能力。

为了在粒模型的推断中引入规则性知识,本章将粒模型的推断作为模型选择问题,

提出基于似然比的模型选择方法(LRMS), 从而使规则性知识与粒模型使结合。

5.1 粒模型推断与模型选择

本章主要研究粒模型的推断方法,考虑在推断中引入目标域规则性知识,解决欠适

配问题。将规则性知识与粒模型的结合作为模型选择的问题,也就是说,将粒模型作为

候选模型的集合,并根据规则性知识从中选择与目标域适配性好的模型。

具有不确定参数的 HMM 可以看成是候选模型的集合。为了表示序列数据在观察和

测量上的模糊性,有很多 HMM 与模糊理论相结合的研究。研究者在预测问题中使用了

模糊时间序列[121],并且使用 HMM 在模糊时间序列中建立模糊关系[122]。区间作为数值

特征的一种扩展被使用到 HMM 中[71, 72].

基于 HMM 的模型选择方法[73, 74]广泛使用于文字和语音的序列标注。论文[75]通过训

练集同时优化模型的参数和超参数来降低分类错。采用 Bayes 方法[76]可以对所有可能的

参数值做积分,但需要使用 Gibbs 采样等计算复杂的概率推断方法。本章提出的 LRMS

方法的优点在于可以融合粒模型和目标域的规则性知识。其意义在于通过解决欠适配问

题达到提高粒迁移学习模型的泛化能力的目的。使用 Brown 语料进行了大量词性标注实

验,结果表明 LRMS 在每个迁移学习任务中都有准确率的提高,从而证明 LRMS 是一

种有效的粒模型推断方法。

5.2 规则性知识与似然比模型选择方法

5.2.1 规则性知识

在序列标注等领域中,每一种模型有不同的功能和侧重。主要概率模型经常使用多

个随机变量来建模上下文关系和随机过程,回退标注器虽然不能单独完成序列标注任

务,但是可以用来代表目标域的规则性知识。回退标注器只对主模型留下的没有标注的

粒迁移学习方法及其在序列标注中的应用

- 70 -

符号进行标注[123]。例如后缀标注器可以根据人工或自动生成的词后缀与词性标签的映

射关系来给出词的标签。

尽管使用规则性知识有助于解决欠适配问题,但是同时使用规则性知识和概率模型

经常会遇到困难。例如 HMM 的状态序列识别的一般性标准是找到单条状态序列最优

(Single Path Best),但是回退标注器的使用会丢失上下文依赖信息,所以回退标注器不适

合与 HMM 结合使用。

为了与 HMM 结合使用,将回退模型的输出作为规则性知识。在粒模型的推断中输

出整个状态序列作为候选序列,根据规则性知识来调整候选序列的得分。规则性知识作

用是比较两个预测结果的优劣,符合更多规则性知识的结果为优。这样就避免了回退模

型对上下文关系的破坏。

5.2.2 似然比

诊断检验中的似然比是基于敏感性(sensitivity)和特异性(specificity)标准的复合指

标,可以用来估计检验结果对得到好的候选路径的几率的影响程度。

检验针对候选状态序列 和 HMM 产生的状态序列 进行,Positive 是指规则性

知识对 序列的评分高于 的评分,Negative 含义相反,Better 是指候选序列 是

一个优于 的解,Worse 含义相反。上述条件发生的次数记为 :

表 5.1 似然比检验的计算

Tab. 5.1 Calculation of likelihood ratio

Positive Negative

Better a b

Worse c d

似然比用如下公式来计算。

(5.1)

(5.2)

(5.3)

(5.4)

通过以上公式可以验证集计算各规则性知识的 LR(+)和 LR(-), 保存为 LRposiList 和

LRnegaList, 分别表示当检验结果为正或为负时需要对似然乘以的比率。

大连理工大学博士学位论文

- 71 -

5.2.3 似然比模型选择方法

图 5.1 LRMS 的流程

Fig. 5.1 Procedure of LRMS

LRMS 的流程如图 5.1. 区间粒迁移学习模型 IHMM 产生了一个候选模型的集合,

可以结合辅助模型中包含的规则性知识进行模型选择。本章通过似然比进行模型选择,

从而在粒模型中融合规则性知识。使用似然比模型选择推断方法的 IHMM 称为

LRMS-IHMM.

LRMS 的算法如算法 5.1 所示。第 01~04 行是初始化设定。第 05~08 行得到候选模

型对应的路径 Q 及其似然 L. 第 09~16 行根据辅助模型对候选路径的评分得到该路径的

似然比 LR. 第 17~24 行通过 L 与 LR 得到路径 Q 的最终得分,并更新粒子群中的最优

解和位置信息。其中使用了粒子群优化(PSO)作为优化方法。PSO 算法受种群的社会行

为的启发,模仿种群合作的方式寻找食物而建立优化原则。PSO 算法的迭代公式见(2.8)

和(2.9).

粒迁移学习方法及其在序列标注中的应用

- 72 -

算法 5.1:使用似然比模型选择的推断算法

输入:粒模型 IHMM, 观察值序列 O, 原模型 HMM,辅助模型集 MModels 及其对

应的似然比 LRposiList 和 LRnegaList.

输出:标注序列

01. =HMM.Viterbi(O)

02. Best_Fitness = −∞

03. 设定 PSO 的粒子的维度为 HMM 参数的个数

04. 设定 PSO 的粒子生成方式为一致分布,范围在 IHMM 的区间内

05. while 未达到最大迭代次数:

06. 生成候选粒子

07. 根据候选粒子得到一个对应的 HMM, 记为 IHMM(R)

08. (Q, L) = IHMM(R).Viterbi(O), 其中 L 是路径 Q 对应的似然

09. i=0

10. LR=0

11. while i < length(MModels)

12. if MModels[i].score(Q) > MModels[i].score( ):

13. LR = LR * LRposiList[i]

14. else if MModels[i].score(Q) < MModels[i].score( ):

15. LR = LR * LRnegaList[i]

16. end while

17. Fitness=log(L) + log(LR)

18. if Fitness > Best_Fitness:

19. Best_Fitness = Fitness

20. = Q

21. end if

22. 更新粒子的位置信息

23. end while

24. return

5.3 迁移学习实验结果与分析

为了验证 LRMS 推断方法的有效性,在实验中构造了 LRMS-HMM 与 IHMM 相比

较。本章进行了 Brown 语料的实验。语料中的不同类型的文本分别被用作源域数据和目

标域数据。

5.3.1 实验数据

Brown 语料是一种广泛使用的平衡语料。每个迁移学习任务使用一种类型作为源

域,并用另一种类型作为目标域,见表 5.3和 5.4的前两列。对于每一个迁移学习任务

“源域-目标域”,使用如下方式构造训练集、测试集,以及验证集的数据。源域使用

大连理工大学博士学位论文

- 73 -

18 个文件,这样对应于每个 HMM 参数得到一个 18 维的数值型数据向量,用于训练区

间信息粒。目标域使用 200 个句子作为验证集、100 个句子作为测试集。

按以上方式构造两组实验,每组选择 5 种文体风格来构成跨域词性标注任务。第一

组使用包括新闻、社论、科幻、政府和历险这五种文体风格的语料,其中任意两种可以

组成一个跨域任务,本组共 20 个任务。第二组使用包括奇幻、回顾、爱好、浪漫和学

术这五种文体风格的语料,其中任意两种可以组成一个跨域任务,本组共 20 个任务。

表 5.2 LRMS 推断中的 PSO 参数的设置

Tab. 5.2 Parameter setting for PSO parameters in LRMS

参数名称 参数值

迟滞度 0.5

认知比率 1.0

社会化比率 1.0

种群大小 10

最大迭代次数 20

5.3.2 实验设置

在实验中将以下模型进行比较:

○1 DT-HMM: 将源域数据作为先验,以最大后验(MAP)[22, 91]方式估计目标模型的

参数。

○2 IHMM:区间粒迁移学习模型。见本文第二章。

○3 IHMM_LRMS: 本节的方法。在 IHMM 基础上使用似然比模型选择进行推断。

其中对 PSO 优化方法的参数设置见表 5.2.

5.3.3 实验结果与分析

第一组实验结果如图 5.2 和表 5.3,第二组实验结果如图 5.3 和表 5.4;其中度量的

标准是预测的“符号-标签”对的准确性。

从图 5.2 中可以看出,在第一组实验的每个迁移学习任务中,LRMS-IHMM 和 IHMM

相比都有准确率的提高。表 5.3 给出了第一组实验的详细结果、平均值和成对 t 检验的

结果。从平均值一行可以看出,IHMM 比 DT-HMM 提高了 1.05 个百分点,这说明区间

粒迁移学习模型的有效性;而 LRMS-IHMM 比 IHMM 提高了 1.1 个百分点,这说明本

粒迁移学习方法及其在序列标注中的应用

- 74 -

章采用的 LRMS 的推断方法使得 IHMM 的准确率得到进一步提高。提高的原因在于

LRMS-IHMM 在推断中引入了规则性知识。

表 5.3 Brown 语料 20 个迁移学习任务的第一组实验结果

Tab. 5.3 First group results of 20 transfer learning tasks in Brown corpus

源域 目标域 DT-HMM IHMM LRMS-IHMM

editorial

news

87.04 88.37 89.16

fiction 78.48 80.75 82.48

government 85.11 85.90 86.79

adventure 76.74 79.81 81.00

news

editorial

84.98 86.53 87.77

fiction 83.04 84.03 85.06

government 83.64 84.29 86.14

adventure 82.61 83.64 84.85

news

fiction

81.28 82.15 83.08

editorial 83.89 84.89 85.76

government 79.91 80.47 81.90

adventure 86.26 86.44 87.19

news

government

87.32 88.00 88.42

editorial 89.88 89.97 90.34

fiction 84.29 85.81 86.77

adventure 82.83 84.11 84.75

news

adventure

87.90 88.44 90.06

editorial 88.14 88.37 89.29

fiction 91.14 92.30 93.30

government 83.28 84.59 86.67

平均(%) 84.39 85.44 86.54

成对t检验 t 值 10.16 10.74 N/A

p值 4.06*10-9 1.65*10-9 N/A

为了评估性能提高的统计显著性,本章进行了成对 t 检验。对于每一个与

LRMS-IHMM 比较的模型给出如下两个假设:

○1 零假设为 LRMS-IHMM 的准确率没有比原模型提高

○2 备择假设为 LRMS-IHMM 的准确率比原模型有了显著提高

大连理工大学博士学位论文

- 75 -

显著性水平设为 ,从表中可见 LRMS-IHMM 相对于 IHMM 和 DT-HMM 的

p 值分别为 4.06*10-9 和 1.65*10

-9,远低于 . 由此得出结论:通过成对 t 检验可以验证

LRMS-IHMM 的表现与其他模型相比存在显著差异,LRMS-IHMM 已经获得显著的准确

率提升。

表 5.4 Brown 语料 20 个迁移学习任务的第二组实验结果

Tab. 5.4 Second group results of 20 transfer learning tasks in Brown corpus

源域 目标域 DT-HMM IHMM LRMS-IHMM

hobbies

mystery

86.65 87.26 87.99

reviews 87.38 88.35 88.35

romance 88.65 89.02 89.08

learned 82.40 83.68 84.59

mystery

hobbies

76.66 77.26 79.00

reviews 83.72 83.91 84.69

romance 76.11 76.62 78.40

learned 81.25 81.61 83.77

mystery

reviews

77.65 78.78 78.83

hobbies 82.30 82.44 83.90

romance 78.03 78.97 80.85

learned 77.46 78.36 80.33

mystery

romance

86.20 86.54 87.61

hobbies 83.43 85.41 86.20

reviews 85.58 85.86 86.14

learned 78.39 80.94 81.45

mystery

learned

82.94 83.03 83.03

hobbies 86.60 86.60 87.42

reviews 86.15 86.89 87.88

romance 82.94 83.85 85.37

平均(%) 82.52 83.27 84.24

成对t检验 t 值 8.47 6.19 N/A

p值 7.08*10-8 6.07*10-6 N/A

从图 5.3 中可以看出,在第二组实验的每个迁移学习任务中,LRMS-IHMM 和 IHMM

相比都有准确率的提高。表 5.4 给出了第二组实验的详细结果、平均值和成对 t 检验的

粒迁移学习方法及其在序列标注中的应用

- 76 -

结果。从平均值一行可以看出, IHMM 比 DT-HMM 提高了 0.75 个百分点;而

LRMS-IHMM 比 IHMM 提高了 0.97 个百分点。

图 5.2 第一组序列迁移学习实验结果

Fig. 5.2 Sequence transfer learning results in first experiment group

图 5.3 第二组序列迁移学习实验结果

Fig. 5.3 Sequence transfer learning results in second experiment group

大连理工大学博士学位论文

- 77 -

对第二组实验也进行了成对 t 检验。零假设为 LRMS-IHMM 的准确率没有比原模型

提高,备择假设为 LRMS-IHMM 的准确率比原模型有了显著提高。显著性水平设为

,从表 5.4 的 p 值一行可以看出,LRMS-IHMM 相对于 IHMM 和 DT-HMM 的 p

值分别为 7.08*10-8 和 6.07*10

-6,远低于 ,可以得出 LRMS-IHMM 已经获得显著的准确

率提升的结论。

综上所述,由于 IHMM 有助于处理了负迁移的问题,所以取得了比 DT-HMM 高的

准确率。使用 LRMS 推断方法后,准确率又得到进一步提高。说明 LRMS 可以利用规

则性知识进行推断。这样就能够在一定程度上解决欠适配问题,提高粒迁移学习模型的

泛化能力。

5.4 本章小结

为了提高粒迁移学习模型的泛化能力,本章从引入目标域规则性知识入手,解决欠

适配问题。提出了通过似然比检验进行模型选择的方法 LRMS. 本章将 LRMS 作为粒迁

移学习模型的一种推断方法,完善了粒迁移学习的理论。这种推断方法的意义在于可以

融合粒模型和规则性知识中的信息。

本章将 LRMS 方法应用于 Brown 语料和 Twitter 语料的词性标注实验。实验结果显

示了此方法可以有效地提升标注的准确率,并且表明此方法可以融合规则性知识,这对

于其他的粒模型应用具有借鉴意义。

粒迁移学习方法及其在序列标注中的应用

- 78 -

6 结论与展望

6.1 结论

基于粒计算方法的知识迁移的研究目前刚刚开始[60],建立粒迁移学习方法具有相当

的难度和挑战性。粒计算的思想和方法论可以为这种研究提供有价值的参考,但是目前

尚缺乏具体的方法。本文提出了一套处理迁移学习中的负迁移和欠适配问题的方法,探

索出了数据集结构信息和领域间对应关系的信息粒化方法,建立了使用对应信息粒和区

间信息粒的粒模型。提出了通过粒度控制源域数据和对应关系两种负迁移条件的方法,

以及通过保持目标域结构或融合目标域规则性知识解决欠适配问题方法。粒迁移学习方

法能够表示和处理源域、目标域和公共表示中的结构和粗糙程度,在知识利用方面有很

好的覆盖性。粒迁移学习方法的特点是考虑了特征、特征映射和结构的粒度对迁移学习

效果的影响,并采用由粗到精的方式进行处理。粒迁移学习方法是对迁移学习理论的重

要补充,也是对粒计算思想应用范围的扩展。在应用方面,研究了标注数据稀缺背景下

的序列标注,并且在不同场景下处理了负迁移和欠适配问题,提高了序列标注的准确率。

本文的主要结论如下:

(1) 提出了基于数据集结构信息的粒迁移学习方法。数据集对于机器学习模型的学

习效果具有重要意义。传统机器学习方法通常假定训练数据集代表了论域中数据的分

布,因而对于数据集的结构信息并不加以利用。由于源域和目标域的分布差异,使用源

域数据集默认的特征粒度建立的模型不一定适合目标域。这样,迁移学习模型在粒度考

量方面的欠缺会造成在使用源域特征时产生负迁移。为了解决负迁移问题,希望表示出

源域数据集的结构对特征粒度以及模型参数的影响。因此基于数据集结构进行信息粒

化,用区间信息粒表示带有结构信息的源域数据对应的模型参数。并建立区间二型模糊

隐马尔可夫模型(IHMM)以处理区间信息粒,从而通过粒度控制负迁移产生的条件。为

了使用高效的 Viterbi 算法进行推断,给出了对 IHMM 进行去模糊化的方法。通过在验

证集中使用随机优化方法,可以得出适合目标域的脆性的参数值。本文在序列标注任务

中进行了多个实验,可以表明基于数据集结构信息的粒迁移学习方法较好地解决了负迁

移问题,提高了模型的泛化能力。另外,对于粒计算而言,粒化是具有挑战性的问题。

本文提出的基于数据集结构信息的区间粒化方法可以扩展粒计算的应用范围。

(2) 提出了基于对应关系的粒迁移学习方法。由于特征映射的复杂性,在特征映射

的过程中并非全部对应关系都有助于提高模型的泛化能力。使用某个粒度上的对应关系

来映射目标域特征可能对目标域的任务造成负面影响,即产生负迁移。为了充分挖掘对

大连理工大学博士学位论文

- 79 -

应关系的价值以解决负迁移问题,需要表示出对应关系的结构和粗糙程度。因此本文首

先提出对应关系的信息粒化方法。借助“词右侧”类型的枢轴特征来提取词特征之间的

对应关系,并把词在枢轴空间中表示为枢轴向量。为了得到对应关系的结构、以及词和

词聚类之间的近似程度,采用模糊 C 均值方法在枢轴空间中进行对应关系的模糊聚类。

为了同时表示多个聚类对符号的启发、以及启发的不确定程度,选择二型模糊集作为信

息粒的形式。这样,二级隶属度函数就反映出了对应关系的不确定性。通过二型模糊集

实现对应关系和标注信息的融合。然后建立可以处理二型模糊集形式信息粒的粒二型模

糊隐马尔可夫模型(GT2HMM). GT2HMM 在去模糊化之后可以通过 Viterbi 进行高效的

序列标注。通过粒度控制对应关系对粒模型的影响,从而控制负迁移产生的条件。这个

粒度由二型模糊集 的 平面中的 值来代表,其意义是对 GT2HMM 中的聚类做一个筛

选。并给出了通过随机优化进行粒度选择的方法。通过对应信息粒,对应关系具有更好

的可解释性,并能按由粗到精的方式进行处理。本文在序列标注任务中进行了多个实验,

可以表明基于对应关系的粒迁移学习方法较好地解决了负迁移问题,提高了模型的泛化

能力。

(3) 提出了基于生成结构的粒迁移学习方法。在机器学习中,生成模型通过指定联

合概率分布来建立数据域的结构,例如隐马尔可夫模型代表了序列域的生成结构。在迁

移学习模型中保持目标域的生成结构有助于解决负迁移问题。由于源域和目标域的生成

结构存在差异,保持整个生成结构可能会在解决欠适配问题的过程中导致的过拟合问

题。因此提出通过子结构进行粒度的选择,通过粒度来控制生成结构对迁移学习模型的

影响。为了在迁移学习中保持目标域的生成结构,采用正则化作为框架。建立了子结构

正则化迁移学习模型(STLM) , 使用一致边界分析了不同子结构作为正则化参数的条

件,使用适合数据条件的子结构来保持目标域的特征。STLM 以正则化理论和隐马尔可

夫模型为基础,通过相对熵来度量目标域和 STLM 的差异性,从而通过正则化的惩罚项

将子结构粒度的目标域知识与源域中的经验相融合。STLM 权衡目标域子结构保持和跨

领域观察值利用这两个相互竞争的目标。本文证明了极值的充分必要条件,通过得出的

解析解可以高效地进行参数估计。本文还给出了算法的时间复杂度。在 Brown 语料和

Twitter 语料上进行了大量的序列标注实验,实验表明 STLM 在源域和目标域的各种组

合任务中都可以较好地解决负迁移问题、取得准确率的提升。从而证明了基于生成结构

的粒迁移学习方法的可行性和有效性。

(4) 提出了基于模型选择的粒模型推断方法。如果迁移对象本身没有足够的关于目

标域的知识,就会造成欠适配问题。当目标域中存在可以用于模型选择的规则性知识,

可以在粒模型的推断中通过模型选择来融合这些规则性知识,以解决欠适配问题、增强

粒迁移学习方法及其在序列标注中的应用

- 80 -

粒模型的泛化能力。也就是说,将粒模型作为候选模型的集合,将规则性知识与粒模型

的结合作为模型选择的问题,提出基于似然比的模型选择方法(LRMS)。通过规则性知

识比较两个预测结果的优劣,并计算出似然比,作为比较结果对得到好的预测结果的似

然的影响,计入对预测结果的评分。LRMS 的优点在于可以融合粒模型和目标域的规则

性知识。在序列标注问题中,LRMS 可以输出整个状态序列作为候选序列,从而避免回

退标注器对上下文关系的破坏。通过序列标注实验表明,粒模型在使用 LRMS 进行推断

时可以较好地解决由于目标域知识欠缺造成的欠适配问题,进一步提高泛化能力。

6.2 创新点

本文将粒计算思想和信息粒化、粒模型、粒度方法引入迁移学习,建立了粒迁移学

习的方法框架,在思想和方法的层面上对现有迁移学习方法进行了理论创新。具体包括

以下创新点:

(1) 提出了基于数据集结构信息的粒迁移学习方法,通过对特征粒度的选择来解决

负迁移问题,适用于源域数据集包含结构性信息的情况。为了描述特征的粒度,提出了

基于数据集结构的信息粒化方法,建立了区间形式的信息粒,从而将特征的粒度引入迁

移学习中。建立了区间二型模糊隐马尔可夫模型(IHMM)用于处理区间信息粒。为了使

用高效的 Viterbi 算法进行推断,给出了通过随机优化进行粒度选择的方法。实验表明

此方法较好地解决了负迁移问题,提高了模型的泛化能力。

(2) 提出了基于对应关系的粒迁移学习方法,通过对特征映射粒度的选择来解决负

迁移问题,适用于可以通过公共表示建立源域和目标域特征对应关系的情况。为了描述

特征映射的粒度,提出了对应关系的信息粒化方法,通过模糊 C 均值方法建立了模糊集

形式的对应信息粒,从而将对应关系的粒度引入迁移学习。建立了粒二型模糊隐马尔可

夫模型(GT2HMM)用于处理对应信息粒,给出了通过随机优化进行粒度选择的方法。实

验表明此方法较好地解决了负迁移问题,提高了模型的泛化能力。

(3) 提出了基于生成结构的粒迁移学习方法,通过结构保持来解决欠适配问题,并

通过结构粒度的选择来应对在解决欠适配问题的过程中导致的过拟合问题,适用于目标

域可以用生成模型建模的情况。建立了子结构正则化迁移学习模型(STLM). 为了保持目

标域结构,通过相对熵在正则化框架下引入结构的相似性。为了选择适合数据条件的子

结构,通过一致边界分析了不同子结构作为正则项参数的条件。为了高效地进行参数估

计,推导出了模型的解析解,并证明了极值的充分必要条件。实验表明此方法较好地解

决了欠适配问题,提高了模型的泛化能力。

大连理工大学博士学位论文

- 81 -

6.3 展望

本文对粒迁移学习方法进行了研究,在理论、方法和应用方面取得了阶段性成果,

但迁移学习作为机器学习的前沿方向,很多方面仍然需要深入研究,主要包括以下三个

方面。

(1) 完善粒迁移学习的理论体系

将会进一步研究更为广泛的数据域中的信息粒化方法、粒度选择方法和去模糊化方

法等方面的问题。基于本文研究的序列标注应用,进一步扩展粒迁移学习方法的应用范

围,例如使粒迁移学习方法与主题模型等方法相结合。

(2) 将粒迁移学习与深度学习方法相结合

近年来,深度学习在图像识别、人机对弈等应用中取得了广泛的成功。通过深度模

型可以研究适合迁移学习的特征表示方法。同时,基于粒计算思想的迁移学习问题的研

究可以为深度学习理论的完善提供参考。因此将进一步研究粒迁移学习方法与深度学习[124]方法的结合。

(3) 在大数据平台上应用粒迁移学习方法

从降低大数据规模、表示和处理大数据中的不确定性[125, 126]等角度入手,粒迁移学

习有希望在大数据分析应用中发挥作用。同时在大数据平台上应用粒迁移学习方法,更

容易找到本文方法的问题和不足,并发现新的研究课题。

粒迁移学习方法及其在序列标注中的应用

- 82 -

参 考 文 献

[1] Bishop C. Pattern recognition and machine learning (information science and statistics)[M]. Springer,

New York, 2006.

[2] 苗夺谦, 王国胤, 刘清,等. 粒计算: 过去, 现在与展望[M]. 北京: 科学出版社, 2007.

[3] 王国胤, 张清华, 马希骜,等. 知识不确定性问题的粒计算模型[J]. 软件学报, 2011, 22(4):676–

694.

[4] Dredze M, Kulesza A, Crammer K. Multi-domain learning by confidence-weighted parameter

combination[J]. Machine Learning, 2010, 79(1):123–149.

[5] Duan L, Tsang I W, Xu D. Domain transfer multiple kernel learning[J]. IEEE Transactions on

Pattern Analysis and Machine Intelligence, 2012, 34(3):465–479.

[6] Li W, Duan L, Xu D, et al. Learning with augmented features for supervised and semi-supervised

heterogeneous domain adaptation[J]. IEEE Transactions on Pattern Analysis and Machine

Intelligence, 2014, 36(6):1134–1148.

[7] Pan S J, Toh Z, Su J. Transfer joint embedding for cross-domain named entity recognition[J]. ACM

Transactions on Information Systems, 2013, 31(2):7:1–27.

[8] Zhuang F, Luo P, Xiong H, et al. Cross-domain learning from multiple sources: a consensus

regularization perspective[J]. IEEE Transactions on Knowledge and Data Engineering, 2010,

22(12):1664–1678.

[9] Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data

Engineering, 2010, 22(10):1345–1359.

[10] Dai W, Yang Q, Xue G R, et al. Boosting for transfer learning[C]//Proceedings of the 24th

international conference on Machine learning. Corvallis, USA, 2007:193–200.

[11] 梅灿华, 张玉红, 胡学钢,等. 一种基于最大熵模型的加权归纳迁移学习方法[J]. 计算机研究与

发展, 2011, 48(9):1722–1728.

[12] 张汗灵, 汤隆慧, 周敏. 基于 KMM 匹配的参数迁移学习算法[J]. 湖南大学学报(自然科学版),

2011, 38(4):72–76.

[13] 张景祥, 王士同, 邓赵红,等. 融合异构特征的子空间迁移学习算法[J]. 自动化学报, 2014,

40(2):236–246.

[14] Long M, Wang J, Ding G, et al. Adaptation regularization: a general framework for transfer

learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(5):1076–1089.

[15] 龙明盛. 迁移学习问题与方法研究[D]. 清华大学, 2014.

[16] Sugiyama M, Suzuki T, Nakajima S, et al. Direct importance estimation for covariate shift

adaptation[J]. Annals of the Institute of Statistical Mathematics, 2008, 60(4):699–746.

[17] Sugiyama M, Krauledat M, Müller K R. Covariate shift adaptation by importance weighted cross

validation.[J]. Journal of Machine Learning Research, 2007, 8(1):985–1005.

[18] Zhang K, Schölkopf B, Muandet K, et al. Domain adaptation under target and conditional

shift[C]//Proceedings of the 30th International Conference on Machine Learning, Atlanta.

2013:819–827.

大连理工大学博士学位论文

- 83 -

[19] Jiang J. Multi-task transfer learning for weakly-supervised relation extraction[C]//Proceedings of the

Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference

on Natural Language Processing of the AFNLP. Suntec, Singapore, 2009:1012–1020.

[20] Ait-Mohand K, Paquet T, Ragot N. Combining structure and parameter adaptation of HMMs for

printed text recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014,

36(9):1716–1732.

[21] Kim N S, Sung J S, Hong D H. Factored MLLR adaptation[J]. Signal Processing Letters, 2011,

18(2):99–102.

[22] Kim D K, Kim N S. Maximum a posteriori adaptation of HMM parameters based on speaker space

projection[J]. Speech Communication, 2004, 42(1):59–73.

[23] Siohan O, Chesta C, Lee C H. Joint maximum a posteriori adaptation of transformation and HMM

parameters[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(4):417–428.

[24] Karhila R, Remes U, Kurimo M. Noise in HMM-based speech synthesis adaptation: analysis,

evaluation methods and experiments[J]. IEEE Journal of Selected Topics in Signal Processing, 2014,

8(2):285–295.

[25] Pan S J, Tsang I W, Kwok J T, et al. Domain adaptation via transfer component analysis[J]. IEEE

Transactions on Neural Networks, 2011, 22(2):199–210.

[26] Zhou X, Guo P, Chen C L P. Covariance matrix estimation with multi-regularization parameters

based on mdl principle[J]. Neural Processing Letters, 2013, 38(2):227–238.

[27] Duan L, Xu D, Tsang I W. Domain adaptation from multiple sources: a domain-dependent

regularization approach[J]. IEEE Transactions on Neural Networks and Learning Systems, 2012,

23(3):504–518.

[28] Xiao M, Guo Y. Domain adaptation for sequence labeling tasks with a probabilistic language

adaptation model[C]//Proceedings of the 30th International Conference on Machine Learning.

Atlanta, GA, USA, 2013:293–301.

[29] Blitzer J, McDonald R, Pereira F. Domain adaptation with structural correspondence

learning[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language

Processing. Sydney, Australia, 2006:120–128.

[30] Dai W, Xue G R, Yang Q, et al. Co-clustering based classification for out-of-domain

documents[C]//Proceedings of the 13th ACM SIGKDD international conference on Knowledge

discovery and data mining. San Jose, California, USA, 2007:210–219.

[31] Gu Q, Zhou J. Learning the shared subspace for multi-task clustering and transductive transfer

classification[C]//Proceedings of the 2009 Ninth IEEE International Conference on Data Mining.

Washington, DC, USA, 2009:159–168.

[32] Blitzer J, Dredze M, Pereira F. Biographies, bollywood, boom-boxes and blenders: domain

adaptation for sentiment classification[C]//Association for Computational Linguistics. Prague, Czech,

2007:187–205.

[33] Maas A L, Ng A Y. A probabilistic model for semantic word vectors[C]//NIPS Workshop on Deep

Learning and Unsupervised Feature Learning. Whistler, BC, Canada, 2010.

[34] Daume III H, Marcu D. Domain adaptation for statistical classifiers[J]. Journal of Artificial

Intelligence Research, 2006, 26(1):101–126.

粒迁移学习方法及其在序列标注中的应用

- 84 -

[35] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for

semi-supervised learning[C]//Proceedings of the 48th annual meeting of the association for

computational linguistics. Uppsala, Sweden, 2010:384–394.

[36] Yang E S, Kim Y S. Hallym: named entity recognition on twitter with induced word

representation[J]. ACL-IJCNLP 2015, 2015:72.

[37] McClosky D, Charniak E, Johnson M. Automatic domain adaptation for parsing[C]//Human

Language Technologies: The 2010 Annual Conference of the North American Chapter of the

Association for Computational Linguistics. Los Angeles, 2010:28–36.

[38] Shimizu N, Nakagawa H. Structural correspondence learning for dependency

parsing.[C]//Conference on Empirical Methods in Natural Language Processing Conference on

Computational Natural Language. Prague, Czech Republic, 2007:1166–1169.

[39] Plank B. Structural correspondence learning for parse disambiguation[C]//Proceedings of the 12th

Conference of the European Chapter of the Association for Computational Linguistics: Student

Research Workshop. Stroudsburg, PA, USA, 2009:37–45.

[40] Shao L, Zhu F, Li X. Transfer learning for visual categorization: A survey[J]. IEEE Transactions on

Neural Networks & Learning Systems, 2015, 26(5):1019–1034.

[41] Zheng V W, Xiang E W, Yang Q, et al. Transferring localization models over time[C]//Proceedings

of the Twenty-Third AAAI Conference on Artificial Intelligence. Chicago, USA, 2008:1421–1426.

[42] Pan W, Xiang E W, Liu N N, et al. Transfer learning in collaborative filtering for sparsity

reduction[C]//Twenty-Fourth AAAI Conference on Artificial Intelligence. Atlanta, Georgia, USA,

2010:230–235.

[43] Kuang W, Brown L E, Wang Z. Selective switching mechanism in virtual machines via support

vector machines and transfer learning[J]. Machine Learning, 2015, 101(1):137–161.

[44] Zadeh L A. Fuzzy sets[J]. Information and control, 1965, 8(3):338–353.

[45] Pawlak Z. Rough sets[J]. International Journal of Computer & Information Sciences, 1982,

11(5):341–356.

[46] 张铃, 张钹. 模糊商空间理论 (模糊粒度计算方法)[J]. 软件学报, 2003, 14(4):770–776.

[47] 张燕平, 张铃, 吴涛. 不同粒度世界的描述法——商空间法[J]. 计算机学报, 2004, 27(3):328–

333.

[48] 王熙照, 董彦军. 模糊决策树的等效剪枝研究[J]. 计算机工程与应用, 2006, 42(7):152–155.

[49] 覃远翔, 段亮, 岳昆. 基于信息熵的不确定性数据清理方法[J]. 计算机应用, 2013, 33(9):2490–

2492.

[50] Pedrycz W. Granular computing: analysis and design of intelligent systems[M]. CRC press, 2013.

[51] Song M, Pedrycz W. Granular neural networks: concepts and development schemes[J]. IEEE

Transactions on Neural Networks and Learning Systems, 2013, 24(4):542–553.

[52] 郭虎升, 王文剑. 基于粒度偏移因子的支持向量机学习方法[J]. 计算机研究与发展 , 2013,

50(11):2315–2324.

[53] 郭虎升, 王文剑. 动态粒度支持向量回归机[J]. 软件学报, 2013, 24(11):2535–2547.

[54] 邱桃荣. 面向本体学习的粒计算方法研究[D]. 北京交通大学, 2009.

大连理工大学博士学位论文

- 85 -

[55] 曾嘉, 严建峰, 龚声蓉. 复杂文本网数据的主题建模进展[J]. 计算机学报, 2012, 35(12):2431–

2445.

[56] Pedrycz W. Allocation of information granularity in optimization and decision-making models:

Towards building the foundations of granular computing[J]. European Journal of Operational

Research, 2014, 232(1):137–145.

[57] Pedrycz W. From numeric models to granular system modeling[J]. Fuzzy Information and

Engineering, 2015, 7(1):1–13.

[58] Izakian H, Pedrycz W. Agreement-based fuzzy C-means for clustering data with blocks of features[J].

Neurocomputing, 2014, 127:266–280.

[59] Pedrycz W, Gacek A. Temporal granulation and its application to signal analysis[J]. Information

Sciences, 2002, 143(1):47–71.

[60] Pedrycz W, Russo B, Succi G. Knowledge transfer in system modeling and its realization through an

optimal allocation of information granularity[J]. Applied Soft Computing, 2012, 12(8):1985–1995.

[61] Yao Y. Granular computing: past, present, and future[J]. Lecture Notes in Computer Science, 2008,

5009:27–28.

[62] Rabiner L. A tutorial on hidden Markov models and selected applications in speech recognition[J].

Proceedings of the IEEE, 1989, 77(2):257–286.

[63] Walder C J, Kootsookos B C, Peter J. andLovell. Towards a maximum entropy method for

estimating hmm parameters[C]//INTERSPEECH. Geneva, Switzerland, 2003:45–49.

[64] Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting

and labeling sequence data[C]//Proceedings of the Eightteenth International Conference on Machine

Learning. Williamstown, MA, USA, 2001:282–289.

[65] Nguyen N, Guo Y. Comparisons of sequence labeling algorithms and extensions[C]//Proceedings of

the 24th international conference on Machine learning. Corvallis, USA, 2007:681–688.

[66] Brants T. TnT: a statistical part-of-speech tagger[C]//Proceedings of the Sixth Conference on

Applied Natural Language Processing. Seattle, USA, 2000:224–231.

[67] Liu J, Yu K, Zhang Y, et al. Training conditional random fields using transfer learning for gesture

recognition[C]//Proceedings of IEEE International Conference on Data Mining. Sydney, Australia,

2010:314–323.

[68] Sutton C, McCallum A. Composition of conditional random fields for transfer

learning[C]//Proceedings of the conference on Human Language Technology and Empirical Methods

in Natural Language Processing. Vancouver, B.C., Canada, 2005:748–754.

[69] Zeng J, Liu Z Q. Type-2 fuzzy hidden Markov models and their application to speech recognition[J].

IEEE Transactions on Fuzzy Systems, 2006, 14(3):454–467.

[70] Zeng J, Xie L, Liu Z Q. Type-2 fuzzy Gaussian mixture models[J]. Pattern Recognition, 2008,

41(12):3636–3643.

[71] Narimatsu H, Kasai H. Duration and interval hidden markov model for sequential data

analysis[C]//2015 International Joint Conference on Neural Networks. Killarney, Ireland, 2015:1–8.

[72] Zeng J, Liu Z Q. Interval type-2 fuzzy hidden Markov models[C]//IEEE International Conference on

Fuzzy Systems. Budapest, Hungary, 2004:1123–1128.

粒迁移学习方法及其在序列标注中的应用

- 86 -

[73] Chien J T, Furui S. Predictive hidden Markov model selection for speech recognition[J]. IEEE

Transactions on Speech and Audio Processing, 2005, 13(3):377–387.

[74] Mak B, Chan K W. Pruning hidden markov models with optimal brain surgeon[J]. IEEE

Transactions on Speech and Audio Processing, 2005, 13(5):993–1003.

[75] Escalante H J, Montes M, Sucar L E. Particle swarm model selection[J]. Journal of Machine

Learning Research, 2009, 10(2):405–440.

[76] Goldwater S, Griffiths T. A fully Bayesian approach to unsupervised part-of-speech

tagging[C]//Annual meeting-association for computational linguistics. Prague, Czech, 2007:744–751.

[77] 朱聪慧, 赵铁军, 郑德权. 基于无向图序列标注模型的中文分词词性标注一体化系统[J]. 电子

与信息学报, 2010, 32(3):700–704.

[78] 刘一佳, 车万翔, 刘挺,等. 基于序列标注的中文分词, 词性标注模型比较分析[J]. 中文信息学

报, 2013, 27(4):30–37.

[79] 汤步洲, 王晓龙, 王轩. 置信度加权在线序列标注算法[J]. 自动化学报, 2011, 37(2):188–195.

[80] 计峰 , 邱锡鹏 . 基于序列标注的中文依存句法分析方法 [J]. 计算机应用与软件 , 2009,

26(10):133–135.

[81] 鉴萍 , 宗成庆 . 基于序列标注模型的分层式依存句法分析方法[J]. 中文信息学报 , 2010,

24(6):14–23.

[82] Gimpel K, Schneider N, Connor B O, et al. Part-of-speech tagging for Twitter: Annotation, features,

and experiments[C]//Proceedings of the Annual Meeting of the Association for Computational

Linguistics, Portland. Oregon, Usa, 2011:42–47.

[83] Ji F, Liu Z, Qiu X, et al. Part-of-speech tagging for micro blog via 2D sequence labeling[J]. Journal

of Computational Information Systems, 2012, 8(3):1149–1156.

[84] Ben-david S, Blitzer J, Crammer K, et al. Analysis of representations for domain

adaptation[C]//Proceedings of the Neural Information Processing Systems Conference. Vancouver,

B.C., Canada, 2007.

[85] Ben-David S, Blitzer J, Crammer K, et al. A theory of learning from different domains[J]. Machine

learning, 2010, 79(1):151–175.

[86] Perlich C, Dalessandro B, Raeder T, et al. Machine learning for targeted display advertising: Transfer

learning in action[J]. Machine Learning, 2014, 95(1):103–127.

[87] Shao L, Zhu F, Li X. Transfer learning for visual categorization: a survey[J]. IEEE Transactions on

Neural Networks and Learning Systems, 2015, 26(5):1019–1034.

[88] Zhuang F, Luo P, Du C, et al. Triplex transfer learning: exploiting both shared and distinct concepts

for text classification[J]. IEEE Transactions on Cybernetics, 2014, 44(7):1191–1203.

[89] 孟军. 相容粒计算模型及其数据挖掘研究[D]. 大连理工大学, 2012.

[90] 刘洪波, 王秀坤, 孟军. 神经网络基于粒子群优化的学习算法研究[J]. 小型微型计算机系统,

2005, 26(4):638–640.

[91] Gauvain J L, Lee C H. Maximum a posteriori estimation for multivariate Gaussian mixture

observations of Markov chains[J]. IEEE Transactions on Speech and Audio Processing, 1994,

2(2):291–298.

[92] 庄福振, 罗平, 何清,等. 迁移学习研究进展[J]. 软件学报, 2015, 26(1):26–39.

大连理工大学博士学位论文

- 87 -

[93] 张铃, 钱付兰, 何富贵. 粒计算与统计学习理论[J]. 计算机科学与探索, 2013, 7(8):754–761.

[94] Pedrycz W, Russo B, Succi G. Knowledge transfer in system modeling and its realization through an

optimal allocation of information granularity[J]. Applied Soft Computing, 2012, 12(8):1985–1995.

[95] Pedrycz W. Fuzzy clustering with a knowledge-based guidance[J]. Pattern Recognition Letters, 2004,

25(4):469–480.

[96] Mendel J M, Liu F, Zhai D. Alpha-plane representation for type-2 fuzzy sets: theory and

applications[J]. IEEE Transactions on Fuzzy Systems, 2009, 17(5):1189–1207.

[97] Yang Q, Zheng V W, Li B, et al. Transfer learning by reusing structured knowledge[J]. AI Magazine,

2011, 32(2):95–106.

[98] Wang P, Wang H, Wu X, et al. A low-granularity classifier for data streams with concept drifts and

biased class distribution[J]. IEEE Transactions on Knowledge and Data Engineering, 2007,

19(9):1202–1213.

[99] Buza K, Nanopoulos A, Horváth T, et al. GRAMOFON: General model-selection framework based

on networks[J]. Neurocomputing, 2012, 75(1):163–170.

[100] Khreich W, Granger E, Miri A, et al. Adaptive ROC-based ensembles of HMMs applied to anomaly

detection[J]. Pattern Recognition, 2012, 45(1):208–230.

[101] Liu C, Zhang K, Xiong H, et al. Temporal skeletonization on sequential data: patterns, categorization,

and visualization[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(1):211–223.

[102] Pedrycz W. Knowledge-based clustering: from data to information granules[M]. Wiley, 2005.

[103] Pedrycz W. From fuzzy models to granular fuzzy models[C]//International Conference on Fuzzy

Logic and Applications. Trani, Italy, 2011:75–82.

[104] Ahmed M M, Isa N A M. Information granularity model for evolving context-based fuzzy system[J].

Applied Soft Computing, 2015, 33:183–196.

[105] Castillo O, Melin P, Pedrycz W. Design of interval type-2 fuzzy models through optimal granularity

allocation[J]. Applied Soft Computing, 2011, 11(8):5590–5601.

[106] Cao Y, Li Y, Coleman S, et al. Adaptive hidden Markov model with anomaly states for price

manipulation detection[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015,

26(2):318–330.

[107] Hayashi H, Shibanoki T, Shima K, et al. A recurrent probabilistic neural network with

dimensionality reduction based on time-series discriminant component analysis[J]. IEEE

Transactions on Neural Networks and Learning Systems, 2015, 26(12):3021–3033.

[108] Samanta O, Bhattacharya U, Parui S. Smoothing of HMM parameters for efficient recognition of

online handwriting[J]. Pattern Recognition, 2014, 47(11):3614–3629.

[109] Binesh T, Supriya M, Pillai P. State transition matrix for an hmm based underwater target

classifier[C]//Proceedings of International Symposium on Ocean Electronics. Cochin, India,

2009:66–71.

[110] Beal M J, Ghahramani Z, Rasmussen C E. The infinite hidden Markov model[C]//Proceedings of the

Neural Information Processing Systems Conference. Whistler, BC, Candada, 2002:577–584.

[111] Xu T, Zhang Z, Yu P S, et al. Evolutionary clustering by hierarchical dirichlet process with hidden

Markov state[C]//Proceedings of IEEE International Conference on Data Mining. Omaha, Nebraska,

USA, 2008:658–667.

粒迁移学习方法及其在序列标注中的应用

- 88 -

[112] Kim M, Pavlovic V. Sequence classification via large margin hidden Markov models[J]. Data

Mining and Knowledge Discovery, 2011, 23(2):322–344.

[113] Garcá-Garcá D, Parrado Hernández E, Dáz-de Mará F. A new distance measure for model-based

sequence clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009,

31(7):1325–1331.

[114] Kifer D, Ben-David S, Gehrke J. Detecting change in data streams[C]//Proceedings of the 30th

International Conference on Very Large Data Bases. Torondo, Canada, 2004:180–191.

[115] Li H, Pan D, Chen C P. Intelligent prognostics for battery health monitoring using the mean entropy

and relevance vector machine[J]. IEEE Transactions on Systems, Man, and Cybernetics, 2014,

44(7):851–862.

[116] Silva J, Narayanan S. Average divergence distance as a statistical discrimination measure for hidden

Markov models[J]. IEEE Transactions on Audio, Speech & Language Processing, 2006,

14(3):890–906.

[117] Perduca V, Nuel G. Measuring the influence of observations in HMMs through the Kullback-Leibler

distance[J]. IEEE Signal Processing Letters, 2013, 20(2):145–148.

[118] Ling Z H, Dai L R. Minimum Kullback-Leibler divergence parameter generation for HMM-based

speech synthesis[J]. IEEE Transactions on Audio, Speech and Language Processing, 2012,

20(5):1492–1502.

[119] Pan S J, Kwok J T, Yang Q. Transfer Learning via dimensionality reduction[C]//Proceedings of the

23rd National Conference on Artificial Intelligence. Chicago, USA, 2008:677–682.

[120] Xiao M, Guo Y. Semi-supervised kernel matching for domain adaptation.[C]//Proceedings of the

Twenty-Sixth AAAI Conference on Artificial Intelligence. Toronto, Ontario, Canad, 2012.

[121] Sun B, Guo H, Karimi H R, et al. Prediction of stock index futures prices based on fuzzy sets and

multivariate fuzzy time series[J]. Neurocomputing, 2015, 151:1528–1536.

[122] Cheng Y, Li S. Fuzzy time series forecasting with a probabilistic smoothing hidden markov model[J].

IEEE Transactions on Fuzzy Systems, 2012, 20(2):291–304.

[123] Loper E, Bird S. NLTK: The natural language toolkit[C]//Proceedings of the ACL Workshop on

Effective Tools and Methodologies for Teaching Natural Language Processing and Computational

Linguistics. Sydney, Australia, 2002:62–69.

[124] Long M, Cao Y, Wang J, et al. Learning transferable features with deep adaptation networks[J].

Computer Science, 2015:97–105.

[125] 徐计, 王国胤, 于洪. 基于粒计算的大数据处理[J]. 计算机学报, 2015, 38(8):1497–1513.

[126] 孟小峰, 慈祥. 大数据管理: 概念, 技术与挑战[J]. 计算机研究与发展, 2013, 50(1):146–169.

大连理工大学博士学位论文

- 89 -

攻读博士学位期间科研项目及科研成果

发表的学术论文

[1] Sun Shichang, Lin Hongfei, Liu Hongbo. A hybrid PSO-Viterbi algorithm for HMMs

parameters weighting in part-of-speech tagging[C], International Conference of Soft

Computing and Pattern Recognition(SocPar 2011). Dalian, China, 2011:518-522. (EI 检

索号:20115114619067)(本学位论文第二章)

[2] Sun Shichang, Liu Hongbo, Lin Hongfei, et al. Twitter part-of-speech tagging using

pre-classification hidden Markov model[C], IEEE International Conference on Systems,

Man, and Cybernetics(IEEE SMC 2012). Seoul, Korea, 2012:1118-1123. (EI 检索号:

20130415925128)(本学位论文第二章)

[3] Sun Shichang, Liu Hongbo, Zhao Pixi, Lin Hongfei. Two-stage model selection with

parameters weighted hidden Markov models and likelihood ratio for part-of-speech

tagging [J]. Neural Network World. 2012,22(3):245-262. (SCI 四区, 检索号:WOS:

000306821100002) (本学位论文第五章)

[4] Sun Shichang, Yun Jian, Lin Hongfei, et al. Granular transfer learning using type-2 fuzzy

HMM for text sequence recognition [J]. Neurocomputing. 2016,214:126-133.

(doi:10.1016/j.neucom.2016.05.077. SCI 三区,CCF-C 类期刊). (本学位论文第三章)

[5] Sun Shichang, Liu Hongbo, Meng Jiana, et al. Substructural regularization with

data-sensitive granularity for sequence transfer learning [J]. IEEE Transactions on Neural

Networks and Learning Systems(TNNLS), Accepted. (SCI 一区,CCF-B 类期刊)(本

学位论文第四章)

参与的科研项目

[1] 国家自然科学基金项目(60973068):基于认知语境的文本情感计算及其应用,

2010.1–2013.12,负责人:林鸿飞。

[2] 国家自然科学基金项目(61202254):基于图结构的迁移学习在文本倾向性分析中的

应用研究,2013.1 – 2016.12,负责人:孟佳娜。

粒迁移学习方法及其在序列标注中的应用

- 90 -

致 谢

从本科时对编程的热情,到读博后对科研的初步领悟,不觉间竟已在大工求学多年。

在学位论文即将完成之际,谨以此文向一直以来给予我关心、帮助和启发的师长以及朋

友们致礼。

诚挚地感谢我的导师林鸿飞教授引领我进入文本挖掘的研究领域,并鼓励我在迁移

学习方法上进行创新和提炼。林老师为学广而能创新,为师厚而善启迪。攻读博士的过

程不仅使我在在科研方面有了一些积累,更使我立志向导师学习,努力具备丰富的经验、

过硬的功底、团队意识和创新精神。

感谢工作单位的刘勇奎教授、刘向东教授和孟佳娜教授在科研工作上对我的支持。

感谢刘洪波教授在创新方法和论文写作方面对我的鼓励和帮助。感谢张立勇在科研方法

上对我的启发。

感谢信息检索研究室的各位老师和同学对我的关心和帮助,你们使我在良好的科研

氛围中不断取得进步。特别感谢于玉海、魏晓聪、张冬瑜、郑巍、林原、杨亮、潘凤鸣、

商玥、马云龙、申晨等同学的在工作和学业中给我的帮助和支持。

感谢答辩评审会的各位老师对我学位论文的严格把关。你们宝贵的建议和意见将促

使我在以后的道路上进一步养成良好的科研习惯和严谨的治学态度。

最后,忠心感谢家人的理解与支持,并纪念奶奶对我的关爱。你们多年来在生活上

为我付出的点点滴滴已经成为使我踏实进取的动力源泉。

尺短情长,暂以此谢言表达绵绵感恩之意和无限求索之心。

大连理工大学博士学位论文

作者简介

姓名:孙世昶

性别:男

出生年月:1979 年 5 月

民族:汉

籍贯:辽宁省大连市

研究方向:机器学习,文本挖掘

简历:

1997/09 – 2001/06,大连理工大学,计算机科学与技术专业,本科

2001/07 – 2003/07,大连理工大学,计算中心,助理工程师

2004/09 – 2007/01,大连理工大学,计算机应用专业,硕士

2007/01 – 至今, 大连民族大学,计算机科学与工程学院,讲师

2009/03 – 至今, 大连理工大学,计算机应用专业,博士